Home

Knoten - Katholische Universität Eichstätt

image

Contents

1. an x C R Stichprobe x iD zum Vergleich von Modellen u Fee Sn N DD O a n o p c 1 1 v4 N Stichprobenmethode Einfach Komplex 3 gt Einfache Stichprobe E 2 Modus Stichprobe einschlie en Stichprobe verwerfen LL n Stichprobe Erste 10000 L Or ie 4 inn F U D M Zuf llig 50 00 gt on MN B W sampling auf Blockebene verwenden nur datenbankintern 5 lt o E D E Maximale Stichprobengr l se 10000 S i EC E a 2 T M iarten f r Zufallsgenerator festlegen Startwer 337230 Generieren ges BO ol oO il u i J a E a a iversitat Eichst tt Ingolsta Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank ih Lehrstuhl f r ABWL und Wirtschaftsinformatik P 5 Datenaufbereitung 97 Partitionen zur Bildung von Data Mining Modellen m Das Modell wird mit einem Teil der Daten trainiert Trainingsdaten Fur das interessierende Merkmal sind die Auspragungen bekannt und hiermit werden die Modellparameter bestimmt Muster in den Daten werden erkannt m Mit einem weiteren Auszug aus der Datenbasis Testdaten wird das Modell durch die Bestimmung von Methodenparametern verfeinert bzw die optimale Komplexit t ermittelt Dies ist notwendig um zu verhindern dass das Modell zu sehr die Spezifika der Trainingsdaten abbildet Overfitting Das Modell erh l
2. Ausw hlen Sichprobe Sortieren Balancieren Duplikat Aggregieren RFMAggregat Zusammenf hren Anh ngen Streesming ZR R Transfonmation Space TimeBomes ne 7 RFM Aggregat Aggregation von Datens tzen derselben ID ber Aktualit t H ufigkeit und monet ren Wert gt ea as i i 7 gt gt Zusammentuhren Zusammenf gen verschiedener Dateien zu einer Q 7 T gt Datentabelle nebeneinander x a 5 2 D gt Anhangen Zusammenf gen verschiedener Dateien zu einer o Si ar D oA Datentabelle untereinander sinnvoll bei gleicher D Ja 2 5 Feldstruktur der Dateien LS o Tg L Streaming ZR F r Zeitreihenmodelle CO 227 Seo 52 2 5 a R Transformation Datentransformation mit R 22 SE Oi s3 Bi a nu 1 u E 25 i Space Time Boxes Fur Raum und Zeitinformationen ons a C O 296 3 Knoten Ubersicht 31 Feldoperationen z ATD a 5 Automatische Datenvorbereitung Fr ii Ubernimmt selbstst ndig die Schritte der Datenvorbereitung Q E 33 Typ Verwalten der Felder ii Skalenniveau Wertebereich Missing Values Einstellung Eingabe Eu Ausgabefeld 3 Filter Herausfiltern nicht mehr ben tigter Datenfelder Umbenennen von on Feldnamen 3 EY Ableiten Neue Datenfelder aus bestehenden Daten ableiten Formel Normale Berechnung z B Local Longdist oder ber CLEM Flag Dichotomisieren von Feldern auf Basis ein
3. Kreuztabellen Funktion Funktion Mittelwert O Summe C Std Ab e CO Min OK gt Ausf hren Abbrechen Anwenden Zur cksetzen N CHURNED CHURNED Current nol Vol Current 497 17 102 inol A 33 7 E J A sfs i litt Matrix von CHURNED x N CHURNED Datei L Bearbeiten Generieren PPB x zellen enthalten Kreuztabelle von Feldern einschlie lich fehlender Werte Chi Quadrat 1 120 036 df 4 Wahrscheinlichkeit 0 Matrix Darstellung b O no i re O li i O i L an O u gt Fan rab _ N Oo Ta ra Dipl Math Josef Bauer Vorversion Dr Frank iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsch Katholische 6 1 K nstliche Neuronale Netze 137 Anwendungsbeispiel Analyse Knoten Vergleicht die Gesamtzahl der tats chlichen und der vorhergesagten Auspr gungen Durch Aktivieren der Option auch die Ausgabe einer Trennscharfetabelle m glich A Analyse von CHURNED _ jo Datei Bearbeiten EIS xa Alles ausblenden Alles anzeigen Ergehnisse f r Zielfeld CHURNED Yergleichen von N CHURNED mit CHURNED Korrekt 555 60 14 i Falsch 220 19 66 Gesamt 1 108 HAARE RA Anmerkungen 6 1 K nstliche Neuronale Netze 138 Anwendungsbeispiel Auswertung Knoten Zeigt wie gut Modelle bestimmte Ergebnisse vorhersagen Die Datens tze werden auf der Grundlage des vorhergesagten Wertes und des Konfidenzwertes f r die Prognose
4. Woher k nnen diese Daten stammen ngolsta iversit t Eichst tt Katholische Sc Bauer Z ftsinformatik sse und Prof Dr Wilde He f Vorversion Dr Frank Lehrstuhl f r ABWL und Wirtsch A Einlesen von Daten bung 4 2 2 3 Aufgabe Read data tet m Lesen Sie die Daten aus der Datei rawdata txt ein m Stellen Sie die Daten mit Hilfe eines Tabelle Knoten dar m Untersuchen Sie die Daten hinsichtlich der zuvor getroffenen Vor berlegungen zu Analysezweck und Datenbedarrf Ist die Datengrundlage f r eine K ndigeranalyse geeignet m Speichern Sie den Stream als bung 4 2 Tabelle FreeLocal Budget Budget Budget FreeLocal FreeLocal FreeLocal Budget FreeLocal Budget FreeLocal FreeLocal FreeLocal FreeLocal Budget Budget Freelocal Budget FreeLocal Budget Budget FreeLocal FreeLocal Standard Intnl_discourt Intnl_discourt Standard Standard Intni_discount Standard Intni_discount Standard Standard Standard Standard Standard Standard Intnl_discount Standard Intnl_discount Standard Standard Standard Intnl_discount Intnl_discount Intnl_discount F F F M F M F F M F F M F M F M M F M F M M M 03000300313 EBEMO NBM FEW ZM ho ON NNN no OOO KH NM nm NON ON Oo On nm fi Tabelle 16 Felder 1 508 Datens tze lt S22 2222 222442222244 22 null nullF null nullf null 1 null nullf null
5. 6 1 K nstliche Neuronale Netze Experten Einstellungen m Je nach verwendeter Trainingsmethode sind unterschiedliche Experten Einstellungen m glich Unter anderem kann die Anzahl der einzelnen Schichten vorgegeben werden 130 Keine ziele X Ofm iel Modelgenauigkeit Boosting W hlen Sie ein Element aus Meuronales Metzwerkmodell Mehrschicht Perzeptron MLP Yerdeckte Schichten Stoppregeln Anzahl der Einheiten automatisch berechnen Ensembles Erweitert Anzahl der Einheiten anpassen Verdeckte Schicht 1 verdeckte Schicht 2 og 6 1 K nstliche Neuronale Netze 131 Generierte Modelle m Generierte Modelle sind das Ergebnis der Datenmodellierung m Ein generierter Modellknoten wird bei jeder erfolgreichen Ausf hrung eines Modellierungsknotens erstellt i u al F T Die generierten Modelle werden in der Palette der generierten Modelle gespeichert diese befindet sich auf der Registerkarte Modelle im Manager Fenster rechts oben im Modeler Fenster Dort werden sie als diamantf rmige Symbole dargestellt und gelegentlich Nuggets genannt Von dort k nnen sie ausgew hlt und durchsucht werden um Details des Modells anzuzeigen F Hesse und Prof Dr Wilde f ftsinformatik P Modelle iversitat Eichst tt Ingolsta ih Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische 6 1 K nstli
6. I ab Werbinden a m Mit dem Zusammenf hren Knoten k nnen weitere Datenfelder zu einem an Datensatz hinzugef gt werden 8 En Ve 134652346 50 Galaxy S4 134652346 S low V WY gt 234462645 200 iPhone 5 2344626455 XL high x lt CG WE 356835688 120 Xperia Z 893835745 S normal o Sh 220 467945679 50 HTC One 467945679 M high OD SZ amp r Oo oS cto gt gt in 134652346 50 Galaxy S4 S low 53 amp 234462645 200 iPhone5 XL high 22 5 356835688 120 Xperia Z null null O I Bei 467945679 50 HTCOne M High s gt 525 893835745 null null S normal x 0 5 Datenaufbereitung 104 Datenanreicherung Zusammenf hrungsverf ahren amp Reihenfolge Schl ssel M gliche Schl sselfelder verwendete Schl sselfelder Dr Frank Hesse und Prof Dr Wilde Fi Doppelte Schl sselfelder kombinieren F E Inner Join Mur bereinstimmende Datens tze einschlie en golstadt sinformatik M yaft rsion Full Outer Join Ubereinstimmende und nicht Gbereinstimmende Datens tze einschlie en V j Partieller Outer Join Ubereinstimmende und teil nicht Ghereinstimmende Datens tze einschlie en Ausw hlen Anti Joir Datens tze in erstes Daten Set aufnehmen die nicht mit anderen bereinstimmen iversit t Eichst tt f r ABWL und Wirtsc Katholische cca Bauer Vor Lehrstuhl iversitat Eichstatt Ingolsta Katholische Ye un ftsinf d Prof Dr
7. KUNDIGER Mit anderen Verfahren z B Neuronale Netze lassen sich vergleichbare Ergebnisse erzielen gt Ausprobieren und vergleichen Lehrstuhl f r ABWL und Wirtsch ftsinformatik Vorteil von Entscheidungsb umen Strukturierte und einfach zu interpretierende Darstellung m Nachdem das Modell trainiert ist und gelernt hat anhand der Merkmale Kunden zu klassifizieren kann es genutzt werden um die K ndigungsbereitschaft neuer Kunden zu prognostizieren Basierend auf den Ergebnissen lassen sich bspw K ndigungspr ventionsma nahmen ableiten iversitat Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Dr Frank Katholische d Prof Dr Wilde i esse un F f atik m Vorversion Dr Frank H ftsinfor iversit t Eichst tt Ingolstadt Sc Bauer Lehrstuhl f r ABWL und Wirtsch Katholische Illustration der Funktionsweise von Regressionsbaumen Grafik aus Ihe elements of statistical learning von Hastie et al 2009 Xi lt ti 148 ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde Katholische Universitat Eichst tt Ingolstadt Lehrstuhl f 149 Anwendung in der Praxis Churn Analyse mit R r Tage seit der letzten Bestellung f Anzahl Bestellungen m Bisherige Marge des Kunden c Kindesalter in Tagen Alle Werte der unabh ngigen Variablen beziehen sich auf einen Zeitpunkt 6 Monate
8. ersion e Universitat Eichstatt Lehrstuhl fur ABWL und Wirtsc Dipl Math Josef Bauer Vorv Katholisch 6 5 Assoziationsanalyse 200 Grundlagen m Die Assoziationsanalyse wird bspw bei der Untersuchung von Verbundk ufen Cross Selling eingesetzt Die Ergebnisse helfen z B bei der Werbeplanung m Definitionen Support 2 In jeder 20 Transaktion ist Coverage A Milch und K se enthalten 50 9 Wenn Milch gekauft wurde pA wurde in 50 Prozent der F lle A S auch noch K se gekauft Regelrumpf Regelkopf condition conclusion Confidence Accuracy 202 6 5 Assoziationsanalyse Assoziations und Sequenzanalyse m Assoziationsanalyse m Sequenzanalyse SPIIM q O0lg puUN assaty yuel4 Ja LUOISIBAIOA Joneg jeson uenda YIFEWOJUISHEYOSLI PUN TMEV peisio upneisy2lg jeussonuf ny IynIs y97 ayoslloujey b O no i AO li i O i L an O C Fan rab _ N Oo Ta En Dipl Math Josef Bauer Vorversion Dr Frank iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsch Katholische 6 5 Assoziationsanalyse Anwendungsbeispiel m Modeler Knoten zur Modellierung von Assoziationsregeln amp A Priori 2 CARMA nicht Bestandteil der bung amp Sequenz nicht Bestandteil der bung 203 Ubersicht 6 1 6 2 6 3 6 4 6 5 Kunstliche Neuronale Netze Entscheidungsbaume 6 2 1 C5 0 6 2 2 C amp RT Lineare Regression Cluster Analyse
9. null null nullF null null null null nullf null null null null null null Vol In ol Vol Current vol In yol Vol Current Vol Vol Current Vol Vol Current Current Current Vol Current Current Vol Vol 55 Dr Frank Hesse und Prof Dr Wilde Ingolstadt ri f haftsinformatik yf ersion Vorv e Universitat Eichstatt Lehrstuhl fur ABWL und Wirtsc Dip Math Josef Bauer Katholisch A Einlesen von Daten 56 bung 4 2 3 3 Beschreibung der Datenfelder Datenfelder Bedeutung Datensatz 1 ID Kundennummer 0 LONGDIST Zeit fur Ferngesprache pro Monat 6 246 International Zeit fur Internat Gespr p Monat 7 515 LOCAL Zeit fur Ortsgesprache p Monat 86 328 DROPPED Anzahl abgebrochene Gespr che 0 PAY MTHD Zahlungsweise CH LocalBillType Tarifmodell Ortsgesprache FreeLocal LongDistanceBillType Tarifmodell Ferngespr che Standard AGE Alter 57 SEX Geschlecht F STATUS Familienstand M CHILDREN Anzahl Kinder 2 Est_ Income Gesch tztes Einkommen 27536 3 Car_Owner KfZ Besitzer Y CHURNED Current aktueller Kunde Vol Vol freilwilliger K ndiger InVol unfreiwilliger K ndiger Ubersicht li ome Y N Analytisches CRM IBM SPSS Modeler Knoten Ubersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle 5 Datenaufbereitung 58 Ziel m Zum Erstellen und Anwenden von Modellen ben tigt man eine saubere Datentab
10. 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori 6 5 1 Assoziationsanalyse 205 A Priori Grundidee 2 Assoziationsregeln lassen sich durch den Vergleich von Mengen bestimmen r m Ablauf rn E 1 Berechnung aller ltemmengen deren Support ber dem Minimum Support liegen G gat Sequenzanalyse Assoziationsanalyse 2 Bildung aller Regeln aus den h ufigen Itemmengen deren Confidence ber der Mindest Confidence liegen iversitat Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische f iversit t Eichst tt Ingolstadt Katholische matik ri Dipl Math Josef Bauer Vorv srsion Dr Frank r ftsinfo Lehrstuhl fur ABWL und Wirtsch Hesse und Prof Dr Wilde 6 5 1 Assoziationsanalyse A Priori Voraussetzung 207 Um eine A Priori Regelmenge zu erstellen wird mindestens ein Eingabe und ein Ziel Feld ben tigt Ein und Ausgabefelder mit der Verwendung Pr diktor Ziel oder Beides m ssen binar bzw nominal skaliert sein m Der A Priori Algorithmus arbeitet bei gro en Datenmengen im Verh ltnis zu den anderen Verfahren schnell Die Anzahl an Regeln ist unbeschr nkt Modellname Automatisch Angepasst Ready made amp Froz Fi Fartitionierte Daten verwenden Minimale Antezedens Unterst tzung 15 0 T l ES Minimale Regelkontidenz 5 0 EZ Ben ES Ma
11. D Cost new _ dp nn T X x C z E n So A Holiday all tt Typ Feder grdne HolC ost new Typ Ausrei er amp Extreniwe MUMPARTY gg Hollost Dez Zo 2a co Vy ea 2 Eo A A O gt gt LLI HOLCOST MUMPARTY gg HOLCOST Statistiken afd ran 14 Felder N gt Lehrstuhl fur ABWL und Wirtsc Katholische Sc Bauer 5 Datenaufbereitung 65 Missing Values m Fehlende Werte werden in Datenbank meist durch den Wert NULL ersetzt Arten fehlender Werte m Leere Datenzellen Beispielsweise bleibt das Datenfeld Telefonnummer leer falls ein Kunde seine Nummer nicht mitteilen will weil er sich vor ungew nschten Anrufen f rchtet Doch selbst in diesem Unterschied steckt eine Information die gespeichert werden kann Fi Hesse und Prof Dr Wilde m Nicht existierende Werte Zum Beispiel kann der Umsatz pro Jahr erst nach dem Ablauf eines Jahres ermittelt werden vn Dipl Math Josef Bauer Vorversion Dr Frank m Unvollst ndige Daten Treten z B bei der Anreicherung um externe Marketing Daten auf falls einzelne Datens tze nicht zur Struktur der externen Daten passen iversitat Eichst tt Ingolsta Nicht gesammelte Daten Informationen die nicht gespeichert wurden ih Katholische Quelle Berry Linoff 2000 Mastering Data Mining S 177 ff i sion Dr Frank Hesse und Prof Dr Wilde i matik J iversitat Eichst ttgngolstagf J i Lehrstuhl f r ABWL und
12. Fehlende Werte Fi Mur vollst ndige Datens tze verwenden Ei R auadrat Anderung Fi Konfidenzintervall 2 Toleranz f r Pr fung auf Singularit t 1 064 Fi Auswahlkriterien Fj Kovarianzmatrix u iss Fi Deskriptive Statistiken Felder ausschlielsen Sn un on iW Teilweise und partielle Korrelationen Residuen De au amp iv Kallineart tscdiagnase If Durkin Wyatsar EBD OO On Er gt U La S LLI uf an a N ab gt Lehrstuhl f r ABWL und Wirtsc Katholische Sci Bauer Vor 6 3 1 Lineare Regression 174 Interpretation Modellzusammenfassung Korrigiertes Standardfehler R Quadrat des Schatzers amp O ae p a afso se an mses Mie a Abh ngige Variable CLAIM l R b Einflu variablen Konstante LOS ASG AGE w repr sentiert die Korrelation zwischen dem Output und der optimalen linearen V j Kombination der Input Felder Je n her der Wert an 1 ist desto besser ist das Modell Beye R Quadrat kann interpretiert werden als Anteil der Varianz des Outputs der durch die Input Felder vorhergesagt wird hier nur 31 8 R Quadrat wird Bestimmtheitsma genannt Je n her R Quadrat an 1 ist desto besser Korrigiertes R Quadrat ber cksichtigt die Parameter in der Gleichung Zahl der Steuergr en und F lle je mehr Variablen desto gr er R Je komplexer das Modell desto h her der Abschlag auf das Gutemals iversitat Eichst tt Ingol
13. Math Josef Bauer Vorversion Quelle Hippner et al 2001 S 72 ff Katholische Universitat Eichstatt Ingolsta Lehrstuhl f r ABWL und Wirtschaftsinfo O u Q 5 IL A ge Cc dp sD D a 2 a O O ey Cc BES Lehrstuhl f r ABWL und Wirtschaftsinfor een Eichs Dipl Math Josef Bauer Vorversion Dr Frank 6 Modellierung Grundlagen 118 Evaluation das richtige Data Mining Modell auswahlen Problem Je nach Aufgabenstellung kommen unterschiedliche Data Mining Methoden zur Erstellung einer Prognose in Frage Welche passt am besten m L sung 1 F r jede Data Mining Methode mithilfe der selben Trainings und Testdaten ein oder mehrere Modelle erstellen 2 Die verschiedenen Modelle werden jeweils mit den Evaluationsdaten gepr ft F r Regressionsprobleme eignen sich Fehlerma e wie der mittlere absolute Fehler F r Klassifikationsprobleme l sst sich f r jedes Modell eine Trennscharfetabelle anfertigen die auf einen Blick jeweils die Zahl der Fehlklassifikationen anzeigt Beispiel Prognose j n Evaluationsdaten nein 2 4 Modell 1 12 Quelle Berry Linoff 2000 S 54 ff Evaluationsdaten nein 8 24 Modell 2 6 Modellierung Grundlagen 119 Evaluation Bewertung von Trennscharfetabellen m In unserem Beispiel sind zwei Arten von Fehlklassifikationen zu unterscheiden Entweder wird f r Personen bei denen die Mer
14. gt Ohne Typ Keine Zuordnung m glich Zahl der Auspr gungen as 5 Ubersteigt die maximale GroBe SpF eines Sets 602 xA T Hesse und Prof Dr Wilde Z golsta ftsinformatik n Vorversion Dr Frank x iversit t Eichst tt f r ABWL und Wirtsc Math Josef Bauer Katholische Lehrstuhl Dipl A Einlesen von Daten 53 Ubung 4 1 0 0 006096 Enterprise view Datenbank Dateilvar Datei fest StatisticsDatei Data Collection IBhi Cognos Bl SAS Datei Excel Eingabe Lesen Sie die Datei Read_data txt ein und stellen Sie deren Inhalt in einer Tabelle dar Welche Veranderung schlagen Sie hinsichtlich der erkannten Datentypen vor Zu verwendende Knoten fur den Stream Read data tt Speichern Sie den Stream als bung 4_1 iversitat Eichst tt Ingolsta Katholische he sse und Prof Dr Wilde ra Dipl Math Josef Bauer Vorversion Dr Frank i Lehrstuhl fur ABWL und Wirtsc A Einlesen von Daten Ubung 4 2 1 3 Ausgangssituation Ein Mobilfunkanbieter m chte Kundenabwanderungen analysieren um abwanderungsgef hrdete Kunden zu erkennen und Gegen ma nahmen einzuleiten Vor berlegungen zur Data Mining Aufgabe 1 Wieso wann kann ein kostenintensives K ndigungspr ventions programm f r das Unternehmen sinnvoll sein Wie k nnten die Rahmenbedingungen fur ein solches Data Mining Projekt grunds tzlich aussehen Welche Daten werden ben tigt
15. gt Standardwert 0 durch berechneten S Ersetzen mit Mittelwert ersetzen J Bearbeiten e Generieren Ia Datei iversitat Eichstatt Abbrechen a Anwenden ZUF CKSEIZEN af Bauer Lehrstuhl fur ABWL und Wirtsc Dip E HGLCOST El statistiken Katholische T Hesse und Prof Dr Wilde golsta ftsinformatik J iversit t Eichst tt fur ABWL und Wirtsc af Bauer Katholische Lehrstuhl Dipl ar Vorversion Dr Frank I Datenaufbereitung Behandlung fehlender Werte Imputation Alternative durch Auswahl des Drop Down Felds Ersetzen Felder ausf llen Ersetzen Bedingung Mul erte Leere Were und fuerte Ersetzen mit 12345 73 i ngolstadt sinformatik ia ft rsion Dr Frank Hesse und Prof Dr Wilde iversitat Eichstat Vor maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dip V f Datenaufbereitung 74 Datenauswahl m Filter und Auswahlen Knoten Anstatt Filter und oder Auswahlen Knoten generieren zu lassen aus dem Data Audit Knoten heraus k nnen diese auch direkt in den Stream eingebunden werden Zur Definition von Bedingungen etc steht der Expression Builder zur Verf gung generiert Einschlie en O vers E NULLECUSTIC or to_stringfCUSTIDY
16. i 1 Wie wurden Sie hier mit AusreiBern umgehen 63 Untersuchen Sie das Feld HOLCOST anhand eines Histogramms Klassenbreite 10 0 Wie k nnte man bzgl dieses Feldes mit AusreiBern umgehen Untersuchen Sie die Beziehung der Variablen HOLCOST und NUMPARTY anhand eines Plots und einer statistischen Analyse Welche Aussage k nnen Sie treffen Besteht eine Korrelation zwischen den beiden Datenfeldern Leiten Sie das neue Feld HolCost_new als Kopie des Feldes HOLCOST ab F gen Sie einen Typ Knoten zur Initialisierung des neuen Feldes an bevor Sie einen Data Audit Knoten anh ngen und ausf hren Fi Hesse und Prof Dr Wilde Erzwingen Sie f r das Feld HolCost_new eine Aktion Hier Angleichen der Ausrei er auf einen best Maximalwert Generieren Sie dann einen Superknoten f r Ausrei er amp Extremwerte f r dieses Feld Welche Aktionen werden durchgef hrt iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Verbinden Sie den Superknoten mit dem Stream Untersuchen Sie das Feld HolCost_new anhand eines Histogramms und dessen Beziehung zum Feld NUMPARTY durch einen Plot Welche Ver nderungen hat sich zum urspr nglichen Feld ergeben Dipl Math Josef Bauer Vorversion Dr Frank Katholische Speichern Sie den Stream unter bung 5_1 5 Datenaufbereitung 64 Ubung 5 1 3 3 O 7 a Q qa O Same AN 14 Felder 14 F lder
17. or to string ACCOM BLANK ACCOM or NULL DIST TO BEACH or to _string DIST_TO BEACH hitespace DIST_TO_ BEACH or BLANK DIST_TO_BEACH j Ergebnis Ganze Zahl Ganze Zahl Alle Boole sch Alle Alle Zahl Reelle Zahl Reelle Zahl SP Expression Builder generiert Bedingung or lswhitespace ACCOM or a or 1st CUSTID Zeichenkette Zeitstempel Zeichenkette Zeichenkette Reelle Zahl Reelle Zahl Reelle Zahl Zeitstempel GENDER REGION MUMPARTY HOLCOST MICSHTS TRAY DATE Fi Ausdruck vor dem Speichern berpr fen s a il be i J T a i i an Yn O O C D U c LLI D dp IL ab gt Katholische Fi Hesse und Prof Dr Wilde Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Dr Frank j 5 Datenaufbereitung 76 CLEM m Die Ausdr cke k nnen auch in der Sprache CLEM Modeler Language for Expression Manipulation selbst geschrieben werden Beispiele issubstring SUBSTRING STRING Gibt den Wert 1 zur ck wenn eine bestimmte Zeichenfolge in einer Zeichenkette gefunden wird z B zur Analyse eines Facebook Nachrichtenfeld auf WFI gt Feld WFI affiliated 1 If Then Else z B zur Schlussfolgerung einer unbekannten Merkmalsauspragung IF issubstring WFI Nachrichtenfeld 1 AND PLZ 85049 THEN WFI Student TRUE time_hours
18. Arbeiten mit Streams m Wenn Quell Prozess und Endknoten im Stream Zeichenbereich verbunden sind wurde ein Stream erstellt Als Knotensammlung k nnen Streams gespeichert mit Anmerkungen versehen und zu Projekten hinzugef gt werden m Im Modeler k nnen mehrere Daten Streams ge ffnet bearbeitet und verwendet werden Die rechte Seite des Modeler Fensters enth lt das Manager Tool mit dem man durch die aktuell ge ffneten Streams navigieren Kann Datei earbeten Er ht tas Superknoten GH FATTET gt ARD 2 IBM SPSS Modeler Grundlagen 20 Ausf hren von Streams m Einen Stream auszuf hren bedeutet die Daten durch die Knoten im Stream flie en zu lassen Dazu gibt es verschiedene M glichkeiten m Gesamten Daten Stream ausf hren Auf die Ausf hrungsschaltfl che gt gt in der Symbolleiste klicken Im Men Extras die Option Ausf hren ausw hlen Fi Hesse und Prof Dr Wilde Teil eines Daten Streams ausf hren Endknoten im Stream Zeichenbereich markieren und auf die Schaltfl che w in der Symbolleiste klicken Mit rechter Maustaste auf Endknoten im Stream Zeichenbereich klicken und im Kontextmen Ausf hren ausw hlen Mit linker Maustaste auf Endknoten im Stream Zeichenbereich klicken und Tastenkombination Strg e drucken iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik m Ausf hrung eines
19. Bearbeiten LONGDIST_Mean ey GEnerieren International_ Mean FreeLocal Budget FreeLocal FreeLocal FreeLocal FreeLocal Standard standard standard Standard Standard standard Intnl_discount Standard LOCAL Mean 52 500 65 140 32 536 62 176 Zu ZN zZ ffB UW MW swe Mf 2 OO wwe Oo mM Oo mM Oo be ob FKM K Means Datensatzanzahl Cluster 3 Cluster 2 Cluster 1 Cluster 4 54112 600 3776120 73065 900 30933 6500 12309 6500 9564 000 91620 600 gs01 ann LYS SS a eS SSS S ay Seles Current wol Vol Current Vol wol Current Current Cluster 1 Cluster 2 Cluster 1 Cluster 1 Cluster 3 Cluster 2 Cluster 3 Chister niversitat Eichst tt Ingolsta Math Josef Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl i H sse und Prof Dr Wilde ftsinformatik Vorversion Dr Frank aoe P 194 6 4 1 Cluster Analyse Ubung 6 4 1 1 2 A m K Means Clustering Datei churn txt Entwickeln Sie ein Cluster Modell mit der Zielsetzung f nf Segmente f r unter schiedliche Kundenbindungsma nahmen zu finden Verwenden Sie dazu wieder die Datei churn txt mit den drei Input Variablen Local Longdist und International Cluster Gr en Cluster Bedeutsamkeit der Eingabe Pr diktor 8 1000 500500400 200 Cluster2 Cluster5 Ciuster4 Cluster 1 ee ee a er International International International Intern
20. Generiert neue Datenfelder aus einem bestehenden Feld z B bei Zeitreihen neue Felder f r jeden Tag aftsinformatik Felder ordnen Erlaubt die Ver nderung der Reihenfolge von Datenfeldern im Stream iversitat Eichst tt Ingolstadt Lehrstuhl f r ABWL und Wirtsct Dip Math Josef Bauer Vorversion Dr Frank Katholische 3 Knoten Ubersicht 37 Diagramme A Diagrammtafel Mehrere Diagrammtypen in einem Knoten d Prof Dr Wilde r Hesse un Diagramm Zeigt die Beziehung zwischen numerischen Feldern mit Hilfe von Linien PE oder Punkten Streudiagramm 5 08 eee A Multiplot Stellt mehrere Y Felder ber einem einzelnen X Feld dar nO SEn z B Entwicklungen im Zeitverlauf zweier Variablen cr oO es Zeitdiagramm Stellt Zeitreihen Uber einen bestimmten Zeitraum dar me 5 2 Wes ren 2 SR ei Verteilung Stellt die Verteilung nicht numerischer Variablen grafisch dar 335 SSS 2 c 3 Knoten Ubersicht 38 Diagramme m Histogramm Stellt die Verteilung numerischer Variablen grafisch dar Fi Sammlung Stellt die Verteilung eines numerischen Feldes relativ zu den Werten eines anderen Feldes dar atik r Frank Hesse und Prof Dr Wilde F ec Netzdiagramm Zeigt die St rke der Beziehung zwischen den Werten aus mindestens zwei kategorialen Feldern Die Verbindungsst rke wird durch unter schiedliche breite Linien dargestellt aftsinfor iversitat Eichstatt ngolsta
21. I 4 te I K f I 4 a I te I 4 Ru Q gt R 9 A Risiko BOOST Risiko BAGG Risiko_ STAND EN Risikoklasse N1 AR BxS Risikoklasse N Risiko BAGG Risiko BOOST Risiko_STAND Ensemble IERPEPFEFFEFFETTT Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp R Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori i iversitat Eichst tt Ingolsta Katholische Hesse und Prof Dr Wilde Dip Math Josef Bauer Vorversion Dr Frank f aftsinformatik Lehrstuhl fur ABWL und Wirtsc P 6 2 Entscheidungsbaume 145 Ubersicht Mithilfe von Entscheidungsbaummodellen werden Klassifizierungs bzw Prognosesysteme entwickelt die zukunftige Beobachtungen auf der Grundlage eines Satzes von Entscheidungsregeln klassifizieren oder vorhersagen Wenn beispielsweise Daten in Klassen aufgeteilt sind die Sie interessieren z B Darlehen mit hohem Risiko im Gegensatz zu Darlehen mit niedrigem Risiko lassen sich mit diesen Daten Regeln erstellen die Sie zur Klassifizierung alter oder neuer F lle verwenden k nnen So k nnen Sie z B einen Baum erstellen der das Kreditrisiko oder die Kaufabsicht basierend auf Alter und anderen Faktoren klassifiziert Einfacher Entscheidungsbaum Ein Vorteil von Entscheidungsb umen ist dass die Argumentationskette hinter dem Modell deutlich wi
22. IBM SPSS Modeler Herb she be x kRO sse und Prof Dr Wilde Dr Frank he j iversitat Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtschaftsinformatik if Dipl Math Josef Bauer Vorversion Katholische IBM SPSS Modeler Grundlagen 10 Modeler auf einen Blick Arbeiten im Modeler bedeutet Arbeiten mit Daten In der einfachsten Form besteht die Arbeit im Modeler aus drei Schritten nach dem EVA Prinzip 1 Einlesen der Daten in den Modeler 2 Bearbeiten der Daten 3 Daten an ein Ziel senden Diese Reihenfolge wird als Daten Stream bezeichnet da die Daten Datensatz fur Datensatz von der Quelle durch jeden Bearbeitungsschritt zum Ziel flie en Jede Modeler Operation wird durch einen Knoten Symbol dargestellt Miteinander verbundene Knoten bilden einen Stream der den Datenfluss durch jede Operation darstellt Datenbearbeitung Datenausgabe Einlesen Stream Datei har Ableiten Ausw hlen Tabelle 2 IBM SPSS Modeler Grundlagen 11 Das CRISP DM Prozessmodell im Modeler m CRISP DM 1 0 O QO es ws 5 r Business Data 3 Understanding Understanding C i 3 a 9 un 1 Data we Preparation ZO Li o Deployment OO oO cr 225 EES Modeling ae C O 2 2 gt LU T D gt Quelle http en wikipedia org wiki File CRISP DM_Process_Diagram png Zugriff 11 06 2013 Lehrstuhl f r ABWL und Wirtsc Katholische sca Bauer Business Understanding Thi
23. Math Josef Bauer Vorversion Dr Frank Katholische t Eichst tt Ingolsta ta Ivers Katholische be Fi ftsinformati Lehrstuhl fur ABWL und Wirtsc se und Prof Dr Wilde Dr Frank ION Josef Bauer Vorvers Dipl Math 9 Outputs Datenaufbereitung Ubung 5 6 2 2 2 seLocal 3 idiget 4 chget 5 idiget 6 seLocal i idiget 5 Ichget g idget 10 idget 11 seLocal 12 Ichget 13 idiget 14 idiget 15 lkeLocal 16 seLocal 17 diet 15 idiget 19 chget 20 zeLocal Standard Intnl_disecourt Intnl_diecourt Standard Intnl_disecourt Intnl_discount Intnl_disecourt Intnl_discount Standard Intnl_cdiscount Standard Standard Intnil_ discount Standard Intnl_ discount Standard Standard Standard Standard Intnil_discount ey Generieren Id Datei Di Wert WwW Ww Ww Es a fff M EEEMNE Bearbeiten ii Tabelle 19 Felder 1 477 Datens tze 1 Ea I Datei Bearbeiten e Ba vu BE une a US BEE Oh a Oo a m BE 6 ey Generieren 27 535 300 53220 6500 agg 3 400 3431 7 600 99746 100 ar 49 800 51 420 000 17493 200 76213 200 11434 600 27362 600 37155 000 75004 500 74430200 gt 4370 700 53653 300 25092 200 34160500 50253 704 31639200 f Ansicht m Histogramm von AGE i io Datei Bearbeiten Generieren Sf Ansicht isd cl el 1 6 94 11 24 12 25 11 78
24. Model von SPSS D IBM TM1 Import Importieren von Daten aus IBM TM1 I IBM Cognos BI Importieren von Daten aus IBM Cognos BI Datenbanken 5 U S 5 de SAS Datei Importieren von SAS Dateien 25 un SS Ea Excel Importieren von Excel Dateien naz SSS XML Importieren von XML Dateien gt P 5523 358 pm 2 a D Eingabe Manuelle Eingabe von Feldern und Werten O gt 3 4 Datenansicht Lesen von Daten aus einer Repository Quelle DSB gg Simulationsgenerierung Erzeugung simulierter Daten E46 3 Knoten Ubersicht 29 Datensatzoperationen Ausw hlen W hlt Datens tze aus die eine Bedingung erf llen bzw nicht erf llen Bsp Einkommen hoch e gt Stichprobe Stichprobenziehung bspw zur Reduzierung der Datenmenge f j A Sortieren Datens tze anhand der Werte eines oder mehrerer Felder in aufsteigender oder absteigender Reihenfolge sortieren atik F r Frank Hesse und Prof Dr Wilde u v og f Taa gt Balancieren Unausgeglichene Gruppenverteilung ausbalancieren Ti p Over bzw Undersampling DO ra en EN i 5 gt EZ Duplikat Doppelte Datens tze erkennen bzw herausfiltern LLI mn _ oo DF 2 0 l SS gt Aggregieren Aggregieren von Variablen nach Schlusselvariablen gt 09 Bsp Durchschnittlicher U S Bsp Durchschnittlicher Umsatz pro Segment OO 3 OTE v Ei ca Ne 3 Knoten Ubersicht 30 Datensatzoperationen
25. gerade laufenden Streams anhalten Q Dipl Math Josef Bauer Vorversion Dr Frank Katholische Hesse und Prof Dr Wilde 7 P golsta n ftsinformatik coe Dr Frank J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 2 IBM SPSS Modeler Grundlagen 21 Stream Eigenschaften Zum Einstellen der Stream Eigenschaften Symbol aus der Symbolleiste aufrufen den Men punkt Extras Stream Eigenschaften Optionen aufrufen oder mit der rechten Maustaste im Managerfenster auf den Stream klicken und im Kontext Menu den Punkt Stream Eigenschaften ausw hlen a Stream speichern Stream speichern unter i Als Stream speichern Bereitstellen Zu Projekt hinzuf gen stream Schlielsen Neuer Stream stream ffnen Te Stream abrufen r Frank Hesse und Prof Dr Wilde distag matik chst ttdfn Vorversion D ftsinform J iversitat Eichst tt maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dipl 2 IBM SPSS Modeler Grundlagen 22 Stream Eigenschaften Datums und Uhrzeit Format m Data Mining und insbesondere im Web Mining wird oft mit Feldern gearbeitet die Datum und Uhrzeit enthalten Der Modeler kennt viele Datums und Uhrzeit Formate der Nutzer muss jedoch die entsprechenden Einstellungen ausw hlen streams x Open Layo Nachreten Parameter Deployment Sir Gobawere Suche
26. in der Vergangenheit Geschatzt wird hiermit die Churn Wahrscheinlichkeit durch Betrachtung des Anteils der Wiederbesteller in den folgenden 6 Monaten abh ngige Variable ist gegeben durch bin re Werte die kennzeichnen ob ein Kunde wieder bestellt hat oder nicht Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp R Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori il u i J 7 E a a iversitat Eichst tt Ingolsta Katholische F Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank ih Lehrstuhl f r ABWL und Wirtschaftsinformatik P 6 2 1 Entscheidungsb ume 151 C5 0 Voraussetzung mindestens ein nominales Zielfeld Output sowie mindestens ein Pradiktor Feld Input Vorgehen Ein C5 0 Modell teilt die Stichprobe auf der Basis des Feldes auf das den maximalen Informationsgewinn liefert Jede durch die erste Aufteilung definierte Unterstichprobe wird dann wieder aufgeteilt blicherweise auf der Grundlage eines anderen Feldes Das Verfahren wird so lange fortgesetzt bis die Unterstichproben nicht weiter aufgeteilt werden k nnen Zum Schluss werden die Aufteilungen der untersten Ebene noch einmal untersucht wobei solche entfernt oder reduziert werden die nicht wesentlich zum Wert des Modells beitragen St rken C5 0 Modelle verhalten
27. 1006 21 006 94 127 16 664 FreeLocal un U Gr e der Testpartition Beschriftung Wert 5 101 2422 18T 41166 0 Budget ONE LL Gr e der Walidierungspartition Beschriftung Wer ait sammi ae boo f oA Pudyel A Z ii I i _Training 1013 11 020 0 000 49 412 0 Budget YN N Gesamtar lse 100 1015 16 195 0 000 12 118 0 Budget Kur 49 2 Cc Verte Systemdefinierte Werte verwenden 1 2 und 3 tz u BEN SEER UE Peer cc Yn O u 102 16 069 1 536 130 352 Budget 5 D Beschriftungen an systemdefinierte Werte anh ngen 13 3_Yalicierung 1020 26 523 0 000 32 199 Budget Budget FreeLocal FreeLocal Budget Budget Budget FreeLocal 14 IA _ Training 1021 25 184 5 535 2 355 15 3_Yalicierung 1025 12 747 0 000 103 335 16 3_Yalicierung 1029 12 390 0 000 0 403 1r li _ Training 1031 24 043 0 000 13 392 15 _ Training 1032 23 375 0 000 32 523 19 2_Test 1036 15 256 0 000 99 363 20 1 _Training 1037 25 125 B247 of 026 Beschriftungen als Werte verwenden fi V f if Startwert f r Zufallsgerierstor festlegen Startwert 1234567 FM SOL aktivieren um Partitionen Datens tze zuzuordnen Eindeutiges Feld m u 0 0 0 1 0 0 0 1 Katholische Universitat Eichstatt Lehrstuhl f r ABWL und Wirts Dipl Math Josef Bauer Vor a il be i J T n f iversit t Eichst tt Ingolsta Katholische Fi Hesse und Prof Dr Wilde ftsinformatik ih Lehrstuhl fur ABWL u
28. 14 56 12 73 12 73 11 04 ETF 102 166 191 174 215 188 188 163 100 94 iversitat Eichst tt Ingolsta Katholische Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank f ftsinformatik ih Lehrstuhl f r ABWL und Wirtsch P 5 Datenaufbereitung 95 Umstrukturieren Umsatzdaten werden oft in einem Datensatz pro Transaktion gespeichert werden zur Analyse aber als Variablen nebeneinander z B Umsatz pro Produktgruppe ben tigt Dies l sst sich entweder mit einer Reihe von Ableiten Knoten darstellen oder einfacher mit dem Umstrukturieren Knoten Neu strukturieren m Nach entsprechender Umstrukturierung kann eine Aggregation zur Daten reduktion durchgef hrt werden Neu strukturieren verf gbare Felder Meu strukturierte Felder erstellen PAY MTHD Auto PAY MTHD Oc Feldnamen einschlielsen Werte aus anderen Feldern verwenden Flags f r numerische Werte erstellen Werteteldters 5 Datenaufbereitung 96 Stichproben Stichprobe Knoten m Mit einem Stichprobe Konten lassen sich Stichproben der Datens tze nach verschiedenen Verfahren bilden WT a il be i J T n m Stichproben werden gebildet zur Reduktion der Anzahl der Datens tze gt Beschleunigung i i Fi Hesse und Prof Dr Wilde zum Training und Test der Modelle Stichwort Overfitting
29. 3 529 1 948 g Frozen foods Unterst tzung i 5 Bakery goods Alcohol H Konfidenz K E Tinned Goods a5 Regelunterst tzung an zen q Ready made i I Lift x Bakery goods Frozen foods xE Tinned Goods 30 Yerwendhbarkeil 82 222 1 918 Tey 4 fan L Tg LL uate Alles anzeigen whe Ready made Alcohol z Sen Tinned Goods q7 Alles verbergen 81 443 1 654 o is Bakery goods Eee Ready made Alcohol D oO Tinned Goods 41 11 576 9 121 1 507 ae a 2 Snacks u i une au 105 13 359 79 048 1 944 te Ready made 5 Dr S Ji ui 100 12 723 79 000 1 843 D Tinned Goods zZ Mm j lt 2 PaA me a0 11 450 78 889 1 840 Alcohol Ju Ba Ss 4 one 2 Q Katholische Lehrstuhl
30. Analytisches CRM Anwendungen U Sommersemester 2014 Dipl Math Josef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde Lehrstuhl fur ABWL und Wirtschaftsinformatik Katholische Universitat Eichst tt Ingolstadt i F Ar e Universit t Eichst tt Katholisch Sci Bauer Vor ngolstadt ftsinformatik rsion Dr Frank Hesse und Prof Dr Wilde ba Lehrstuhl fur ABWL und Wirtsc V Analytisches CRM Anwendungen 1 Organisatorisches Klausur Ersttermin 08 07 2014 Klausur 30 min 2 3 Case 1 3 innovativ Zweittermin 30 09 2014 Klausur 30 min 2 3 Case 1 3 innovativ 45 min regular Case Abgabe am 15 07 2014 12 Uhr auf CD in den Briefkasten des Lehrstuhls Klausurrelevant Alle behandelten Inhalte des Skripts Workshop Altran ggf Exkurse m Zeitplan 1 4 IBM SPSS Modeler Grundlagen Knoten bersicht Einlesen von Daten 2 5 Datenaufbereitung 3 6 Data Mining Modelle K nstliche NN Entscheidungsb ume Regression 6 Clustering Assoziationsanalyse 4 6 Workshop ALTRAN CIS Herr Tobias von Martens a a il u i J E a a i wh iversitat Eichstatt Ingol Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank ih Lehrstuhl fur ABWL und Wirtschaftsinformatik P Analytisches CRM Anwendungen Kleine Tipps zum Vorankommen Streams und Daten nach jeder wichtigeren umfangreicheren Ve
31. Datenaufbereitung Ubung 5 5 2 2 Outputs E Tabelle 18 Felder 1 477 Datens tze 1 la Dat Datei Ey Generieren Bearbeiten 27535 300 null 3220 600 1 Val 66413 400 FnullF Vol 34317 600 null Val 39245 100 null Val 6749 800 FnullF Vol 51420 000 Fnull Val 17499 200 PnullF Current 76215200 nullf Current 11434 600 null Val 27 362 600 Fnull In ol 37155 000 FnullF Vol 75004 500 null Current F F f atik f Vorv arsion Dr Frank Hesse und Prof Dr Wilde m ftsinfor iversitat Eichst tt Ingolstadt Anzahl ose B45 Lehrstuhl f r ABWL und Wirtsch Katholische Sc Bauer 5 Datenaufbereitung Ubung 5 6 1 2 m F hren Sie eine Umkodierung des Feldes SEX durch g Der Wert F soll mit 1 der Wert M mit 2 ersetzt werden Das neue Feld soll Geschlecht_umkodiert benannt werden gt A r_ m Filtern Sie das Feld SEX aus dem Stream heraus OW m F hren Sie eine Klassierung des Feldes AGE durch Die Klassenbreite soll 10 gt betragen D a Th lt m stream speichern unter Ubung 5 6 E m 5 7 CHURNED BE 2 C ER eS eS Bl A amp A 15 Felder 15 Felder LOCAL a Dichotom Filter Kundenstatus DE D le 16 Felder undenstatus Kundenstatus O lt Tabelle iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsc FT a AGE_BIN Dip
32. Dr Frank j Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Knoten verbinden Doppelklick auf das Knoten Symbol in der entsprechenden Palette s o Ausgangsknoten markieren und bei gedr ckter mittlerer Maustaste mit nachfolgendem Knoten verbinden 40 Yn O O C D U c LLI D dp ab gt Ausgangsknoten markieren im Kontextmen rechte Maustaste Verbinden w hlen und mit nachfolgendem Knoten verbinden Katholische a T Ya I i Hesse und Prof Dr Wilde f ftsinformatik P iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische 2 IBM SPSS Modeler Grundlagen 16 Arbeiten mit Knoten 2 3 m Knoten l schen Knoten markieren und die Taste Entf dr cken m Knoten Verbindung l schen Mit der rechten Maustaste auf den Pfeil klicken und Verbindung l schen w hlen Knoten markieren und F3 dr cken m Hinzuf gen von Knoten in bereits vorhandene Verbindungen Mit der linken oder mittleren Maustaste den urspr nglichen Verbindungspfeil auf den neuen Knoten ziehen i Fi F k F M I il 7 E Tabelle Tay F Hesse und Prof Dr Wilde f ftsinformatik P iversitat Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Kathol
33. E 10 0 T e StatSoft Statistica 170 45 9 alone EE 9 0 STATISTICA MEE 14 0 x Cc 5 IBM SPSS Statistics 164 1 8 alone EEE 8 7 oe TE E 7 3 e Microsoft SQL Server 131 1 5 alone E 7 0 n OD E 50 Gem 4 O C Tableau 118 0 alone BEN 6 3 On S EE 4 4 C O 1 wg oD IBM SPSS Modeler 114 6 1 alone MM 6 1 oS ME 6 8 E D gt KNIME free edition 110 1 8 alone MM 5 9 a d l 7 EE 215 ee pr U Sys nz gt SAS Enterprise Miner 110 0 alone MM 5 9 iu ME 5 8 1 Rattle 84 0 alone E 45 sa JMP 77 7 8 alone 41 D EE 4 0 D Orange 67 13 4 alone E 36 gt E 5 3 Other free analytics data mining software I 3 4 63 RAPID MINER Lehrstuhl f r ABWL und Wirtsch Sci Bauer 64 3 1 alone BE 49 Gnu Octave 54 0 alone E29 eS O Revolution Analytics R Enterprise 53 I 2 8 amp a 1 9 alone E 1 4 l Predixion Software 51 43 1 alone 27 le 10 4 X Quelle http www kdnuggets com polls 2013 analytics big data mining data science software html Zugriff 11 06 2013 a il a si J 7 ca Fi H sse und Prof Dr Wilde ngolsta ftsinformatik tin Vorversion Dr Frank iversit t Eichst tt t r ABWL und Wirtsc nn Bauer Lehrstuhl Katholische Dipl 2 IBM SPSS Modeler Grundlagen Modeler starten m Wahlen Sie im Windows Startmen Alle Programme IBM SPSS Modeler
34. ED_Mean AGE_Mean CHILDREN_Mean Est_Income_Mean CHURNEM Datensatzanzahl 0 491 62 587 0 032 56 258 1 161 48536 761 0 322 55 561 0 115 56 429 1 006 52077 224 Current 0 000 2 533 0 152 58 662 0 962 46524 465 Invol 1 885 57 123 0 121 59 113 0 969 48308 698 Yol Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Katholische 5 Datenaufbereitung 82 Transformationen m Bevor Transformationen durchgef hrt werden empfiehlt es sich im Sinne einer iu explorativen Datenanalyse die Verteilung der Variablen zu untersuchen gt m Daf r stehen im Bereich Diagramme zwei Knoten zur Verf gung Verteilung Untersuchung nominaler Variablen 5 E E verteilung von CHURNED 5 iol xi ere ants E Datei _4 Bearbeiten X Generieren f Ansicht oalx Fan a a T B ra Dipl Math Josef Bauer Vorversion Dr Frank m Histogramm von LONGDIST joi Datei Bearbeiten Generieren gf Ansicht F m Histogramm iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsc LONGDIST Katholische 5 Datenaufbereitung 83 Transformationen m Schiefe Verteilungen erschweren das Erstellen korrekter Prognosemodelle m Beispiel Ein Neuronales Netz wurde bei einer Mailing Response Quote von 3 versuchen jeden Adressat als Nicht Reagierer zu klassifizieren um eine Genauigkeit von 97 zu erreichen m Durch Auswahl des Men punkts Generieren kann direkt ein Balancierungs K
35. Fest 100 Nie Fest 100 Nie Fest 100 Nie Fest 100 Nie Fest 100 Nie Fest 100 50 0 xl Ung ktig 5 Datenaufbereitung 71 Behandlung fehlender Werte Leerfelder auff llen Mit einem F ller Knoten k nnen Leerfelder mit g ltigen Informationen gef llt werden BLANK FIELD gt Alle Datens tze deren Werte gem den Regeln zum Umgang mit Leerstellen die in einem weiter oben im Stream gelegenen Typknoten oder Quellenknoten Registerkarte Typen festgelegt wurden Leerstellen sind fi Hesse und Prof Dr Wilde Nur Null Felder z B NULL FIELD Anmerkung Wenn die ausgew hlten Felder den Typ Zeichenkette aufweisen sollten diese mit einem Zeichenkettenwert ersetzt werden Die Verwendung des on Standardwertes O oder eines anderen Bedingung numerischen Wertes als Ersatzwert f r Zeichenkettenfelder f hrt zu einem Fehler Ersetzen mit o Abbrechen Anwenden _ ZUF UICKSELZEN fe iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Dr Frank Katholische 5 Datenautbereitung 72 Behandlung fehlender Werte Imputation oO eo Beispiel Fehlende Werte durch den r O Mittelwert des entsprechenden Feldes ersetzen 7 gt e gt Zun chst mit einem Statistiken Knoten lt den Mittelwert berechnen o Ersetzen Bedingung i 9 FEE
36. Import Knoten Datei var k Datei rar elle ne ID Nummer Alter in Jahren Einkommen beschlecht Familienstand Anzahl Kinder Anzahl Ereditkarten zah 1005319 31 59193 weiblich verheiratet 1 2 monatlich 7jJ3 1 1 Eein Sch den 100796 45 50361 m nnlich verheiratet 1l 1 monatlich Ja 1 0 Eein Schaden 100730 43 57300 weiblich verheiratet 0 1 monatlich jJa 1 0 5chaden Verlust Fi Feldnamen aus Datei lesen fal Anzahl Felder testlegen 1 F hrende Zeichen berspringen Bu EOL Kommentar zeichen PY F hrende und abschlielsende Leerzeichen l schen Keine Links Rechts Beides Ung ltige Zeichen verwerten Ersetzen mit Codierung Dezimaltrennzeichen Mach Typ zu durchsuchende Zeilen E Leerzeichen 4 Komma F Tabulator Fi Daten und Zeiten automatisch erkennen y Neue Zeile Andere Anf hrungszeichen E Michtdruckbare Zeichen Einfache Anf hrungszeichen E Mehrere leere Trennzeichen zulassen Doppelte Anf hrungszeicher A Einlesen von Daten Speichertypen amp Datei rar x co Oo A 2 Speichertyp ingaketormat 5 ID Nummer tanze Zahl Alter in Jahren tanze Zahl Einkommen IS Ganze Zahl 2 Geschlecht A Zeichenkette 2 Familienstand A Zeichenkette FE Anzahl Kinder X Ganze Zahl x Anzahl Kreditkarten tanze Zahl i 4 eS 0 Zahlweise A Zeichenkette mc LL amp nn Hypothek vorhanden JA feichenkette
37. Jbung 6 2 1 a CHURNED a IN ax Co s Evaluation_Lift D z te i ChurnTrain te Typ CHURNED Evaluation_Gains l o CHURNED LEY ates A on me 58 we j La H J Tay i 7 N st a ChurnValidate tet Typ CHURNED CHURNED Evaluation_Lift F J Katholische Universitat Eichstatt Ingolstadt j Dr Frank Hesse und Prof Dr Wilde 6 2 1 C5 0 Knoten 0 Kategorie w n N Current 55 596 616 E inol 940725 100 DO E Vol 35 379 392 te Gesamt 100 000 1108 I gg gg gegen O ame S 2 0 Tan N SS gt Or TO gt oro 33 JM T m lt gt ru Hiie E es N 1 a ec go u O Entscheidungsbaume Knoten 1 Kategorie En n Current 4636 12 E inol 21 967 100 E ol 5197 10 Gesamt 11 011 122 Knoten 3 Kategorie w n Current BA OOF 424 E inol 0 000 E ol 13 996 69 Gesamt 44495 493 Knoten 2 Kategorie n Current 61258 6 4 E Invol 0 000 0 E ol ao 742 302 Gesamt 68 989 406 Knoten 4 Kategorie E n Current 45 519 405 0 000 0 4491 19 Gesamt 358267 424 Knoten 9 _ Kategorie n T Current 7 536 149 0 000 0 P2464 50 Gesamt H227 69 Knoten 18 Kategorie r DROPFFED 156 6 2 1 Entscheidungsbaume 157 C5 0 LONGDIST 0 Modus Inwoll gt InVol LONGDIST 0 Modus Current E SEX M Modus Current Bedeutsamkeit des Pr diktors E In
38. Kanmerlre Anmerungen Berechnungen in Radiant Grad Datum Jhrzeit importieren als DatumUhrzeit Zeichenkette Datumsformat Zeitformat Zahlenanzeigeformat Dezimalstellen anzeigen Dezimalstellen wissenschaftlich BEE Dezimalstellen W hrung Dezimaltrennzeichen Symbol f r Zifferngruppierung eine Datumsbasis 1 Jan 1900 Zweistellige Datumsangaben ab 1930 Codierung a oO Ar Maximale Anzahl an Zeilen in Datenvorschau Y Maximale Set Gr e tho in D N W Dimension der Set Variablen f r neuronale Netze Kohonennetze und K Means Modellierung begrenzen Regelmengenauswyertung Quellenknoten bei Ausf hrung aktualisieren Feld und Wertelabels in Ausgabe anzeigen 2 IBM SPSS Modeler Grundlagen 23 Hilfe Funktion m Direkthilfe In Um allgemeine Hilfe zu Knoten und Hifethemen gt p Symbolleistenelementen aufzurufen et ns Direkthilfe im Hilfemen von Modeler oe mE ausw hlen Der Cursor verwandelt sich in ein Fragezeichen mit dem man auf ein gt 8 beliebiges Element im Stream I Zeichenbereich oder in den Paletten klicken mem kann Es offnet sich ein Hilfefenster mit parser E e 2 JO BES Informationen zum ausgew hlten Element Emm m Kontextsensitive Hilfe Euan Auf Hilfeschaltfl che Hilfesymbol in einem me sluslleviiisiile Ps auses 1 au ai D a OQ fe d Kl icke
39. Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank ih Lehrstuhl f r ABWL und Wirtschaftsinformatik P Einlesen von Daten 46 Skalen Daten bilden die Ausgangsbasis jeder Data Mining Analyse Sie entstehen durch Messvorgange Beim Messen werden Eigenschaften von Objekten nach bestimmten Regeln in Zahlen ausgedr ckt Die dabei angewandte Messlatte nennt sich Skala Objekt Eigenschaften k nnen mit unterschiedlichen Skalen gemessen werden Man unterscheidet verschiedene Skalenniveaus Je h her das Skalenniveau desto gr er ist auch der Informationsgehalt der betreffenden Daten und desto mehr Rechenoperationen und statistische Ma e lassen sich auf die Daten anwenden Leider entsprechen die Modeler Datentypen nicht exakt der gangigen Skalenniveau Einteilung Vor der Anwendung einzelner Funktionen bzw vor der Interpretation ist daher immer eine inhaltliche Uberprufung der einzelnen Variablen notwendig Hesse und Prof Dr Wilde i i iversitat Eichstatt Ingolstadt i ftsinformatik x Lehrstuhl fur ABWL und Wirtsc Dip Math Josef Bauer Vorversion Dr Frank Katholische A Einlesen von Daten 47 Skalen Niveaus im Modeler M gliche Beispiel Modeler rechnerische Handhabung Nominalskala Klassifizierung Bildung von m nnlich Nominal qualitativer H ufigkeiten weiblich Flag nicht Eigenschafts metrische auspr gungen kategoriale
40. Kurve des Gains Chart zeigt an wie hoch der Anteil der richtig klassifizierten 2 Datens tze an der Gesamtzahl der tats chlich zur interessierenden Klasse E geh rigen Datens tze bei der Anwendung des Modells auf eine bestimmte 5 Anzahl der Ausgangsdaten bereits ist 5 A5 m Beispielsweise k nnte die Klasse der Reagierer eine interessierende Klasse darstellen ih Lehrstuhl f r ABWL und Wirtschaftsinfo Dipl Math JJosef Bauer Vorversion Quelle Hippner et al 2001 S 79 Katholische Universit t Eichstatt Ingolsta Katholische Universitat Eichst tt Ingolstadt Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde 6 Modellierung Grundlagen 121 Gains Chart Beispiel m Aus dem Chart l sst sich ablesen dass die vom Klassifikationsmodell hinsichtlich ihrer Reaktionswahrscheinlichkeit am besten bewerteten 25 der Datens tze des Evaluierungsdatensatzes bereits 50 aller tats chlichen Reagierer abdecken AA S nm seb Cc seb D amp X aie E 4 seb m ka e5 pe Oo e lt Quelle Hippner et al 2001 S 79 Hesse und Prof Dr Wilde ik t t tt Ingolstadt ri a x ih Lehrstuhl fur ABWL und Wirtschlaftsinforr Dip Math Josef Bauer Vorversion Dr Frank Katholische Universitat Eichs 6 Modellierung Grundlagen 122 Evaluation Lift Chart m Um unterschiedl
41. N 5 u m e N H Ifet h e m a Tabellen und Spalttennamen in Anf hrungszeichen Mach Bedarf Immer Mie S pez amp f r d Ste u e re e m e nte nN d i ese m F hrende und abschlie ende Leerzeichen l schen Keine Links Rechts Beides iversitat Eichst tt Ingolsta Dialogfeld aufzurufen ih Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische WT a il be i J T a i i iversit t Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Katholische Fi Hesse und Prof Dr Wilde 2 Lehrstuhl f r ABWL und Wirtschaftsinformatik Dr Frank i 2 IBM SPSS Modeler Grundlagen Dokumentation m Sehr umfangreiche Modeler Dokumentation erreichbar ber den Men punkt Hilfe Modeler Benutzerhandbuch Knoten Referenz Skripterstellungs Automatisierungs und CLEM Referenz In Database Mining Handbuch Server und Leistungshandbuch Anwendungshandbuch Algorithmushandbuch Modeler Solution Publisher CRISP DM 1 0 Handbuch SPSS Befehlssyntaxreferenz Online Hilfe und Lernprogramme 24 a il be i J T n f iversit t Eichst tt Ingolsta Katholische Fi Hesse und Prof Dr Wilde ftsinformatik ih Lehrstuhl fur ABWL und Wirtsch j Dr Frank Dipl Math Josef Bauer Vorversion 2 IBM SPSS Modeler Grundlagen Ubung 2 2 ete Zurechtfinden in der Modeler Hil
42. Skalen Ordinalskala Rangwerte mit Median Schulnoten Ordinal Ordinalzahlen Quartile Intervallskala Skala mit Subtraktion Zeitskala otetig gleichgroBen Mittelwert Datum Abschnitten ohne Metrische UU OPI kardinale Skalen Verhaltnisskala Skala mit Addition Einkommen Stetig Ratio Skala gleichgro en Division Preis Alter Abschnitten mit Multiplikation Nullpunkt a il a si J 7 ca Fi iversit t Eichst tt Ingolsta Katholische Fi Hesse und Prof Dr Wilde ja Lehrstuhl f r ABWL und Wirtschaftsinformatik j Dipl Math Josef Bauer Vorversion Dr Frank A Einlesen von Daten 48 Speichertypen und Datentypen m Grunds tzlich ist zwischen Speichertypen und Datentypen Messniveau zu unterscheiden m Speichertypen werden im Datenquellen Knoten eingestellt Datentypen k nnen auch mit einem Typ Knoten ver ndert werden E Datei var Datenimport aus Textdateien mit Feldern variabler Gr e Verwalten der Felder Festlegen des Skalenniveaus eines Felds des Wertebereichs der Missing Values und ob das Feld bei einem maschinellem Lernprozess ein Eingabefeld Pr dikatorfeld oder ein Ausgabefeld vorhergesagtes Feld darstellt Ingolstadt F i iversitat Eichstatt BWL und Wirtschaftsinformatik yh Katholische Lehrstuhl f r osef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde Dipl Math F y Einlesen von Daten 49 Der
43. V OA Anzahl Warenhauskarer lt Ganze Zahl c Anzahl sonstige Kredite Ganze Zahl SS Kreditrisike A Zeichenkette Cr aa 3 Aktuelle Felder anzeigen Nicht verwendete Feldeinstellungen cto 0O27 L oy mw c O aD a M 2S 5 Em ee Ko 25g gaz 35 2 WFA 50 amp Datei var bers Speichertyp Eingabeformat ID Nummer Ganze Zahl Alter in Jahren gt Ganze Fahl Einkommen E gt Ganze 7 I ee E if Geschlecht Unbekannt Familienstand Ad Zeichenkette Anzahl Kinder Anzahl Kreditkarten Zahlweise Hypothek vorhanden Anzahl Vvarenhauskarten iis Anzahl sonstige Kredite T Zeitstempel Kreditrisiko A Zeichenkefte gt Ganze Zahl Aktuelle Felder anzeigen Durch Aktivieren der Check Box Uberschreiben k nnen Speichertypen geandert und Zusatzangaben zum Format Bsp Datum gemacht werden F wl i A Einlesen von Daten 51 Datentypen Der Modeler definiert Felder mit numerischen Inhalten automatisch als Stetig und Zeichenketten Felder automatisch als Kategorial Durch einen Klick auf Werte lesen bzw beim ersten Durchlauf eines Typ Knotens werden die Daten abgearbeitet und der vermeintlich richtige Typ eingef gt SF Read_data txt a C Dokumente und Einstellungenwws ass DesktopiaCkh_Aanvwendun Vorversion Dr Frank H sse und Prof Dr Wilde oe Fehlend berpr fen Rolle Feld Messung Wert
44. WN i i sion Dr Frank Hesse und Prof Dr Wilde bs Attributs oe A n Y married I car IY sav acct i account 1 mortgage go Weitere Beispiele fur Scorings O C 2 2 EE Z Risikoanalyse bei Kreditvergabe in Banken 29 e Vorhersagesystem f r Airline um oS gt Uberbuchungen zu vermeiden LLI n 05 553 PN O D T T D 525 As Lf s 7 C OQ 285 Ubersicht N o se Analytisches CRM IBM SPSS Modeler Knoten Ubersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle 2 IBM SPSS Modeler bersicht Data Mining Software What Analytics Big Data Data mining Data Science software you used in the past 12 months for a real project 1880 voters SS GER SEEN Legend Red Free Open Source tools MEE users in 2013 oO nn Green Commercial tools MEE users in 2012 m wem Rapid I RapidMiner RapidAnalytics free 392 Kr a FF m 1 edition 737 30 9 alone EEE 26 7 R 704 6 5 alone eee 37 4 ES 30 7 Excel 527 0 9 alone EE 28 0 Enterprise Miner p RS 29 8 Sa QO Weka Pentaho 269 5 6 alone E 14 3 i E 14 8 O Python with any of N 13 3 numpy scipy pandas iPython packages EEEE 14 9 A 250 0 alone Rapid RapidAnalytics RapidMiner ME 12 0 Commercial Edition 225 52 4 alone a SAS 202 2 0 alone ME 10 7 BER N E 12 7 4 MATLAB 186 1 6 alone ME 9 9 Stat Soft ME
45. Wilde E i J an Vorversion Dr Frank af Bauer Lehrstuhl f r ABWL und Wirtsc Dipl 5 Datenaufbereitung 105 Datenanreicherung Ein Inner Join enth lt nur Datens tze bei denen ein Wert f r das Schl sselfeld bei allen Eingabetabellen gleich ist Nicht bereinstimmende Datens tze werden nicht in das Ausgabe Daten Set aufgenommen Bei einem Full Outer Join werden alle Datensatze bereinstimmend und nicht bereinstimmend aus den Eingabetabellen eingeschlossen Linke und rechte Outer Joins werden als partielle Outer Joins bezeichnet und werden im Folgenden beschrieben 5 Datenaufbereitung 106 Datenanreicherung Ein partieller Outer Join enth lt alle Datens tze deren bereinstimmung anhand des Schl sselfeldes abgeglichen wurde sowie nicht Ubereinstimmende Datens tze aus den angegebenen Tabellen Oder anders gesagt Alle Datens tze aus bestimmten Tabellen und nur passende Datens tze aus anderen Tabellen Tabellen wie beispielsweise A und B in der Abbildung k nnen mithilfe der Schaltfl che Auswahl auf der Registerkarte Verbinden ausgew hlt werden Partielle Joins werden auch linke bzw rechte Outer Joins genannt wenn nur zwei Tabellen zusammengef hrt werden Da Clementine die Zusammenf hrung von mehr als zwei Tabellen erlaubt wird dieser Vorgang hier als partieller Outer Join bezeichnet Prof Dr Wilde aftsinformatik ion Dr sse und Bei Anti Join werden nur
46. Wirtschaftsinfor Dipl Math Josef Bauer Vor Katholische 5 Datenaufbereitung 66 Missing Values m Nullwerte nicht definierte Werte Leerwerte leere Bereiche und leere Zeichenketten werden vom Modeler automatisch als ung ltige Werte behandelt Nullwert System Null null Leere Zeichenkette Leeres Feld auch keine Leerzeichen Leerer Bereich Keine sichtbaren Zeichen Leerzeichen Tab Leerer Wert Alle vom User im Typ Knoten definierten Blanks Benutzerdefinierte fehlende Werte A Im Typ Knoten doppelt auf das entsprechende Datenfeld klicken a gt Im sich ffnenden Fenster lassen sich durch Aktivieren des Punkts Fehlende Werte definieren bestimmte Eingaben als Fehlende Werte festlegen Bsp unbekannt 999 oil Im Data Audit Ausgabe Browser werden diese Werte als Leere Werte gez hlt Mert Leere eichenkette Leerer Bereich Leerer Wer Data Audit 0 0 U 5 Datenaufbereitung 67 Ma nahmen bei Missing Values 1 2 m Keine nderungen vornehmen Einige Data Mining Methoden sind gegen ber fehlenden Werten robust m Datens tze herausfiltern F hrt zu einer Verzerrung der Daten falls fehlende Werte systematisch bzw in ganz bestimmten F llen auftreten Die verbleibenden Datens tze w ren dann nicht repr sentativ f r die Grundgesamtheit H ufig sind zu viele Daten s tze betroffen Diese Ma nahme wird vor allem dann gew hlt wenn die entsprechenden Dat
47. _difference Zeit1 Zeit2 Gibt die Zeitspanne an Stunden aus die zwischen der Zeitmessung in Feld Zeit und in Feld Zeit2 liegt z B die Websiteverweildauer AngryBirdCall 29 06 2012 10 02 45 AngryBirdExit 29 06 2012 19 45 23 Verweildauer time_hours_difference AngryBirdCall AngryBirdExit gt 10 aufgerundet 9 Datenaufbereitung Ubung 5 2 1 2 teoj Kontrollieren und korrigieren Sie ggf die Speicher und Datentypen aller Datenfelder Fehlende Werte durch Mittelwert ersetzen aufbauend auf Stream bung 4_ 2 a il be i J T a Ermitteln Sie den Mittelwert des Felds Est Income Ersetzen Sie alle fehlenden Werte dieses Felds mit dem Mittelwert i i Fi H sse und Prof Dr Wilde berpr fen Sie das Ergebnis Macht dieses Vorgehen in unserem Falle Sinn en Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Wie k nnte man bei der Verwendung eines Mittelwerts noch vorgehen i Yn O O C D ep c LLI D dp IL ab gt Katholische d Prof Dr Wilde j esse un golstad sinformatik M aft C 7 Vorversion Dr Frank H i J iversitat Eichst tt Lehrstuhl f r ABWL und Wirts Dipl Math Josef Bauer Katholische Datenaufbereitung bung 5 2 2 2 foj Wie k nnte eine optimale L sung zur Behandlung von Missing Va
48. ags auf der Grundlage von Kategoriewerten z B f nf Einkommensklassen gt neues Feld HohesEinkommen mit den Werten 0 1 aftsinformatik Umstrukturieren Generiert neue Felder auf der Grundlage von Kategoriewerten Neue Felder m ssen aber nicht die Werte 0 1 besitzen wie bei Dichotomknoten sondern k nnen bspw Kopien von Werten aus der Datentabelle erhalten s Beispiel auf n chster Folie iversitat Eichst tt Ingolstadt Transponieren Vertauscht die Daten in Zeilen und Spalten 3 fur ABWL und Wirtsct Dip Math Josef Bauer Vorversion Dr Frank Katholische Lehrstuhl i i i Figdistagf 8 Vorversion Dr Frank Hesse und Prof Dr Wilde f J e Universit t Eichst tt Lehrstuhl f r ABWL und Wirtschaftsinformatik _ Math Josef Bauer Katholisch Dipl 3 Knoten Ubersicht Beispiel Umstrukturierungs amp Aggregat Knoten Beispieldaten vor der Neustrukturierunc Open_Bal Current_Bal 12701 1000 1005 32 12702 100 144 51 p 12703 150 204 51 12703 1200 586 32 Das urspr ngliche Daten Set enth lt ein Feld Account mit den Werten Draft und Savings F r jedes Konto werden der Anfangssaldo und der aktuelle Saldo i a festgehalten einige Kunden besitzen aber Pa aint aaa ane mehrere Konten von jedem Typ Mit dem Umstrukturierungsknoten lasst sich erfahren ob ein Kunde ein Konto eines bestimmten Typs besitzt und wenn ja Ereeungen Anmerk SER PER S wie hoch de
49. anager HeXXmEe zh Ore KK 250 zum Anzeigen Verwalten von z B Streams Diagrammen Modellen Symbolleiste Stream Zeichenbereich CRISP Projekt Fenster mit ee Streams Ausgaben Dateien etc zum gegenw rtigen Data Mining Projekt Paletten eo e sA e ade mit jeweils einer Gruppe verwandter Knoten 2 5 Ome o V O re ce 2 DE 8 O yn 2 Ss gt 3 0 HOB Y A 2z 2 ca Lo D D2 Sze ie 5 25g Eii C O SF r Vorversion Dy Frank H sse und Prof Dr Wilde J Dipl IBM SPSS Modeler Grundlagen Die Symbole der Symbolleiste Neuen Stream erstellen I 1 Stream speichern Ausschneiden amp in die A Zwischenablage En verschieben Einf gen der Auswahl wiederholen Stream Eigenschaften bearbeiten 4ktuellan Stream ausf hren Stream anhalten wird nur w hrend der Stream Ausf hrung aktiv Vv A vergr ern nur TEs Superknoten Kein Markup in Stream Stream Markup ausblenden falls vorhanden Stream ffnen Aktuellen Stream drucken In Zwischenablage kopieren Letzte Aktion r ckg ngig Enoten suchen Vorschau f r SQL Erzeugung Stream Auswahl ausf hren Superknoten hinzuf gen verkleinern nur Superknotens Kommentar einf gen Ausgeblendeten Stream Markup einblenden a il be i J T n f iversit t Eichst tt Ingolsta Katholische Fi Hesse u
50. ational International 0 126 0 1379 0 0415 6 714 7 1688 LONGDIST LONGDIST LONGDIST LONGDIST LONGDIST 24 302 13 275 2 3871 22 985 7 2790 6 4 1 Cluster Analyse Ubung 6 4 1 2 2 195 es m Neben der inhaltlichen Beschreibung der Cluster ist es im 2 Rahmen unserer Aufgabenstellung interessant den Zusammenhang zwischen der Variable CHURNED und der Clusterzugehorigkeit zu betrachten ra Fr Aufgabe A Verwenden Sie einen Verteilung Knoten und h ngen Sie ihn an Ihr Modell an k 8 W hlen Sie in der List Box Feld die Variable KM Kmeans und als berlagerung die I Variable CHURNED Aktivieren Sie zus tzlich die Checkbox Nach Farbe ya normalisieren 2 1a Datei Bearbeiten Generieren amp Ansicht PENN acct Freiwillige Kundiger die wahrscheinlich interessanteste Gruppe scheinen in Cluster eins und vier zu fallen Normalerweise sollten an dieser Stelle weitere Modelle mit anderen Variablen CHURNED getestet werden E Current BE invol Fi m T iversitat Eichst tt Ingolsta i Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp RT Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori stadt f Ingo F iversitat Eichst
51. auer Lehrstuhl fur ABWL und Wirtsc Dipl 5 Datenaufbereitung Klassieren werden sog Binning Klassieren m Beispiel Altersgruppen k Klassieren Mit einem Klassieren Knoten konnen Kategorien einer Variable gebildet Klassenfelder Binning Methode Feste Breite Klassieren mit fester Breite HMamenzerweiterung BiN Hinzuf gen als ail Anzahl der Klassen 10 Klassenbreite Klassenzchwellenwerte Immer neu berechnen vor Registerkarte Klassen werte lesen sofern verf gbar Suffix Pr fix oo Am oh E to DE A Klassiermethode Feste Breite Klassenbreite 10 0 Klassiertes Feld Es werden Klassen mit den in der Tabelle angezeigten Werten erstellt Minimum Maximum 5 Datenaufbereitung 91 bung 5 5 1 2 it m Erzeugen Sie das Feld Kundenstatus mit den oben beschriebenen 16 Felder ln 0 Kundenstatus 2 Informationen und berpr fen Sie die korrekte Zuordnung Untersuchen Sie u anschlie end die Verteilung Kunden zu Nicht Kunden 8 m Stream speichern unter bung 5 5 a u u gt 7 7 P xX xX C Alternative 1 v o gA O amp Aggregieren Tabelle om S 3 a EB one gt LU 15 Felder 15 Felder LOCAL Local trans Dichotom Filter Kundenstatus zE i 2 E F lt iD Alternative 2 Sc Bauer Katholische Lehrstuhl 5
52. be LocalBillType FreeLocal Modus Yol gt Vol W LocalBillType Budget Modus Wol l LongDistanceBillType Standard Modus Wol gt Am wenigsten wichtig Am wichtigsten fi E LongDistanceBillType Intnl_discount Modus Cur Car_ wner N Modus Vol A Ansicht f Katholische Universitat Eichst tt Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorve 6 2 1 Entscheidungsbaume C5 0 amp Churned_Regel Trent LONGDIST O International 0 871 LOCAL lt 27 374 AGE gt 68 STATUS Ml CHILDREN 0 dann Current J Regel f r Current 2 wenn LONGDIST 0 und DROPPED 0 und AGE lt 39 Un SEX F F r Frank Hesse und Prof Dr Wilde P i xX und CHILDREN 0 u T und Est_Income 73 338 5 Eon dann Current O Regel 3 f r Current 20 wenn LONGDIST 0 re Current a C Yn O Regeln f r nol mit 1 Regeln ul a regel 1 f r InvVol Ong wenn LONGDIST lt 0 WO Ss InVol D 2 i nyo pe T O a Regeln f r vol mit 14 Regeln O gt E Regel 1 f r Vol LLI n H Regel 2 f r Vol pe D H Regel 3 f r Vol Css ll Regel 4 f r Vol O 40 H Regel fiir Vol D gt m H Regel 6 f r Vol gt D H Regel 7 f r Vol C dp REHE ur wo T H F Is f r Vol O H Regel 9 f r Vol OD ll Regel 10f r Vol Be H Regel 11 f r Vol A T H Regel 12 f r Vol opz 35 2 FFA 158 Bedeutsamkeit des Pr di
53. beginnen in der Regel bei einem 3 Wert ber 1 0 und fallen von links nach rechts allm hlich ab Die rechte Kante des Diagramms entspricht dem gesamten Daten Set das Verh ltnis der Treffer in den kumulativen Quantilen zu den Treffern in den Daten betr gt 1 0 Bei einem guten Modell sollte der Lift auf der linken Seite deutlich ber 1 0 beginnen von links nach 3 3 rechts auf einem hohen Niveau verbleiben und dann auf a a db 5 w der rechten Seite des Diagramms abrupt auf 1 0 fallen e Bei einem Modell ohne Informationsgehalt liegt die Linie ae im gesamten Diagramm bei einem Wert um 1 0 aftsinformatik iversitat Eichstatt Ingolstadt Lehrstuhl f r ABWL und Wirtsct Dipl Math Josef Bauer Vorv rsion Dr Frank Katholische 6 1 K nstliche Neuronale Netze 140 bung 6 1 1 2 Abwanderungsgef hrdete Kunden prognostizieren i 7 Dateien Churntrain txt und Churnvalidate txt o Ein Telekommunikations Anbieter beauftragt Sie ein Modell zu entwickeln das gt abwanderungsgef hrdete Kunden prognostiziert 4 A Legen Sie f r jede Datei die Pr diktoren Felder und das Zielfeld uber einen Typ Knoten fest ON Sichten Sie die jeweiligen Daten ber einen Data Audit Knoten O 7 5 Bilden Sie das Kundigungsverhalten bestehender Kunden mithilfe eines neuronalen Netzes bestm glich ie 2 ab Verwenden Sie dazu die Trainingsdaten Vergleichen Sie dabei die Modelle der Trainingsmethoden Standard Boo
54. c Dipl Math Josef Bauer Katholische 6 1 K nstliche Neuronale Netze Anwendungsbeispiel 134 m Auf der Registerkarte bersicht eines generierten Modells werden Informationen ber die Felder die Aufbaueinstellungen und die Modellsch tzung angezeigt Die Ergebnisse werden in einer Baumansicht dargestellt die durch Klicken auf bestimmte Elemente erweitert bzw reduziert werden kann CHURNED dy Datei Generieren f Ansicht gt yorschau_ 6 ol BHh83aL Bedeutsamkeit der Variablen International Ansicht pslet esusuteemiet gervaranin Bedeutsarnkeit der Variablen bersicht Einstellungen Anmerkungen nani OK Abbrechen Anwenden Anwenden Zur cksetzen CHURNED SlDatei Generieren gf Ansicht JE Vorschau IE elel S Alles ausblenden To Alles anzeigen Er gt Analyse Geschatte Genauigkeit 74 265 oe Eingabeschicht 15 Neuronen verdeckte schicht 1 3 Neuronen 0 Ausgabeschicht 3 Neuronen Eble Analyse von ChurnValidate tt 11 07 2010 15 37 06 Anzahl der Datens tze 369 Analysegenauigkeit 78 591 a Felder ziel egy CHURNED S Pradiktoren 9 AGE 9 CHILDREN i Car Owner 9 DROPPED P Est_Income 9 International u amp LOCAL 9 LONGDIST Om LocalBillType O8 LongDistanceBillType gb PAY_MTHD Fe cm SEX Om STATUS eB gt Aabaveinstlurge Partitionierte Daten verwenden falsch Scores f r Rohneigung bere
55. che Neuronale Netze 132 Generierte Modelle m Die generierten Modelle k nnen in Streams eingebaut werden um bspw neue Daten mithilfe des Modells zu bewerten Dazu In der Palette der generierten Modelle doppelt auf einen generierten Modellknoten klicken bzw das Symbol bei gedr ckter linker Maustaste in den Stream Zeichenbereich hineinziehen Mit der rechten Maustaste auf einen generierten Modellknoten klicken und im Kontext Men Zu Stream hinzuf gen ausw hlen F Hesse und Prof Dr Wilde ye ftsinformatik gt Data Mining Methode CHURNED P amp gt Data Mining Modell CHURNED iversitat Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische r t a iversitat Eichst ttIngolstad Sc Bauer Vor Katholische Lehrstuhl fur ABWL und Wirts chaftsinformatik i version Dr Frank Hesse und Prof Dr Wilde i 6 1 K nstliche Neuronale Netze 133 Anwendungsbeispiel m Beim Testen des Modells wird der gleiche generierte Modellknoten verwendet da genau dieses Modell untersucht validiert werden soll C a CHURNED 4 Lu gt Churn rain tet C Oo rn 3 o 3 gt 2 gt ZhurmWalidate tet Typ CHURNED_schnell Hesse und Prof Dr Wilde golsta ftsinformatik N x Vorversion Dr Frank J iversit t Eichst tt Lehrstuhl f r ABWL und Wirts
56. cheidungsb ume 154 C5 0 Rules d xi 2 SJB Experteneinstellungen Reduktionsgrad Bestimmt die St rke des Prunings weseinane ee ee Ein h herer Wert erzeugt einen li Partitionierte Daten verwenden Fi Modell f r jede Aufteilung aufbauen kleineren Baum ein niedriger einen gr eren und detaillierteren Baum ne aree Werte zwischen 0 und 100 sind Verst rkung verwenden Anzahl der versuche Ausgabetyg Ent cheidungsbaum E Regelmenge io el nstel bar voreingestel It ist 15 F Kreuzwalidieren Anzahl der Kreuzvalidierungen 10 Modus Reduktionsqrad golsta iversitat Eichstatt Katholische i Hesse und Prof Dr Wilde ftsinformatik Vorversion Dr Frank aoe J gae Bauer Lehrstuhl f r ABWL und Wirtsc Dipl P 6 2 1 Entscheidungsb ume bung 6 2 1 155 et m C5 0 Entscheidungsbaum erstellen Datei ChurnTrain txt Entwickeln Sie ein C5 0 Modell mit der Input Datei ChurnTrain txt und der Zielvariable CHURNED Versuchen Sie das Ergebnis zu interpretieren Vergleichen Sie das erhaltene Ergebnis mit dem Resultat des zuvor in bung 6 1 1 erstellten neuronalen Netzes Verwenden Sie dazu den Auswertungs Knoten Welche Empfehlungen k nnen in Bezug auf unsere Ausgangsproblemstellung K ndigungspr vention an die Marketing Abteilung gegeben werden Was versteht man unter einer Regelmenge und wie kann man diese erstellen Stream speichern unter
57. cheinlich Welche Kunden waren zahlungsun T 2 Management eine gute Bonit t Wird sich die f hig D A Bonit t ndern ab 2m z v gt x w oS O Lehrstuhl f r ABWL und Wirtsc Katholische 1 Analytisches CRM Data Mining Analysen m Automatisches Durchsuchen gro er Datenmengen und Erkennen von n tzlichen Mustern Beispiele a il be i J T n Erstellen von Kundenprofilen Ermitteln von Kundenkapitalwerten f Erkennen und Vorhersagen von Betrugsf llen Fi Hesse und Prof Dr Wilde Ermitteln und Vorhersagen von Sequenzen in Website Daten Vorhersagen von zuk nftigen Trends bei Verkaufszahlen vn Dr Frank Zielgruppenselektion f r Mailingaktionen Einsch tzung von Bonit t bzw Kreditrisiko Vorhersagen der Kundenverlustrate Klassifizieren von Kunden Dipl Math Josef Bauer Vorversion 1 Analytisches CRM 6 Praxisbeispiel fur Data Mining Anwendung Data Mining Modell f r die Gew hrung eines Altersvorsorgeplans einer Bank m Pension Scheme Analyzer E 3 im x Fie Info Ein Modell wird aufgrund historischer Merkmalsauspr gungen in Kundendaten Savings Bank Germantown trainiert entwickelt ber sog Solution Publishers kann das Basisinfo vorab erstellte Modell allen Mitarbeitern o f age Income 120000 children z B im CIC in der Anfrageabwicklung Sex Area operativ zur Verf gung gestellt werden male female TO
58. chnen falsch bersicht Er ALN Abbrechen Anwenden Zur cksetzen d Prof Dr Wilde F F esse un 6 1 K nstliche Neuronale Netze Anwendungsbeispiel m Inder Datenbasis werden zwei neue Datenfelder erzeugt N Churned Prognose des Netzwerks f r das entsprechende Ausgabefeld NC Churned Konfidenzwert der Prognose ii Tabelle 17 Felder 1 108 Datens tze Datei Bearbeiten Generieren ra f y atik ftsinfor J Jniversit t Eichst tt Ingolsta Math Josef Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl x Vorversion Dr Frank He ID CHURNEDSSN CHURNED NC CHURNED wol a inol 4 ol 10 wol 11 inol 13 wol 19 ol 20 ol 22 Current 260l 20 Current su Current 320l 33 Current 40 Current 490l 55 Current 59 Current bo ol 69 inol f r Frank Hesse und Prof Dr Wilde ddistagh matik chst ttdfn Vorversion D ftsinform J iversitat Eichst tt maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dipl 6 1 K nstliche Neuronale Netze Anwendungsbeispiel m Evaluierung des erzeugten Modells Matrix Knoten Analyse Knoten Auswertung Knoten 136 Matrix Knoten Vergleich der prognostizierten mit den tats chlichen Werten Trennscharfetabelle Ausgew hlt Alle Flags wahre Werte Alle numerischen Werte amp CHURNED E amp SuCHURNED OOOO d Fehlende Werte einschlie en Zelleninhalte
59. deployment of the model it is important to more thoroughly evaluate the model and review the steps executed to construct the model to be certain it properly achieves the business objectives A key objective is to determine if there is some important business issue that has not been sufficiently considered At the end of this phase a decision on the use of the data mining results should be reached Deployment Creation of the model is generally not the end of the project Even if the purpose of the model is to increase knowledge of the data the knowledge gained will need to be organized and presented in a way that the customer can use it Depending on the requirements the deployment phase can be as simple as generating a report or as complex as implementing a repeatable data mining process In many cases It will be the customer not the data analyst who will carry out the deployment steps However even if the analyst will not carry out the deployment effort it is important for the customer to understand up front what actions will need to be carried out in order to actually make use of the created models i Dr Frank Hesse und Prof Dr Wilde Ingolstadt f haftsinformatik f ersion Vorv e Universitat Eichstatt Lehrstuhl fur ABWL und Wirtsc Dip _ Math Josef Bauer Katholisch 2 IBM SPSS Modeler Grundlagen 12 Die Arbeitsoberflache MStreami IBM SPSSi Modeler Datei Bearhe BI TEEPE ea M
60. dt A Auswertung Zur grafischen Evaluierung und zum Vergleich von Modellen fur ABWL und Wirtsc Dip Math Josef Bauer Vorversion D Katholische Lehrstuhl f n Dr Frank Hesse und Prof Dr Wilde golstadt sinformatik M aft C versio f iversitat Eichst tt Lehrstuhl f r ABWL und Wirts Dipl Math Josef Bauer Katholische 3 Knoten bersicht 39 Modelle te Datenquellen Datensatzoperal ionen E j Feldoperatione hii Diagramme E Ausgabe P Exportieren HOMS SPS gt SE SASIE nasen a a Klassifizierung Assoziation Autom Klassifizierer Autonumerisch Autom Cluster Zeitreihe C amp R Baum Guest CHAID Entscheidungsliste Linear Regression F aktor H etane rk 25 0 WMerkmalsauswahl bDiskriminanz Segmentierung veovwweo e o 0 Logistisch Genlin GLMM Cox SVM Gayes Netz SLAM APrioi Carma Sequenz K Means Kohonen TwoStep Anomalie KNN R mei Neuronales Netz ee Kohonen __Logistiscn GenLin Regressionsanalyse GLMM Cox SVM Support Vector Machines C amp R Baum Quest CHAID SLRM Entscheidungsliste i Entscheidungsbaum Faktor Faktorenanalyse Vor Merkmale nach Merkmalsauswahl Wichtigkeit ausw hlen ___ TwoStep _ Anomalie Clusteranalyse Diskriminanz Diskriminanzanalyse KNN k nearest neighbours Autom EEE Kombinationsmodelle Autonumerisch u Autom Cluster Carma Assoziationsanalyse Sequenz Bayes Netz Bayes sche Netze Zeitreih
61. e fFehend berpr fen Rolle 2 a Keine a Einga iD Nummer kf stetig 10000 Keine Yu Einga Bits Keine a Einga Er stetig 15 50 Keine k Einga 0 Tats 2 Keine Ne Einga amp stetig 15045 Keine M Einga n N s Keine a Einga G Mominal Hann Keine k Einga E5 Keine a Eirias G Mominal Single g Keine M Einga iT lt Keine u Einga g Stetig 0 4 Keine u Einga 05 Keine M Einga 7 Stetig 0 6 Keine MW Einga 5 gt Keine Ww Einga Flag w che Keine u Einga N _ Be Keine No Einga Flag neinja Keine wW Einga oS Keine Na Einga 2 Stetig 0 5 Keine Sw Einga c Y Keine Nv Einga a Stetig 0 3 Keine u Einga IE N Einga 7 Schad Keine Sw Einga DS ee 5 Aktuelle Peer ANZEIGE e Micht verwendete Feldeinstellungen anzeigen Aktuelle Felder anzeigen Nicht verwendete Feldeinstellungen anzeigen 5g 352 ar O 4 Einlesen von Daten 52 Datentypen im Modeler Bezeichnung im Modeler Bedeutung Stetig Numerisch ganze Zahlen 0 100 gt reelle Zahlen oder OSs ZS 6 Datum Uhrzeit 2 Kategorial Zeichenkettenwerte wenn ID_ABCD1234 z eine exakte Anzahl g unterschiedlicher Werte nicht 0 bekannt ist xX 38 Flag Bin r 1 0 z Ja Nein Of wee S Nominal Nominal gelb gr n blau Eng 1 2 3 sae gt Ordinal Ordinal Mehrere unterschiedliche geg Werte die eine nat rliche P D Reihenfolge aufweisen 22 5 B lt a
62. elle Dazu werden folgende Schritte ausgef hrt Zusammenf hren unterschiedlicher Datenquellen WT a il be i J T a Bilden neuer aussagekr ftiger Variablen Aggregation auf die betrachtete Analyseeinheit Granularit t Bsp Bankkunde Separate Datens tze f r jedes Konto f r jede Person oder fur jeden Haushalt i i Fi Hesse und Prof Dr Wilde m Bei der Datenaufbereitung stellen sich die Fragen Dr Frank i Lehrstuhl f r ABWL und Wirtschaftsinformatik Sind die Modell Anforderungen erf llt z B Skalenniveaus Datentyp Ist ein hohes Datenqualitatsniveau gew hrleistet z B Missing Values iversit t Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Katholische golstadt ftsinformatik in iversitat Eichstatt Katholische ch V f sion Dr Frank Hesse und Prof Dr Wilde af Bauer Lehrstuhl fur ABWL und Wirts Dip if i Vor 5 Datenaufbereitung 59 Datenanalyse m Einen schnellen groben berblick ber die Daten erh lt man mit dem Data Audit Ausgabe Browser durch Ausf hren des Data Audit Knotens fe Datei Bearbeiten Ey Generieren og 1 Ir Fe CECT Ks En eee q L i ta ILN E MErEI ner Diagramm Messung i blax Mittelwert Std Abm Schiete Kategorien F lle g ltig stetig 4999 2508 382 1468 655 0 019 1508 29 392 13 672 g Stetig 450 624 51 595 g Stetig ae Nominal 5 Flag Al Lo
63. ellen Sie sie mithilfe eines Tabellen Knotens dar i i m Feld Risk stehen Angaben zum kundenindividuellen Kreditrisiko bad loss schlechte Bonit t und Verlust bad profit schlechte Bonit t aber noch Gewinn good risk gute Bonit t Fi Hesse und Prof Dr Wilde Dr Frank F j Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Entwickeln Sie mithilfe eines neuronalen Netzes ein Modell dass die Bonit t zuk nftiger Kunden vorhersagt Wie k nnte ein Stream in Modeler grunds tzlich aussehen F hren Sie zun chst die Datenaufbereitung durch Entwickeln Sie in Modeler ein Modell und versuchen Sie es zu optimieren Wozu k nnte ein derartiges Modell in der Praxis eingesetzt werden Stream speichern unter bung 6 1 2 40 YN O O lt D dp ka LLI _ D dp ab gt Katholische y F r Dr Frank Hesse und Prof Dr Wilde f matik F j ngolstadt ftsinfor iversitat Eichstatt Vorversion Lehrstuhl fur ABWL und Wirtsc Dipl Math Josef Bauer Katholische 6 1 K nstliche Neuronale Netze 143 bung 6 1 2 Was fehlt in diesem Stream Transfor ion 11 Felder abelle x Risiko TAND RiskTrain tet Umkodierung Filter J a ee 8 gt 12 Felder Einkommen_log10 Balancieren_Risikoge Filter RisikolA0pST Fi I i I 4 f
64. en gt Zeitreihenanalyse Hesse und Prof Dr Wilde z ngolsta ftsinformatik Vorversion Dr Frank F J iversitat Eichst tt i Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 3 Knoten bersicht 40 Ausgabe ae wm mM m Tabelle Matix Analyse Data Audit Transformieren fi Statistik Mittelwerte Bericht Giobalwerte Simulationsanpassung R Ausgabe Simulationsevaluierung gt E Tabelle Darstellung der verf gbaren Daten in einer Tabelle Matrix Darstellung in einer Kreuztabelle Q Analyse Analyse von Modellen durch verschiedene Vergleiche zwischen den u vorhergesagten Werten und den tats chlichen Werten bei Modellen mit berwachtem Lernen erm glicht auch Fehlklassifizierungstabellen Data Audit Erm glicht einen umfassenden ersten Blick auf die Daten zu werfen Ubersichtsstatistiken Histogramme Verteilungsdiagramme Informationen zu AusreiBern Extremwerten und fehlenden Werten Transform Schnelle Sichtpr fung der Verteilung einzelner Datenfelder und Vorschlage zur Transformation Ableitungs oder Fullerknoten lassen sich ggf generieren die dann Transformationen durchf hren iversitat Eichstatt Ingolsta wf Lehrstuhl fur ABWL und Wirtsch ftsinf Katholische Fi Hesse und Prof Dr Wilde l Dipl Math Josef Bauer Vorversion Dr Frank P 3 Knoten bersicht Ausgabe Statistik Mittelwerte Bericht Globalwe
65. ens tze in mehreren Datenfeldern Missing Values vorweisen Fi Hesse und Prof Dr Wilde vn m Datenfelder ignorieren Falls einige Datenfelder viele Missing Values enthalten ist es oftmals sinnvoll sich auf die vollst ndigen Merkmale zu konzentrieren iversit t Eichst tt Ingolsta ih Dipl Math Josef Bauer Vorversion Dr Frank Katholische Quelle Berry Linoff 2000 Mastering Data Mining S 177 ff 5 Datenaufbereitung 68 Ma nahmen bei Missing Values 2 2 Imputation Fehlende Werte k nnen prognostiziert werden Weniger ausgekl gelt aber in begr ndeten F llen dennoch sinnvoll ist es fehlende Werte durch Konstanten zu ersetzen zum Beispiel durch Mittelwert numerische Daten Median ordinale Daten oder durch den h ufigsten Wert nominale Daten Fi Hesse und Prof Dr Wilde m Separate Modelle bilden H ufig und gerade im Fall nicht existierender Daten ist es m glich das Problem zu umgehen indem man die Kunden basierend auf den vorhandenen Daten segmentiert wh Anderung operationaler Systeme Beispielsweise kann durch die Anderung von Dateneingabemasken erreicht werden dass bislang nicht gespeicherte Informationen zukunftig erfasst werden Dieser Ansatz ist allerdings rein in die Zukunft gerichtet iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Dr Frank Katholische Quelle Ber
66. er Bedingung Set Kategorisieren von Feldern Status Ein und Ausschalten eines Wertes in Abh ngigkeit einer Bedingung Anzahl Erh ht den Wert des neuen Feldes wenn die Bedingung erf llt ist Bedingt Bedingte Berechnung iversitat Eichst ttIngolstadt Lehrstuhl fur ABWL und Wirtsc Fuller Feldwerte ersetzen um bspw Nullwerte durch einen bestimmten Wert zu ersetzen Dipl Math Josef Bauer Vorversion Dr Frank Katholische 3 Knoten Ubersicht 32 Feldoperationen Verlauf Feker ordnen Be Umcodieren Transformation eines Sets diskreter Werte in ein anderes Bsp Umkodieren der Werte des Datenfelds Produkt in die drei Gruppen M bel K chenzubeh r sowie Bad und S Bettw sche Anonymisieren Verschleiern von Feldnamen und oder werten u a Klassierung Kategorisieren von Variablen Vorversion Dr Frank Hesse und Prof Dr Wilde iversitat Eichstatt ngolstadt zusammengesetzten Score sog Meta Modelling F z B Altersklassen Einkommensklassen etc z RFM Analyse RFM Analyse Recency Frequency Monetary Analyse A fe SES amp Ensemble Verbindung mehrerer Modellscores zu einem 2 Katholische Lehrstuhl 3 Knoten bersicht 33 Verlauf Feker ordnen gt Partition Zuf lliges Aufteilen der Daten in Partitionen z B f r Training Test und Validierung O 0 3 u 2 amp Dichotom Generiert neue dichotome Felder Fl
67. erfolgen 40 Yn O O C D U c LLI D dp ab gt Katholische 6 1 Kunstliche Neuronale Netze 129 Ubertrainieren verhindern i Keine Ziele x Die Modellierung neuronaler Netzwerke zerlegt Datens tze in ein Modellerstellungsset und ein Set zur Pr vention berm lziger Anpassung Geben Sie einen Prozentsatz der Datens tze f r das Set zur Pr vention berm lsiger Anpassung an Set zur Pr vention Ubermaiger Anpassung 9 Erzeugen Sstartwert f r Zufallsgenerator 2291 76228 Fehlende Werte in Pr ciktoren li Listerweise l schen Fehlende Werte imputieren atik fr Frank Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion D F aftsinfor m Bei dieser Option werden die Daten zum Zwecke der Modellerstellung zuf llig in getrennte Trainings und Test Sets aufgeteilt Das Netzwerk wird mit dem Trainings Set trainiert und die Genauigkeit wird mit dem Test Set abgesch tzt Den Anteil der f r den Test zu verwendenden Daten geben Sie im Feld Set zur Pr vention berm iger Anpassung des Netzwerkknotens an Der Rest der Daten wird f r das Training verwendet iversit t Eichst tt adstag Lehrstuhl f r ABWL und Wirtsc Katholische matik Vorversion Dr Frank Hesse und Prof Dr Wilde golstadt ftsinfor J iversitat Eichst tt ae Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl A if
68. fe Finden Sie heraus welche Optionsparameter sich beim Knoten Datei var einstellen lassen Wozu dient der Knoten Data Audit KM Data Audit Was ist CLEM Suchen Sie in den Dokumentationsunterlagen nach einer Abbildung des CRISP DM Prozessmodells Ubersicht li mPa PB V N Analytisches CRM IBM SPSS Modeler Knoten Ubersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle 3 Knoten Ubersicht 27 Datenquellen O00900 is Analytic Server Datenbank Datei var Datei fest Statistikdatei Data Collection IBM TM1 Import IBM Cognos Bl SAS Datei Excel XML Eingabe Datenansicht Simulationsgenerierung b 5 Analytic Server Erm glicht die Ausf hrung eines Streams in HDFS E Hadoop Distributed File System 7 L Datenbank Datenimport aus Datenbanken ber ODBC f atik m Datei var Datenimport aus Textdateien mit Feldern variabler Gr e Datei fest Datenimport aus Textdateien mit Feldern fester Gr e iversit t Eichst tt Ingolstadt Lehrstuhl f r ABWL und Wirtsch ftsinfor Statistics Datei Importieren von SPSS Dateien Dipl Math Josef Bauer Vorversion Dr Frank Katholische 3 Knoten Ubersicht 28 Datenquellen is Analytic Server Datenbank Datei var Datei fest Statistikdatei Data Collection IBM TMI Import IBM Cognos BI SAS Dat S Ta Data Collection Importieren von Umfragedaten auf der Grundlage des o Data Collection
69. fizierungen des Vorg nger Baums im Fokus stehen Anzahl der Modelle l sst sich einstellen hohe Anzahl verbessert Genauigkeit erh ht jedoch die Rechenzeit Kreuzvalidieren Wenn zu wenig Datens tze zur Bildung von getrennten Trainings und Validierungs mengen vorliegen wird das Gesamt Modell mit kleinen Teilmengen kreuzweise validiert golsta iversitat Eichstatt Katholische ftsinformatik Vorversion Dr Frank Hesse und Prof Dr Wilde E J ae Bauer Lehrstuhl f r ABWL und Wirtsc Dipl P 6 2 1 Entscheidungsb ume 153 C5 0 m Fehlklassifizierungskosten Verschiedene Fehlklassifizierungen sind nicht immer mit den gleichen Kosten verbunden bspw ist es meist teurer ein hohes Kreditrisiko als niedrig einzustufen als umgekehrt Fehlklassifizierungskosten verwenden vorhergesagt Alle Kosten sind voreingestellt bei 1 0 gleiche Kosten und k nnen in der u o _ Matrix ge ndert werden nol 10 0 0 10 Ist Wal 1 0 1 0 0 0 Manuelle nderungen sind nicht automatisch symmetrisch Wenn die Kosten einer Fehlklassifikation von A als B auf 2 0 gesetzt werden bleiben die Kosten einer Fehlklassifizierung von B als A weiter bei 1 0 i p ngolstadt sinformatik M t C f Vorversion Dr Frank Hesse und Prof Dr Wilde J iversit t Eichst t Lehrstuhl f r ABWL und Wirts Dipl Math Josef Bauer Katholische 6 2 1 Ents
70. gebene Anzahl gew nschter Cluster Means deutet darauf hin dass der Mittelpunkt eines Cluster jeweils das Cluster repr sentiert Als DistanzmaB wird die Euklidische Distanz verwendet Idee Auf Basis von mathematischen Ahnlichkeiten wird iterativ jeder Datenounkt einem Cluster zugewiesen Ablauf 1 Festlegen der Clusterzahl 2 Zuf llige Wahl der Clusteranfangszentren 3 Sukzessive Auswahl aller Datenpunkte und Berechnung der Distanzen zu allen Clusterzentren 4 Zuweisen zum n chstgelegenen Zentrum 5 Nach Durchlauf Berechnung der aktualisierten Clusterzentren 6 Wiederholen bis Abbruchkriterium erreicht ist 189 6 4 1 Cluster Analyse PIIM JG JoAd pun assaty yuelly sa UOIS yeulugyuis yoejsobuy Welsyoly yeysueAluf Syas loyyey i Quelle http home dei polimi it matteucc Clustering tutorial_html AppletKM html pron jyoneg jaso uren dq ISHIM PUN TMEV ADs 14N S149 d Prof Dr Wilde li esse un He z golsta n ftsinformatik coe Dr Frank J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 6 4 1 Cluster Analyse K Means m Grundeinstellungen Anzahl der Cluster Die Anzahl der Cluster wird vorab ein gestellt Die Default Einstellung f r die Anzahl der Cluster betr gt 5 Je nach Datenlage z B sehr heterogene Daten sehr gro e Datenmengen etc sollte diese ver ndert werden Option Distanzfeld gener
71. gen werden schrittweise ge ndert sobald eine falsche Vorhersage erfolgt Je weiter das Training fortschreitet desto genauer wird das Netz bei der Replizierung der bekannten Ergebnisse Das Netz verbessert seine Vorhersagen so lange bis mindestens eines der Grenzkriterien erf llt ist Nachdem das Netz trainiert ist kann es auf zuk nftige F lle angewendet werden bei denen das Ergebnis unbekannt ist iversitat Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Dr Frank Katholische iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Katholische Fi Hesse und Prof Dr Wilde wh Dipl Math Josef Bauer Vorversion Dr Frank 6 1 K nstliche Neuronale Netze 127 Trainingsmethoden m Der Netzwerk Knoten stellt u a diese Trainingsmethoden zur Verf gung Standard Bei dem Verfahren wird ein einziges Modell erstellt um das Ziel unter Verwendung der Pr diktoren vorherzusagen In der Regel gilt dass Standardmodelle einfacher interpretiert und schneller gescort werden k nnen als mithilfe von Boosting Bagging oder durch Koppelung mit einem Server erzielte Modelle Boosting Bei dem Verfahren wird unter Einsatz der Verbesserung ein Ensemble Modell erstellt Dabei wird eine Modellsequenz erzeugt um genauere Vorhersagen zu erhalten Das Verfahren ist sehr langsam liefert jedoch zumeist gute Ergebnisse Bagging Bei dem Verfahren wird unter Einsatz der Verst rkung Bo
72. iche Data Mining Modelle beurteilen und eines davon f r die Auswertungsdaten ausw hlen zu k nnen l sst sich auch ein Lift Chart anfertigen m Ein Lift Chart beschreibt wie stark die Konzentration der interessierenden Klasse durch das Modell gesteigert werden konnte im Vergleich zu einer zuf lligen Auswahl eines bestimmten Anteils der Datens tze KI qs sifik ati on Auf der horizontalen 2 ee ee ee ee ee ee PEPE Achse wird der Anteil aller Datens tze 3 ya fn dargestellt in Zugleich repr sentiert 2 _ IR ER 2 au diese Achse einen konstanten Lift Wert i eal a ae ae ee ae ae von 1 der bei zuf lliger Auswahl aus der Anteil der Gesamtpopulation in Gesamtpopulation zu erwarten w re Gains und Lift Charts k nnen alle bestehenden Modelle ber cksichtigen Diese werden durch separate Kurven dargestellt Anhand der Kurvenf hrung l sst sich das am besten geeignete Modell ausw hlen Quelle Berry Linoff 2000 S 54 ff Ubersicht 6 1 6 2 6 3 6 4 6 5 Kunstliche Neuronale Netze Entscheidungsbaume 6 2 1 C5 0 6 2 2 C amp R Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori 6 1 K nstliche Neuronale Netze 125 Grundlagen Der Netzwerk Knoten wird verwendet um Multi Layer Perzeptron MLP Netze Lg nm ZU erzeugen MLP Netze bestehen aus Schichten von Neuronen bei denen jedes Neuron mit allen Neuronen der vorher
73. iefert interessieren uns insbesondere die Patienten die von dem prognostizierten Wert stark abweichen Diese Abweichungen m ssen nicht zwangsl ufig auf Betrug zur ckzuf hren sein die Betrugswahrscheinlichkeit ist jedoch erh ht m Betrugserkennung Datei insclaim dat a il be i J T a i i Fi Hesse und Prof Dr Wilde en 21 Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion j an Yn O O C D U c LLI D dp IL ab gt Katholische a il be i J T a i i iversit t Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Katholische Fi Hesse und Prof Dr Wilde 2 Lehrstuhl f r ABWL und Wirtschaftsinformatik Dr Frank i 6 3 1 Lineare Regression Ubung 6 3 1 2 3 teoj Laden Sie die Quelldatei insclaim dat und untersuchen Sie diese Tabelle m Aufgabe Setzen Sie dann das entsprechende Skalenniveau f r jede Variable und bestimmen Sie Input und Output Variablen Beachten Sie dass im Feld ASG Werte einer Ordinalskala enthalten sind je schwerer die Krankheit desto h her der Wert Wie w re zu verfahren wenn bspw schwer mittel leicht als Feldinhalt gegeben w ren Fugen Sie einen Regression Knoten an und editieren Sie ihn Unser Modell soll CLAIM Regression hei en Katholische je golsta ftsinformati
74. ien Match1 txt und Match2 txt ber einen gt Zusammenf hren Knoten LE Im Stream sollen dabei nur vollst ndige Datens tze verbleiben D u gt m F hren Sie eine Umbenennung des Felders erzielter Umsatz in Umsatz durch SD m Kontrollieren Sie die Daten Uber einen Tabellen Knoten und speichern Sie die Daten in ox einem Excel File Kundenumsatze_verbunden xlsx WE m Stream speichern unter bung 5 9 cok ZI So E Match tet Tabelle Tabelle iversitat Eichst tt Ingolsta Mergen Typ Filter Excel i Lehrstuhl f r ABWL und Wirtsch Match 2 tet Dipl Math Josef Bauer Vorversion Dr Frank Katholische Ubersicht E0 gt D D Analytisches CRM IBM SPSS Modeler Knoten bersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle 6 Modellierung Grundlagen 113 Test von Data Mining Modellen Methodenspezifische Tests Dienen primar der Optimierung der Methodenparameter und der Konzeption leistungsfahiger Data Mining Modelle auf der Grundlage einer spezifischen Data Mining Methode Methodenunabh ngige Tests Sind auf alle Data Mining Methoden anwendbar z B Test auf Approximations und Prognosetauglichkeit bzw auf Generalisierungs f higkeit Fi Hesse und Prof Dr Wilde m Dr Frank F Dienen prim r dem Vergleich unterschiedlicher Data Mining Methoden im Rahmen der Auswahl oder Kombination von Data Mining Methoden ih Dipl
75. ieren Bei Aktivierung wird ein Datenfeld mit dem Namen KMD Kmeans erzeugt in dem die Distanz zwischen dem 191 Modellname Automatisch Angepasst Parttionierte Daten verwenden Anzahl der Cluster BEE El Distanzteld generieren Cluster Beschrittung Zeichenkette Nummer Beschriftungspr fix Optimieren Geschwindigkeit Speicher spezifischen Objekt und dem dazugeh rigen Cluster Zentrum gespeichert wird Hinweis zur Datenaufbereitung K Means standardisiert Daten selbst ndig Hesse und Prof Dr Wilde ye golsta ftsinformatik n Vorversion Dr Frank x J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 6 4 1 Cluster Analyse 192 K Means Experten Einstellungen Stopp Kriterium Der Algorithmus stoppt die iterative Berechnung der Abstande und Distanz mae wenn ein Stopp Kriterium erreicht ist Die Standard Einstellung f hrt zu einem Abbruch nach 20 Iterationen oder wenn die gr te nderung der Cluster Zentren lt 0 000001 ist je nachdem was zuerst eintritt Einfach Experten Standard Angepasst Maximale terationen Toleranz ndern verschl sselungswert f r Sets 0 70711 i Option Verschl sselungswert f r Sets Nominale Datenfelder m ssen zur Verarbeitung in mehrere bin re Felder umkodiert werden Um zu verhindern dass umkodierte bin re Variablen die Cluster L sung dominieren is
76. igen Schicht mit gewichteten De Verbindungen in Kontakt steht Sie bestehen aus einer Eingabeschicht einer z Ausgabeschicht und einer oder mehreren versteckten Schichten g Eingabe Ausgabe hicht 2 len Verdeckte ven T Schicht xX Me to Alter Vv Einkommen ftsinfo K ndigungswahrscheinlichkeit Anzahl K ufe Im letzten Jahr sqebsny Eingabemuster Umsatz iversit t Eichst tt Ingolstadt m Radiale Basisfunktionsnetze RBFN werden im Rahmen dieser Ubung nicht behandelt Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische 6 1 K nstliche Neuronale Netze 126 Grundlagen m Voraussetzungen im Modeler Der Netzwerk Knoten erwartet mindestens ein Feld mit der Richtung Pr diktor Input are und mindestens ein Feld mit der Richtung Ziel Output a E Die hier verwendeten Netze haben keine Restriktionen bzgl der Feld Typen Es 5 k nnen alle Skalenniveaus verarbeitet werden Achtung Keine Modellrestriktionen D bedeutet nicht dass keine Aufbereitung z B Umkodierung notwendig ist m Urspr nglich sind alle Gewichtungen zuf llig und die Antworten die vom Netz stammen sind wahrscheinlich unsinnig Das Netz lernt durch Training Datens tze deren Zielwerte bekannt sind werden dem Netz wiederholt pr sentiert und die Antworten werden mit den bekannten Zielwerten verglichen wh Lehrstuhl f r ABWL und Wirtschaftsinformatik m Die Gewichtun
77. il Toleranz Modell q q Ordnung 0b an QO 5 5 a a a Abh ngige Variable CLAIM n D T f m Inder Tabelle Koeffizienten k nnen die Parameter der Regressionsgleichung n her betrachtet werden ftsinformatik Dip Math Josef Bauer Vorversion Dr Frank m Inder Spalte Beta stehen die standardisierten Regressionskoeffizienten die zum Vergleich der Wichtigkeit der einzelnen Variablen in einem multiplen Regressionsmodell herangezogen werden iversit t Eichst tt Ingolstadt m Der I Test pr ft die Nullhypothese Ho B 0 Kann die Nullhypothese f r einen Regressionskoeffizienten verworfen werden hoher empirischer t Wert dann gilt der Einfluss von X auf Y als signifkant kleiner Wert in Spalte Signifikanz Lehrstuhl f r ABWL und Wirtsch Katholische 6 3 1 Lineare Regression Ubung 6 3 1 1 3 eer Wir betrachten ein Regressionsmodell das die Versicherungsanspr che eines Patienten f r einen Krankenhausaufenthalt prognostiziert Damit sollen insbesondere im Rahmen einer Betrugserkennung Fraud Detection gr ere Abweichungen identifiziert werden Uns stehen zur Modellbildung die Variablen Alter AGE Aufenthaltsdauer LOS gt length of stay und Schwere der Krankheit ASG zur Verf gung wobei der letzte Wert wiederum aus zahlreichen Indikatoren ermittelt wird Unser Ziel Wert ist CLAIM die H he des Anspruchs Fur den Fall dass das Modell brauchbare Vorhersagewerte l
78. ische 2 IBM SPSS Modeler Grundlagen Arbeiten mit Knoten 3 3 m Knoten umgehen Um einen zuvor eingebundenen Knoten in einem Stream auszulassen den entsprechenden Knoten markieren und Doppelklick auf die mittlere Maustaste alternativ ALT Taste gedr ckt halten und Doppelklick auf die linke Maustaste i N sa Datenbank Ableiten PETE Tabelle m Knoten bearbeiten Umbenennen Optionen ausw hlen L schen etc Mit der rechten Maustaste auf den Knoten klicken und Men punkt w hlen 2 IBM SPSS Modeler Grundlagen Ubung 2 1 es Einarbeitung in die Modeler Arbeitsumgebung Erstellen Sie den abgebildeten Stream Br Hinweis Knoten bzw Stream Optionen m ssen nicht ver ndert werden a a O a de j AN due u Datei var Ableiten Ausw hlen Tabelle ye ftsinformatik P Der abgebildete Stream wird bspw verwendet um eine Datenquelle zu ffnen ein neues Datenfeld hinzuzuf gen Datens tze basierend auf den Werten im neuen Feld auszuw hlen das Ergebnis in einer Tabelle anzuzeigen iversitat Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Dr Frank Katholische f iversit t Eichst tt Ingolstadt Katholische ftsinformatik Dip Math Josef Bauer Vorversion Dr Frank Lehrstuhl f r ABWL und Wirtsch Hesse und Prof Dr Wilde 2 IBM SPSS Modeler Grundlagen 19
79. it Knoten einen Auswahlknoten f r fehlende Werte generieren Ey Data Audit von 14 Felder 7 loxi ia Datei Bearbeiten X SY Generieren Vollstndige Felder 361 Superknoten f r fehlende verte Superknoten f r Ausrei er amp Extremwerte Fitterknoten f r fehlende Werte Feld A CUSTID a NAME ial GENDER A REGION gt NUMPARTY HP HOLCOST HP NIGHTS F TRAYDATE A HOLCODE A COUNTRY A POOL A ACCOM lt DIST_TO_B a Katego Mesa el ATARE POEET DAT CEF ACA TAG PL l E ion Umkodierungsknoten gb Momina gr Stetig e Momina ee Momina g Stetig F Stetig Diagrammknoten g Stetig N I Keine g7 Stetig 0 O Keine go Morninal e Mominal B Flag gb Naminal or Stetig 1 O Keine Klassierknoten Abletungeknoten Diagrammausqabe 21 Auswahlknoten generieren a G ltig Ausw hlen wenn Datensatz Ung ltige Werte suchen in Ale Felder Ausgew hlte Felder in Tabelle Felder mit einem Qualt tsprozentsatz gr er als Datensatz als ung ltig betrachten wenn ein ung ltiger Yvert vorliegt in Eines der aufgef hrten Felder Alle aufgef hrten Felder Fehlende Werte Vollst ndig G ltige Daten Nie Fest 100 Nie Fest 100 Nie Fest 100 Nie Fest 98 681 Nie Fest 100 Nie Fest 100 Nie Fest 97 889 Nie Fest 100 Nie
80. j H ngen Sie einen Typknoten an und stellen Sie die Rollen ein Beachten Sie dass manche Variablen zugleich Input als auch Output fur den A Priori Algorithmus sind m A Priori Assoziationsanalyse Lesen Sie die Datei shopping txt ein a il be i J T a Um einen ersten Eindruck zu bekommen f hren Sie den A Priori Knoten ohne Veranderungen aus Fur Mindest Support und Konfidenz sind die Werte 10 bzw 80 eingestellt i i Fi Hesse und Prof Dr Wilde F hren Sie das Modell aus und betrachten Sie die Daten im Tabelle Knoten en j za Lassen Sie sich die Ergebnisse anzeigen Wie viele Regeln werden erzeugt Wie viele Attribute enthalten diese maximal Wie m ssen die Einstellungen ver ndert werden wenn mehr Regeln angezeigt werden sollen Erstellen Sie ein neues Modell und interpretieren Sie die Ergebnisse Was sind gute Regeln und warum 40 Yn O O C D U c LLI D dp ab gt Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion Katholische 6 5 1 Assoziationsanalyse A Priori Datei Y Generieren Modell Einstellungen bersicht Abbrechen O k a Sortieren nach Konfidenz ov il VY a vr Q i m F egel D r P O Sukzedens Antezeders Instan aie ae Kantidenz Litt X Instanzen ch panei goods al 55 i 9
81. k stale Vorversion Dr Frank iversitat Eichstatt af Bauer Lehrstuhl fur ABWL und Wirtsc Dip Hesse und Prof Dr Wilde J 6 3 1 Lineare Regression bung 6 3 1 3 3 179 Rn m Betrugserkennung Datei insclaim dat Um unserem Ziel der Betrugserkennung n her zu kommen sind weitere Schritte notwendig Wir ermitteln mit Hilfe eines Ableiten Knotens DIFF die Differenz zwischen den tats chlichen Kosten CLAIM und den prognostizierten Kosten E CLAIM Da wir vor allem an den gro en Abweichungen interessiert sind sortieren wir die Werte Sortieren Knoten und lassen uns das Ergebnis mit einem Tabelle Knoten anzeigen Interpretieren Sie das Resultat ii Tabelle 6 Felder 293 Datens tze 2 1 1 1 1 2 0 0 0 0 0 m abelle Anmerkungen 11157 400 11715 200 5 727 000 ofo2 200 6459 000 6606 600 679 000 799 000 452 200 64 75 000 4753 230 925 747 3607 050 0029 191 3797 594 965 536 207 904 9374 931 9107 667 4369 202 ox 2105 498 7 Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp RT Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr F
82. kmals auspragung ja zutrifft falschlicherweise nein vorhergesagt oder umgekehrt m Meist lassen sich bei der Bewertung von Data Mining Modellen die beiden Fehlklassifikationsarten gewichten bspw nach den unterschiedlichen Kosten einer Fehlklassifikation Fi Hesse und Prof Dr Wilde Beispiel Bei medizinischen Krebsuntersuchungen muss man sich auf die Aussage nein eines Krebserkennungstests verlassen k nnen Lieber wurde man im Zweifel weitere Tests veranlassen als in Kauf zu nehmen dass die Krankheit bei Patienten unentdeckt bleibt Dr Frank j Anders verh lt es sich bei Vorhersagen welche Personen auf ein Werbe Mailing reagieren werden Hier sind f r Personen die falschlicherweise als Reagierer eingestuft werden jeweils die Kosten eines Mailings anzusetzen und f r Reagierer die gar nicht erst angeschrieben werden die durchschnittlich entgangenen Gewinne ih Dipl Math Josef Bauer Vorversion Quelle Berry Linoff 2000 S 54 ff Katholische Universit t Eichst tt Ingolsta Lehrstuhl f r ABWL und Wirtschaftsinfo 6 Modellierung Grundlagen 120 Evaluation Gains Chart Cumulated Response Chart m Visualisiert den Nutzen von Data Mining Modellen m Wie beim Lift Chart werden die Datens tze absteigend angeordnet so dass die D S Elemente mit gr erer Zugeh rigkeitswahrscheinlichkeit Zur interessierenden Hog Klasse links stehen Klassifikationsmodell z m Die
83. ktors Ziel CHURNED LOCAL LongDistance BillType DROPPED STATU 0 0 0 2 0 4 0 6 0 8 10 Am wenigsten wichtig Am wichtigsten Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp R Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori iversitat Eichst tt Ingolsta Katholische F Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank ye ftsinformatik ih Lehrstuhl f r ABWL und Wirtsch P 6 2 2 Entscheidungsb ume 160 C amp RT a Der Klassifizierungs und Regressionsbaum Knoten erm glicht eine Entscheidungsbaum gest tzte Klassifikation und Prognose hnlich wie das C5 0 Verfahren benutzt C amp R eine rekursive Partitionierung um den Trainings datensatz in Segmente mit hnlichen Werten in den Output Feldern aufzuteilen CHR Bau m Bei den Grundeinstellungen des C amp R Trees ist nur die maximale Baumtiefe einstellbar Die Experten Einstellungen hingegen sind sehr differenziert und werden im Rahmen der Ubung nicht behandelt f golstad F rmatik Vorversion Dr Frank Hesse und Prof Dr Wilde ftsinfo J iversitat Eichst tt maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dipl ze 161 6 2 2 Entscheidungsbaume Ubung 6 2 2 i C amp RT Entscheidungsbaum erstellen Da
84. lues in unserem Beispiel aussehen F hren Sie die Datenbereinigung durch und berpr fen Sie die Ergebnisse Stream speichern unter bung 5_2 1 gt _ Tores nam WY S Tabelle So k nnte der Stream aussehen aE GE GE rawdata tet Typ Neon MY fields 8 Felder bei unbekannten Ov a KB Knoten kann die 4 Modeler Hilfe verwendet werden wi a drop all W sets Tabelle fannie Statistiken Globalwerte 3 LO Filler 4 Felder roo i A lt I SS A g Felder F ller generiert 4 Felder Lenmemmmnenmmnnunumel d Prof Dr Wilde F F esse un i golstadt rmatik Vorversion Dr Frank He n ftsinfo J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 5 Datenaufbereitung 79 Datenqualitat Duplikate 3 gt Duplikat Knoten bwit Mit einem Duplikat Knoten k nnen doppelte Datens tze anhand mehrerer Felder erkannt werden Einschlie en Nur jeweils den ersten Datensatz in den Stream aufnehmen Verwerfen Den ersten gefundenen Datensatz verwerfen und stattdessen etwaige doppelte Datens tze an den Daten Stream bergeben Zusammengeseizten Datensatz f r jede Gruppe erstellen Aggregation f r nichtnumerische Felder Keine Felder ausgew hlt PF Felder ausw hlen Sortieren nach Nat rlich Name Typ par Modus Mur den ersten Daten
85. me in verschiedenen Dateien gespeichert haben z B zwei Absatzdatendateien f r M rz und April Angenommen diese Dateien weisen dieselbe Struktur dieselben Felder in derselben Reihenfolge auf werden sie mit dem Anh nge Knoten in einer gro en Datei zusammengefasst die anschlie end analysiert werden kann Hat eine Datel mehr Felder als die erste Datei werden diese automatisch mit field7 field8 benannt Sind weniger Felder vorhanden werden diese mit null aufgef llt Bei der Zusammenf hrung der Daten m ssen die einzelnen Felder das gleiche Skalenniveau aufweisen Diese Einstellungen werden im Typ Knoten vorgenommen sS O se und Prof Dr Wilde a fisinforatik 4 1eS iversitat Eichstatt Ingolsta Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Vorversion Dr Frank Katholische 5 Datenaufbereitung Datenanreicherung Anhangen Knoten Anh ngen Galaxy S4 134652346 234462645 356835688 467945679 200 120 50 L iPhone 5 Xperia Z HTC One 134652346 234462645 356835688 467945679 230964575 134627627 264796745 226373567 200 120 50 120 200 50 50 102 235564575 120 LG Optimus G 134627627 200 HTC One X 264796745 50 iPhone 4s 226373567 50 Galaxy Note 2 Galaxy S4 iPhone 5 Xperia Z HTC One LG Optimus G HTC One X iPhone 4s Galaxy Note 2 5 Datenaufbereitung 103 Datenanreicherung 7 Lusammenfuhren Knoten
86. n Modell f r jede Aufteilung aufbauen Methode Konstante Schritt f r Schritt werden jeweils die Variablen hinzugef gt die nach statistischen Kriterien die besten Vorhersagewerte liefern Nach jeder Erg nzung werden die bereits enthaltenen Variablen abermals berpr ft und ggf wieder entfernt Dieser Prozess wird fortgesetzt bis keine weitere Verbesserung mehr stattfindet Vorw rts Identisches Vorgehen wie bei Schrittweise allerdings keine Uberpr fung und nachtr gliche Eliminierung Ruckwarts Zun chst werden alle Input Variablen bernommen und dann die am wenigsten signifikanten entfernt F f dt matik F j ftsinfor x Vorversion Dr Frank Hesse und Prof Dr Wilde I Jniversitat Eichst tt Ingolsta Math Josef Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl 6 3 1 Lineare Regression Einstellungen im Modeler m Der Ergebnis Nugget enth lt die berechnete Regressionsgleichung H AUfbaueinstellungen H Trainingsdbersicht 172 6 3 1 Lineare Regression 173 Einstellungen im Modeler m Weitere Aussagen insbesondere zur Modellg te lassen sich im Experten Modus einstellen e 2 5 Frank Hesse und Prof Dr Wilde Lineare Regression Erweiterte Ausgabeoptionen x h oe Einfach B Expert Fi Anpassungsqute des Modells Fi Regressionskoettizienten DALS INTaC xHEFTET
87. nd Prof Dr Wilde ftsinformatik ih Lehrstuhl fur ABWL und Wirtsch Dr Frank j Dipl Math Josef Bauer Vorversion 2 IBM SPSS Modeler Grundlagen 14 Verwenden der Maus Einfaches Klicken der linken rechten Maustaste Optionen aus Men s ausw hlen Kontextsensitive Men s ffnen Verschiedene andere Standardsteuerelemente und Optionen verwenden Dr cken mit Halten der linken Maustaste Knoten verschieben bzw ziehen im Zeichenbereich aus Palette in Zeichenbereich Doppelklicken der linken Maustaste Knoten auf dem Stream Zeichenbereich ablegen aus Palette Optionen bereits vorhandener Knoten bearbeiten Mittlere Maustaste bzw Scrollrad sedr ckt halten und Cursor ziehen um Knoten im Stream Zeichenbereich miteinander zu verbinden 2 IBM SPSS Modeler Grundlagen 15 Arbeiten mit Knoten 1 3 Knoten auf dem Stream Zeichenbereich ablegen Doppelklick auf das Knoten Symbol Knoten wird automatisch mit dem aktuellen Stream verbunden a il be i J T a Knoten per Drag and Drop aus der Palette in den Stream Zeichenbereich ziehen Markieren des gew nschten Knotens im Paletten Fenster und ablegen des Knotens durch einfachen Mausklick an der entsprechenden Stelle im Stream Zeichenbereich i i Fi Hesse und Prof Dr Wilde Knoten verschieben Entsprechenden Knoten im Stream Zeichenbereich markieren und bei gedruckter linker Maustaste verschieben
88. nd Wirtsch j Dr Frank Dipl Math Josef Bauer Vorversion 3 Datenaufbereitung bung 5 7 teoj Untergliedern Sie die Daten in eine Trainings 40 Test 30 und Validierungsmenge 30 Erg nzen Sie den Stream um einen Partitionsknoten Fassen Sie alle Knoten zwischen dem Quellknoten und dem Partitionsknoten in einen Superknoten zusammen Exportieren Sie die Datens tze der Trainings Test und Validierungsmenge in die entsprechenden Dateien rawdata_train txt rawdata_test txt und rawdata_valid txt Feldtrennzeichen i Stream speichern unter Ubung 5 7 E T JH m Felderordnen f ra Train rawdata_train t F een Partion Test rawdata_testbt LN re Foil gt Yalidate rawdata_valid tt 15 Felder iversitat Eichst tt Ingolsta wf Lehrstuhl f r ABWL und Wirtschaftsinformatik Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank P gt j i Pa 1 i k Po Anh ngern Datenaufbereitung 101 Datenanreicherung Anh ngen Knoten Der Anh ngen Knoten verbindet mehrere Datenquellen miteinander Dabei werden die einzelnen Datens tze nacheinander eingelesen und untereinander geschrieben Anh ngen Knoten sind sinnvoll f r die Kombination von Daten Sets mit hnlicher Struktur aber unterschiedlichen Daten Sie k nnten beispielsweise Transaktionsdaten f r verschiedene Zeitr u
89. ngDistanceBillType ve z Flag 1 Zeigt ein Mehrtachmodus Ergebnis an Zeigt ein Stichprobenergebnis an F a p Dr Frank Hesse und Prof Dr Wilde matik golstadt ave A Vorversion ftsinfor iversitat Eichstatt Lehrstuhl fur ABWL und Wirtsc Katholische Sc Bauer 21 Data Audit von 15 Felder 1 5 Datenaufbereitung Datenqualitat 60 m Ausrei er Extremwerte und fehlende Werte erkennt man durch Klick auf die Registerkarte Qualit t im Data Audit Ausgabe Browser Feld Messung AustelBer Extremmerte ID amp Stetig 0 Keine gt LONGDIST gf Stetig Keine G International g Stetig 0 Keine gt LOCAL Stet 5 Keine i 12 Keine 0 Keine 0 Keine Fehlende Werte Methode Nie Mie Nie Mie Mie Mie Nie Mie Mie Nie Mie Mie Mie Nie Mie 100 100 100 100 100 100 100 100 100 100 100 100 100 Mul ert Leere Zeichenk Leerer Bereich Leerer Wert oor 8 oo Go oc co oo cd O oor oo Go oo Go oc Co oo oo oo Go oo Go oo co OOo co ceo oe 0000000 i LSS I Ungultige Werte 5 Datenaufbereitung 61 Behandlung von Ausrei ern m Oftmals gibt es bei Merkmalen Ausrei er nach oben und nach unten Auspr gungen mit unerwartet hohen oder niedrigen Werten m Behandlungsans tze Keine nderungen vornehmen Einige Data Mining Verfahren sind gegen ber AusreiBern robust m Datens tze herausfiltern Kann die Analyse verbessern jedoch a
90. nicht bereinstimmende Datens tze f r die erste Eingabetabelle Tabelle A in der Abbildung aufgenommen Bei diesem Join Typ handelt es sich um das Gegenteil eines Inner Join Es werden keine vollst ndigen Datens tze in das Ausgabe Daten Set aufgenommen Vorversion Dr Frank Jniversit t Eichst tt Ingolsta Math Josef Bauer Lehrstuhl f r ABWL und Wirtsc Dipl Katholische iversitat Eichst tt Ingolsta Katholische Fi Hesse und Prof Dr Wilde Dipl Math Josef Bauer Vorversion Dr Frank f ftsinformatik ih Lehrstuhl f r ABWL und Wirtsch P Datenaufbereitung bung 5 8 107 Die Dateien Add1 txt und Add2 txt enthalten Personaldaten einer Firma F hren Sie die beiden Dateien Add1 txt und Add2 txt ber einen Anh ngeknoten zusammen Funktioniert das Anh ngen ber Namen und Position der Datenfelder Lassen Sie sich in einer Tabelle die Daten des m nnlichen Personals ber 30 Jahre ausgeben Speichern Sie die Tabelle in einem Excel File Personal_angeh ngt xlsx Stream speichern unter Ubung 5 8 mim jm oc i f a i iF Add te a Bu m RN gt gt BST a 7 sandngen nur M nner gt 30 Typ Excel 5 Datenaufbereitung Ubung 5 9 108 m Die Dateien Match1 txt und Match2 txt enthalten Daten zu Filialen und Kundeneink ufen 0b 2 Sx m Verbinden Sie die beiden Date
91. noten erstellt werden um die ungleiche Verteilung auszugleichen Pd Verteilung von CHURNED 1 f P Datei Bearbeiten Ansicht E 1 4 agrat pmet kungen ri Hesse und Prof Dr Wilde a Dip Math Josef Bauer Vorversion Dr Frank iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsc Katholische d r Frank Hesse und Prof Dr Wilde adtstagt matik chst ttdfn Vorversion D ftsinform J iversitat Eichst tt maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dipl e generiert generiert Datenaufbereitung Transformationen Balancierungsknoten erh hen 84 Balancierungsknoten der die Gr e kleinerer Teilgruppen verst rkt Balancierungsknoten verringern TE Balancierungsknoten der die Gr e gr erer Teilgruppen verringert 2043 30 52 25 97 23 38 Anzahl bl en BEE EEE Hesse und Prof Dr Wilde f P golsta n ftsinformatik coe Dr Frank J iversitat Eichst tt fi Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 5 Datenaufbereitung 85 Ubung 5 3 ito Bitte verwenden Sie den Stream 5 2 m Welche Ma nahme zur Balancierung der Variable Churned wurden Sie em
92. on ist die Umkodierung in binare Werte z B 0 1 die ebenfalls durch einen Ableiten Knoten umgesetzt werden kann Beispiel Ein neues Datenfeld soll abgeleitet werden aus dem hervorgeht ob eine Person aktuell Kunde des Unternehmens ist CHURNED Current oder ob sie zum gegenw rtigen Zeitpunkt kein Kunde mehr ist CHURNED Vol or CHURNED In Vol i Expression Builder Kundenstatus Wenn Ableitungstyp Bedingt Ensteluroen Anmerkungen Modus Einfach Mehrere CHURNED Wol or CHURNED matik J Vorversion Dr Frank Hesse und Prof Dr Wilde sinfor Ableitungsfeld cafe ZAHL DF E integer_bitcountGAMZZ Ganze Zahl integer _leastkhtt GAMZE Ganze Zahl integer_lengthlGAMZZI Ganze Zahl i f Ableitungstyp E AEE Lan Alle u PAY_MTHD Feichenkette dans Zahl and LocalBillType Feichenkette LongDistanceBillT Zeichenkette Ganze Zahl CHURNED Vol or CHURNED InYol norm rancor Reelle Zahl j y AGE iversit t Eichst tt Ingolstadt a me Bauer Lehrstuhl f r ABWL und Wirts Dip is_integer ELEMENT Ergibt den Wert wahr wenn ELEMENT den Typ Ganze Zahl aufweist Ansonsten ergibt sich der Wert talach Fij Ausdruck wor dem Speichern berpr fen ii s at i Katholische 5 Datenaufbereitung 88 Dichotomisieren Ein neues binares Datenfeld kann auch mit einem Dichotom Knoten erstellt werden Dicho
93. or oi Ersetzen iswwhitespace CUSTID or BLASENK CUSTID or NULLCNAME or to_string MAME or Sn iswhitespace NAME or BLANKENAMEI or BLANK FIELD NULL DOB or to_string DOB or NULLCGENDER or to_string GENDER or Be swhltespacei GENDER or GLANKCSENDER or m MULLI REGION or to_string REGION or iswhitespace REGION or BLANK REGION or 2 gt 0 One co V O he sE E Ten DE TO Sa oL c C CO D gt Hu 3 0 HOB Y A 2z 2 ca L D De 525 jd 2528 spz 35 2 ert A Py ersion Dr Frank Hesse und Prof Dr Wilde 3 Datenaufbereitung Expression Builder Fr generiert Bedingung MNULLOCCUSTID or to_stringllCUSTID or isewhtespacelCUS TID or GBLANKCCUSTID or CENLLE AME or to_stringi MAME or isvvhitespace MAME or 6LANKIMAME or NULLE or to_stringfDOB or iswhtespace DOB or BLANK ODOBI or e NULLOSENBERS or to_stringeGENDER or isvvhitespacel SENDER or BLANKCSENDER or 2NMULLOREGION or to_stringiRESlony or iswhitespacel REGION or BLANKIRESION or Funktion first_non_null_index LISTE last_non_null_index LISTE value_atlGANZZ LISTE not BED if BEDG1 then AUSDR1 else if BEDG1 then AUSDR1 elseif is_integer ELEMENT Ergibt den vert wahr wenn ELEMENT den Typ Ganze Zahl aufweist Ansonsten ergibt sich der Wert talach ANE FOOL or NULL ACCOM
94. ort Ausgabe als PASW SPSS Datei im sav Format GC Ea 5 ei Data Collection Ausgabe f r Marktforschungssoftware SPSS Dimensions CZO T oe gt Excel Ausgabe als Excel Datei Achtung Zeilenbegrenzung pe Er 25 z IBM TM1 Export und Cognos BI Export E i ot 2 Katholische Lehrstuhl Hesse und Prof Dr Wilde Z golsta n ftsinformatik moe Dr Frank J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 3 Knoten bersicht 44 IBM SPSS Statistics Statistics Datel Statistics Transformation Statistics Wodel l Statistics Ausgabe Statistics Export Zur Erganzung von IBM SPSS Modeler und seinen Data Mining Funktionen bietet Ihnen IBM SPSS Statistics die M glichkeit weiterf hrende statistische Analysen durchzuf hren und Daten zu verwalten Wenn Sie eine lizenzierte Kopie von SPSS Statistics installiert haben k nnen Sie von SPSS Modeler eine Verbindung aufbauen und komplexe aus mehreren Schritten bestehende Daten nderungen und Analysen ausf hren die anderenfalls von SPSS Modeler nicht unterst tzt werden F r den erfahrenen Benutzer gibt es auch die Option die Analysen mithilfe von Befehlssyntax weiter anzupassen Ubersicht li Poa Bw LD Analytisches CRM IBM SPSS Modeler Knoten Ubersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle il u i J a E a a iversitat Eichst tt Ingolsta
95. otstrap Aggregation ein Ensemble Modell erstellt Dabei werden mehrere Modelle erzeugt um zuverl ssigere Vorhersagen zu erhalten Server Bei dieser Methode wird ein Ensemble Modell durch Aufteilen des Daten Sets in separate Datenbl cke erstellt Diese Option ist empfehlenswert wenn Ihr Daten Set zu gro f r die Erstellung eines der oben erw hnten Modelle oder die inkrementelle Modellerstellung ist Unter Umst nden kann das Modell mit dieser Option schneller als ein Standardmodell erstellt werden das Scoren dauert jedoch evtl l nger als bei einem Standardmodell Diese Option erfordert eine SPSS Modeler Serververbindung 6 1 K nstliche Neuronale Netze 128 Trainingsmethoden Wie findet man das beste Modell gt sowohl bei der Wahl der Trainingsmethode als auch bei den jeweiligen Einstellungen gilt mehrere Modelle ausprobieren a il be i J T a m Einige Anhaltspunkte zu den Trainingsmethoden i i Wahlen Sie die Standard Methode wenn nur wenig Zeit f r die Analyse zur Verfugung steht Fi Hesse und Prof Dr Wilde Wenn die Genauigkeit h chste Priorit t genie t und es keine Zeitrestriktion gibt empfiehlt sich die Boosting bzw Bagging Methode en Lehrstuhl f r ABWL und Wirtschaftsinformatik Dipl Math Josef Bauer Vorversion j Der Server Algorithmus wird selten verwendet Dies kann schon aufgrund der Serveranforderung nur in gro en Unternehmen
96. pfehlen m Fugen Sie dem vorhandenen Stream einen Duplikate Knoten hinzu Liegen Duplikate von Kundendatensatzen vor m Untersuchen Sie die Mittelwerte der unterschiedlichen Churned Kategorien bzgl der Datenfelder Local LongDist und International ber eine Tabelle Welche Auff lligkeiten stellen Sie fest m Stream speichern unter bung 5 3 GA o 5 Felder 1 3 gt gt p gt Y Typ Fuller T Duplikat Aggregieren Tabelle Oe ee 15 Felder 15 Felder WT a il be i J T T a f iversit t Eichst tt Ingolsta Katholische Fi H sse und Prof Dr Wilde ftsinformatik ih Lehrstuhl fur ABWL und Wirtsch j Dr Frank Dipl Math Josef Bauer Vorversion Datenaufbereitung Ubung 5 4 Untersuchen Sie mit einem Histogramm Knoten die Verteilung des Datenfelds Local Ortsgespr ch Minuten pro Monat Die Verteilung ist sehr schief Mithilfe einer Logarithmus Funktion kann die ursprungliche Schiefe umgekehrt werden Erstellen Sie dazu Uber einen Ableiten Knoten ein neues Feld Local trans mit der Formel log LOCAL 3 Stream speichern unter Ubung 5 4 Er A 15 Fegler 7 CHURNED 2 bet Filler T J N Tabelle x ie N mn OR 15 Felder 15 Felder LOCAL 16 Felder 5 Datenaufbereitung 87 Dichotomisieren m Eine weitere einfache Transformati
97. r Saldo jedes Kontentyps ist ern amener dl aunen d Meu strukturierte Felder erstellen ACCOUNT DRAFT ACCOUNT SAVINGS gen Anmerkungen Beispieldaten nach der Neustrukturierunc Open_Bal Current_Bal Account_Draft_ Account_Savings Current_Bal _Current_Bal d 12701 1000 1005 32 1005 32 snulls iS L 12702 321 20 snulls 321 20 204 51 snulls 204 51 1200 586 32 586 32 snulls 12702 100 144 51 snulls 144 51 3 Knoten Ubersicht 35 Beispiel Umstrukturierungs amp Aggregat Knoten Beispieldaten nach der Neustrukturierunc a ee a Current_Bal cc nt_Draft_ Account_Savings Current_Bal _Current Bal 127 Savings snulls 150 1 Ga 1 2 12703 savings 150 204 51 snulls Aggregieren ber das Schlusselfeld CustID mit den Aggregatfeldern Account_Draft_Current_Bal_ Sum und osef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde Account Savings Current _Bal_Sum 5 2 gt Se V O oS 2 es w O Ss gt Beispieldaten nach der Neustrukturierung und Aggregation LU Z CustID Record_Count Account_Draft_Current_ 4ccount_Savings_Current_ T Bal Sum Bal Sum ge a TEE ie gt 12 01 1 1005 32 fnulls 2H 12702 null 144 51 4 12703 586 32 525 71 i i Katholische Lehrstuhl f Dipl Math 3 Knoten bersicht 36 EDEN Zeitintervalle Zur Bestimmung von Intervallen bei Zeitreihendaten z B bei t glich neu generierten Daten Hesse und Prof Dr Wilde Verlauf
98. randerung sichern Keine Angst vor Trial and Error Beim selbstst ndigen Ausprobieren Versuchen und Untersuchen von Einstellungen die von der Ubung abweichen lernt man am meisten Dazu am besten die Ubungsdaten kopieren und f r T amp E mit den kopierten Dateien arbeiten dann kann auch nichts kaputt gehen Bei Fragen immer fragen Pfad f r die bungsdaten i M Win WI Infos aCRM Ubung SS14 Daten_Ubung Ubersicht oa fF O N Analytisches CRM IBM SPSS Modeler Knoten Ubersicht Einlesen von Daten Datenaufbereitung Data Mining Modelle 1 Analytisches CRM 4 OLAP und Data Mining Unterschiedliche Fragestellungen Fragestellung Data Mining OLAP is Kundenwert Welche 10 Kunden bieten uns das Wer waren etztes Jahr unsere 10 gr te Deckungsbeitragspotenzial besten Kunden ty y K ndigeranalysen Welche Kunden werden wahrschein Welche Kunden haben letzten Monat u lich in den n chsten 6 Monaten zu gek ndigt einem Konkurrenten wechseln Fu D Cross Selling Welche unserer bestehenden Wie viele Einheiten unseres neuen gt E Kunden werden am wahrschein Produktes haben wir an unsere lichsten unser neues Produkt bestehenden Kunden verkauft kaufen Sr E oo Kundenakquise Wie ist das Profil der Leute die auf Wie war die Responsequote unseres Sac unsere zuk nftigen Mailings am Mailings ERE wahrscheinlichsten antworten 22 werden C O iT f Kreditrisiko Hat dieser Kunde wahrs
99. rank P 6 4 Cluster Analyse 186 Grundlagen Clustermodelle konzentrieren sich auf die Ermittlung ahnlicher Datensatze und Beschriftung der Datens tze anhand der Gruppe in die sie geh ren Dies geschieht ohne Vorkenntnisse zu Gruppen und ihren Eigenschaften M glicherweise ist nicht einmal bekannt wie viele Gruppen gesucht werden sollen Hierin liegt der Unterschied der Clustermodelle zu anderen Techniken des maschinellen Lernens die in Modeler zur Verf gung stehen es gibt keine zuvor definierte Ausgabe und kein Zielfeld fur das vorherzusagende Modell Clustermodelle zahlen zum Unuberwachten Lernen da es keinen externen Standard gibt mit dem die Klassifizierungsleistung des Modells beurteilt werden konnte Im Rahmen der Ubung werden zwei Methoden zur Cluster Analyse behandelt E K Means Clustering HE ra Two Step Clustering Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp RT Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori a il be i J T a i i iversit t Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion Katholische Fi Hesse und Prof Dr Wilde 2 Lehrstuhl f r ABWL und Wirtschaftsinformatik Dr Frank j 6 4 1 Pe _ u a i Ih f F k F Cluster Analyse 188 K Means K Means Clustering K steht f r die vorge
100. rd und sich die Ergebnisse NICHT KAUFEN so gut kommunizieren lassen Dies steht im niedrig Gegensatz zu anderen Blackbox Modellierungstechniken bei denen die interne Logik nicht so leicht zu durchschauen N ist NICHT KAUFEN KAUFEN 6 2 Entscheidungsbaume 146 Ubersicht m Modeler unterst tzt vier Methoden zum Erstellen von Entscheidungsbaumen C5 0 C amp RT Classification and Regression Trees CHAID Quest f i esse und Prof Dr Wilde m Unterschiede der Methoden ZW Art des Baumes Klassifikationsbaum Bin rbaum Nichtbin rer Baum Bin rbaum Split schneller als C amp RT Skalenniveau der Nominal Beliebig Beliebig Pr diktoren beliebig Zielgr e Nominal und Stetig Nominal und Stetig Nominal und Stetig iversit t Eichst tt Ingolsta Zielfeld Nominal vf Lehrstuhl fur ABWL und Wirtsc Dipl Math Josef Bauer Vorversion Dr Frank Katholische 6 2 Entscheidungsbaume 147 Mogliche Fragestellung m Welche Eigenschaften meiner bestehenden und fr heren Kunden lassen auf erh hte Kundigungsbereitschaft schlie en Ein Entscheidungsbaum versucht jeden Kunden einer Klasse zuzuordnen Auspr gungen der Zielvariablen Das Modell untersucht automatisch die gesamte Datenmenge nach den am besten zur Unterscheidung geeigneten Datenfeldern Fi Hesse und Prof Dr Wilde Dadurch wird eine Menge an Regeln erzeugt i IF Alter lt 36 AND GESCHLECHT M AND THEN KLASSE
101. rte 41 Grundlegende Ubersichtsdaten zu numerischen Feldern Mittelwert Min Max Standardabweichung etc Vergleich der Mittelwerte zwischen unabhangigen Gruppen oder zwischen Paaren von in Bezug stehenden Feldern Test auf Signifikanz Erstellt formatierte Berichte Berechnet fur ausgewahlte Felder globale Werte wie z B Maximum Minimum Mittelwert Nach der Berechnung konnen die Werte in CLEM Ausdr cken verwendet werden Bsp GLOBAL_MAX Feldname GLOBAL_MEAN Feldname i Hesse undProf Dr Wilde z P ftsinformatik mae Dr Frank niversitat Eichst tt Ingolsta Math Josef Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl 42 Simulationsanpassung Erstellung eines Quellenknotens f r die Erzeugung k nstlicher Daten R Ausgabe Datenanalyse mit R Simulationsevaluierung Erstellung eines Berichtes ber die Verteilung und Variabilit t eines Zielfeldes 3 Knoten Ubersicht 43 Exportieren Favoriten i eller ic Server Datenbank Fltfle Statistikexport Data Collection Excel IBM TM1 Export IBM Cognos BI Export 545 AML Export Export auf den TM1 bzw Cognos Bl Server wf SAS Ausgabe als Datei im SAS Format XML Export Ausgabe als XML Datei a Analytic Server Export an den Analytic Server I A 5 Datenbank Ausgabe in eine ODBC kompatible relationale Datenquelle g Flattfile Ausgabe als Textdatei mit Trennzeichen gat Statistikexp
102. ry Linoff 2000 Mastering Data Mining S 177 ff 5 Datenaufbereitung 69 Behandlung fehlender Werte Ausschluss von Feldern mit zu vielen fehlenden Werten Q a LL B an u Mit dem Data Audit Knoten k nnen Sie Felder nach Qualit t filtern o S x d 7 Modus Einschlie en Ausschlielsen e Ausgew hlte Felder amp Fehlende Wert Methode Vollst ndig G ltige Datensat Nullwert TI Felder mit einem Gualit tsprozentsatz gr er als est 100 379 7 v he TANNA Ann nnn ooo vo oo oO OD ODO DO DO O JL rer mi Nie Nie Nie Nie Nie Nie Nie Nie Nie Nie Nie Nie Nie Nie Gan nN aD AnA nD o HolCost_new amp Stetig golstac ftsinformatik Vorversion Dr Frank mn J a Statt die Felder zu entfernen k nnen Sie den Wert des Feldes im Bereich was Verwendung eines Typknotens auf Keine festlegen Dadurch werden die Felder im Daten Set belassen aber aus den Modellierungsprozessen ausgeschlossen iversitat Eichst tt Typ maf Bauer Lehrstuhl fur ABWL und Wirtsc Katholische Dipl sse und Prof Dr Wilde a E F F He i z golsta ftsinformatik h Vorversion Dr Frank J iversitat Eichst tt ae Bauer Lehrstuhl f r ABWL und Wirtsc Katholische Dipl 3 Datenaufbereitung Behandlung fehlender Werte m Datens tze mit fehlenden Werten zur weiteren Analyse und Bearbeitung ausw hlen 70 Aus dem Data Aud
103. s initial phase focuses on understanding the project objectives and requirements from a business perspective and then converting this knowledge into a data mining problem definition and a preliminary plan designed to achieve the objectives Data Understanding The data understanding phase starts with an initial data collection and proceeds with activities in order to get familiar with the data to identify data quality problems to discover first insights into the data or to detect interesting subsets to form hypotheses for hidden information Data Preparation The data preparation phase covers all activities to construct the final dataset data that will be fed into the modeling tool s from the initial raw data Data preparation tasks are likely to be performed multiple times and not in any prescribed order Tasks include table record and attribute selection as well as transformation and cleaning of data for modeling tools Modeling In this phase various modeling techniques are selected and applied and their parameters are calibrated to optimal values Typically there are several techniques for the same data mining problem type Some techniques have specific requirements on the form of data Therefore stepping back to the data preparation phase is often needed Evaluation At this stage in the project you have built a model or models that appears to have high quality from a data analysis perspective Before proceeding to final
104. satz in jeder Gruppe aufnehmen Mur den ersten Datensatz in jeder Gruppe ver werfen 4 IL Schl sselfelder f r die Gruppierung Fa LONGOIST wi amp International ON We Loca DROPPED gb PAY _MTHD LocalBillType Datens tze in Gruppen ordnen nach Feld Reihenfolge ME Standard Sortierreihentalge Aufsteigend Absteigend a ai SAAL 5 Datenaufbereitung 80 Aggregate gt Aggregieren Knoten a Zur Datenreduktion k nnen Daten mit dem Aggregieren Knoten ee zusammengefasst werden PONE m Die Auspr gungen der ausgew hlten Aggregatfelder werden dann per Aggregatfunktion z B Summe oder Mittelwert zu einem Wert je gt 2 Merkmalsauspragung des Schlusselfelds verdichtet D I vr Dipl Math Josef Bauer Vorversion 5 Datenaufbereitung Aggregate SP Aggregieren 0b O Fran A 7 7 O Schl sseltelder Schlussel sind zusammenh ngend I QO O cC gt Bis N Aqggregattelder 0 r Da x C LL Est Income O a na O Q Standardmodus Summe Mittelwert win Max Std Abwr Gm O a u O n Cc Neue Feldnamenserweiterung I Hinzuf gen als Suffix Pr fix C O mir U Datensatzanzahl einschlieien in Feld Datensatzanzahl a OS Tp oss Fur Tabelle 9 Felder 405s o x io Datei Bearbeiten Generieren Q x D meh i 2 m cS LONGDIST_Mean International_Mean LOCAL Mean DROPP
105. sich bei Problemen mit fehlenden Daten und einer gro en Anzahl von Eingabefelder sehr robust Sie ben tigen f r die Sch tzung in der Regel keine langen Trainingsphasen Varianten Entscheidungsbaum vs Regelmenge d Prof Dr Wilde fi esse un He golsta ftsinformatik N x Vorversion Dr Frank J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische Entscheidungsbaume C5 0 Grundeinstellungen Symbolische Werte gruppieren Bei Aktivierung versucht der C5 0 Alg Werte mit ahnlichen Mustern in Bezug auf das Output Feld zu kombinieren Beispiel Im Feld Farbe existieren die Werte blau gr n und rot Normaler weise wird f r jede Farbe ein Ast ge bildet Sind die Eigenschaften der roten und gr nen Objekte sehr hnlich werden diese zu einem Ast zusammen gefasst Verst rkungen verwenden 152 Modellname Fil Fartitionierte Daten verwenden Modell f r jede Aufteilung aufbauen Ausgabetyp Ent cheidungsbaurm Regelmenge E Symbolische Werte gruppieren E Verstarkung verwenden Anzahl der versuche El Kreuzwalidieren Anzahl der Kreuzvalidierungen Modus Einfach Experten EN Genauigkeit Algemeing tigkeit Erwartete Rauschen 23 Bu orszelektion in elle A A Eine Eigenschaft von C5 0 zur Verbesserung der Genauigkeit Dabei werden mehrere Entscheidungsb ume erzeugt wobei jeweils Fehlklassi
106. sortiert Die Datens tze werden in gleich gro e Gruppen Quantile aufgeteilt Anschlie end wird der Wert des Gesch ftskriteriums f r jedes Quantil geplottet vom h chsten Wert bis zum niedrigsten Wert Mehrere Modelle werden als separate Linien im Plot dargestellt i il be i J T a i i Fi Hesse und Prof Dr Wilde m Evaluationsdiagrammtypen u a Dr Frank j 2 Lehrstuhl f r ABWL und Wirtschaftsinformatik Gewinne Gewinne sind definiert als der Anteil an allen Treffern der in den einzelnen Quantilen vorliegt Lift Beim Lift wird der Prozentsatz der Datens tze in jedem Quantil die als Treffer gelten mit dem Gesamitprozentsatz der Treffer in den Trainingsdaten verglichen iversit t Eichst tt Ingolsta wf Dipl Math Josef Bauer Vorversion SN CHURNED Diagrammtyp Gewinn O Treffer OLit O Profit OROI Katholische 6 1 K nstliche Neuronale Netze 139 Anwendungsbeispiel Gewinn Diagramm Gains Chart Kumulative Gewinndiagramme beginnen stets bei 0 verlaufen von links nach rechts und enden bei 100 In A einem guten Modell steigt das Gewinndiagramm steil auf Po 100 an und verbleibt dann auf diesem Niveau Bei 3 einem Modell ohne Informationsgehalt verlauft eine Cc i i i i e diagonale Linie von links unten nach rechts oben 2 0 20 40 60 80 100 lt Perzentil I BEST CHURMNED CHURNED Vol m Lift Chart ee Kumulative Lift Charts
107. sta Lehrstuhl f r ABWL und Wirtschaftsinformatik Dip Math Josef Bauer Vorversion Dr Frank E Katholische 6 3 1 Lineare Regression 175 Interpretation ANOVA ANOVA a Moden Touarisumme ar me der ousrate _F Sth nenn sans viene oes zen a Abh ngige Variable CLAIM b Einflu variablen Konstante LOS ASG AGE Hesse und Prof Dr Wilde m ANOVA Analysis of Variances Untersuchung ob das betrachtete Regressionsmodell insgesamt signifikant ist Die Mittel der Quadrate der Regression erkl rte Varianz sind im abgebildeten Beispiel deutlich hoher als die Mittel der Quadrate der Residuen nicht erklarte Varianz Mit anderen Worten kann unser Modell mehr Streuung der abh ngigen Variable erkl ren als es im Unklaren l sst Der Quotient aus den Quadratsummen Regression und Gesamt ergibt das bereits erw hnte R Quadrat aftsinformatik iversitat Eichstatt Ingolstadt m Je gr er der F Wert bzw je kleiner der Wert in der Spalte Signifikanz entspricht der Wahrscheinlichkeit f r Insignifikanz desto besser ist das Modell Lehrstuhl f r ABWL und Wirtsct Dipl Math Josef Bauer Vorversion Dr Frank Katholische 6 3 1 Lineare Regression 176 Interpretation Koeffizienten Koeffizienten a Nicht standardisierte SL HEBFRISIETIE 95 Kontidenzintervall f r nr Se Signitikanz St andardfehler Untergrenze Obergrenze MULAT Partiell Te
108. sting und Bagging F r welches Modell entscheiden Sie sich x Wenden Sie die erzeugten Modelle auch auf die Validierungsdaten an und evaluieren Sie die Modelle Ber anhand Lift Chart Gains Chart und Fehlklassifikationstabellen a Fur welches Modell entscheiden Sie sich dp iversit t Eichst tt Ingolsta ih Lehrstuhl fur ABWL und Wirtsch Dipl Math Josef Bauer Vorversion Katholische 6 1 Kunstliche Neuronale Netze Ubung 6 1 1 2 2 Abwanderungsgefahrdete Kunden prognostizieren 3 Tatelle A 14 Felder k z ann cn J L Q 9 __ 9 A N ChumTrain be p CH_Standard Q CH_BOOST CH_BAGG Evaluation_GainsChar O Pd u Analyse 7 Ww A VY Ba A 7 L T N CHURNED T Analyse x Ww a xX C 0 Bee N CHURNED z O A 7 a Oct A 2 n S N CHURNED cr oO Eee DO D 2 Z CH_BAGG c o 2S gt E O G Ss f I 9d N 9 R os lt SI Yo Churn alidate tt Typ CH_Standard CH_BOOST CH_BAGG _gguston uncnan Analyse Katholische Sc Bauer Lehrstuhl Evaluation_GainsChar 141 6 1 Kunstliche Neuronale Netze Ubung 6 1 2 teoj Ein Kreditinstitut wendet sich an Sie als Experten f r neuronale Netzwerke Sie erhalten streng vertraulich eine Datei mit Kundendaten Kundenbonit t prognostizieren Datei RiskTrain txt a il be i J T a Lesen Sie die Daten in Modeler ein und st
109. t einen allgemeineren Charakter und findet mit neuen unbekannten Daten bessere L sungen Generalisierungsf higkeit m Die Leistungsf higkeit des Modells bzw aller angewandten Modelle kann mit einem dritten Teil der Ausgangsdaten abgeschatzt werden sog Validierungsdaten bzw Evaluationsdaten Dieser Teil der Daten ist klar von den ersten beiden zu trennen und soll nicht mit in die Modellbildung einflie en m Das Modell wird auf die Auswertungsdaten neue Daten angewandt Die Auspr gungen des interessierenden Merkmals sind im Vorfeld nicht bekannt sondern werden durch das Modell gesch tzt Die Vorhersagewerte werden als Grundlage f r Entscheidungen genutzt Quelle Berry Linoff 2000 Mastering Data Mining S 185 ff 5 Datenaufbereitung 99 Partitionen Zuf llige Partitionen f r Training Test und Validierung k nnen mit einem a a u 2 Partition Knoten gebildet werden u O it Tabelle 21 Felder 1 477 Datens tze 1 i 3 W O ia Datei Bearbeiten ey Generieren ES poa Rei au Q O Cc s DROPPED PAY_MTHO O 1 5 246 515 66 326 O FreeLocal dp Partitionzteld 2 1_ Training 10 13 664 2 956 32 635 0 FreeLocal dp se z 2_Test 100 21 912 6 7068 27 003 0 Budget Partitionen Trainieren und testen G Trainieren testen und validieren ne 1002 16474 1533 qo454 0 a Tia F a X Gr e der Trainingspartition rs Beschriftung Wert 1003 19 934 3 709 42 224 0 Budget x c Em
110. t eine Gewichtung von 0 707107 Wurzel aus 0 5 voreingestellt Es k nnen Werte zwischen 0 001 und 1 0 ausgew hlt werden wobei Werte unter 0 707 die Bedeutung von bin ren Variablen verringern Werte dar ber entsprechend erh hen 6 4 1 Cluster Analyse 193 K Means m Zur bersichtlichen Darstellung der einzelnen Cluster kann wieder auf den Aggregieren Knoten zur ckgegriffen werden M Tabelle 16 Felder 1 477 Datens tze I Datei ZZ Bearbeiten Ey Generieren LocalBillType LongDistanceBillType AGE SEX STATUS CHILDREN Est_Income Car_Owner CHURNED KM K Means 36 320 FreeLocal standard 275353500 Vol Cluster 4 3 942 Budget Intnl_ discount 64632 300 InYwol Cluster 1 4 363 Budget Intnl_ discount 31 000 900 Vol Cluster 1 29 506 Budget Standard 57467 100 Current Cluster 4 13 664 32 630 FreeLocal Intnil_ discount 3220 600 Vol Cluster 2 0 000 1 413 FreeLocal Standard 50230 700 InYwol Cluster 1 0 264 3 537 Budget Intal discount 20850 4000 Val Cluster 1 r Frank Hesse und Prof Dr Wilde gt e TE O in t N O qQ One oe O gt SOO yn mE _ Cc gt O D gt WI 7 ges u 2 A 2z tammy a LO ir Sze je 2528 325 35 2 er A 1 577 11 031 0 453 3 729 20 295 10 370 20 260 75 598 I Datei 1 z li 3 26 3 2 406 4 IA 5 001 19 951 34 270 3 012 15 047 76 052 24 660 102 564 SAAR ii Tabelle 5 Felder 4 Datens tze
111. tei ChurnTrain txt F gen Sie dem bestehenden Stream ein G amp R Entscheidungsbaum Modell hinzu und vergleichen Sie die Ergebnisse 5 2 Ag CHURNED _Regel CHURNED i A AN ig ya HA _ Ernon Lift 2 A ChumTrain bet Typ k CHURNED CHURNED Evaluation_Gains a Agat gt y I I I I I ae i iw CHURNED Churmned Regel L A Churned_Regel N a gt wi Z luation_ Gains f oo al A e r A gt 7 lie i i r a n FN a W g F ChurnValidate tt Typ CHURNED CHURNED CHURNED IL Evaluation_Litt Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp R Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori golsta iversitat Eichstatt Katholische ftsinformatik Vorversion Dr Frank Hesse und Prof Dr Wilde Sa J maf Bauer Lehrstuhl fur ABWL und Wirtsc Dip P Lineare Regression Einstellungen im Modeler m Variablen Auswahl Einschluss voreingestellt Alle Input Datenfelder werden in das Modell aufgenommen Dies ist vor allem bei einer geringen Anzahl an Merkmalen sinnvoll Bei einer gr eren Anzahl an Variablen w re eine Selektion durch Experten wissen m glich Schrittweise 171 Modellname Automatisch Angepasst Partitioniete Daten verwende
112. ternational 0 986 Modus Current Ziel CHURNED A AGE 29 Modus Current Est Income lt 40200 700 Modus vol gt Vol Est_Incame gt 40200 700 Modus Current gt Current AGE gt 29 Modus Current lt gt Current International gt 0 956 Modus Wol H DROPPED 0 Modus Yol gt Vol El DROPPED 0 Modus Current SEX PAY _MTHO Auto Modus Yol gt Vol El PAY _MTHD CC Modus Wol F rsion Df Frank Hesse und Prof Dr Wilde a I CarOwner Modus Voll gt Vol TUE eu X Car_ wrer M Modus Current gt Current a pe PAY MTHO CH Modus Current gt Current Est_Income 5 2 El SEX F Modus Vol ran E El AGE lt 39 Modus Current n O E International 0 104 Modus Current Be A Est_Incame 50 676 Modus Current OH AGE 29 Modus Yol gt Vol LOCAL aS he AGE 29 Modus Current lt gt Current CD E Est_Income 50 676 Modus Current gt Current i LongDistance E International 0 104 Modus Yol BillType a El DROPPED 0 Modus ol i Est_Incame lt 73 338 Modus Wol gt Vol ann Est_Income gt 73 338 Modus Current CHILDREN lt 0 Modus Wol gt Vol CHILDREN 0 Modus Current gt Current Car_Owne DROPPED 0 Modus Current 5 Current El AGE 39 Modus Yol i STATU E International 0 571 Modus Vol E DROPPED 0 Modus Yall Cat Owner Y Modus Wol an Na a us un Va
113. tom i ae f f iversitat Eichstatt Katholische tt Ingolstadt ftsinformatik af Bauer lee und Prof Dr Wilde X Cc wo oo LL Q Cc O ep Su O N Z T0 gt gt O CG E gt m lt oa T E J dp et 0 uO amp Dichotom S gt et Felder Flag Felder erstellen Feldnamenserweiterung fs Hinzuf gen als suffix Pr fix verf gbare Set Werte Aggregationzschl ssel if H sse und Prof Dr Wilde f golsta ftsinformatik n Vorversion Dr Frank x J iversit t Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 5 Datenaufbereitung 89 Umkodieren Eine weitere Form der Transformation ist das Umkodieren vorhandener Werte Dazu kann im Umkodieren Knoten die Zuordnung der Originalwerte zu neuen Werten festgelegt werden Ke Geschlecht_umkodiert ao E be f OAE CHAL Lar Lai rt a ee IH q Umbkodieren Mods Einfach Mehrere Umkodieren in Neues Feld Yorhandenes Feld Feld umkodieren Neuer Feldname Geschlecht_umkodiert Werte umkodieren Urspr nglicher Yvert Neuer Wiert F r nicht spezifizierte Werte verwenden Urspr nglicher vert Standardwert undef iversitat Eichstatt Katholische F Frank H sse und Prof Dr Wilde hatik olstadt gol d i sit th Vorversion D ftsinforr r J ats B
114. tt 4 Katholische BWL und Wirtschaftsinformatik i i Lehrstuhl f i osef Bauer Vorversion Dr Frank Hesse und Prof Dr Wilde Dipl Math 6 4 2 Cluster Analyse 197 Be Two Step 4g Das Two Step Clustering eignet sich insbesondere bei gro en Datenmengen Die optimale Cluster Anzahl wird automatisch bestimmt m Two Step besitzt keine Experten Einstellungen Daher werden die Werte aller Felder als Default standardisiert Checkbox Manuelle Einstellungen zur Gewichtung einzelner Variablen sind nicht m glich Y 1 Schritt Vorclustern der einzelnen F lle Standard max 512 Precluster 2 Schritt Entg ltiges Zusammenfassen auf Basis des BIC analog zur hierarchischen Clusteranalyse 6 4 2 Cluster Analyse Ubung 6 4 2 198 es Two Step Clustering ffnen Sie den Stream aus bung 6 4 1 gt Sl F hren Sie das Modell durch Anwendung des TwoStep Knotens _ i Lassen Sie sich wie bei K Means die Ergebnisse anzeigen sowohl im Diamanten als auch mit Hilfe eines Aggregieren Knotens i Sa 5 An Dipl Math Josef Bauer Vorversion Ubersicht 6 1 6 2 6 3 6 4 6 5 K nstliche Neuronale Netze Entscheidungsb ume 6 2 1 C5 0 6 2 2 C amp RT Lineare Regression Cluster Analyse 6 4 1 K Means 6 4 2 Two Step Assoziationsanalyse 6 5 1 A Priori Dr Frank Hesse und Prof Dr Wilde Ingolstadt haftsinformatik Fy
115. uch zu einer Verzerrung der Daten f hren Fi Hesse und Prof Dr Wilde m Spalte ignorieren M glicherweise kann das betreffende Merkmal durch andere treffendere Informationen ersetzt werden vn Ausrei er Werte ersetzen M gliche Ersatzwerte null Durchschnittswert andere als sinnvoller erachtete Maximum Minimum Werte oder aus anderen Merkmalen abgeleitete Werte iversitat Eichst tt Ingolsta ih Dipl Math Josef Bauer Vorversion Dr Frank Katholische Quelle Berry Linoff 2000 Mastering Data Mining S 160 f ri f haftsinformatik e Universit t Eichst tt Katholisch Ingolstadt f version i Dr Frank Hesse und Prof Dr Wilde Vor maf Bauer Lehrstuhl fur ABWL und Wirtsc Dip 5 Datenaufbereitung Ubung 5 1 1 3 62 toto m Die Datei Holiday_all txt enth lt Daten eines Reiseanbieters Kontrollieren und korrigieren Sie ggf die Speicher und Datentypen aller Datenfelder Ordnen Sie die Datenfelder wie folgt CUSTID NAME DOB GENDER REGION NUMPARTY HOLCOST NIGHTS TRAVDATE HOLCODE COUNTRY POOL ACCOM DIST_TO_BEACH Beschreibung Kundennummer Kundenname Geburtsdatum Kunde Geschlecht Heimatort Anzahl Reiseteilnehmer Kosten der Reise bernachtungen Reisestart Reise Kennung Land Schwimmbad Typ der Unterkunft Distanz zum Strand 5 Datenaufbereitung Ubung 5 1 2 3 Untersuchen Sie Qualit t der Daten
116. ximale Anzahl von Antezedentien 5 Fi Mur wahre Werte f r Flags Optimieren Geschwindigkeit Speicher Support Confidence Maximale Anzahl an Vorbedingungen in den Assoziationsregeln gt Komplexitat der Regeln lasst sich begrenzen 6 5 1 Assoziationsanalyse 208 A Priori m Mit dem A Priori Knoten lassen sich Daten in zweierlei Formaten verarbeiten m Tabellarisch Transaktional d O Transaktion Zucker Transaktion Kauf Q 1 Brot 5 N dp N Milch Brot Milch En Dipl Math Josef Bauer Vorversion Dr Frank Zucker iversitat Eichst tt Ingolsta Lehrstuhl fur ABWL und Wirtsc Katholische Hesse und Prof Dr Wilde 7 P golsta n ftsinformatik me Dr Frank J iversitat Eichst tt Lehrstuhl f r ABWL und Wirtsc Dipl Math Josef Bauer Katholische 6 5 1 Assoziationsanalyse 209 A Priori m Experten Einstellungen Zur Evaluation m glicher Regeln stehen f nf Methoden zur Verf gung SP 10 Felder Regelkonfidenz Standard Konfidenz Differenz Konfidenz Verhaltnis Informationsdifferenz Evaluationsmals Normalisiertes Chi Quadrat Untergrenze des EvaluationsmaGes a Kontidenz Ditterenz Regeln ohne Antezedentien zulassen Kontfidenz Yerhaltnis Informationsditferenz Mormalizietes Chi liuadrat 6 5 1 Assoziationsanalyse Ubung 6 5 teo

Download Pdf Manuals

image

Related Search

Related Contents

Notice HEL-DOLFIN  産業技術大学院大学研究紀要 第7号全文 (PDF:12.5MB)  ニュースリリース 気持ちの良い目覚めに  1.5MB  Invacare® Matrx® Stabilite™Cushion User Manual    

Copyright © All rights reserved.
Failed to retrieve file