Home
RapidMiner 5.0
Contents
1. Meta Data View D ai C Plot View O Annotations ms ExampleSet 200 examples 3 special attributes 2 regular attributes View Filter 200 200 all v Row No label confidence prediction l atti att2 1 class 0 965 class 3 308 9 743 A 2 class 0 979 class 1 096 7 317 3 class 0 884 class 15 210 0 835 4 class 0 979 class 0 997 7 015 5 class 0 979 class 3 809 1 673 6 class 0 900 class 14 331 5 463 7 class 0 949 class 9 700 9 079 Abbildung 4 4 F r einen Datensatz existieren die Views Meta Data View Da ta View derzeit angezeigt und Plot View F r Datens tze existieren beispielsweise drei Views n mlich die Anzeige der Me tadaten und Statistiken Meta Data View die Anzeige der Daten selbst Da ta View sowie die Anzeige von verschiedenen Visualisierungen Plot View Im Beispiel oben sehen Sie die Data View eines Datensatzen in Form einer Ta belle Neben solchen Tabellen stehen weitere Standard Darstellungsformen zur Verf gung die wir im Folgenden erl utern m chten Beachten Sie zuvor bitte dass alle Views sich zwei gemeinsame Schaltfl chen oben rechts teilen das linke Icon dient zum Abspeichern dieses Ergebnisses im Repository und das zweite dient verschiedenen Form des Exports des Ergebnisses beispielsweise durch Ausdrucken oder Exportieren in eine Grafikdatei 85 4 Darstellung 4 4 1 Text Die grundlegendste Form der Visualisierung ist die in Form
2. 63 RAPID MINER BENUTZERHANDBUCH r GP gt REPORT THE FUTURE RapidMiner 5 0 Benutzerhandbuch Rapid I www rapid i com Dieses Werk ist urheberreichtlich gesch tzt Alle Rechte auch die der berset zung des Nachdrucks und der Vervielf ltigung des Buches oder Teilen daraus vorbehalten Kein Teil des Werkes darf ohne schriftliche Genehmigung in irgend einer Form reproduziert oder unter Verwendung elektronischer Systeme verarbei tet vervielf ltigt oder verbreitet werden Copyright 2010 Rapid I Inhaltsverzeich Grundbegriffe 1 1 Zufall oder nicht 1 2 Grundbegriffe nis 1 2 1 Attribute und Zielattributel 2222222 2 2 nn 1 2 2 Konzepte und Beispiele 1 2 3 Attributrollen 1 2 4 Wertetypen 1 2 5 Daten und Metadaten 1 2 6 Modellierung 2 0 1 Flexibilit t und Funktionsvielfalt 2 0 2 Skalierbarkeit 2 0 3 Eine Frage des Formats 2 1 Installation und Erstes Repository 2 2 Perspektiven und Views 2 3 Design Perspektive 2 3 1 Operators und Repositories View 2 3 2 _ Process View 2 3 3 Operatoren und Prozesse 2 3 4 Weitere Optionen des Process Views 2 3 5 Parameters View 2 3 6 Help und Comment View 2 3 7 Overview View 2 3 8 Problems und Log View Analyseprozesse 3 1 Erstellen eines neuen Prozesses 19 20 21
3. Plot View O Annotations m2 Plotter E Toys W Movies EBooks W Clothing W Sports E Health W Electronics M Home Garden Bars Stacked v 65 Group By Column store_id v s9 Stack Column a product_category v 50 Legend Column 45 None v S 40 Value Column z SS E A 335 amount v 30 Absolute Values j Aggregation 25 sum v 20 _ Use Only Distinct 15 2 Rotate Labels T i 3 Export Image 7 5 5 7 Store 11 Store 14 Store 13 Store 0 Store 08 Store 06 Store 09 Store 03 Store 02 Store 04 Store 1 Store 05 Store 10 Store 01 Store 15 store_id Abbildung 4 11 nderung der Plotter Konfiguration in Abh ngigkeit von dem Plotter Typ 4 4 4 Graphen Graphen sind eine weitere Darstellungsform welche relativ h ufig in RapidMiner zu finden sind Prinzipiell verstehen wir hierunter alle Visualisierungen welche Knoten und ihre Beziehungen zeigen Das k nnen Knoten innerhalb eines hier archischen Clusterings sein oder auch wie in Abbildung die Knoten eines Entscheidungsbaums Graphen wie der des obigen Entscheidungsbaums werden zumeist als Graph View bezeichnet und stehen unter diesem Namen zur Verf gung Zooming Sie k nnen mittels des Mausrads sofern vorhanden in den Graphen hinein und aus einem Graphen heraus zoomen Alternativ stehen Ihnen im Konfigurations bereich oben links auch zwei Schaltfl chen zur Verf gung um den Zoom Level ihres Graphen zu vergr
4. zelnes Attribut aus auf das Sie diese Transformation anwenden wollen beispiels weise das Attribut a3 Setzen Sie dazu den Filtertyp attribute filter type auf single und w hlen Sie das Attribut a3 am Parameter attribute aus Fahren Sie nun mit der Maus zun chst ber den Ausgabeport von Retrieve und dann ber den oberen Ausgangsport des Normalize Operators In beiden F llen sehen Sie die Metadaten des Iris Datensatzes Sie werden jedoch bemerken dass sich die Metadaten des gew hlten Attributs ver ndert haben Der Wertebereich von a3 ist nach der Transformation nun auf das Intervall 0 1 normalisiert Oder pr ziser gesagt Der Wertebereich von a3 w rde bei einer Ausf hrung auf das Intervall 0 1 normalisiert werden F gen Sie einen weiteren Operator ein den Operatore Discretize by Frequen cy meter range name type auf short und w hlen Sie diesmal mit dem gleichen Verbinden Sie diesen mit dem Normalize Operator Setzen Sie den Para Mechanismus wie oben ein anderes Attribut aus beispielsweise a2 Fahren Sie nun mit der Maus ber den Ausgabeport des neuen Operators und beobach ten Sie die Ver nderung der Metadaten Das ausgew hlte Attribut ist nun nicht mehr numerisch sondern nominal und nimmt die Werte rangel und range2 an Der Diskretisierungsoperator zerlegt den numerischen Wertebereich an einem Schwellwert und ersetzt Werte unterhalb dieses Wert
5. 1 Pfeil nach links Kehrt zur letzten Editierstelle zur ck analog zur Navi gation welche aus Internetbrowsern bekannt ist Einzelne Schritte k nnen mittels des Ausklappmen s auch bersprungen werden 2 Pfeil nach rechts Wieder zu in der Historie weiter vorne liegenden Editier stellen nach vorne gehen analog zur Navigation welche aus Internetbrow sern bekannt ist Einzelne Schritte k nnen mittels des Ausklappmen s auch bersprungen werden 3 Pfeil nach oben Aus dem aktuellen Subprozess wieder in den berge ordneten Prozess zur ckkehren 4 Navigationsleiste Die Navigationsleiste zeigt den Weg vom Hauptprozess ber alle gegangenen Ebenen in den aktuellen Subprozess an Ein Klick auf 42 2 3 Design Perspektive einen der Operatoren zeigt den betreffenden Prozess Mittels der kleinen Pfeile nach rechts kann weiter abw rts navigiert werden Um also in einen Unterprozess hinab zu steigen ist ein Doppelklick auf einen Operator mit dem Subprozess Icon unten rechts n tig Um wieder eine Ebene nach oben zu gehen kann mittels des Pfeils nach oben navigiert werden Den aktuellen Pfad zeigt die Navigationsleiste die alternativ auch zur Navigation in beide Richtungen verwendet werden kann Process XML m F GProcess validation gt t Ga d Apply Model Abbildung 2 21 Ein Subprozess namens Validation der mittels Pfeil nach oben oder ber die Navigationsleiste wieder verlassen
6. Abbildung 3 6 Lange Namen werden angezeigt wenn der Mauszeiger l nger auf einem Operator ruhig verweilt Dies bedeutet dass der Operator keine Fehler produziert hat aber bisher auch noch nicht erfolgreich ausgef hrt wurde Sie haben den Operator also bislang nur vollst ndig konfiguriert direkt ausgef hrt wurde er deswegen jedoch noch lange nicht Das k nnten Sie leicht daran erkennen dass die Statusanzeige dann auf Gr n wechselt Sie haben gar nicht bemerkt dass Sie den Operator bereits kon figuriert haben Die Konfiguration war in diesem konkreten Fall ja auch denkbar einfach Es war n mlich gar nicht notwendig irgendeinen Parameter des Opera tors einzustellen Eine rote Statusanzeige und Eintr ge im Problems View h tten Sie auf solch einen Konfigurationsbedarf hingewiesen 3 2 1 Transformation der Metadaten Wir behandeln nun einen der faszinierendsten Aspekte von RapidMiner n mlich die F higkeit die Ausgabe eines Operators oder eines Prozesses bereits im Vorfeld zu berechnen und dies sogar w hrend der Design Zeit also ohne die tats chlichen Daten laden zu m ssen oder den Prozess gar durch zu f hren Dies wird erm g licht durch die sogenannte Metadaten Transformation von RapidMiner Jeder Operator definiert nat rlich auf welche Art und Weise die entgegengenom menen Eingabedaten transformiert werden Dies ist ja schlie lich seine Aufgabe Das Besondere an RapidMiner jedoch ist dass dies nicht nur f r tats ch
7. Subprocess zur Grup pierung von Unterprozessen auch die wichtigen Makro Operatoren sowie die Operatoren zum Logging beinhalten e Repository Access Enth lt die beiden Operatoren f r lesenden und schrei benden Zugriff in Repositories e Import Enth lt eine Vielzahl von Operatoren um Daten und Objekte aus externen Formaten lesen zu k nnen wie Dateien Datenbanken usw e Export Enth lt eine Vielzahl von Operatoren um Daten und Objekte in 31 2 Design SH Rap c File Edit Process Tools View Help SEE Aa PHB OZO P Overview a Process XML 8 Parameters urn rt v t He sd BB 9 HB logverbosity logfile amp Operators tg Repositories El op u Process Control 34 T Utility 34 random seed Repository Access 2 Import 24 send mail a Export 17 Data Transformation 110 Modeling 108 encoding SYSTEM Evaluation 28 Operators amp Repositories View Comment Problems Log Synopsis P No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like 7 Abbildung 2 11 Design Operatoren von RapidMiner externe Formate schreiben zu k nnen wie Dateien Datenbanken usw e Data Transformation D
8. der Auswahl hinzuf gen oder diese von der Auswahl ausschlie en Gerade 95 4 Darstellung Result Overview 2 Tree Decision Tree Graph View _ Text View Annotations Hs Zoom e P se gt 55 lt 55 Mode nl a ET ar zip code zip code gt 75208 75206 gt 13828 lt 13828 re vr response A response p earnings earnings p 7 Node Labels 5 E gt 115284 118284 gt 142825 142836 v Edge Labels 4 XY response ee response no response Save Image nn 2 en ee no response SE o gt 35040 50 lt 35040 500 K SI response Gp code gt 271115 27111 500 y no response response n ms Abbildung 4 13 Ein Entscheidungsbaum in einer Graphansicht ausgew hlte Knoten k nnen mit gedr ckter Maustaste verschoben werden Weitere Hinweise zu der Bedienung von Graphen in diesen beiden Modi finden Sie im Hilfe Dialog der angezeigt wird wenn Sie auf den Knopf Help im Kon figurationsbereich des Graphen klicken Weitere Einstellungen Sie k nnen einstellen ob die Beschriftungen f r Knoten und Kanten angezeigt werden sollen oder nicht Die wichtigste Einstellung nicht unbedingt f r B ume aber f r andere Graphen ist die Wahl eines passenden Layouts was in der Auswahlbox direkt unterhalb der Modusbox geschehen kann Die verschiede nen Algorithmen haben unterschiedliche St rken und Schw chen und S
9. diese voreingestellte Perspektive wieder herstellen Bei der Ergebnisansicht han delt es sich um die zweite zentrale Arbeitsumgebung von RapidMiner neben der bereits besprochenen Design Perspektive Der Log View unten und das Reposi tory rechts oben haben wir bereits zuvor besprochen In diesem Kapitel werden wir uns daher auf die brigen Komponenten der Perspektive konzentrieren 4 1 Systemmonitor Beim Systemmonitor den Sie in der voreingestellten Perspektive unten rechts finden handelt es sich um einen einfachen Speichermonitor der Ihnen einen berblick ber den gerade verwendeten Speicher gibt Obwohl RapidMiner be reits durch zahlreiche Ma nahmen wie beispielsweise der Verzicht auf Datenko pien und stattdessen der Verwendung von Views versucht den Speicherbedarf zu reduzieren so bleibt die Datenanalyse noch stets in vielen F llen ein Feld mit 79 4 Darstellung Eile Edit Process Tools View Help ISH BI Aw PHB OZIO Result Overview P HandbuchProzess 1 results Process results Ox IS Repositories Completed Apr 21 2010 3 32 34 PM execution time 0 s a d aae Samples none E LocalRepository toes Log BeA EE system Monitor Apr 21 2010 3 32 30 PM INFO Process file version is 50 Apr 21 2010 3 32 30 PM INFO Decoupling process from location LocalRepository Prozesse Test HandbuchProzess Process is now associated with file LocalRepository Prozesse TestHandbuchProzess Abbildung 4 1
10. oft notwendigen Support verbunden war Dass Softwarel sungen f r Data Mi ning jedoch nicht zwingend teuer oder schwer zu bedienen sein m ssen daran d rfte sp testens seit der Entwicklung der Open Source Software RapidMiner wohl niemand mehr ernsthaft zweifeln Begonnen wurde die Entwicklung von RapidMiner unter dem Namen Yet Ano ther Learning Environment YALE am Lehrstuhl f r k nstliche Intelligenz der Universit t Dortmund unter der Leitung von Prof Dr Katharina Morik Mit der Zeit wurde die Software immer ausgereifter mehr als eine halbe Million Downloads wurden seit dem Entwicklungsstart im Jahre 2001 verzeichnet Un ter den vielen Tausend Anwendern waren auch viele Unternehmen welche nach einem Partner mit entsprechender Data Mining Kompetenz f r Dienstleistun gen und Projekte suchten Diesem Bedarf folgend wurde von den RapidMiner Entwicklern das Unternehmen Rapid I gegr ndet welches heute auch f r die Weiterentwicklung und Wartung der Software verantwortlich ist Im Zuge der Unternehmensgr ndung wurde die Software YALE ihrer neuen Bedeutung ent 19 2 Design sprechend in RapidMiner umbenannt Damit befinden sich RapidMiner und das dahinter stehende Unternehmen Rapid I auf einem guten Wege Rapid I erreich te den vierten Platz beim nationalen Start Up Wettbewerb start2grow und gewann bei Europas h chstdotiertem IT Wettbewerb Open Source Business Award den ersten Preis RapidMiner selbst wu
11. 22 22 24 29 30 34 35 44 46 49 51 52 57 57 Inhaltsverzeichnis 4 5 II ne ew ee ed 60 3 2 1 Transformation der Metadaten 63 Ausf hrung von Prozessen 2 0 000 000 2000 00048 72 3 3 1 Betrachten von Ergebnissen 74 bu Gh Ra oe bebe bed dbdd de RES 76 Darstellung 79 p nun an Ge edo de Hh Awe eh eda ade te 79 Anzeigen von Ergebnissen 2 2 Cm non 81 N 82 ne 84 Wk ae ba bab de ae 85 dAl Texti at el ee a RG aE E 86 Ca end Wee Bache Ge eM AE ccc a ees arnt tae oh ihre 86 A473 Plotter eriac be eee ee ee a TS 92 DE Gia Ae de E ee Pete dea gl ones ease cane ater 94 De eee eet ee eee bee eee 97 Mae Roe doa hd h deh BE weve te eee Ha kG 97 Repository 99 5 1 Das RapidMiner Repository 0 0005 99 5 1 1 Ein neues Repository anlegen 101 Geeks Gotoh ee re 102 5 2 1 Prozesse und relative Repositoryangaben 103 re 104 ine IRRE 107 5 2 4 Der Prozesskontextl 22 22mm non 108 a ee Re An 109 5 3 1 Metadatenpropagierung vom Repository durch den Prozess 112 1 Motivation und Grundbegriffe In diesem Kapitel m chten wir Ihnen eine kleine Motivation f r den Einsatz von Data Mining an die Hand geben und ganz nebenbei auch noch die wichtigsten Begriffe einf hren Ob Sie nun bereits erfahrener Data Mining Experte sind oder nicht die Lekt re dieses Kapitels lohnt sich in jedem Fall damit Sie die sowohl hier als auch die
12. 22 a 2 date Abbildung 4 10 Visualisierung eines Datensatzes und die Plotter Konfiguration auf der linken Seite Die wichtigste Einstellung ist ganz oben zu finden und entspricht dem Typ der Visualisierung Es stehen mehr als 30 verschiedene 2D 3D und auch hochdi mensionale Visualisierungsverfahren zur Darstellung Ihrer Daten und Ergebnisse zur Verf gung Im Bild oben sehen Sie einen Plot des Typs Scatter Je nach 92 4 4 Darstellungsformen Auswahl des Plotter Typs ndern sich alle weiteren Einstellungsfelder Bei einem Scatter Plot beispielsweise geben Sie die Attribute f r die x Achse und f r die y Achse an und k nnen noch ein drittes Attribut zur Einf rbung der Punkte verwenden Speziell f r den Scatter Plot gibt es noch weitere M glichkeiten wie beispielsweise die Angaben ob die Achsen logarithmisch skaliert werden sollen Tip Speziell f r Datens tze welche nicht nur Zahlen sondern auch nominale Werte beinhalten ist die Funktion Jitter sehr hilfreich Hiermit geben Sie an ob und wie weit die Punkte von ihrer urspr nglichen Position weg in eine zuf llige Richtung bewegt werden sollen Damit k nnen Sie Punkte die ansonsten durch andere Punkte berdeckt werden w rden leicht sichtbar machen Viele Plotter erlauben dar ber hinaus auch noch weitere Konfigurationen der Darstellung beispielsweise ob die Beschriftung an der x Achse rotiert werden soll so dass auch lange Texte noch lesbar blei
13. 736 0 572 0 491 0 345 0 239 0 261 0 356 0 353 0318 a W Samples none attribute_2 0 736 1 0 780 0 607 0 420 0 332 0 279 0 335 0 317 0 271 aa 3 He attribute_3 0 572 0 780 1 0 782 0 546 0 346 0 190 0 238 0 253 0 220 3 ee none attribute_4 0 491 0 607 0 782 1 0 727 0 353 0 246 0 247 0 247 0 238 EB Iris none v1 attribute_ 0 345 0 420 0 546 0 727 1 0 597 0 335 0 204 0 178 0 183 E Labor Negotiations attribute_6 0 239 0 332 0 346 0 353 0 597 1 0 703 0 472 0 328 0 289 z a eres attribute_7 0 261 0 279 0 190 0 246 0 335 0 703 1 0 676 0 471 0 425 S Ripley Set attribute_8 0 356 0 335 0 238 0 247 0 204 0 472 0 676 1 0 779 0 653 ig attribute_9 0 353 0 317 0 253 0 247 0 178 0 328 0 471 0 779 1 0 877 8 Transactions n attribute _10 0 318 0 271 0 220 0 238 0 183 0 289 0 425 0 653 0 877 1 a ng attribute_11 0 344 0 297 0 275 0 272 0 232 0 334 0 397 0 585 0 728 0 853 LocalRepository oec attribute_12 0 211 0 194 0 215 0 175 0 212 0 344 0 274 0 328 0 363 0 485 attribute_13 0 211 0 250 0 259 0 216 0 299 0 411 0 365 0 323 0 317 0 405 attribute_14 0 256 0 273 0 292 0 287 0 359 0 396 0 410 0 387 0 330 0 346 attribute_15 0 305 0 308 0 286 0 279 0 318 0 368 0 412 0 392 0 300 0 295 attribute_16 0 239 0 262 0 237 0 248 0 329 0 354 0 363 0 322 0 242 0 243 attribute_17 0 138 0 152 0 201 0 223 0 326 0 293 0 250 0 141 0 100 0 121 attribute_18 0 042 0 043 0 121 0 195 0 299 0 236 0 208 0 061 0 027 0 064 attribute_19 0 055 0 041 0 099 0 189 0 341 0 226 0 215 0 062 0 067 0 100
14. Abbildung 2 30 Die Tabelle im Problems View zeigt alle potentiellen Probleme im Design bersichtlich an und gibt in zahlreichen F llen auch gleich Hinweise zur L sung Quick Fixes Weitere Informatio nen finden Sie im Log View AX Problems Log a 2 Errors Message Fixes Location x Gaussian Process cannot handle polynominal attributes Convert attributes to numerical 9 Gaussian Process training set x Gaussian Process cannot handle polynominal label Choose among 4 available quick fixes 19 Gaussian Process training set Abbildung 2 31 Darstellung aller aktuellen Probleme des betreffenden Input Ports Beachten Sie bitte auch das rechts in der Toolbar des Problems View Hiermit k nnen Sie einen Filter aktivieren so dass nur noch die Probleme des aktuell ausgew hlten Operators angezeigt werden Dies ist bei gr eren Prozesses mit mehreren Fehlerquellen ungemein praktisch 53 2 Design Eine wesentliche Neuerung von RapidMiner 5 ist jedoch die M glichkeit auch L sungen f r solche Probleme vorzuschlagen und auch direkt auszuf hren Diese L sungswege werden Quick Fixes genannt Die zweite Spalte gibt eine bersicht ber solche m gliche L sungen entweder direkt als Text falls es nur eine L sungs m glichkeit gibt oder als Angabe wie viele verschiedene M glichkeiten existie ren um das Problem zu l sen In dem Beispiel oben gibt es zwei verschiede ne M glichkeiten das zweite Problem zu behandeln A
15. Aus wahl Delete im Kontextmen des Operators im Process View sowie der Men eintrag Edit Delete Toggle Breakpoints Hier k nnen Breakpoints sowohl vor als auch nach der Ausf hrung des Operators gesetzt werden an denen die Prozessausf hrung stoppt und Zwischenergebnisse inspiziert werden k nnen Diese M glichkeit besteht auch im Kontextmen des Operators im Process View sowie im Edit Men Ein Breakpoint nach Ausf hrung des Operators kann auch durch F7 aktiviert und deaktiviert werden Flag as Dirty Setzt den Zustand des Operators wieder so ein dass er bei wiederholter Prozessausf hrung in jedem Fall durchgef hrt wird 2 3 Design Perspektive 7 Expert Mode Das Icon ganz rechts schaltet zwischen dem Expertenmodus und dem Anf ngermodus um Nur im Expertenmodus werden alle Para meter gezeigt im Anf ngermodus werden die als Expertenparameter ein gestuften Parameter nicht dargestellt Parameters S o W Nominal to Date attribute name v date type date v date format amp time zone SYSTEM v locale English Unite _ keep oid attribute Abbildung 2 26 Die Parameter des Operator Nominal to Date 2 3 6 Help und Comment View Operators View Jedes Mal wenn Sie einen Operator im Operators View oder im Process View ausw hlen zeigt das Hilfefenster im Rahmen des Help View eine Beschreibung dieses Operators an Diese Beschreibungen umfasse
16. Breakpoint Before Breakpoint After F7 A All Breakpoints Debug Mode Abbildung 3 17 Mittels Breakpoints k nnen Sie den Prozessablauf anhalten und Zwischenergebnisse inspizieren Prozess vor der Ausf hrung dieses Operators unterbrochen und die Objekte die an den verbundenen Input Ports dieses Operators anliegen werden angezeigt Die Tatsache dass ein Breakpoint an einem Operator anliegt wird mittels eines kleinen roten Symbols an der Unterkante des Operators angezeigt Abbildung 3 18 Generate Attri Abbildung 3 18 Vor oder nach diesem Operator ist ein Breakpoint definiert Tipp Gerade die Verwendung von Breakpoint After ist relativ h ufig wes wegen diese Aktion auch mit einem Tastaturk rzel versehen ist Mit der Taste 77 3 Analyseprozesse F7 k nnen Sie nach dem derzeitig ausgew hlten Operator einen Breakpoint hin zuf gen beziehungsweise alle derzeitig vorhandenen Breakpoints entfernen Je nachdem ob Sie RapidMiner entsprechend konfiguriert haben wechselt Ra pidMiner automatisch bei einem Breakpoint in die Result Perspektive und zeigt die Zwischenergebnisse an Alternativ k nnen Sie einfach selbst in die Result Perspektive wechseln Die Tatsache dass Sie sich zu diesem Zeitpunkt in einem Breakpoint befinden und nicht beispielsweise am Ende des Prozesses k nnen Sie anhand von zwei Kennzeichen erkennen Erstens zeigt die Statusanzeige ganz un ten links um Hauptfenster von RapidMine
17. Daten unterst tzen 91 4 Darstellung 4 4 3 Plotter Eine der st rksten Eigenschaften von RapidMiner sind die zahlreichen Visualisie rungsverfahren sowohl f r Daten und andere Tabellen wie auch f r Modellierun gen Solche Visualisierungen werden dem Analysten typischerweise in der Plot View angeboten Konfiguration von Plottern Der Aufbau aller Plotter in RapidMiner ist prinzipiell gleich Auf der linken Seite befindet sich ein Konfigurationsbereich der aus mehreren wiederkehrenden Elementen besteht amp Result Overview ExampleSet Generate Sales Data Meta Data View _ Data View Plot View Annotations fa sv Plotter amount 1 000 ME 9 000 Scatter Store 15 2 2 e 000 x Aris Store 14 oo kd oo eo O80 o date Store 13 Log Scale 9 Store 12 ead y Axis Store 11 a 00 eo store_id Store 10 3 e e ee oO Log Scale u Store 09 eo Color Column Store 08 amount vis store 07 _ Log Scale 5 Store 06 00 Jitter Store 05 ee e e Rotate Labels Store 04 e o 2 Export Image Store 03 e 2 Store 02 e o Store 01 a eo mre ss HS aa E E a a a a a M a a O O O R E 0000000000000 0000650000000 000065 oe a ie T ee E SE De ee T SIEB ESEISTZI LESS HI ESS HZ 3 z un zn z2 u zn 22 nn zn
18. Format zugeschnittene Parameter Deren Beschreibung entnehmen Sie bitte der jeweili gen Operatordokumentation 106 5 2 Das Repository verwenden Objekte aus der Ergebnis oder Prozessansicht abspeichern Nachdem Sie einen Prozess ausgef hrt haben wird Ihnen in der Grundeinstel lung die Results Perspektive mitsamt dem gleichnamigen Reiter pr sentiert In dessen Werkzeugleiste befindet sich auf der rechten Seite eine Schaltfl che mit der Sie das aktuell gew hlte Ergebnis im Repository abspeichern k nnen Auch hier erscheint ein Dialog mit dem Sie einen Ordner und einen Namen ausw hlen k nnen Enth lt Ihr Prozess Zwischenergebnisse die in der Results Perspektive nicht mehr angezeigt werden k nnen Sie diese auch vom Process View aus abspei chern Klicken Sie dazu mit der rechten Maustaste auf einen Port an dem Daten anliegen Dies ist an den Ausgangsports aller Operatoren die bereits ausgef hrt wurden der Fall Sie erkennen dies an der dunkleren Farbe und an einem entspre chenden Eintrag in der Kontexthilfe Hier w hlen Sie den Men eintrag Store in Repository um das Objekt abzuspeichern Bitte beachten Sie jedoch dass die Daten an den Ports mit der Zeit wieder freigegeben werden k nnen um Speicher zu sparen und daher nicht garantiert und beliebig lange an den Ports anlegen Vergleichen Sie hierzu bitte auch die Erl uterungen im vorigen Kapitel 5 2 3 Zugriff und Verwaltung des Repositories Haben Sie
19. Ihre Daten einmal ins Repository eingepflegt k nnen Sie sie unter Ver wendung des Retrieve Operators in Ihren Prozessen verwenden Sie k nnen den Operator wie gewohnt aus dem Operators View in den Prozess ziehen und dort den Parameter zum Repository Eintrag definieren Es geht jedoch noch einfacher Ziehen Sie einfach einen Eintrag im Repository zum Beispiel einen Datensatz mit der Maus auf den Process View Hier wird nun automatisch ein fertig konfigu rierter Operator mit einer Referenz auf diesen Eintrag eingef gt Handelt es sich bei den Eintrag um ein Objekt wird ein neuer Operator vom Typ Retrieve er zeugt und entsprechend konfiguriert Handelt es sich bei dem Repository Eintrag jedoch um einen Prozess so wird ein neuer Operator vom Typ Execute Process angelegt und dessen Parameter verweist automatisch auf den gew hlten Prozess aus dem Repository Mit einem Rechtsklick auf Eintr ge im Repsitory erhalten Sie weitere M glich keiten um auf das Repository zuzugreifen die Sie von der Dateiverwaltung Ihres 107 5 Repository Rechners kennen Diese Aktionen sind auch ber die Werkzeugleiste des Reposi tory Views verf gbar Weitestgehend sind diese Aktionen selbsterkl rend 1 Store Process here speichert den aktuellen Prozess an den angegebenen Ort Rename Benennt den Eintrag oder das Verzeichnis um Create Folder Legt ein neues Verzeichnis an dieser Stelle an Delete L scht den gew hlten Reposi
20. Objekt des gleichen Typs zur ck Operatoren die Daten transformieren geh ren in diese Gruppe Und wieder andere Operatoren konsumieren ihre Eingabe und verwandeln diese in ein vollst ndig neues Objekt viele Data Mining Verfahren geh ren hierzu und liefern beispielsweise ein Modell f r die gegebenen Input Daten Die Farbe der Ports gibt an mit welchem Eingabetyp ein Port versorgt werden muss Ein bl ulicher Farbton beispielsweise zeigt an dass eine Beispielmenge 35 2 Design Example Set verlangt wird Ist die obere H lfte und der Name des Ports rot eingef rbt so deutet dies auf ein Problem hin F r den Operator oben ist dieses Problem leicht zu sehen er ist nicht verbunden und die Input Ports ben tigen noch eine Verbindung zu einer passenden Quelle Wei e Output Ports liegen dann vor wenn das Resultat unklar ist beziehungs weise in der derzeitigen Konfiguration noch nicht geliefert werden kann Sobald alle notwendigen Konfigurationen abgeschlossen wurden d h alle notwendigen Parameter definiert und alle notwendigen Input Ports verbunden so f rben sich die Output Ports gem ihres Typs ebenfalls ein Abbildung 2 15 Statusanzeigen von Operatoren Aber nicht nur die Ports sondern auch der komplette Operator kann seinen Zustand mittels verschiedener Statusanzeigen visualisieren Diese sind von links nach rechts gegeben durch 36 Statusampel Zeigt an ob ein Problem vorliegt wie noch n
21. Result Perspektive von RapidMiner hohem Speicherbedarf Der Speichermonitor zeigt Ihnen den maximal in Rapid Miner zur Verf gung stehenden Speicher an Max und den h chsten derzeit verwendbaren Speicher Total Letzterer entspricht der oberen Linie des Mo nitors und kann maximal bis zum absoluten Maximum Max bei Bedarf erh ht werden Dies geschieht automatisch und nach M glichkeit nur bei Bedarf Ist der Speichermonitor vollst ndig gef llt so wird also die bei Total angegebene Menge verwendet Ist diese genauso hoch wie Max so befindet sich RapidMi ner am absoluten Limit und m sste bei noch mehr Speicherbedarf den Prozess abbrechen Es ist oftmals m glich einen solchen Prozess durch geschickte Vorverarbeitung stapelweiser Bearbeitung Verwendung von Views oder einem geschicktem Spei chermanagement innerhalb von RapidMiner doch noch durchzuf hren Dies ist jedoch ein Feld f r Spezialisten und daher nicht Teil dieses Benutzerhandbuchs 80 4 2 Anzeigen von Ergebnissen 4 2 Anzeigen von Ergebnissen Wir haben bereits gesehen dass Objekte die an die Ergebnis Ports am rechten Rand eines Prozesses angelegt werden nach Beendigung des Prozesses automa tisch in der Result Perspektive angezeigt werden Hierzu dient der gro e Bereich oben links in dem auch bereits die Result Overview angezeigt wird die wir am Schluss dieses Kapitels besprechen werden Jedes derzeit ge ffnete und angezeigte Erge
22. Sie k nnen einen solchen Tooltip mittels Druck auf die Taste F3 zu einem richtigen Dialog machen den Sie beliebig verschieben und auch in der Gr e ndern k nnen Au erdem sind diese Rapid Miner Tooltips auch in der Lage neben textuellen Informationen auch andere Elemente wie beispielsweise Tabellen mit den Metadaten aufzunehmen Beachten Sie bitte dass die Metainformationen nicht zwingend sofort verf gbar sein m ssen sondern Sie das Einladen der Metadaten unter Umst nden erst noch mit einem Klick auf einen Link innerhalb des Tooltips ansto en m ssen Dieses Vorgehen verhindert dass bei einem versehentlichen Ansehen der Tooltips der Repository Eintr ge die unter Umst nden doch recht gro en Metadaten unmit telbar eingeladen werden m ssen und RapidMiner auf diese Weise ausbremsen w rden Tipp Halten Sie den Mauszeiger kurz ber einen Repository Eintrag um sich die Metadaten anzusehen oder erst einmal einzuladen Handelt es sich bei dem Fin trag beispielsweise um ein Zwischenergebnis k nnen Sie leicht erkennen welche Vorverarbeitung bereits stattgefunden hat Die folgende Abbildung zeigt wie die Metadaten f r den Golf Datensatz aus dem mit RapidMiner mitgelieferten Beispielsverzeichnis aussehen Zun chst erkennen Sie dass der Datensatz 14 Beispiele Number of examples und 5 Attribute enth lt Number of attributes Das Attribut mit dem Namen Outlook ist nominal und nimmt die drei Werte overca
23. angezeigt werden Wir empfehlen also dringend die Result Overview nicht zu schlie en beziehungsweise mindestens in einer Perspektive einen Result Overview ge ffnet zu lassen 98 5 Verwaltung von Daten Das Repository Tabellen Datenbanken Textsammlungen Logdateien Webseiten Messwerte dies und hnliches steht am Anfang jedes Data Mining Prozesses Daten werden aufbereitet umgewandelt zusammengef hrt und am Ende erhalten Sie neue oder anders repr sentierte Daten Modelle oder Berichte In diesem Kapitel erfahren Sie wie Sie all diese Objekte mit RapidMiner handhaben 5 1 Das RapidMiner Repository Sobald Ihre Sammlung von Prozessen und den mit ihnen assoziierten Dateien eine gewisse Gr e bersteigt werden Sie feststellen dass es ratsam ist diese auf eine konsistente und strukturierte Art und Weise zu organisieren Eine M glichkeit ist die Organisation von Projekten auf Dateiebene Dateien werden zu Projek ten gruppiert und jeweils ein Verzeichnis f r Ausgangsdaten Zwischenergebnisse Berichte etc angelegt W hrend das Anlegen aufger umter Projektstrukturen eine sinnvolle Sache ist ist die Verwendung des normalen Dateisystems in den seltensten F llen angera ten und f r die Bed rfnisse einer Data Mining L sung kaum ausreichend Ver schiedene Gr nde wie Vertraulichkeit oder begrenzter Speicherplatz k nnen das Ablegen von Dateien auf dem lokalen Rechner unm glich machen Soll ein auf dem lokalen Rechn
24. auf Die allermeisten Prozesse in unserer wahrnehmbaren Umwelt folgen nicht Zuf l len Der Grund f r unser Unverm gen die Prozesse pr zise zu beschreiben und zu extrapolieren liegt vielmehr daran dass wir nicht in der Lage sind die notwen digen Einflussfaktoren zu erkennen oder zu messen oder diese in die notwendigen Beziehungen zu setzen 1 1 Zufall oder nicht Beim fallenden Glas haben wir die wichtigsten Eigenschaften wie Material Fall h he und Bodenbeschaffenheit schnell erkannt und k nnen innerhalb k rzester Zeit durch Analogieschl sse aus hnlichen Erfahrungen bereits eine Sch tzung der Wahrscheinlichkeit f r Glasbruch abgeben Beim M nzwurf hingegen schaffen wir genau dieses nicht Wir k nnen noch so viele W rfe einer M nze betrachten wir werden es niemals schaffen bei beliebiger Wurfweise die notwendigen Faktoren schnell genug zu erkennen und entsprechend zu extrapolieren Was haben wir also in Gedanken gemacht als wir die Prognose f r den Glaszu stand nach dem Aufprall abgegeben haben Wir haben die Eigenschaften dieses Ereignisses gemessen Man k nnte auch sagen dass wir Daten gesammelt haben die den Fall des Glases beschreiben Blitzschnell haben wir dann einen Analogie schluss durchgef hrt d h wir haben gem eines hnlichkeitsma es einen Ver gleich mit fr heren fallenden Gl sern Tassen Porzellanfig rchen oder hnlichen Gegenst nden durchgef hrt Hierzu sind zwei Dinge notwendig n
25. den neuen Log View Wenn Sie die Maus nun in den markierten Bereich dazwischen bewegen so ndert der Mauszeiger seine Form und zeigt an dass Sie durch Draggen also durch Ziehen des Zeigers bei gedr ckter Taste die Gr en der Views ndern k nnen Probieren Sie es ruhig einmal aus Wie bereits angedeutet k nnen Sie auch die Position der Views beliebig ndern Bewegen Sie den Mauszeiger hierzu einfach auf den Namensbereich des Views und draggen Sie den View an eine andere Position Die Position an der View nach dem Loslassen der Maustaste angeordnet werden w rde wird durch einen transparenten grauen Bereich markiert Sie k nnen so einzelne Views zu mehreren Karteikarten zusammenfassen so dass 26 2 2 Perspektiven und Views Eile Edit Process Tools View Help ISHE9 aa PHB DZO Sem 227 Welcome View I 8 g New Open Recent Open Open Template Online Tutorial Recent Processes ALocalRepository Prozesse Test TestDeclareMissingValue ALocalRepository Prozesse Test TestReplaceMissingValue LocalRepository Prozesse TestTestRename ALocalRepository Prozesse Test MetaTest NLocalRepositoryiProzesse Test TestProzess LocalRepository TestProzess Samplesiprocesses 01_Learner 01_DecisionTree Samplesiprocessesi01_Learner 12_AssociationRules Career Offers RapidMiner 5 Release Candidate RC released Courses amp Webinars Are you interested in working de Fast Traci for Rapid I Then please have We just have released
26. die hohe Konnektivit t zu den verschiedensten Datenquellen wie z B Oracle IBM DB2 Microsoft SQL Ser ver MySQL PostgreSQL und Ingres dem Zugriff auf Excel Access und SPSS Dateien sowie zahlreichen anderen Datenformaten Zusammen mit den hunderten Operatoren zur Datenvorverarbeitung l sst sich RapidMiner neben der Datenana lyse damit auch hervorragend zur Datenintegration und transformation ETL einsetzen Und auch bei der Software selbst hat der Anwender die Wahl aus verschiedenen Formaten RapidMiner gibt es einmal in der freien RapidMiner Community Editi on welche jederzeit und kostenlos von der Website heruntergeladen werden kann und in der Enterprise Edition welche die Vorteile der freien Community Edition mit einem vollst ndigen professionellen Support mit garantierten Antwortzeiten kombiniert 2 1 Installation und Erstes Repository Bevor wir mit RapidMiner arbeiten k nnen m ssen Sie die Software nat rlich erst einmal herunterladen und installieren Sie finden sie auf der Webseite des 22 2 1 Installation und Erstes Repository Herstellers Rapid I im Downloadbereich unter http www rapid i com Laden Sie das passende Installationspaket f r Ihr Betriebssystem herunter und installieren Sie RapidMiner gem den Anweisungen auf der Webseite Es werden alle g ngigen Windowsversionen genauso unterst tzt wie Macintosh Linux oder Unix Systeme Beachten Sie bitte dass auf den letztgenannten eine aktuelle Ja
27. eines Textes Eini ge Modelle aber auch zahlreiche andere Ergebnisse k nnen in textueller Form dargestellt werden typischerweise geschieht dies im Rahmen des sogenannten Text Views den Sie falls es mehrere Views f r dieses Objekt gibt ber die Schaltfl chen direkt unterhalb der Registerkarte ausw hlen k nnen In RapidMiner k nnen Sie solche Texte stets mit der Maus markieren und mit STRG C in die Zwischenablage kopieren Damit stehen die Ergebnisse dann auch in anderen Applikationen bereit L ngere Texte k nnen Sie mittels eines Klicks auf die Textfl che gefolgt von STRG A auch vollst ndig markieren und dann kopieren zg Result Overview Q Kernel Model SYM LE ExampleSet Multiply Tet View O Weight Table O Support Vector Table O Plot View O Annotations Te Kernel Model Total number of Support Vectors 104 Bias offset 25 881 Feature weight calculation only possible for two class learning problems Please use the operator SVMWeighting instead number of classes 2 nurber of support vectors 104 Abbildung 4 5 Einige Modelle wie beispielsweise Regelmengen werden in tex tueller Form dargestellt Aber auch zahlreiche andere Objekte bieten eine Darstellung in Form eines lesbaren Textes 4 4 2 Tabellen Eine der h ufigsten Darstellungsformen von Informationen innerhalb von Rapid Miner ist die Form der Tabelle Dies muss bei einer Softwarel sung deren vor rangiges Ziel die Analyse von Daten in tabel
28. ern und zu verkleinern 94 4 4 Darstellungsformen E ExampleSet Generate Data Plotter SOM y Point Color C Jitter Matrix Meta Data View O Data View Plot View O Annotations m2 U Matrix be Style Landscape Net Width Net Height Training Rounds 25 Adaptation Radius 1 Calculate amp Export Image label clusterO cluster cluster2 cluster3 clusterd4 cluster5 cluster cluster Abbildung 4 12 Aufw ndige Visualisierungen wie beispielsweise SOMs bieten Modus einen Knopf Calculate um die Berechnung zu starten Der Fortschritt wird mittels eines Balkens angezeigt Es stehen zwei grundlegende Navigationsweisen im Graphen zur Verf gung die auch als Modus bezeichnet werden 1 Verschieben Der Modus zum Verschieben des Graphen wird durch die linke Schaltfl che in der Modus Box ausgew hlt In diesem Fall k nnen Sie mit gedr ckter linker Maustaste den Ausschnitt des Graphen verschieben um sich so verschiedene Bereiche des Graphen detailliert ansehen zu k nnen 2 Ausw hlen Der Modus zum Ausw hlen einzelner Knoten wird durch die rechte Schaltfl che in der Modus Box ausgew hlt Nun k nnen Sie ein zelne Knoten mittels Klicks ausw hlen oder mit gedr ckter Maustaste in einen freien Bereich einen Auswahlrahmen f r mehrere Knoten zugleich definieren Mittelst gedr ckter SHIFT Taste k nnen Sie einzelne Knoten
29. f r unterschiedliche Frage stellungen angewendet werden kann so gilt dieses auch f r Modelle Sie k nnen leicht verst ndlich sein und Ihnen auf einfache Weise die zu Grunde liegenden Prozesse erkl ren Oder sie k nnen sich gut zur Prognose f r unbekannte Situa tionen einsetzen lassen Manchmal gilt auch beides wie beispielsweise bei dem folgenden Modell welches ein Data Mining Verfahren f r unser Szenario geliefert haben k nnte Wenn der Kunde aus st dtischen Gebieten kommt mehr als 500 Mitarbeiter hat und mindestens 3 K ufe in Produktgruppe 1 get tigt wurden so ist die Wahr scheinlichkeit hoch dass dieser Kunde sich f r das neue Produkt interessiert Ein solches Modell ist leicht verst ndlich und gibt unter Umst nden tiefere Ein sichten in die zu Grunde liegenden Daten und Entscheidungsprozesse Ihrer Kun den Und es handelt sich dar ber hinaus um ein operationales Modell also um ein Modell welches direkt zur Prognose f r weitere Kunden eingesetzt werden kann Die Firma Meier Papier beispielsweise erf llt die Bedingungen der obi gen Regel und wird sicher daher ebenfalls f r das neue Produkt interessieren jedenfalls gilt dieses mit h herer Wahrscheinlichkeit Ihr Ziel w re also erreicht und Sie h tten mit Hilfe von Data Mining ein Modell generiert welches Sie zur Steigerung Ihrer Marketingeffizienz einsetzen k nnten Statt nun einfach alle Be standskunden und sonstige Kandidaten blind zu kontaktier
30. hinzugekommen Unser eben neu definiertes Attribut total_price ist nun ebenfalls in der Tabelle zu finden Und noch immer wurde unser Prozess noch nicht ausgef hrt wie Sie leicht an den noch stets gelben Statusanzeigen erkennen k nnen Sie m gen sich nun viel 68 3 2 Der erste Analyseprozess Process ur t inp Generate Sale Generate Attri H Generate Attributes example set output example set output Meta data Data Table Number of examples 100 9 attributes Sales Data output Role Name Type id transacti integer store_id nominal custome nominal product_id integer product_ nominal date date amount integer single_p integer total_price real Press F3 for focus Generated by Generate Attributes example set output Generate Range Missings Comment unkown 0 Store 0 0 Custo 0 10000 0 Books 0 Unbound 0 1 10 0 10 100 0 unkown 0 t iii 4 res res Abbildung 3 11 Die Metadaten enthalten den vollst ndigen Weg des Objekts und sind bis auf das neu hinzugekommene Attribut total_price unver ndert 69 3 Analyseprozesse leicht fragen Na und ich kenne im Vorfeld das Ergebnis und das ohne Pro zessausf hrung Was habe ich denn davon Nun eine ganze Menge Sie k nnen nun mit einem Blick erkennen was ein konkreter Operator oder ein Teil Prozess denn mit de
31. nnen also verschiedene Rollen anneh men Wir haben bereits die Rolle Label eingef hrt f r Attribute welche die Beispiele in irgendeiner Weise kennzeichnen und welche es f r neue Beispiele die noch nicht derart gekennzeichnet sind vorherzusagen gilt In unserem oben be schriebenen Szenario beschreibt das Label sofern vorhanden nach wie vor die Eigenschaft ob der Prototyp positiv aufgenommen wurde Gleicherma en gibt es beispielsweise Rollen bei denen das zugeh rige Attribut zur eindeutigen Identifikation des betreffenden Beispiels dient In diesem Fall nimmt das Attribut die Rolle einer Identifizierung ein und wird kurz ID genannt Mit dieser Rolle finden Sie solche Attribute auch in der Software RapidMiner gekennzeichnet In unserem Kundenszenario k nnte das Attribut Name die Rolle einer solchen Identifikation einnehmen Es gibt noch weitere Rollen wie beispielsweise solche bei denen das Attribut das Gewicht des Beispiels hinsichtlich des Labels bezeichnet In diesem Fall tr gt die Rolle den Namen Gewicht oder Weight Attribute ohne besondere Rolle also solche die die Beispiele einfach nur beschreiben nennen wir auch regul re Attribute und lassen die Rollenbezeichnung in den meisten F llen einfach weg Im brigen steht es Ihnen in RapidMiner frei auch eigene Rollen zu vergeben und somit Ihre Attribute gesondert in Ihrer Bedeutung zu kennzeichnen 1 2 4 Wertetypen Neben den verschiedenen Rollen e
32. r das Prozess Design von Metadaten Gebrauch macht empfehlen wir Ihnen dringend die Ver wendung des Repositories da andernfalls beispielsweise bei unmittelbaren Lesen von Daten aus Dateien oder Datenbanken die Metadaten nicht zur Verf gung stehen und so zahlreiche Unterst tzungen nicht angeboten werden 2 3 2 Process View SE Rap dM n File Edit Process Tools View Help SERS Aw PHBE DO P Overview a g Process E Parameters 1 t 1213 83 varg logverbosity logfil amp Operators E Repositories aane a rom Jof resume E Process Control 34 Anm 0 ee Repository Access 2 E Import 24 send mail never X T Export 17 Data Transformation 110 H v een Process View encoding SYSTEM Evaluation 28 Comment Problems Log Synopsis Pa No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like E3 Abbildung 2 13 Im Process View werden die Bausteine von RapidMiner die so genannten Operatoren miteinander verbunden Der Process View zeigt die einzelnen Schritte innerhalb des Analyseprozesses so wie deren Verbindungen untereinander Neue Schritte k nnen auf mehrere Weisen dem aktuellen Prozess hinzugef gt
33. werden Verbindungen zwischen diesen Schrit ten k nnen definiert und wieder gel st werden Schlie lich ist es sogar m glich sogar die Reihenfolge der Schritte in dieser Ansicht zu definieren Aber eins nach dem anderen 34 2 3 Design Perspektive 2 3 3 Operatoren und Prozesse Die grundlegende Arbeitsweise mit RapidMiner besteht in der Definition von Analyseprozessen durch die Angabe einer Abfolge von einzelnen Arbeitsschrit ten In RapidMiner hei en diese Prozessbausteine Operatoren Ein Operator ist durch mehrere Dinge definiert e die Beschreibung der erwarteten Eingaben e die Beschreibung der gelieferten Ausgaben e die Aktion die der Operator auf den Eingaben ausf hrt und welche schlie lich die Ausgabe berechnet e eine Menge von Parametern welche die durchgef hrte Aktion steuern k n nen Die Ein und Ausgaben von Operatoren werden ber Ports generiert beziehungs weise konsumiert Wir werden sehen dass in RapidMiner ein Operator durch einen Baustein in der folgenden Form dargestellt wird Apply Model Abbildung 2 14 Ein Operator kann ber seine Input Ports links und Output Ports rechts verbunden werden Ein solcher Operator kann beispielsweise Daten aus dem Repository einer Da tenbank oder aus Dateien einlesen In diesem Fall h tte er keine Input Ports wohl aber Parameter der zumindest den Ort der Daten spezifiziert Andere Ope ratoren transformieren ihre Eingaben und liefern ein
34. werden kann Definition der Ausf hrungsreihenfolge In fast allen F llen gelingt es RapidMiner automatisch die korrekte Ausf hrungs reihenfolge der Operatoren zu bestimmen RapidMiner verwendet hierzu die Ver bindungsinformationen und die Tatsache dass ein Operator dessen Ergebnis von einem anderen verwendet werden soll nat rlich vor diesem ausgef hrt werden muss Es gibt jedoch F lle bei denen die Reihenfolge nicht automatisch festgelegt wer den kann wie bei vollst ndig parallelen Teilprozessen oder bei der die automa tische Reihenfolge nicht korrekt ist beispielsweise weil ein Makro zun chst be rechnet werden muss bevor man es als Parameter in einem sp teren Operator anwenden kann Aber auch andere Gr nde wie beispielsweise eine effizientere 43 2 Design Datenbehandlung oder eine exakt gew nschte Reihenfolge zur Ausf hrung bei spielsweise f r Reporting spielen h ufig eine gro e Rolle Zu diesem Zweck bietet RapidMiner eine elegante Methode die Reihenfolge der Operatoren anzuzeigen und die Ausf hrungsreihenfolge sogar bequem zu editie ren Hierzu klicken Sie bitte auf den Doppelpfeil nach oben und unten mit dem Fragezeichen in der Toolbar des Process Views und wechseln Sie so in die An sicht zur Reihenfolgendefinition Nun wird statt des Icons f r jeden Operator die Nummer seiner Ausf hrung dargestellt Der transparente orangefarbene Strang verbindet die Operatoren in dieser Reihenfolge miteinander
35. wie in Abbildung 2 22 zu sehen ist Um eine solche Reihenfolge zu ndern kann an jeder beliebigen Stelle auf einen Operator geklickt werden Der Pfad bis zu diesem Operator nun nicht ge ndert werden aber die Wahl eines Operators der nach dem gew hlten kommt durch einen weiteren Klick versucht die Reihenfolge so zu ndern dass der zweite Ope rator m glichst schnell nach dem ersten ausgef hrt wird W hrend Sie die Maus ber die brigen Operatoren bewegen sehen Sie die aktuelle Wahl in orange bis zu diesem Operator und in grau ab diesem Eine unm gliche Wahl wird durch eine rote Zahl symbolisiert Sie k nnen eine aktuelle Auswahl mittels ei nes Rechtsklicks abbrechen Mit nur wenigen Klicks k nnen Sie wie in Abbildung 2 23 abgebildet auf diese Weise die Reihenfolge des oben beschriebenen Prozesses in die Folgende ndern 2 3 4 Weitere Optionen des Process Views Nachdem wir fast alle Optionen dieses zentralen Elements der Design Perspektive von RapidMiner diskutiert haben beschreiben wir nun noch die brigen Aktionen in der Toolbar die in Abbildung 2 24 zu sehen ist sowie weitere M glichkeiten des Process Views Die rechten drei Icons in der Toolbar des Process Views f hren die folgenden Aktionen aus 1 Automatische Anordnung Ordnet alle Operatoren des derzeitigen Prozesses neu an gem der Verbindungen und der aktuellen Ausf hrungsreihenfolge 2 Automatische Gr e ndert die Gr e der wei en Arb
36. 237 09 05 2005 2 23 837 85 85 Store 03 Home Garden Customer 1553 53734 29 07 2008 6 21 855 22 22 Store 03 Toys Customer 1704 89794 02 08 2007 5 69 611 Abbildung 4 8 In dieser Tabelle wurde zun chst nach dem Attribut store_id aufsteigend sortiert und dann innerhalb der Store ID Bl cke ebenfalls aufsteigend nach der Produktkategorie Bewegen von Spalten Sie k nnen bei den meisten Tabellen die Reihenfolge der Spalten ndern indem Sie auf die Spalten berschrift klicken und bei gedr ckter Maustaste die Spalte an eine neue Position ziehen Dies kann praktisch sein wenn Sie die Inhalte zweier Spalten in umfangreichen Tabellen miteinander vergleichen wollen Anpassen von Spaltenbreiten Sie k nnen die Breite von Spalten anpassen indem Sie den Mauszeiger ber den Bereich zwischen zwei Spalten halten und bei gedr ckter Maustaste die Breite der Spalte links von dem Trennbereich ndern Alternativ k nnen Sie auch einen Doppelklick auf diesen Zwischenraum durchf hren wodurch die Breite der Spalte links von dem Zwischenraum automatisch auf die notwendige Mindestgr e ein gestellt wird Zu guter Letzt k nnen Sie w hrend eines solchen Doppelklicks auf einen Spaltenzwischenraum auch noch die STRG Taste gedr ckt halten wodurch die Gr e aller Spalten automatisch angepasst wird 89 4 Darstellung Tip Die Kombination von STRG und dem Doppelklick auf einen Spaltenzwisch enraum im Bereich der Spalten berschriften sollte
37. 700 9 079 Abbildung 4 6 Farbkodierungen und alternierende Zeilenhintergr nde erleich tern die Navigation innerhalb von Tabellen Diese Farbkodierung setzt sich auch in den Metadaten durch Hier haben Attribu te mit speziellen Rollen ebenfalls einen durchg ngig hellgelben Hintergrund und die regul ren Attribute alternierend hellblaue und wei e Ganz anders kann dieses Farbschema wie in Abbildung 4 7 jedoch f r andere Objekte aussehen Bei einer Korrelationsmatrix beispielsweise k nnen auch einzelne Zellen eingef rbt sein Je dunkler desto st rker ist die Korrelation zwischen diesen Attributen Sortierung Die meisten Tabellen k nnen in RapidMiner mit einem simplen Klick sortiert werden Bewegen Sie den Mauszeiger etwa in die Mitte der Spalten berschrift und klicken Sie die berschrift an Ein kleines Dreieck zeigt nun die Richtung der Sortierung an Ein weiterer Klick ndert die Sortierrichtung und noch ein Klick w rde die Sortierung wieder deaktivieren Sie k nnen auch nach mehreren Spalten gleichzeitig sortieren d h zun chst nach 87 4 Darstellung Eile Edit Process Tools View Help TERI Aw PIE UZe g Result Overview HA Correlation Matrix Correlation Matrix Table View Pairwise Table O Plot View O Annotations amp Repositories Attributes attribute_1 attribute_2 attribute_3 attribute_4_ attribute_5 attribute_6 attribute_ 7 _attribute_8 attribute_9 attribute_ a 3 a attribute_1 1 0
38. Access 2 send mail encoding Data Transformation 110 Modeling 108 Evaluation 28 Problems Log Synopsis R No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like EJ Abbildung 3 4 Die voreingestellte Design Perspektive unmittelbar nach dem An legen eines neuen Prozesses Wir beginnen nun unseren neuen Prozess zun chst mit dem Generieren von Da ten auf denen wir arbeiten k nnen Wie gesagt In sp teren Kapiteln werden wir sehen wie wir Daten aus dem Repository verwenden k nnen oder mittels Operatoren auch direkt aus anderen Datenquellen wie Datenbanken oder Datei en einlesen Aber f r den Augenblick werden wir darauf verzichten und einen kleinen synthetischen Datensatz generieren Klappen Sie nun bitte im Operators View die Gruppe Utility aus und dann Data Generation Die Zahlen in Klammern bei den einzelnen Gruppen geben brigens die Anzahl an Operatoren f r diese Gruppe an Sie sollten nun mehre 61 3 Analyseprozesse re Operatoren sehen die zum Generieren eines k nstlichen Datensatzes genutzt werden k nnen Darunter befindet sich auch der Operator Generate Sales Data Ziehen Sie nun mit gedr
39. Apr 21 2010 3 17 50 PM INFO Process finished successfully after 0 s Abbildung 3 16 Nach erfolgreicher Durchf hrung eines Prozesses k nnen Sie in der Result Perspektive die Ergebnisse betrachten 75 3 Analyseprozesse wenden k nnen Sie hierzu auch die Tastaturkommandos F8 f r einen Wechsel in die Design Perspektive und F9 f r einen Wechsel in die Result Perspektive verwenden 3 3 2 Breakpoints Die Metadaten Transformation stellt ein sehr m chtiges Werkzeug dar um das Design von Analyseprozessen zu unterst tzen und deutlich komfortabler zu ma chen Es entf llt schlicht und ergreifend die Notwendigkeit den Prozess w hrend des Designs unn tig oft zu Testzwecken durchf hren zu m ssen Das erwartete Resultat kann vielmehr anhand der Metadaten bereits abgesch tzt werden Damit d rfte die Metadatentransformation und propagierung die Welt der Datenana lyse ein wenig revolutionieren statt wie bisher jeden Schritt einzeln durchf hren zu m ssen um den n chsten Operator konfigurieren zu k nnen werden die Er gebnisse mehrerer Transformationen nun direkt ganz ohne Ausf hrung absehbar Dies ist nat rlich insbesondere f r die Analyse gro er Datenmengen ein gewalti ger Durchbruch Trotzdem ergibt sich in einigen F llen die Notwendigkeit ber die Metadaten hin aus ein konkretes Ergebnis vollst ndig sehen zu k nnen W hrend des laufenden Designs ist es blicherweise kein Problem das gew nschte Zwi
40. Auswahl von Analyse prozessen in einige Konzepte des Data Mining einf hrt Empfehlenswert wenn Sie bereits Grundwissen im Bereich Data Mining haben und mit der grundlegenden Bedienung von RapidMiner vertraut sind 25 2 Design In der Toolbar im obersten Bereich von RapidMiner finden Sie am rechten Rand drei Icons welche zwischen den einzelnen Perspektiven von RapidMiner umschal ten Eine Perspektive besteht aus einer frei konfigurierbaren Auswahl von einzel nen Elementen der Oberfl che den sogenannten Views Diese k nnen zudem noch beliebig angeordnet werden In der Welcome Perspektive gibt es zumindest voreingestellt nur einen einzigen View n mlich den Willkommensschirm den Sie gerade vor sich sehen Sie k nnen weitere Views aktivieren indem Sie das Men View aufrufen View Run Tools Help A Perspectives gt New Perspective a Show view gt ir Restore Default Perspective v g Expert Mode F4 Abbildung 2 4 View Men Im Unterpunkt Show View finden Sie alle verf gbaren Views von RapidMiner Views die in der aktuellen Perspektive gerade sichtbar sind werden durch ein H kchen gekennzeichnet Schalten Sie durch eine Auswahl einen weiteren View ein beispielsweise den View mit dem Namen Log Sie sehen in Abbildung 2 5 nun dass in der Wilkommensperspektive ein zweiter View mit diesem Namen hinzugef gt wurde Sie sehen oben nun den bereits bekannten Welcome View und unten
41. F3 for focus Abbildung 3 7 Die Metadaten des Output Ports des Operators Generate Sales Data Es erscheint ein Tooltip der die erwartete Ausgabe des Ports beschreibt Zun chst der Name des Operators und des Ports gefolgt von der Art der Metadaten In diesem Fall handelt es sich um die Metadaten einer Beispielmenge Die Zahl der Beispiele kann genauso entnommen werden 100 wie die Zahl der Attribute 8 Als n chstes folgt noch eine Beschreibung des Weges den das Objekt bei einer 64 3 2 Der erste Analyseprozess Ausf hrung durch den Prozess absolviert haben w rde In diesem Fall hat der Weg nur eine einzige Station n mlich den Port des generierenden Operators Der wichtigste Teil der Metadaten zumindest f r Beispielmenge ist jedoch die Tabelle welche die Metadaten der einzelnen Attribute beschreibt Die einzelnen Spalten sind 1 Role Die Rolle des Attributs ohne Angabe handelt es sich um ein regul res Attribut 2 Name Der Name des Attributs 3 Type Der Wertetyp des Attributs 4 Range Der Wertebereich des Attributs also Minimum und Maximum bei numerischen Attributen und ein Auszug der m glichen Werte bei nominalen Attributen 5 Missings Die Zahl der Beispiele bei denen der Wert dieses Attributs un bekannt ist Tipp Solche komplexeren Tooltips gibt es an mehreren Stellen in RapidMiner beispielsweise auch f r die Operatorbeschreibungen die als Tooltip im Operators View angezeigt we
42. Numerisch e Anzahl der K ufe in Produktgruppe 2 Numerisch Das Attribut Prototyp positiv aufgenommen hat eine besondere Rolle unter den Attributen es handelt sich hierbei um unser Zielattribut Das Zielattri but hat den Wertetyp Nominal was bedeutet dass nur relativ wenige Aus pr gungen in diesem Fall ja und nein angenommen werden k nnen Genau genommen ist es sogar binominal da nur zwei verschiedene Auspr gungen er laubt sind Die brigen Attribute haben alle keine gesonderte Rolle d h sie sind regul r und haben entweder den Wertetyp Numerisch oder Text Die folgende Definition ist sehr wichtig da sie f r eine erfolgreiche professionelle Datenanalyse eine zentrale Rolle spielt Diese Menge an Informationen die ein Konzept beschreiben nennen wir auch Metadaten da sie Daten ber die eigentlichen Daten darstellen F r unser Konzept Kunde hat unser fiktives Unternehmen jede Menge Beispie le n mlich die Informationen die das Unternehmen zu den einzelnen Attributen in seiner Kundendatenbank gespeichert hat Das Ziel ist nun aus den Beispielen f r die eine Information ber das Zielattribut vorliegt eine Prognoseanweisung zu generieren welche uns f r die brigen Kunden vorhersagt ob diese mit h herer 14 1 2 Grundbegriffe Wahrscheinlichkeit den Prototypen eher positiv aufnehmen w rden oder ableh nen Die Suche nach solch einer Prognoseanweisung ist eine der Aufgaben die man
43. amp Operators ig Repositories amp u 8 E Local Repository cmierwa E E Main Repository inierswa Projekt 1 Mierswa Projekt 2 Mierswa E q Projekt 3 Mierswa ee Data Mierswa E W Processes Mierswa Q Analysis tierana Q ETL Mierswa Q Reporting Mierswa P Results Mierana Abbildung 3 3 Ein Repository mit einer Strukturierung in Projekte und dort jeweils nach Daten Prozessen und Ergebnissen 3 2 Der erste Analyseprozess Nachdem Sie den Ort und den Namen des Prozesses definiert haben wechselt RapidMiner automatisch in die Design Perspektive und Sie k nnen mit dem Prozess Design starten In sp teren Kapiteln werden wir uns ausf hrlich damit besch ftigen wie Sie Daten in RapidMiner einladen und in Ihrem Repository speichern k nnen In diesem Abschnitt kommt es uns jedoch eher auf die prin zipielle Ausf hrung von Prozessen und wir werden daher auf die Analyse echter 60 3 2 Der erste Analyseprozess Daten noch f r einen kurzen Augenblick verzichten Sofern Sie die Auswahl und Positionen der einzelnen Views f r die Design Pers pektive nicht ge ndert haben sollten Sie also in etwa den folgenden Bildschirm vor sich haben Eile Edit Process Tools View Help IS HB9 Aaa PHB UR P Overview Process E XML 8 Parameters t 9 ta BB 97 a8 logverbosity logfil LE Repositories ogfile Operators resultfile 2 Process Control 34 random seed E Utility 34 E Repository
44. attribute_20 0 157 0 102 0 103 0 188 0 286 0 207 0 196 0 205 0 266 0 247 attribute_21 0 118 0 075 0 064 0 142 0 205 0 175 0 166 0 209 0 264 0 241 0 057 0 074 0 027 0 036 0 153 0 124 0 064 0 024 0 020 0 070 attribute_23 0 163 0 179 0 073 0 030 0 074 0 064 0 009 0 092 0 155 0 095 Ki q Log Go eR E System Monitor Apr 21 2010 3 55 51 PM WARNING Using deprecated example set stream version 1 Apr 21 2010 3 55 51 PM INFO Saving results Apr 21 2010 3 55 51 PM INFO Process finished successfully after 0 s Abbildung 4 7 Tabellen in RapidMiner zeigen durch Farben h ufig interessante Informationen an In diesem Fall deuten dunklere Hintergr nde auf st rkere Korrelationen zwischen Attributen hin einer Spalte sortieren und dann innerhalb dieser Sortierung noch nach bis zu zwei weiteren Spalten Sortieren Sie hierzu zun chst auf die erste Spalte und sortieren Sie in die gew nschte Richtung Dr cken Sie nun die STRG Taste und halten Sie diese gedr ckt w hrend Sie weitere Spalten der Sortierung hinzuf gen Im folgenden Beispiel haben wir die Transaktionen zun chst nach der ID des Gesch fts und danach nach der Kategorie des Artikels sortiert Die Reihenfolge der Spalten innerhalb dieser Sortierung wird durch verschieden gro e Dreiecke symbolisiert von gro nach klein Abbildung 4 8 Hinweis Die Sortierung kann zeitaufw ndig sein Daher ist sie bei gro en Ta bellen deaktiviert damit nicht versehentlich eine Sor
45. bei einer Datenanalyse wird f r die bertragung der Daten in ein f r das Data Mining geeignetes Format aufgewendet Diese Transformationen werden daher intensiv in sp teren Kapiteln behandelt 1 2 6 Modellierung Nachdem wir die Daten ber unsere Kunden in einem gut strukturierten For mat vorliegen haben k nnen wir nun also endlich mittels eines Data Mining Verfahrens die unbekannten Werte unseres Zielattributs durch die Prognose des wahrscheinlichsten Werts ersetzen Hierbei stehen uns zahlreiche Verfahren zur Verf gung von denen viele wie auch der eingangs beschriebene Analogieschluss oder das Generieren von Daumenregeln dem menschlichen Verhalten nachemp 15 Prototyp Anzahl Anzahl iti Unterbran Zahl Mit K K positiv Name Adresse Beene nterbran a i ufe ufe aufgenom che arbeiter Gruppe Gruppe men 1 2 M ller System Meisenstr 7 induce Rohrbiege lt 1000 5 0 22 technik GmbH B blingen at maschinen Taubenweg 6 Telekommu Meier Papier IT ap 600 1000 3 7 Coburg nikation Schulze amp Na Amselallee 5 PR nein Handel Textilien lt 100 1 11 gel Homberg 1 Grundbegriffe Tabelle 1 1 Ein Beispielszenario 16 1 2 Grundbegriffe funden sind Die Anwendung eines Data Mining Verfahrens nennen wir model lieren und das Ergebnis eines solchen Verfahrens also die Prognoseanweisung ist ein Modell Genau wie Data Mining insgesamt
46. beispielsweise bei unmittelbaren Le sen von Daten aus Dateien oder Datenbanken die Metadaten nicht zur Verf gung stehen und so diese Unterst tzungen nicht angeboten werden 54 2 3 Design Perspektive Log View W hrend des Designs aber insbesondere auch w hrend der Ausf hrung von Pro zessen werden zahlreiche Nachrichten mitgeschrieben und k nnen vor allem im Falle eines Fehlers Aufschluss dar ber geben wie der Fehler durch ein ge ndertes Prozess Design behoben werden kann Problems Log BR Dec 16 2009 11 18 48 AM INFO Saving results A Dec 16 2009 11 18 48 AM INFO Process finished successfully after 2 s Dec 16 2009 11 19 38 AM INFO No filename given for result file using stdout for logging results Dec 16 2009 11 19 38 AM INFO Process starts Dec 16 2009 11 19 38 AM INFO Loading initial data Dec 16 2009 11 19 38 AM INFO Create Lift Chart Input example already has a predicted label which will be used by this operator without re applying the model Dec 16 2009 11 19 38 AM SEVERE Process failed No data was deliverd at port Remember store g Abbildung 2 33 Weitere Informationen insbesondere zur Prozessausf hrung und im Fehlerfall finden sich im Log View Sie k nnen wie gewohnt den Text innerhalb des Log Views kopieren und in an deren Anwendungen weiter verarbeiten Sie k nnen mittels der Aktionen in der Toolbar den Text auch in einer Datei speichern den vollst ndigen Inhalt l schen od
47. ben Probieren Sie einfach ein wenig mit den Einstellungen und den verschiedenen M glichkeiten herum Sie werden schon bald mit den zahlreichen M glichkeiten zur Visualisierung vertraut sein Tip Die verwendeten Farben k nnen Sie brigens in den Einstellungen unter Tools Preferences ndern nderung des Plotter Typs Die Auswahl des Plotter Typs definiert ma geblich welche Parameter Sie einstel len k nnen In Abbildung 4 11 sehen Sie ein Beispiel f r einen Plotter des Typs Bars Stacked Statt der verschiedenen Achsen stellen Sie nun Attribute ein nachdem die Daten gruppiert werden sollen hier store id und welches Attri but zur Definition der Stacks verwendet werden soll hier product_category Die H he der Balken entspricht dann der Summe hier Aggregation steht auf Sum des als Value Column definierten Attributes hier amount Berechnung von Visualisierungen Zu guter Letzt soll an dieser Stelle noch erw hnt werden dass es noch Visuali sierungen gibt die ihrerseits so aufw ndig sind dass Sie eigens berechnet wer den m ssen Solche Visualisierungen wie beispielsweise eine Self Organizing Map SOM bieten dann einen Knopf namens Calculate mit dem die Berechnung und in Abbilung 4 12 dargestellte Visualisierung gestartet werden kann 93 4 Darstellung Result Overview E ExampleSet Generate Sales Data D Meta Data View Data View
48. ber warum hei t dieser L sungsvorschlag Quick Fix Probieren Sie doch einfach in einem solchen Fall mal einen Doppelklick auf das betreffende Quick Fix Feld in der Tabelle Im ersten Fall w rde der L sungsvorschlag direkt ausgef hrt und ein betreffender Operator automatisch so konfiguriert und eingef gt dass die notwendige Vorver arbeitung durchgef hrt wird Im zweiten Fall mit mehreren L sungsm glichkeiten w rde ein Dialog erscheinen der Sie auffordert den gew nschten L sungsweg auszuw hlen Nach Auswahl ei ner der M glichkeiten w rde auch in diesem Fall einer oder mehrere notwendige Operatoren konfiguriert und so eingef gt dass das Problem nicht l nger auftritt Auf diese Weise k nnen Sie Probleme bereits sehr fr h und ausgesprochen kom fortabel bereits w hrend des Design Prozesses erkennen und in wenigen Klicks beheben ep Quick Fixes DS Pre O Select a quick fix to apply from the list below Add operator Classification by Regression to predict a nominal label using the regression learner Gaussian Process v A eoo XM cance Abbildung 2 32 Auswahldialog im Falle mehrerer m glicher Quick Fixes Hinweis Die Bestimmung potentieller Probleme wie auch die Generierung von Quick Fizes geh ren zu den Funktionen von RapidMiner die von einer korrekten Bereitstellung von Metadaten abh ngig sind Wir empfehlen Ihnen dringend die Verwendung des Repositories da andernfalls
49. bnis wird als zus tzliche Registerkarte in diesem Bereich angezeigt GER F Aw PHB UZ amp Result Overview E ExampleSet Generate Attributes L ExampleSet Select Attributes 7 Meta Data View Data View C Plot View _ Annotations H2 9 Repositories 34 a ExampleSet 100 examples 0 special attributes 3 regular attributes View Filter 100 100 4 3 3 g RowNo store_id product_cat total_price LocalRepository oesi Store 01 Toys 270 739 Store 15 Movies 121 173 Store 12 Movies 483 063 Store 05 Books 84 813 Store 01 Clothing 326 077 Store 11 Sports 169 424 Store 10 Health 80 619 Store 10 Health 469 522 Store 11 Health 141 737 Store 14 Toys 341 352 Store 14 Health 409 243 Store 12 Sports 234 470 Store 08 Electronics 713 422 Store 06 Home Garde 284 513 Store 01 Home Garde 324 730 Store 09 Toys 14 344 Store 06 Electronics 203 100 Store 06 Movies 173 487 Store 14 Books 321 105 Store 09 Books 418 413 Store 14 Movies 460 004 Store 03 Toys 348 053 Store 08 Electronics 97 682 Q Log aoa system Monitor Apr 21 2010 3 38 33 PM INFO Process starts Apr 21 2010 3 38 33 PM INFO Saving results Apr 21 2010 3 38 33 PM INFO Process finished successfully after 0 s Abbildung 4 2 Jedes offene Ergebnis wird als zus tzliche Registerkarte in dem gro en Bereich oben links angezeigt Bei jedem Ergebnis handelt es sich genau genommen ebenfalls um einen View den Sie wie gewohnt an beliebige S
50. but begegnet sein beispielsweise e Eigenschaft e Merkmal engl feature e Einflussfaktor engl influence factor oder auch nur factor e Indikator engl indicator 1 2 Grundbegriffe e Variable engl variable oder e Signal engl signal Wir haben gesehen dass die Beschreibung durch Attribute bei Situationen und auch bei Prozessen m glich ist Dies ist beispielsweise notwendig bei der Beschrei bung von technischen Prozessen und hier ist der Gedanke des fallenden Glases gar nicht so weit entfernt Wenn es m glich ist den Ausgang einer solchen Situation vorherzusehen warum dann nicht auch die Qualit t eines produzierten Bauteils Oder den drohenden Ausfall einer Maschine In gleicher Weise k nnen auch an dere Prozesse oder Situationen beschrieben werden die keinen technischen Bezug haben Wie kann ich den Erfolg einer Vertriebs oder Marketingaktion vorherse hen Welchen Artikel wird ein Kunde als n chstes kaufen Wie viele Unf lle muss eine Versicherung wohl noch f r einen konkreten Kunden oder eine Kundengrup pe decken Wir werden ein solches Kundenszenario f r die Einf hrung der brigen wichti gen Begriffe verwenden Erstens weil es Menschen bekannterma en leichter f llt Beispiele ber andere Menschen zu verstehen Und zweitens weil wohl jedes Un ternehmen ber Informationen also Attribute ber ihre Kunden verf gt und die meisten Leser die Beispiele daher sofort nachvollziehen k nnen Die mi
51. chnis nach oben wandern und dort den Ordner RelativerOrdner suchen Befin det sich der Prozess also beispielsweise in der Datei MeinRepository ProjektA Prozesse ProzessB f hrt diese Angabe nach MeinRepository ProjektA RelativerOrdner Datei Hinweis Die Beschreibungen oben klingen wahrscheinlich komplizierter als sie in der Praxis wirklich sind Solange Sie als allererstes fiir jeden neuen Prozess einen Platz innerhalb des Repositories definieren und danach einfach fiir alle Operator parameter die einen Eintrag im Repository erfordern den Repository Browser verwenden achtet RapidMiner vollst ndig automatisch darauf nach M glichkeit immer relative Angaben zu verwenden Dies erleichtert insbesondere Restruktu rierungen des Repositorys und Kopien f r andere Anwender was bei absoluten Angaben schwierig w re 5 2 2 Daten und Objekte in das Repository importieren Es gibt zahlreiche M glichkeiten Daten und andere Objekte wie Modelle in das Repository einzupflegen Wir beschreiben an dieser Stelle die wichtigsten ExampleSets mit Wizards importieren Haben Sie Daten in einem bestimmten Format vorliegen und wollen Sie diese in einem RapidMiner Prozess benutzen stehen Ihnen f r viele Dateiformate und Datenbanken sogenannte Wizards zur Verf gung Ein Wizard ist ein Dialog der Sie Schritt f r Schritt durch den Einladeprozess f hrt Allen Wizards ist gemein sam dass Sie bestimmte Metadaten wie Attributtypen Wert
52. chselt die Statusanzeige dann schlie lich dauerhaft auf gr n bis Sie bei diesem Operator beispielsweise einen Para meter ndern Dann zeigt die Statusanzeige erneut eine gelbe Farbe Das gleiche gilt f r alle nachfolgenden Operatoren So k nnen Sie sehr schnell erkennen auf welche Operatoren eine nderung Auswirkungen haben k nnte Der oben definierte Prozess hat nur eine kurze Laufzeit und daher wird es Ihnen kaum gelingen den laufenden Prozess zu pausieren oder gar anzuhalten Prin zipiell jedoch k nnen Sie mit dem Pause Symbol einen laufenden Prozess kurz zeitig anhalten beispielsweise um ein Zwischenergebnis anzusehen Der gerade ausgef hrte Operator wird dann noch zu Ende ausgef hrt und der Prozess dann angehalten Sie k nnen einen noch laufenden aber derzeit angehaltenen Pro zess daran erkennen dass die Farbe des Play Icons von blau nach gr n wechselt Dr cken Sie den Play Knopf erneut um den Prozess weiter auszuf hren Wenn Sie den Prozess nicht nur pausieren sondern vollst ndig abbrechen wollen so k nnen Sie hierzu den Stopp Knopf bet tigen Genau wie beim Pausieren wird 73 3 Analyseprozesse auch hier der aktuell ausgef hrte Operator noch zu Ende durchgef hrt und der Prozess direkt im Anschluss vollst ndig abgebrochen Bitte beachten Sie dass Sie direkt nach dem Abbrechen des Prozesses in die Design Perspektive wechseln k nnen und nderungen an Prozessen vornehmen auch wenn der akt
53. ckter Maustaste diesen Operator auf die wei e Fl che und lassen Sie dort los Der Operator wird eingef gt und je nach Einstellung der automatischen Verbindung im Operators View auch direkt verbunden Falls dies nicht geschieht k nnen Sie den Output Port des neuen Operators nun manuell mit dem ersten Ergebnis Port des gesamten Prozesses am rechten Rand der wei en Arbeitsfl che verbinden Alternativ w re es nat rlich auch m glich gewesen den Operator mittels des New Operator Dialogs einzuf gen wie im vorigen Kapi tel beschrieben Wie auch immer Sie vorgegangen sind das Ergebnis m sste nun in etwa so aussehen lt Process XML wurd B Process gt a E Ei e Generate Sale Abbildung 3 5 Ein erster und zugegeben sehr einfacher Prozess der einige Daten generiert und das Ergebnis in der Result Perspektive anzeigt Wie Sie sicher bemerkt haben ist der vollst ndige Name Generate Sales Data dieses Operators zu lang er wird nach den ersten Buchstaben abgeschnitten Bewegen Sie die Maus doch einmal auf diesen Operator und verweilen Sie dort f r einige Augenblicke In einer kleinen Animation wird der Name nun vollst ndig dargestellt Sie k nnten den Operator aber nat rlich auch umbenennen und ihm einen k rzeren Namen geben allerdings w rden Sie dann die schicke Animation verpassen Wie Sie sehen k nnen ist die Statusanzeige des Operators unten links gelb 62 3 2 Der erste Analyseprozess
54. den Prozess unerheblich Die Informationen ber die Intervall grenzen sind jedoch nicht verf gbar solange die Diskretisierung nicht tats chlich durchgef hrt wurde Daher k nnen sie f r die Anzeige der Metadaten zur Ent wicklungszeit des Prozesses nicht ber cksichtigt werden In den Metadaten ist dann f r das diskretisierte Attribut der Wertebereich angegeben dass es sich um die Obermenge der leeren Menge handelt Dies bedeutet das die Meta daten nicht vollst ndig bekannt sind In diesem Fall k nnen wir also praktisch gar nichts ber die erwarteten Metadaten sagen eben au er dass die Menge der nominalen Werte eine Obermenge der leeren Menge ist Eine triviale Aussage aber immerhin eine korrekte Nicht in allen F llen k nnen die Metadaten zur Entwicklungszeit bereits vollst ndig ermittelt werden Dies ist im Allgemeinen 114 5 3 Daten und Metadaten immer dann der Fall wenn die Metadaten wie hier von den tats chlichen Daten abh ngen In diesem Fall versucht RapidMiner so viel Information wie m glich ber die Daten zu erhalten 115 Rapid GmbH Stockumer Str 475 D 44227 Dortmund Tel 49 0 231425 786 90 E Mail contact rapid i com www rapid i com ribute_ 6
55. e der Datenverarbeitung ETL Modellierung und anderen Aspekten des Data Mi ning Aber auch Methoden des Text Mining Web Mining der automatischen Stimmungsanalyse aus Internet Diskussionsforen Sentiment Analysis Opinion Mining sowie der Zeitreihenanalyse und prognose stehen dem Analysten zur Verf gung Zus tzlich beinhaltet RapidMiner mehr als 20 Verfahren auch hoch dimensionale Daten und Modelle zu visualisieren Dar ber hinaus wurden auch alle Lernverfahren und Gewichtungsfaktoren der Weka Toolbox vollst ndig und nahtlos in RapidMiner integriert so dass zu dem bereits enormen Funktionsum fang von RapidMiner auch noch einmal der vollst ndige Funktionsumfang des gerade in der Forschung ebenfalls weit verbreiteten Weka kommt 2 0 2 Skalierbarkeit Im Oktober 2009 erschien die Version 4 6 von RapidMiner und Ende 2009 dann endlich die vollst ndig neu gestaltete Version 5 0 Die Sto richtung wird in die sen beiden Versionen mehr als deutlich zus tzlich zur gro en Funktionsvielfalt liegt der Hauptfokus auf eine Optimierung hinsichtlich der Skalierbarkeit auch auf gro e Datenmengen Schon immer war eine der Haupteigenschaften von Ra pidMiner ein Konzept hnlich zu dem von relationalen Datenbanken welches verschiedene Sichten auf Datenquellen erm glicht Dieses Konzept hat RapidMi ner weiter verfeinert und bietet nun die M glichkeit eine Vielzahl solcher Sichten so zu kombinieren dass die Daten on the fly transformiert und Daten
56. e eines Breakpoints Dies stellt sicher die am h ufigsten verwendete und auch empfohlene Variante zur Anzeige von Ergebnisse dar Sie k nnen einfach alle Er gebnisse an den Ergebnis Ports des Prozesses sammeln die Sie am Ende eines Analyseprozesses sehen wollen und alle zusammen werden in den Registerkarten der Result Perspektive dargestellt 2 Ergebnisse aus Repositories Die zweite M glichkeit zur Anzeige von Ergebnissen ist das Laden von Ergebnis sen aus einem Ihrer Repositories Sie k nnen dies mittels des Kontextmen s eines Repository Eintrags oder simpel per Doppelklick auf einen Eintrag bewirken Die ses Vorgehen ist nat rlich nicht nur f r die erneute Betrachtung von Ergebnissen empfehlenswert sondern auch zum Vergleich mit fr heren Resultaten 82 4 2 Anzeigen von Ergebnissen 3 Ergebnisse aus Ports Eine dritte M glichkeit sich Ergebnisse und auch Zwischenergebnisse ansehen zu k nnen ist die Anzeige von Ergebnissen welche noch an Ports anliegen Rapid Miner versucht die Ergebnisse welche einzelne Operatoren geliefert haben noch eine zeitlang an den betreffenden Ports zu speichern Wenn an einem Port noch Ergebnisse anliegen so k nnen diese ber das Kontextmen des Ports ausgew hlt und betrachtet werden m Show ExampleSet Result Fe Store ExampleSet in Repository Disconnect Port Abbildung 4 3 Anzeige von Ergebnissen welche noch an Ports anliegen Sie kennen diese Vorgehensweise vielle
57. ebereiche und Rollen f r die einzelnen Spalten vergeben k nnen Im oberen Bereich des Repositorys finden Sie ein Icon welches f r den ausgew hlten Dateityp den passenden Wi zard startet Dieselbe Aktion finden Sie auch im File Men von RapidMiner Schlie lich gibt es auch noch eine besonders einfache Weise f r den Import von Dateien Ziehen Sie die zu importierende Datei einfach bei gedr ckter Maustaste in das Repository Sofern m glich wird daraufhin ein passender Wizard gestartet 104 5 2 Das Repository verwenden Der Operator Store Haben Sie einen ETL Prozess oder einen anderen Prozess dessen Ergebnis Sie im Repository abspeichern m chten k nnen Sie dieses tun indem Sie den Operator Store in Ihren Prozess einbauen Eile Edit Process Tools View Help GER Aw PHB OTO TR eg Process gt Fr E E Parameters EI EI IE Store E Repositories i x es repository entry brwrojert Operators e m gt ERT Renosiioy access n piste em Repo Store y Select a repository location Comment Hep y Samples none p 3 LocalRepository cb oeck af Store E E Projekt oec Data bosch fprocesses Synopsis Results boei Stores an lOObject in the data Prozesse boeck repository Description This operator stores OObjects at a location in a repository Input input expects lOObject Name New Process O
58. ebnis des Prozesses pr sentiert 108 5 3 Daten und Metadaten Diese Input und Output Ports des Prozesses haben jedoch eine weitere Funktion Ein typischer Prozess beginnt mit einer Reihe von Retrieve Operatoren auf die eine Reihe von verarbeitenden Operatoren folgen und endet mit einer Reihe von Store Operatoren Das Erzeugen dieser Operatoren k nnen Sie sich sparen indem Sie den Context View benutzen den Sie im View Men finden Abbildung 5 5 zeigt diesen Context View Im Context View haben Sie die M glichkeit an die Eingabeports Daten aus einem Repository anzulegen und Ausgaben zur ck ins Repository zu schreiben F r jeden Port k nnen Sie eine solche Angabe machen Dies hat zwei Vorteile e Sie k nnen sich die Operatoren f r Retrieve und Store sparen und Ihr Pro zess wird hierdurch oftmals etwas bersichtlicher e Die Verwendung des Kontextes ist weiterhin praktisch um Prozesse zu testen die mittels des Operators Execute Process eingebunden werden sollen Die Daten die an diesem Operator anliegen berschreiben die im Prozesskontext definierten Werte 5 3 Daten und Metadaten Au er den eigentlichen Daten speichert RapidMiner noch andere Informationen im Repository Daten ber die Daten sogenannte Metadaten F r jeden Typ von Objekten stehen solche Metadaten zur Verf gung besonders sinnvoll einge setzt werden k nnen Sie aber insbesondere f r Modelle und Datens tze Die f r Datens tze
59. efiniert werden w rde da statt einer genau en Angabe wie 1250 Mitarbeiter eine Gr enklasse n mlich gt 1000 verwendet wurde 12 1 2 Grundbegriffe Die folgende Tabelle gibt Ihnen einen berblick ber alle von RapidMiner un terst tzten Wertetypen RapidMiner Wertetyp Verwendung Name Kategorielle nicht numerische Werte f f meist f r endliche Mengen von unter Nominal nominal 7a a schiedlichen Auspr gungen verwen det Numerische Werte numeric Allgemein f r numerische Werte Ganzzahlen integer Ganze Zahlen positiv und negativ Reelle Zahlen real Reelle Zahlen positiv und negativ Text text Beliebiger Freitext ohne Struktur Spezialfall von Nominal bei dem nur 2 wertig Nominal binominal zwei unterschiedliche Werte erlaubt sind Spezialfall von Nominal bei dem mehrwertig a polynominal mehr als zwei unterschiedliche Werte Nominal erlaubt sind Date Time data_time Datum zusammen mit Zeit Datum date Nur Datum Zeit time Nur Zeit 13 1 Grundbegriffe 1 2 5 Daten und Metadaten Wir wollen unsere Ausgangssituation noch einmal zusammenfassen Wir haben ein Konzept Kunde vorliegen welches wir mit einer Reihe von Attributen beschrieben wird e Prototyp positiv aufgenommen Label Nominal e Name Text e Adresse Text e Branche Nominal e Subbranche Nominal e Zahl der Mitarbeiter Nominal e Anzahl der K ufe in Produktgruppe 1
60. ehen k nnen Zu guter Letzt m ssen wir uns noch die Frage stellen ob die Beschreibung des Prozesses das Ziel ist oder ob ein Analogieschluss zur Prognose bereits ausreicht Und das Ganze muss zudem noch in einer dynamischen Umgebung unter stets wechselnden Bedingungen geschehen und das am besten m glichst zeitnah Unm glich f r einen Menschen Stimmt Aber eben nicht unm glich f r Data Mining Verfahren 1 2 Grundbegriffe Wir werden nun im Folgenden einige Grundbegriffe einf hren die uns die Be handlung der beschriebenen Probleme erleichtern werden Diese Begriffe werden Sie auch in der Software RapidMiner immer wieder vorfinden so dass es sich auch f r erfahrene Datenanalysten lohnt die verwendeten Terme kennen zu lernen Zun chst einmal k nnen wir feststellen was die beiden im letzten Abschnitt be 1 Grundbegriffe trachteten Beispiele der M nzwurf und das fallende Glas gemeinsam hatten In unserer Diskussion dar ber ob wir in der Lage sind das Ende der jeweiligen Si tuation zu prognostizieren haben wir festgestellt dass es auf die m glichst genaue Kenntnis der Einflussfaktoren wie Materialeigenschaften oder Bodenbeschaffen heit ankommt Und selbst auf die Frage ob Ihnen dieses Buch weiterhelfen wird kann man versuchen eine Antwort zu finden indem man die Eigenschaften von Ihnen also dem Leser erfasst und in Einklang bringt mit den Ergebnissen einer Umfrage unter einem Teil der bisherigen Leser Solche
61. eicherung Ihrer Daten und Analyseprozesse Es empfiehlt sich ein neues Verzeich nis als Basis anzulegen 2 2 Perspektiven und Views Nach der Wahl des Repositories werden Sie in der sogenannten Welcome Pers pektive begr t Abbildung 2 3 Der untere Bereich zeigt aktuelle Nachrichten rund um RapidMiner an sofern Sie eine Verbindung zum Internet besitzen Die Liste in der Mitte zeigt die zuletzt bearbeiteten Analyseprozesse Dies ist praktisch wenn Sie einen dieser Prozesse weiter bearbeiten oder ausf hren m chten Sie k nnen einen Prozess aus die ser Liste einfach mittels eines Doppelklicks zur Bearbeitung oder Durchf hrung ffnen Der oberste Bereich schlie lich zeigt typische Aktionen die Sie als Analyst nach dem Start von RapidMiner h ufig durchf hren Im Einzelnen sind dies 1 New Startet einen neuen Analyseprozess Zun chst m ssen Sie einen Ort und einen Namen innerhalb des Prozess und Datenrepositories definieren und k nnen dann mit dem Design eines neuen Prozesses starten 24 2 2 Perspektiven und Views Eile Edit Process Tools View Help ISHEB9 Am DIE U amp Perspektiven EEFE Aktionen B a y New Open Recent Open Open Template Online Tutorial E tzt P Recent Processes e e rozesse LocalRepositoryiProzesse TestTestDeclareMissingValue NLocalRepository Prozesse TestTestReplaceMissingvalue NLocalRepository Prozesse TestTestRename HLocalRepository Prozesse TestiMetaTest HLocalReposi
62. eitsfl che derart dass alle derzeitig positionierten Operatoren gerade ausreichend Platz ha 44 2 3 Design Perspektive Process X XML 2 4 GFProcess gt et OH 4 Read Excel Abbildung 2 22 Darstellung der Ausfiihrungsreihenfolge Diese Reihenfolge ist jedoch ung nstig da so mehr Datens tze gleichzeitig behandelt werden m ssen ben Dies ist insbesondere praktisch zur automatischen Verkleinerung Gr enoptimierung 3 Export Die aktuelle Prozessansicht kann sowohl gedruckt als auch nach PDF und in andere Formate exportiert werden 45 2 Design Process 3 E xm 4m tt Process gt 9 194 eo Process U EIxML wurd BH FProcess gt t Go 3 Abbildung 2 24 Aktionen im Process View 2 3 5 Parameters View Abbildung zeigt die Parameters View von RapidMiner Zahlreiche Operatoren ben tigen f r eine korrekte Funktionsweise die Angabe ei 46 2 3 Design Perspektive Eile Edit Process Tools View Help SHEY Aa PHB YNA P Overview g Process Operators B Repositories o rei ___je gt Process Control 34 amp Utility 34 Repository Access 2 never Data Transformation 110 SYSTEM v Modeling 108 Evaluation 28 Parameter View Comment LS Problems D Log Synopsis SB No Errors The root operator which is the outer most operator of every process Message Location Descript
63. en k nnen Sie ihre Vertriebsbem hungen nun auf die vielversprechenden Kunden konzentrieren und haben so bei geringerem Aufwand eine wesentlich h here Erfolgsquote Oder Sie gehen sogar noch einen Schritt weiter und analysieren f r welche Kunden wohl welche Vertriebskan le die besten Ergebnisse liefern werden In den folgenden Kapiteln werden wir uns weiteren Anwendungen f r Data Mi ning widmen und ganz nebenbei die berf hrung von Konzepten wie Kunden Gesch ftsprozessen oder Produkten in Attribute Beispiele und Datens tze trai nieren Dies schult den Blick f r weitere Anwendungsm glichkeiten ungemein und wird Ihnen sp ter das Analystenleben deutlich erleichtern Zun chst wollen wir uns jedoch kurz mit RapidMiner besch ftigen und eine kleine Einf hrung in die Bedienung geben damit Sie die nachfolgenden Beispiele auch direkt umsetzen k nnen 17 2 Design von Analyseprozessen mit RapidMiner Die Analyse gro er Datenmengen mit Methoden des Data Mining wird gemein hin als ein Feld f r Spezialisten betrachtet Diese erstellen mit h ufig s ndhaft teuren Softwarel sungen mehr oder weniger komplexe Analyseprozesse um bei spielsweise drohende K ndigungen oder die Verkaufszahlen eines Produkts zu prognostizieren Der wirtschaftliche Nutzen liegt auf der Hand und so galt lange Zeit dass die Anwendung von Data Mining Softwareprodukten auch mit hohen Kosten f r Softwarelizenzen und den auf Grund der Komplexit t der Materie
64. en damit zum Einf gen in den aktuellen Prozess zur Verf gung Sie k nnen auf einfache Weise innerhalb der Gruppen navigieren und nach Herzenslust in den mitgelieferten Operatoren st bern Wenn RapidMi ner mittels einer der erh ltlichen Extensions erweitert wurde so finden sich die zus tzlichen Operatoren ebenfalls an dieser Stelle 30 2 3 Design Perspektive Eile Edit Process Tools View Help ISHEY Aaa PHBE OZO P Overview g Process E XML 8 Parameters t t Hh d F aera ar logverbosity logfil LE Repositories ogfile Operators ae P Process Control 34 random seed Utility 34 E Repository Access 2 send mail T Import 24 D export 17 encoding Data Transformation 110 Modeling 108 Evaluation 28 AS Problems Log Synopsis SB No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one Operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like iv Abbildung 2 10 Design Perspektive von RapidMiner Ohne Extensions finden Sie zumindest die folgenden Gruppen von Operatoren in der Baumstruktur e Process Control Operatoren wie Loops oder Bedingte Verzweigungen wel che den Prozessfluss steuern k nnen e Utility Hilfsoperatoren die neben dem Operator
65. en manuell durch den Anwender nun erfolgen bzw kor rigiert werden muss Verbinden von Operatoren Nachdem Sie neue Operatoren eingef gt haben k nnen Sie die eingef gten Ope ratoren miteinander verbinden Dazu stehen Ihnen prinzipiell drei Wege offen die im Folgenden beschrieben werden Verbindungen 1 Automatisch beim Einf gen Sollten Sie im Operators View die Option zum automatischen Verbinden unter dem Stecker Symbol aktiviert haben so wird RapidMiner nach dem Einf gen 38 2 3 Design Perspektive versuchen den Operator mit passenden Output Ports zu verbinden Sollte bei spielsweise der neue Operator einen Input Port besitzen der eine Beispielmenge verlangt so wird RapidMiner versuchen einen Operator zu finden der eine sol che Beispielmenge bereits produzieren k nnte Wenn es nur eine Option gibt so ist diese Wahl eindeutig und der Operator wird verbunden Wenn es jedoch mehrere Optionen gibt dann versucht RapidMiner diejenige Option zu w hlen die sich am n chsten links oberhalb von der aktuellen Mausposition befindet Der zugeh rige Operator wird mit einem Rahmen und einem Schatten markiert Auf diese Weise k nnen Sie bereits w hrend des Einf gens die Weichen f r eine korrekte Verbindung stellen Tipp Es ist empfehlenswert die Option zum automatischen Verbinden zumindest f r die Input Ports zu aktivieren Auch wenn von Zeit zu Zeit der Verbindungsal gorithmus auf Basis der Metadaten eine falsche Verbind
66. ensatz zur Hilfe nicht vordefinierten Beschrei bungen sondern vielmehr Ihren eigenen Kommentaren zu einzelnen Schritten des Prozesses gewidmet W hlen Sie einfach einen Operator aus und schreiben Sie be liebigen Text hierzu in den Kommentarbereich Dieser wird dann zusammen mit Ihrer Prozess Definition gespeichert und kann sp ter n tzlich sein um einzelne Schritte im Design nachvollziehen zu k nnen Die Tatsache dass ein Kommentar zu einem Operator vorliegt wird durch ein kleines Text Icon am unteren Rand 50 2 3 Design Perspektive des Operators angezeigt 2 3 7 Overview View Eile Edit Process Tools View Help CHEF Aw PIE NEO P Overview a Process 52 Parameters Tr 3 121 3 3 varg i Process Overview View T Im L logfile Operators E Repositories bul 9 e m Jop wom Ja Process Control 34 utility 34 random seed 2001 Repository Access 2 Data Transformation 110 encoding SYSTEM Modeling 108 Evaluation 28 Comment A Problems D Log Synopsis SB No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like Abbildung 2 28 Behalten Sie den Uberblick mittels des Overview Views Speziel
67. er sowie die Ableitung einer Regel aus diesen Erfahrungen Wenn der fallende Gegenstand aus Glas ist und die Fallh he mehr als 1 5 Meter betr gt so wird das Glas zerbrechen Die Einf hrung eines Schwellwerts wie 1 5 Meter stellt dabei einen faszinieren den Aspekt dieser Regelbildung dar Denn obwohl nicht jedes Glas bei gr eren H hen sofort zerbrechen wird und auch nicht bei kleineren H hen zwingend dem Bruch entfliehen kann so verwandelt die Einf hrung dieses Schwellwerts die Re gel in eine Daumenregel die zwar nicht immer so aber doch in den meisten F llen zu einer korrekten Einsch tzung der Situation f hren wird Anstelle nun also einen direkten Analogieschluss durchzuf hren k nnte man sich nun auch dieser Daumenregel bedienen und wird auf diese Weise schnell zu einer Entschei dung ber die wahrscheinlichste Zukunft des fallenden Gegenstandes kommen Analogieschl sse und die Erstellung von Regeln stellen damit zwei erste Beispiele dar wie Menschen und auch Data Mining Verfahren in der Lage sind den Ausgang neuer und unbekannter Situationen zu antizipieren Unsere Beschreibung dessen was bei uns im Kopf und auch bei den meisten Data Mining Verfahren im Rechner passiert offenbart noch eine weitere interessante Einsicht Der beschriebene Analogieschluss fordert zu keiner Zeit die Kenntnis ir 1 2 Grundbegriffe gendeiner physikalischen Formel warum das Glas nun zerbrechen wird Das glei che gilt
68. er den Text durchsuchen 55 3 Ausf hrung von Analyseprozessen mit RapidMiner Wir haben im letzten Kapitel die grunds tzlichen Elemente der graphischen Be nutzeroberfl che von RapidMiner wie Perspektiven und Views kennengelernt und die wichtigsten Aspekte der Design Perspektive von RapidMiner diskutiert Nun m chten wir die neuen M glichkeiten dazu nutzen einen ersten einfachen Analy seprozess zu definieren und auszuf hren Sie werden gleich feststellen dass es eine u erst praktische Angelegenheit ist dass Sie bei RapidMiner den Prozess eben nicht f r jede nderung erneut ausf hren m ssen um den Effekt der nderung zu bestimmen Doch dazu sp ter mehr 3 1 Erstellen eines neuen Prozesses Ob Sie nun die Aktion New aus der Welcome Perspektive w hlen das New Icon ganz links in der Haupt Toolbar von RapidMiner oder den zugeh rigen Ein trag im File Men In jedem Fall wird ein neuer Analyseprozess erzeugt den Sie im Folgenden bearbeiten k nnen Bevor es jedoch so weit ist erscheint der Repository Browser Abbildung 3 1 und fordert Sie auf einen Speicherort fiir Thren neuen Prozess anzugeben W hlen Sie einfach ein Repository aus und einen Ort d h ein Verzeichnis in dem Sie den neuen Prozess speichern m chten Neue Verzeichnisse k nnen ber das Kontextmen von Repository Eintr gen oder auch des Repositorys selbst angelegt werden Nachdem Sie den Ort gew hlt haben geben Sie Ihrem Pro
69. er erstellter Prozess auf einem entfernten Server ausgef hrt werden erfordert dies manuelle Eingriffe wie das Kopieren des Prozesses und das Anpassen von Pfaden Kollaboratives Erstellen von Prozessen Bearbeiten von Daten und Auswerten von Ergebnissen erfordert eine externe Rechte und 99 5 Repository Versionsverwaltung In unterschiedlichen Formaten abgelegte Dateien erfordern die korrekte Einstellung von Parametern wie Trennzeichen und Kodierung bei jedem neuen Einladen Zwischenergebnisse und Prozessvarianten wachsen schnell zu einer beachtlichen Anzahl an so dass man leicht die bersicht verlieren kann Das Einladen und Betrachten von Daten zwecks Wiedergewinnung der bersicht erfordert einen unter Umst nden langwierigen Einladevorgang oder sogar den Start einer externen Applikation Annotationen von Dateien die dies erleichtern k nnen werden von normalen Dateisystemen nicht unterst tzt RapidMiners Antwort auf all diese Probleme ist das Repository das alle Daten und Prozesse aufnimmt Zwar k nnen Daten auch von au erhalb des Repositorys in Prozesse einflie en was z B f r die Ausf hrung von ETL Prozessen n tig ist die Verwendung des Repositorys bietet jedoch eine Reihe von Vorteilen die Sie nicht werden missen wollen e Daten Prozesse Ergebnisse und Berichte werden an relativ zueinander an gegebenen Orten in einem f r den Nutzer transparenten Mechanismus ab gespeichert e Das ffnen oder Einladen de
70. erbergen Dies funktioniert insbesondere dann gut wenn bereits bei der Erstellung des Prozesses relativ sequentiell vorgegangen wurde und die Ope ratoren ordentlich hintereinander aufgereiht wurden d h immer der vorherige Operator beim Einf gen durch Rahmen und Schatten markiert war Fine manu elle Pr fung nach der vollautomatischen Verbindung ist allerdings in jedem Fall sinnvoll da es gerade bei komplexeren Prozessen hierbei zu nicht beabsichtigten 40 2 3 Design Perspektive Verbindungen kommen kann Ausw hlen von Operatoren Zum Editieren von Parametern m ssen Sie einen einzelnen Operator ausw hlen Sie erkennen den aktuell ausgew hlten Operator an seinem orangefarbenen Rah men zusammen mit einem Schatten Wenn Sie eine Aktion f r mehrere Operatoren gleichzeitig durchf hren wollen beispielsweise Bewegen oder L schen so w hlen Sie bitte alle gew nschten Ope ratoren aus indem Sie einen Rahmen um diese ziehen Um einzelne Operatoren der aktuellen Auswahl hinzu zu f gen beziehungsweise um einzelne Operatoren aus der aktuellen Auswahl auszuschlie en halten Sie bit te die Taste STRG gedr ckt w hrend Sie auf die gew nschten Operatoren klicken beziehungsweise weitere Operatoren mittels Ziehen eines Rahmens hinzuf gen Bewegen von Operatoren W hlen Sie einen oder mehrere Operatoren wie oben beschrieben aus Bewegen Sie nun den Mauszeiger auf einen der ausgew hlten Operatoren und ziehen Sie die Maus be
71. erung eines neuen Attributs Aus wahl einer Teilmenge von Attributen 70 3 2 Der erste Analyseprozess Selektieren Sie den neuen Operator und w hlen Sie in seinen Parametern f r den Parameter attribute filter type die Option subset Beachten Sie bitte dass nun ein weiterer Parameter namens attributes erschienen ist Dieser ist fett gedruckt daher m ssen Sie ihn definieren bevor Sie den Prozess ausf hren k nnten Sie erkennen dies auch an der roten Statusanzeige des Operators sowie an dem Eintrag im Problems View Sie k nnten nun den Quick Fix im Problems View per Doppelklick w hlen oder auch einfach den Parameter attributes konfi gurieren Erneut per Klick auf einen Knopf diesmal mit der Beschriftung Select Attributes Die Parameter sollten wie in Abbildung 3 13 aussehen Parameters s ee amp B H Select Attributes attribute filter type subset attributes A Select Attributes _ invert selection fanl include special attributes Abbildung 3 13 Der Parameter attributes erscheint nur dann wenn als Filter typ subset gew hlt wurde Dr cken Sie nun den Knopf mit der Beschriftung Select Attributes und w hlen Sie in dem erscheinenden Dialog Abbildung 3 14 aus der Liste entweder per Doppelklick oder per Button mit Pfeil nach rechts in der Mitte die Attribute product category store id und total price aus Haben Sie es bemerk
72. es Repositorys geben Prozesse k nnen Sie im Repository abspeichern indem Sie im Kontextmen den Eintrag Store Process w hlen oder indem Sie den entspre chenden Eintrag im File Men w hlen Es ffnet sich im letzteren Fall noch der Repository Browser in dem Sie den Ort zum Abspeichern des Prozesses angeben k nnen Nachdem ein Prozess im Repository abgespeichert ist werden alle Re ferenzen auf Repositoryeintr ge die als Parameter von Operatoren gesetzt sind relativ zum Ort des Prozesses aufgel st Was hei t das Eintr ge im Repository werden nach folgendem Schema bezeichnet RepositoryName Ordner Unterordner Datei Die doppelten Schragstriche am Beginn zeigen an dass zun chst der Name eines Repositorys folgt Anschlie end folgen weitere Ordnernamen und abschlie end ein Dateiname Wir nennen solche Angaben absolut Der Angabe Ordner Unterordner Datei fehlt die f hrende Repositorybezeichnung Diese Angabe ist daher Repository relativ Sie bezieht sich auf den angegebenen Ordner im selben Repository in dem der Prozess liegt in dem diese Angabe verwendet wird Der f hrende Schr gstrich kennzeichnet hier eine absolute Pfadangabe Fehlt auch dieser wird die Angabe relativ aufgel st RelativerOrdner Datei bezeichnet beispielsweise eine Datei im Ordner RelativerOrdner den wir errei chen indem wir von demjenigen Ordner der den aktuellen Prozess enthalt ein Ver 103 5 Repository zei
73. es durch rangel und Werte oberhalb dieses Wertes durch range2 Der Schwellwert wird dabei automatisch 113 5 Repository so gew hlt dass gleich viele Werte ober und unterhalb liegen W nschen Sie eine Unterteilung in mehrer als zwei Wertebereiche passen Sie den Parameter number of bins entsprechend an Den Prozess und die angezeigten Metadaten sehen Sie in der folgenden Abbildung wi Process ur t t Oe 4 Retrieve Normalize Discretize inp D wg out P qea exa D dea p d res FH ori res LEH q Discretize example set output example set output 2 Meta data Data Table Number of examples 150 6 attributes Generated by Discretize example set output Normalize example set output Retrieve output Role Name Type Range Missings Comment al real 4 300 0 a4 real 0 100 0 id id nominal zlid_1 id 0 label label nominal Iris set D a3 real 0 1 0 a2 nominal range1 0 Press F3 for focus Abbildung 5 7 Metadatentransformation in RapidMiner Sie fragen sich sicher warum der Parameter range name type auf short ge setzt werden musste Probieren Sie es aus und setzen Sie ihn long F hren Sie den Prozess aus werden Sie sehen dass die nominalen Werte nun ausdrucksst r ker sind Sie enthalten zus tzlich die Grenzen der erzeugten Intervalle Dies ist praktisch aber f r
74. estehend aus mehreren Operatoren Die Farbkodierung der Datenfl sse gibt den Typ des weitergegebe nen Objekts wieder In RapidMiner k nnen solche Prozesse leicht mehrere hundert Operatoren gro werden und sich ber mehrere Ebenen bzw Subprozesse hinziehen Die stets im Hintergrund durchgef hrten Prozesspr fungen wie auch die unten dargestellten Hilfsmittel zur Prozessnavigation stellen sicher dass Sie den berblick nicht ver lieren und auch f r komplexere Aufgaben korrekte Prozesse definieren 37 2 Design Einf gen von Operatoren Sie k nnen auf verschiedene Weisen neue Operatoren in den Prozess einf gen Die verschiedenen M glichkeiten sind im Einzelnen e via Drag amp Drop aus dem Operators View wie oben beschrieben e via Doppelklick auf einen Operator im Operators View e via Dialog welcher mittels des ersten Icons in der Toolbar des Process Views ge ffnet wird e via Dialog welcher mittels des Men eintrags Edit New Operator ge ffnet wird CTRL J e via Kontextmen in einem freien Bereich der wei en Prozessfl che und dort mittels des Untermen s New Operator und durch Auswahl eines Opera tors lt Process XML ward BH FProcess gt t Ge 3 Abbildung 2 17 Aktionen im Process View In jedem Fall gilt dass neue Operatoren abh ngig von der Einstellung im Ope rators View entweder automatisch mit passenden Operatoren verbunden werden oder dass die Verbindung
75. etrachten nur dass wir diesmal sehr wohl den Ausgang der Situation vorhersagen k nnen Ein Glas wird zerbrechen wenn es nur aus einer bestimmten H he auf einen bestimmten Untergrund f llt Wir wissen sogar noch in den Bruchteilen der Sekunde w hrend das Glas noch f llt Gleich wird es Scherben geben Wie sind wir zu dieser eigentlich sehr erstaun lichen Leistung im Stande Wir haben das betreffende in diesem Augenblick fallende Glas noch nie vorher zerbrechen sehen und zumindest f r die meisten unter uns wird gelten dass die physikalischen Formeln welche Glasbruch be schreiben ein Buch mit sieben Siegeln darstellen Nat rlich kann im Einzelfall das Glas auch einmal zuf llig nicht zerbrechen aber wahrscheinlich ist dieses nicht Nebenbei bemerkt zuf llig w re das Nicht Zerbrechen genauso wenig da auch dieses Ergebnis physikalischen Gesetzen folgt Beispielsweise wird die Energie des Aufpralls in diesem Fall g nstiger in den Boden bertragen Woher wissen wir Menschen also in einigen F llen was genau als n chstes passieren wird und in anderen wie beispielsweise beim Miinzwurf nicht Die h ufigste Erkl rung die Laien in diesem Fall verwenden ist die Beschreibung des einen Szenarios als zuf llig und des anderen als nicht zuf llig Wir werden nicht auf die tats chlich zwar interessanten aber dennoch eher philosophischen Diskussionen zu diesem Thema eingehen aber wir stellen hier die folgende These
76. f r die oben beschriebene Daumenregel Selbst ohne also die vollst ndige physikalische Beschreibung eines Vorgangs zu kennen sind wir und Data Mining Verfahren gleicherma en bereits in der Lage eine Absch tzung von Situationen oder gar Prognosen zu generieren Dabei war ja nicht nur der kausale Zusam menhang selbst unbeschrieben sondern selbst die Datenerfassung war nur ober fl chlich und grob und hat nur wenige Faktoren wie das Material des fallenden Gegenstandes Glas und die Fallh he ca 2m relativ ungenau abgebildet Kausalketten existieren also ob wir sie nun kennen oder nicht Im letzteren Fall neigen wir h ufig dazu sie als zuf llig zu bezeichnen Und gleicherma en ist es erstaunlich dass selbst f r eine unbekannte Kausalkette noch die Beschreibung des weiteren Verlaufs m glich ist und dies selbst in Situationen in denen die bisherigen Fakten nur unvollst ndig und ungenau beschrieben sind Dieser Abschnitt hat Ihnen einen Einblick in die Art der Probleme gegeben denen wir uns in diesem Buch widmen wollen Wir werden es mit zahlreichen Einfluss faktoren zu tun bekommen von denen einige gar nicht oder nur unzureichend gemessen werden k nnen Gleichzeitig sind es oftmals so viele Faktoren dass wir drohen den berblick zu verlieren Dar ber hinaus m ssen wir uns noch um die bereits vergangenen Ereignisse k mmern die wir zur Modellbildung verwenden wollen und deren Anzahl leicht in die Millionen oder Milliarden g
77. fizienz von Ra 83 4 Darstellung pidMiner und auch aus diesem Grund empfehlen wir die automatische Anzeige ber verbundene Ports wie oben beschrieben da hier die Bereitstellung der Er gebnisse garantiert ist 4 3 ber Datenkopien und Views Die Tatsache dass keine unn tigen Datenkopien angelegt werden ist manchmal Quelle f r Verwirrungen Dies gilt insbesondere f r die oben erw hnte zweite M glichkeit der Darstellung von Ergebnissen ber das Kontextmen von Ports Nehmen wir an Sie haben einen Datensatz und f gen einen Operator f r eine Normalisierung hinzu In seiner Voreinstellung ndert der Normalisierungsopera tor die zu Grunde liegenden Daten Selbst wenn Sie den Datensatz an einem Port betrachten der im Prozessfluss vor der Normalisierung liegt aber zeitig nachdem die Normalisierung bereits durchgef hrt wurde so werden sich auch die Daten am Port zuvor bereits ge ndert haben Eigentlich sollte dieses Verhalten ausrei chend klar sein es wurde ja wie bereits erw hnt auch keine Kopie der Daten angelegt und der gleiche Datensatz wurde weiter ver ndert Und dennoch f hrt dieses seltsame Verhalten von unkontrollierten Daten nderungen von Zeit zu Verwirrungen Sie haben jedoch zwei M glichkeiten dieses Verhalten zu beeinflussen 1 Verwendung von Views Zahlreiche Operatoren f r Datentransformatio nen bieten einen Parameter create view der veranlasst dass statt ei ner nderung de
78. g des Repositorys zur Daten und Prozessverwaltung f r die Unterst tzung w hrend des Prozessdesigns erforderlich ist und hiermit noch einmal dringend empfohlen sei 112 5 3 Daten und Metadaten In diesem Abschnitt werden wir noch mal ein weiteres Beispiel f r das Design eines Prozesses durchf hren wobei wir diesmal auf einen Datensatz aus dem Ra pidMiner Repository zur ck greifen werden Wir werden nun also erstmals den vollst ndigen Prozess vom Retrieval der Daten bis zur Erzeugung der Ergebnis se durchf hren Typischerweise w rde diesem Prozess nat rlich noch der Import der Daten in das Repository mittels einer der oben vorgestellten Methoden vor an gehen aber in diesem Fall verzichten wir auf diesen Schritt und verwenden stattdessen einfach einen der bereits von RapidMiner mitgelieferten Datens tze Laden Sie beispielsweise den mitgelieferten Datensatz Iris mit Hilfe eines Retrieve Operators ein indem Sie den betreffenden Eintrag im gleichen Verzeichnis wie der bereits oben verwendete Golf Datensatz einfach in die Process View ziehen F hren den Prozess aber noch nicht aus F gen Sie danach einen Normalize Operator ein und verbinden Sie dessen Eingang mit dem Ausgang des Retrieve Operators Setzen sie den Parameter method auf range transformation Der Operator dient in dieser Einstellung dazu numerische Werte neu zu skalieren so dass das Minimum gerade 0 und das Maximum gerade 1 ist W hlen Sie ein ein
79. gemessenen Eigenschaften von Lesern k nnten dann beispielsweise der Bildungshintergrund der betreffenden Person sein die Vorliebe f r Statistiken die Pr ferenzen bei anderen wom glich hnlichen B chern und weitere Merkmale die wir dar ber hinaus noch innerhalb unserer Umfrage messen k nnten W ssten wir nun von 100 Lesern solche Eigen schaften und h tten von diesen zudem noch die Angabe ob Ihnen das Buch gef llt oder nicht so ist das weitere Vorgehen schon beinahe trivial Wir w rden auch Ihnen die Fragen aus unserer Umfrage stellen und auf diese Weise die gleichen Merkmale messen und in Folge beispielsweise mittels eines Analogieschlusses wie oben beschrieben eine zuverl ssige Prognose ihres pers nlichen Geschmacks ge nerieren Kunden die dieses Buch gekauft haben haben auch Das kennen Sie wahrscheinlich schon 1 2 1 Attribute und Zielattribute Ob nun M nzen oder andere fallende Gegenst nde oder eben auch Menschen in allen Szenarien steckt wie bereits erw hnt die Frage nach den Eigenschaften oder Merkmalen der jeweiligen Situation Im Folgenden werden wir stets von Attributen sprechen wenn wir solche beschreibenden Faktoren eines Szenarios meinen Dies ist auch der Term der in der Software RapidMiner stets verwendet wird wenn solche beschreibenden Merkmale auftreten Die Zahl der Synonyme f r diesen Begriff ist hoch und je nach eigenem Hintergrund werden Ihnen auch schon andere Begriffe anstelle von Attri
80. gespeicherten Metainformationen umfassen beispielsweise e die Anzahl der Beispiele e die Anzahl der Attribute die Typen Namen und Rollen der Attribute die Wertebereiche der Attribute beziehungsweise einige grundlegende Sta tistiken sowie die Anzahl der fehlenden Werte pro Attribut 109 5 Repository m Process m a t t Ge 3 Normalize inp exa exa res inp ori res BE e Context B Process input R R Name Location input1 Normalize example set input iSamples datailris Process output R R Name Location result 1 Discretize example set output g result 2 disconnected I macros a g Macro Value Abbildung 5 5 Der Prozesskontext Bei Input geben Sie Repositoryeintr ge an 110 die als Eingabe des Prozesses dienen sollen und an Input Ports des Prozesses angelegt werden Bei Output geben Sie an wohin die Ergebnisse im Repository abgespeichert werden sollen 5 3 Daten und Metadaten Diese Informationen sind im Repository einsehbar ohne den Datensatz zuvor einzuladen was je nach Gr e einige Zeit dauern kann Bewegen Sie einfach den Mauszeiger ber einen Repository Eintrag und verweilen Sie f r einige Sekun den ber dem Eintrag Die Metadaten werden Ihnen in Form eines sogenannten Tooltips pr sentiert Anders als bei anderen Programmen sind diese Hilfsinfor mationen jedoch deutlich m chtiger als gewohnt
81. i denen die dann folgenden Marketing und Vertriebsbem hungen auch den gr ten Erfolg versprechen Sie m chten also ihre Effizienz in diesem Bereich optimieren und dazu geh rt insbesondere solche Bem hungen von vorneherein auszuschlie Ben die ohnehin nur mit geringer Wahrscheinlichkeit zu einem Kauf f hren Aber wie macht man das Das Bed rfnis nach alternativen L sungen und damit das Interesse an dem neuen Produkt hat sich ja im Rahmen der Kundenstudie auf ei ner Teilmenge Ihrer Kunden ergeben Der Aufwand diese Studie fl chendeckend durchzuf hren ist viel zu hoch und verbietet sich daher von selbst Und genau hier kann Data Mining helfen Betrachten wir zun chst eine m gliche Auswahl von Attributen ber ihre Kunden e Name e Adresse e Branche e Subbranche e Zahl der Mitarbeiter e Anzahl der K ufe in Produktgruppe 1 e Anzahl der K ufe in Produktgruppe 2 Die Anzahl der K ufe in den unterschiedlichen Produktgruppen meint hier die Transaktionen in Ihren Produktgruppen die Sie in der Vergangenheit mit diesem Kunden bereits get tigt haben Nat rlich k nnen in Ihrem Fall auch mehr oder weniger oder auch ganz andere Attribute vorhanden sein aber das soll an dieser Stelle keine Rolle spielen Nehmen wir an dass Ihnen die Informationen ber diese Attribute f r jeden Ihrer Kunden zur Verf gung st nden Dann gibt es aber noch ein Attribut welches wir f r unser ganz konkretes Szenario betrachten k nnen Die Tatsache
82. i gedr ckter Taste Alle ausgew hlten Operatoren werden nun gem der Mausbewegung an eine neue Stelle bewegt Falls Sie im Zuge dieser Bewegung den Rand der wei en Fl che erreichen so wird diese automatisch entsprechend vergr ert Sollten Sie an den Rand des sichtbaren Bereichs kommen so wird dieser ebenfalls automatisch direkt mit verschoben L schen von Operatoren W hlen Sie einen oder mehrere Operatoren wie oben beschrieben aus Sie k nnen die ausgew hlten Operatoren nun L schen mittels e Dr cken der Taste ENTFERNEN e Auswahl der Aktion Delete im Kontextmen einer der ausgew hlten Ope ratoren 41 2 Design e des Men eintrags Edit Delete L schen von Verbindungen Verbindungen k nnen durch Klicken auf einen der beiden Ports bei gleichzeitigem Dr cken der Taste ALT gel scht werden Alternativ k nnen Sie eine Verbindung auch mittels den Kontextmen s der betroffenden Ports l schen Navigieren im Prozess Betrachten wir noch einmal die Toolbar f r den Process View so stellen wir fest dass wir bisher lediglich von den linken beiden Aktionen Gebrauch gemacht haben Die folgenden vier Elemente n mlich den Pfeil nach Links den Pfeil nach rechts den Pfeil nach oben und die Navigationsleiste Breadcrumb diskutieren wir in diesem Abschnitt lt Process XML 4 Process gt 3 ht IE 3 Abbildung 2 20 Aktionen im Process View Die Aktionen im Einzelnen
83. ichkeiten von Ereignissen und der Optimierung dieser hnlichkeiten geht es bei der Datenanalyse blicherweise 1 Grundbegriffe Beim M nzwurf ist das beschriebene Vorgehen des Analogieschlusses jedoch nicht m glich es hapert blicherweise bereits am ersten Schritt und die Daten f r Fak toren wie Materialeigenschaften oder Bodenunebenheiten k nnen nicht erfasst werden Folglich k nnen wir diese auch nicht f r sp tere Analogieschl sse bereit halten Das macht das Ereignis eines M nzwurfs allerdings noch lange nicht zum Zufall sondern zeigt lediglich dass wir Menschen nicht in der Lage sind diese Einflussfaktoren zu messen und den Prozess zu beschreiben In wieder anderen F llen sind wir zwar durchaus in der Lage die Einflussfaktoren zu messen jedoch gelingt es uns nicht diese sinnvoll in Beziehung zu setzen so dass die Berechnung von hnlichkeit oder gar die Beschreibung der Prozesse f r uns unm glich ist Es ist nun keineswegs so dass der Analogieschluss die einzige M glichkeit w re aus bereits bekannten Informationen Vorhersagen f r neue Situationen abzulei ten Wird der Beobachter eines fallenden Glases gefragt woher er wusste dass das Glas zerbrechen wird so wird die Antwort h ufig Elemente enthalten wie Immer wenn ich ein Glas habe fallen sehen aus einer H he von mehr als 1 5 Metern ist es zerbrochen Hier sind zwei Dinge interessant Der Bezug auf die vergangenen Erfahrungen mittels des Begriffs imm
84. icht eingestellte Parameter oder unverbundene Input Ports rot ob die Konfiguration prin zipiell abgeschlossen ist aber der Operator seitdem noch nicht ausgef hrt wurde gelb oder ob alles in Ordnung ist und der Operator auch bereits erfolgreich durchgef hrt wurde gr n Warndreieck Zeigt an wenn f r diesen Operator Statusmeldungen vorlie gen Breakpoint Zeigt an ob die Prozessausf hrung vor oder nach diesem Ope rator angehalten werden soll um dem Analysten die Gelegenheit zu geben Zwischenergebnisse zu inspizieren Kommentar Wenn ein Kommentar zu diesem Operator eingegeben wurde so wird dies mittels dieses Icons angezeigt Subprozess Dies ist eine sehr wichtige Anzeige da manche Operatoren ber einen oder mehrere Unterprozesse verf gen Ob ein solcher Unterprozess existiert wird mittels dieses Zeichens angezeigt Sie k nnen einen Dop 2 3 Design Perspektive pelklick auf den betreffenden Operator ausf hren um in die Unterprozesse abzusteigen Werden mehrere Operatoren miteinander verbunden so sprechen wir von einem Analyseprozess oder kurz Prozess Eine solche Abfolge von Schritten kann beispielsweise einen Datensatz einladen die Daten transformieren ein Modell berechnen und das Modell auf einen anderen Datensatz anwenden In RapidMiner kann ein solcher Prozess dann wie folgt aussehen Read Excel Select Attribu Set Role out C Read Excel 2 out L Abbildung 2 16 Ein Analyseprozess b
85. icht von anderen Datenanalysetools Sie f gen einen Operators hinzu f hren ihn aus und zeigen die Ergebnisse mittels Kontextmen beziehungsweise mittels spezieller Operatoren hierf r an Auch wenn diese Vorgehensweise f r kleine Datens tze intuitiv und leicht bedienbar schein so m chten wir dringend von dieser Arbeitsweise abraten da Sie sp tes tens bei der Analyse gro er Datenmengen zu Problemen f hrt In diesem Fall m sste n mlich an jedem Port eine Kopie der Daten vorgehalten werden um dieses Ergebnis auch sp ter noch zur Verf gung stellen zu k nnen RapidMiner geht hier einen ganz anderen und langfristig auch erfolgversprechenderen Weg Die Metadaten werden transformiert und durch den Prozess propagiert und Da ten werden nur dort bereitgestellt wo dieses absolut notwendig ist Diese Art der RapidMiner Analyse kombiniert also die Interaktivit t welche durch bekannte Metadaten erlaubt wird mit der einfachen Prozessdefinition f r die Analyse auch gro er Datenmengen Hinweis RapidMiner besitzt an dieser Stelle ein raffiniertes Speichermanage ment Wie oben bereits erw hnt werden Ergebnisse noch eine zeitlang an den Ports behalten Diese Ergebnisse werden gel scht sobald der hierf r notwendige Speicher von RapidMinder oder anderen Programmen ben tigt wird Das hei t Ergebnisse k nnen von den Ports verschwinden und stehen dann auch nicht mehr f r eine Visualisierung bereit Dies ist einer der Gr nde f r die Ef
86. ie gemessen an Umfang und Bedeutung in der Ana lyse wohl wichtigste Gruppe Hier befinden sich alle Operatoren um sowohl Daten als auch Metadaten transformieren zu k nnen e Modeling Enth lt die eigentlichen Data Mining Verfahren wie Klassifika tionsverfahren Regressionsverfahren Clustering Gewichtungen Verfahren f r Assoziationsregeln Korrelations und hnlichkeitsanalysen sowie Ope ratoren um die generierten Modelle auf neue Datens tze anzuwenden e Evaluation Operatoren mit deren Hilfe man die G te einer Modellierung berechnen und damit f r neue Daten absch tzen kann wie Kreuzvalidierun gen Bootstrapping usw Sie k nnen neue Operatoren innerhalb des Operators View einfach ausw hlen 32 2 3 Design Perspektive und mittels Drag amp Drop an der gew nschten Stelle im Prozess hinzuf gen Sie k nnen dabei w hlen ob neue Operatoren direkt m glichst passend auf Basis der vorliegenden Metadaten Informationen mit bereits bestehenden Operatoren verbunden werden oder nicht W hlen Sie dazu einfach das Stecker Symbol links in der Toolbar des Views und definieren Sie ob eingehende und oder ausgehende Verbindungen automatisch erzeugt werden sollen Andernfalls m ssen Sie den Operator selbst ndig verbinden amp Operators ig Repositories g gt Abbildung 2 12 Aktionen und Filter f r den Operators View Um Ihnen die Arbeit m glichst zu erleichtern unterst tzt der Operators View zudem noch einen Fi
87. ie m ssen blicherweise ausprobieren welche Darstellung f r den vorliegenden Graphen das beste Ergebnis liefert 96 4 5 Result Overview 4 4 5 Spezielle Ansichten Neben den oben beschriebenen Views Text Tabelle Plotter und Graph gibt es vereinzelt auch weitere Darstellungskomponenten die jedoch seltener vorkommen und selbsterkl rend sein sollten So gibt es beispielsweise f r Frequent Itemsets noch eine eigene Art von Tabelle oder ein spezieller Graph f r die zugeh rigen Assoziationsregeln 4 5 Result Overview Wir haben eingangs bereits den Result Overview bemerkt welcher als eine Art Platzhalter stets an der Stelle zu finden ist an der auch die brigen Resultate angezeigt werden Result Overview J Tree Decision Tree OneClassLibS M 2 results Process results Completed Feb 7 2010 2 56 22 PM execution time 0 s OneClassLibS M 2 results Process results Completed Feb 7 2010 4 08 17 PM execution time 0 s en en Data Table g Total number of Support Vectors 104 Number of examples 200 Bias offset 25 881 5 attributes Role Hame Type Feature veight calculation only possib Please use the operator SVMWeighting ir atti real 27 mee number of classes 2 number of support vectors 104 att2 real 22 mee label label nominal cl lt i DB G D Process 1 results Process results Completed Feb 7 2010 4 30 28 PM execution time 0 s Process 1 results Process resul
88. in RapidMiner verwendeten Terme kennen und beherrschen 1 1 Zufall oder nicht Bevor wir nun richtig starten versuchen wir noch ein kleines Experiment e Denken Sie sich eine Zahl zwischen 1 und 10 e Multiplizieren Sie diese Zahl mit 9 e Bilden Sie die Quersumme des Ergebnisses also die Summe der Ziffern e Multiplizieren Sie das Ergebnis mit 4 e Teilen Sie das Resultat durch 3 e Ziehen Sie 10 ab Das Ergebnis ist 2 Glauben Sie an Zufall Als Analyst werden Sie diese Frage wohl verneinen ler nen oder tun dies sogar bereits Nehmen wir beispielsweise das wohl einfachste Zufallsereignis dass man sich berhaupt nur vorstellen kann n mlich den Wurf 1 Grundbegriffe einer M nze Aha m gen Sie denken das ist doch ein zuf lliges Ereignis und niemand kann vorhersagen welche Seite der M nze nach einem Wurf oben liegt Das stimmt zwar aber die Tatsache dass kein Mensch dies vorhersagen kann be deutet ja noch lange nicht dass es auch prinzipiell unm glich ist W ren s mtliche Einflussfaktoren wie Abwurfgeschwindigkeit und Rotationswinkel Materialeigen schaften der M nze selbst und solche des Bodens Masseverteilungen und sogar die St rke und Richtung des Winds allesamt exakt bekannt so w rden wir mit ei nigem Aufwand durchaus in der Lage sein den Ausgang eines solchen M nzwurfs zu prognostizieren Die physikalischen Formeln hierzu sind jedenfalls alle bekannt Wir werden nun ein anderes Szenario b
89. ine wertvolle Hilfe w hrend des Designs Ihrer Analyseprozesse ist der Problems View In diesem werden alle Warnungen und Fehlermeldungen bersichtlich in einer Tabelle angezeigt Ab bildung 2 31 In der ersten Spalte mit dem Namen Message finden Sie eine kurze Zusammen fassung des Problems In diesem Fall ist das Data Mining Verfahren Gaussian Process nicht in der Lage polynominale also mehrwertige kategorielle At tribute zu behandeln Die letzte Spalte namens Location gibt Ihnen die Stelle an an der das Problem auftritt in Form des Operatornamens und des Namens 52 2 3 Design Perspektive Eile Edit Process Tools View Help 5GERS Ax PHB OZO Process H E Parameters 5 t j tGbs S3 varg Proci ess o logfile E Operators B Repositories fl e Jop Process Control 34 amp Utility 34 random seed 2001 E Repository Access 2 amp GQ Import 24 send mail Export 17 Data Transformation 110 Modeling 108 Evaluation 28 encoding SYSTEM v Comment LS Problems Log Synopsis SB No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one Problems amp Log View operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like
90. ines Attributs gibt es noch eine zweite Eigen schaft von Attributen die eine genauere Betrachtung verdient Das Beispiel der M ller Systemtechnik oben hat f r die verschiedenen Attribute die jeweiligen Werte definiert beispielsweise M ller Systemtechnik GmbH f r das Attribut Name und den Wert 5 f r die Anzahl der bisherigen K ufe in Produktgruppe 1 F r das Attribut Name handelt es sich bei dem konkreten Wert f r dieses Bei spiel also gewisserma en um nahezu beliebigen Freitext beim Attribut Anzahl 11 1 Grundbegriffe der K ufe in Produktgruppe 1 wiederum muss die Angabe einer Zahl entspre chen Die Angabe ob die Werte eines Attribut nun als Text oder Zahl vorliegen m ssen nennen wir den Wertetyp engl Value Type eines Attributs In sp teren Kapiteln werden wir viele verschiedene Wertetypen kennenlernen und sehen wie sich diese auch in andere Typen transformieren lassen F r den Au genblick reicht uns die Erkenntnis dass es verschiedene Wertetypen f r Attribute gibt und dass wir im Fall von Freitext von dem Wertetyp Text im Fall von Zah len von dem Wertetyp Numerisch oder englisch Numerical und im Fall von nur wenigen m glichen Werten wie etwas bei den beiden M glichkeiten ja und nein beim Zielattribut von dem Wertetyp Nominal sprechen Bitte beachten Sie dass im obigen Beispiel die Zahl der Mitarbeiter obwohl ja eigentlich vom numerischen Typ eher als nominal d
91. ion Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like 7 Abbildung 2 25 Parameter des aktuell selektierten Operators werden im Para meter View eingestellt nes oder mehrerer Parameter beispielsweise ben tigen Operatoren die Daten aus Dateien lesen die Angabe des Dateipfads Noch viel h ufiger jedoch kommt es vor dass Parameter zwar nicht unbedingt erforderlich sind jedoch die Ausf hrung des Operators durch die Angabe bestimmter Parameterwerte gesteuert und im Falle einer Modellierung h ufig auch optimiert werden kann Nachdem ein Operator der Parameter anbietet im Process View selektiert wur de werden seine Parameter im Parameter View angezeigt Der View besitzt wie die anderen Views auch eine eigene Toolbar die im Folgenden beschrieben wird Unter der Toolbar finden sich Icon und Name des aktuell ausgew hlten Opera tors gefolgt von den eigentlichen Parametern Dabei bedeutet eine fette Schriftart dass der Parameter unbedingt durch den Analysten definiert werden muss und keinen Default Wert aufweist Eine kursive Schrift bedeutet dass der Parame ter als Expertenparameter eingestuft wird und von Anf ngern der Datenanalyse nicht unbedingt ge ndert werden sollte 47 2 Design Bitte beachten Sie dass manche Parameter erst dann angezeigt werden wenn andere Pa
92. kopien wei testgehend unn tig werden Hierdurch erreicht RapidMiner einen im Vergleich oftmals deutlich niedrigeren Speicherverbrauch und kann eine entsprechende Konfiguration von RapidMiner und der Analyseprozesse vorausgesetzt auch mit mehreren 100 Millionen Datens tzen spielend leicht umgehen 21 2 Design Weitere Neuerungen wie die verbesserten Lift Charts von RapidMiner unter st tzen die Optimierung von Direct Mailing und Marketing Kampagnen die K ndigerpr vention Churn Reduction die Erh hung der Kundenbindung und die Kosten Nutzen optimierte Neukundengewinnung Erweiterte Pivotisierungen neue Aggregationsfunktionen eine umfangreiche Datums und Zeitbehandlung die vereinfachte funktionsbasierte Konstruktion neuer Attribute optimierte Wi zards unter anderem f r die automatische Optimierung von Data Mining Prozess parametern sowie neue Visualisierungen mit Zooming und Panning erm glichen ebenfalls verbesserte Analysen und Datentransformationen und erleichtern die Bedienung zudem enorm Die wesentlichsten Neuerungen der neuen Version 5 von RapidMiner ist jedoch die vollst ndige berarbeitung der graphischen Be nutzeroberfl che die statt lediglich des Operatorbaums nun auch die expliziten Datenfl sse anzeigt und zudem auf Basis des nun integrierten Repositories auch die Metadaten Transformation w hrend der Design Zeit unterst tzt 2 0 3 Eine Frage des Formats Ein weiterer Schwerpunkt von RapidMiner ist
93. l bei umfangreichen Prozessen wird der wei e Arbeitsbereich nicht mehr ausreichen und man wird diesen entweder mittels des Kontextmen s des Process Views mittels der Tastenkombinationen aus STRG und Pfeil links rechts oben und unten oder einfach mittels Draggen eines Operators an den Rand vergr ern In diesem Fall wird jedoch nicht mehr der gesamte Arbeitsbereich gleichzeitig sichtbar sein und eine Navigation innerhalb des Prozesses wird erschwert Um die bersicht zu erh hen und gleichzeitig eine komfortable M glichkeit zur Navi gation zu liefern bietet RapidMiner den Overview View welcher den gesamten Arbeitsbereich zeigt und mittels eines kleinen Kastens den aktuell angezeigten Ausschnitt markiert 51 2 Design P Overview le a a3 gt a 5 z ar 4 w FS 4 4 Fi DER Fa FR 5 A 3 4 a h Abbildung 2 29 Der Overview View zeigt den gesamten Prozess und markiert den sichtbaren Ausschnitt Sie werden sehen dass sich der Ausschnitt beim Scrollen innerhalb des Process View verschiebt und nun mittels der Scrollbar oder einfach durch Draggen eines Operators an den Rand des Ausschnitts Gleichzeitig k nnen Sie aber auch einfach den markierten Bereich in diesem Overview an die gew nschte Stelle ziehen und der Process View passt sich automatisch an 2 3 8 Problems und Log View Abbildung zeigt die Problems und Log View von RapidMiner Problems View Ein weiteres ausgesprochen zentrales Element und e
94. ldschirmaufl sung und pers nlichen Pr ferenzen m gen andere Einstellungen Ihre Arbeit deutlich effizienter machen Manchmal l scht man versehentlich einen View oder verschiebt sich die Per spektive ungewollt in besonders ung nstige Varianten In diesem Fall hilft das View Men weiter denn neben der M glichkeit geschlossene Views mittels Show View wieder zu ffnen kann auch der urspr ngliche Zustand mittels Restore Default Perspektive jederzeit wieder hergestellt werden View Run Tools Help A Perspectives gt New Perspective a Show View gt ir Restore Default Perspective v g Expert Mode F4 Abbildung 2 8 View Men Au erdem finden Sie hier noch die M glichkeit auch eigene Perspektiven unter einem frei w hlbaren Namen abzuspeichern New Perspective sowie zwi schen den gespeicherten und vordefinierten Perspektiven zu wechseln 2 3 Design Perspektive Wie eingangs bereits erw hnt finden Sie im rechten Bereich der Toolbar ein Icon f r jede vordefinierte Perspektive Abbildung 2 9 Toolbar Icons f r Perspektiven Die hier dargestellten Icons wechseln in die folgenden Perspektiven 1 Design Perspektive Dies ist die zentrale Ansicht von RapidMiner in der alle Analyseprozesse erstellt und verwaltet werden 29 2 Design 2 Result Perspektive Wenn ein Prozess Ergebnisse in Form von Daten Mo dellen o liefert so wechselt RapidMiner in diese Ergebnisa
95. lenartigen Strukturen ist nat rlich auch kaum wundern Tabellen werden aber nicht nur f r die Darstellung von Datens tzen verwendet sondern auch f r die Darstellung von Metadaten von Gewichten von Einflusseinfaktoren f r die Darstellung von Matrizen wie den Korrelationen zwischen allen Attributen und f r vieles andere mehr H ufig ha ben diese Ansichten den Begriff Table im Namen insbesondere wenn Verwechs 86 4 4 Darstellungsformen lungen zu bef rchten sind Ansonsten wird schlicht auch ber Begriffe wie Data View oder Meta Data View auf solche Tabellen hingewiesen Farbschemata Fast alle Tabellen in RapidMiner nutzen bestimmte Farbkodierungen die die bersicht erh hen F r Datens tze beispielsweise werden die Zeilen alternierend in unterschiedlichen Farben dargestellt Attribute mit einer speziellen Rolle erhal ten hierbei einen hellgelben Hintergrund und regul re Attribute einen hellblauen Result Overview J Kernel Model SVM E ExampleSet Multiply Meta Data View Data view O Plot View O Annotations ff d ExampleSet 200 examples 3 special attributes 2 regular attributes View Filter 200 200 all 2 Row No label confidence predictiontl att att2 1 class 0 965 class 3 308 9 743 A 2 class 0 979 class 1 096 7 317 3 class 0 884 class 15 210 0 835 4 class 0 979 class 0 997 7 015 5 class 0 979 class 3 809 1 673 6 class 0 900 class 14 331 5 463 7 class 0 949 class 9
96. liche Daten passieren kann sondern auch f r die Metadaten ber diese Daten Diese sind typischerweise deutlich weniger umfangreich als die Daten selbst und geben dem Analysten eine hervorragende Absch tzung dar ber welche Eigenschaften ein bestimmter Datensatz hat Die Metadaten in RapidMiner entsprechen im We sentlichen den Konzeptbeschreibungen die wir bereits fr her diskutiert haben Sie enthalten die Attributnamen der Beispielmenge genauso wie die Wertetypen und die Rollen der Attribute und sogar einige grundlegende Statistiken 63 3 Analyseprozesse So weit zur Theorie aber wie sehen die Metadaten in der Praxis also RapidMiner aus In RapidMiner werden die Metadaten an den Ports bereit gestellt Fahren Sie mit dem Mauszeiger doch einfach mal ber den Output Port des soeben eingef gten Operators und beobachten Sie was passiert x Process XML ur HE lrrces gt 2 23 3 BEE 4 res res Generate Sale j Generate Sales Data output output Meta data Data Table Number of examples 100 8 attributes Generated by Generate Sales Data output Role Name Type Range Missings id transactio integer unkown 0 Comment store_id nominal Store 0 0 customer nominal Custom 0 product_id integer 10000 0 product_c nominal Books 0 date integer integer Unbound 0 1 10 0 10 100 0 date amount single_pr Press
97. lter welcher verwendet werden kann um nach Bestandtei len des Operatornamens beziehungsweise dem vollst ndigen Operatornamen zu suchen Geben Sie einfach den Suchbegriff in das Filterfeld ein Sobald insgesamt weniger als 10 Suchtreffer existieren wird der Baum so aufgeklappt dass alle Suchtreffer sichtbar sind So brauchen Sie nicht jedes Mal durch die vollst ndige Hierarchie zu navigieren Ein Klick auf das rote Kreuz neben dem Suchfeld l scht die aktuelle Eingabe und klappt den Baum wieder zusammen Tipp Profis werden mit der Zeit die Namen der ben tigten Operatoren immer h ufiger kennen Das Suchfeld unterst tzt neben der Suche nach dem vollst n digen Namen auch eine Suche auf Basis der Anfangsbuchstaben sogenannte Camel Case Search Probieren Sie einfach mal REx f r Read Excel oder DN f r Date to Nominal und Date to Numerical dies beschleunigt die Suche nochmals enorm Repositories View Das Repository ist ein zentraler Bestandteil von RapidMiner der mit Version 5 Einzug gehalten hat Es dient der Verwaltung und Strukturierung Ihrer Analy seprozesse in Projekte und zugleich auch als Quelle sowohl von Daten als auch der zugeh rigen Metadaten Die Verwendung des Repositories erl utern wir Ih nen ausf hrlich in den n chsten Kapiteln daher belassen wir es an dieser Stelle lediglich bei dem folgenden 33 2 Design Hinweis Da ein Gro teil der Unterst tzungen von RapidMiner f
98. miert besteht das Ergebnis lediglich aus einer Beispielmenge Example Set Sie k nnen die Metadaten dieses Datensatzes betrachten die Tabelle selbst und auch gerne einige der Visualisierungen im Plot View ausprobieren Im n chsten Kapitel werden wir dann ausf hrlich die M glichkeiten der Result Perspektive behandeln Wenn Sie wieder in die De sign Perspektive zur ckkehren wollen so k nnen Sie dies jederzeit mit den bereits bekannten Mitteln zum Umschalten tun Tipp Nach einiger Zeit werden Sie h ufig zwischen Design Perspektive und Re sult Perspektive umschalten wollen Statt die Icons oder die Men eintr ge zu ver 74 3 3 Ausf hrung von Prozessen Eile Edit Process Tools Yiew Help DIMRI aa DHE UZO g Result Overview _ 9 Exampleset Select Attributes Meta Data View Data View O Plot View O Annotations ExampleSet 100 examples 0 special attributes 3 regular attributes Name Type Statistics Range Missings store_id nominal mode Store 10 13 least Store Store 01 7 Store 02 6 Store 0 0 product_category nominal mode Toys 17 least Clothing Books 14 Movies 15 Electron 0 total_price real avg 249 045 180 504 14 344 793 253 0 E system Monitor Apr 21 2010 3 17 50 PM INFO No filename given for result file using stdout for logging results Apr 21 2010 3 17 50 PM INFO Loading initial data Apr 21 2010 3 17 50 PM INFO Process starts Apr 21 2010 3 17 50 PM INFO Saving results
99. mit Hilfe von Data Mining l sen kann Hierzu ist es jedoch wichtig dass die Informationen zu den Attributen der einzel nen Beispiele in einer geordneten Form vorliegen damit Data Mining Verfahren auf diese mittels eines Rechners zugreifen k nnen Was l ge hier n her als eine Tabelle Jedes der Attribute definiert eine Tabellenspalte und jedes Beispiel mit den verschiedenen Attributwerten entspricht einer Zeile dieser Tabelle F r unser Szenario k nnte dies beispielsweise wie in Tabelle I T aussehen Eine solche Tabelle nennen wir Beispielmenge oder englisch Example Set da diese Tabelle die Daten f r alle Attribute unserer Beispiele enth lt Im Folgenden und auch innerhalb von RapidMiner werden wir die Begriffe Daten Datensatz und Beispielmenge synonym verwenden Stets ist in diesem Fall eine Tabelle mit den entsprechenden Eintr gen f r die Attributwerte der aktuellen Beispiele gemeint Solche Datentabellen sind es auch die der Datenanalyse oder dem Data Mining ihren Namen geliehen haben Merke Daten beschreiben die Objekte eines Konzepts Metadaten beschreiben die Fi genschaften eines Konzepts und damit auch der Daten Die meisten Data Mining Verfahren erwarten dass die Beispiele genau in solch einer Attributwertetabelle gegeben werden Dies ist hier gl cklicherweise der Fall und wir k nnen uns weitere Transformationen der Daten sparen In der Praxis sieht dies jedoch ganz anders aus und der Gro teil des Arbeitsaufwandes
100. mlich dass wir die Daten fr herer Ereignisse ebenfalls zur Verf gung haben und wir uns im Klaren dar ber sind wie man eine hnlichkeit zwischen den aktuellen und den vergangenen Daten berhaupt definiert Schlie lich sind wir in der Lage eine Sch tzung oder Prognose abgegeben indem wir beispielsweise die hnlichsten bereits vergangenen Ereignisse betrachtet haben Ist bei diesen der fallende Ge genstand zerbrochen oder nicht Dazu m ssen wir zun chst mal solche Ereignisse mit gr ter hnlichkeit finden was eine Art Optimierung darstellt Wir verwen den hier den Begriff Optimierung da es eigentlich unerheblich ist ob wir nun eine hnlichkeit maximieren oder die Ums tze eines Unternehmens oder beliebi ges anderes in jedem Fall wird die betreffende Gr e also hier die hnlichkeit optimiert Der beschriebene Analogieschluss liefert uns dann dass die Mehr zahl der bereits durch uns betrachteten Gl ser zerbrochen ist und genau diese Absch tzung wird dann zu unserer Prognose Dies h rt sich vielleicht kompliziert an aber im Grunde genommen ist diese Art des Analogieschlusses die Basis f r beinahe jeden Lernvorgang des Menschen und wird in atemberaubend schneller Zeit durchgef hrt Das Interessante hieran ist dass wir soeben als menschliche Data Mining Ver fahren t tig waren denn genau um Fragen wie die Repr sentation von Ereig nissen oder Zust nden und die dadurch entstehenden Daten der Definition von hnl
101. n e eine kurze Synopsis die die Funktion des Operators in einem oder wenigen S tzen zusammenfasst e eine ausf hrliche Beschreibung der Funktionsweise des Operators e eine Auflistung aller Parameter inklusive einer kurzen Beschreibung des 49 2 Design Rapic File Edit Process Tools View Help SHEY Aaa PHB OZO P Overview Process XML 8 Parameters t 2 H sd 88 9 HB logverbosity logfile Operators B Repositories z 2 eeo jop pame Process Control 34 E Utility 34 random seed Repository Access 2 E Impor 24 send mail T Export 17 Data Transformation 110 encoding SYSTEM v Modeling 108 E Evaluation 28 Help amp Comment View Comment Problems Log P No Errors The root operator which is the outer most operator of every process Message Location Description Each process must contain exactly one operator of this class and it must be the root operator of the process This operator provides a set of parameters that are of global relevance to the process like 0 Abbildung 2 27 Sowohl zu aktuell ausgew hlten Operatoren im Operators View als auch zu denen aus dem Process View werden Hilfstexte an gezeigt Parameters dem Default Wert falls vorhanden der Angabe ob es sich bei diesem Parameter um einen Expertenparameter handelt sowie einer Angabe von Parameterabh ngigkeiten Comment View Der Comment View ist im Geg
102. n In der Literatur werden Sie auch h ufig den Begriff Zielvariable entdecken der ebenfalls das gleiche meint 1 2 2 Konzepte und Beispiele Die oben eingef hrte Strukturierung von Eigenschaften ihrer Kunden durch At tribute hilft uns schon einmal das gestellte Problem etwas analytischer ange hen zu k nnen Wir haben auf diese Weise n mlich sicher gestellt dass jeder Ihrer Kunden auf die gleiche Art und Weise repr sentiert wird Wir haben im gewissen Sinne den Typ oder das Konzept Kunde definiert welches sich deut 1 Grundbegriffe lich von anderen Konzepten wie beispielsweise fallende Gegenst nde dadurch unterscheidet dass Kunden typischerweise keine Materialeigenschaften besitzen und fallende Gegenst nde nur selten in Produktgruppe 1 einkaufen werden Es ist wichtig dass Sie f r jedes der Probleme in diesem Buch oder auch solchen in Ih rer eigenen Praxis zun chst definieren mit welchen Konzepten Sie es eigentlich zu tun haben und durch welche Attribute diese definiert werden Oben haben wir implizit durch die Angabe der Attribute Name Adresse Branche usw und insbesondere der Angabe der Kauftransaktionen in den einzelnen Pro duktgruppen definiert dass durch diese Attribute Objekte des Konzepts Kunde beschrieben werden Nun ist dieses Konzept bisher relativ abstrakt geblieben und noch nicht mit Leben gef llt Wir wissen zwar nun auf welche Weise wir Kunden beschreiben k nnen haben dies alle
103. n mlich ob dem Kunden der Prototyp gef llt oder eben auch nicht Dieses Attribut steht nat rlich nur f r die 100 Kunden aus der Studie zur Verf gung f r die anderen ist die Information ber dieses Attribut schlicht unbekannt Trotzdem nehmen wir das Attribut ebenfalls mit in die Liste unserer Attribute auf 1 2 Grundbegriffe Prototyp positiv aufgenommen e Name e Adresse e Branche e Subbranche e Zahl der Mitarbeiter e Anzahl der K ufe in Produktgruppe 1 e Anzahl der K ufe in Produktgruppe 2 Nehmen wir an sie haben insgesamt tausende von Kunden so k nnen Sie le diglich bei 100 von diesen eine Angabe dar ber machen ob der Prototyp positiv bewertet wurde oder nicht Bei den anderen wissen Sie dies noch nicht aber Sie w rden es gerne wissen Das Attribut Prototyp positiv aufgenommen nimmt also eine Sonderrolle ein da es jeden Ihrer Kunden in Bezug zu der augenblick lichen Fragestellung kennzeichnet Wir nennen dieses besondere Attribut daher auch Label da es wie ein Markenlabel an einem Hemd oder auch ein Notizzettel an einer Pinnwand an ihren Kunden haftet und diese kennzeichnet Unter den Namen Label werden Sie Attribute die diese spezielle Rolle annehmen auch in RapidMiner wiederfinden Das Ziel unserer Bem hungen ist ja f r die Gesamt menge aller Kunden dieses konkrete Attribut auszuf llen Daher werden wir in diesem Buch auch oft von Zielattribut anstelle des Begriffs Label spreche
104. n Eingabedaten anstellt Da die Metadaten zudem deutlich kleiner sind als die vollst ndigen Datens tze ist diese berpr fung auch deutlich schnel ler durchf hrbar als auf den vollst ndigen Daten Sie bekommen auf diese Weise in k rzester Zeit bereits ein Feedback wenn ein Problem vorliegt welches vielleicht weitere Datentransformation n tig macht und nicht erst nachdem ein ber meh rere Stunden laufender Analyseprozess mit einem Fehler abgebrochen hat Und zu guter Letzt kann RapidMiner die Informationen aus den Metadaten weiter ver arbeiten und Sie beim Design des Prozesses weiter unterst tzen beispielsweise indem bei einer Filterung von Attributen in der graphischen Benutzeroberfl che nur alle noch verf gbaren und die neu generierten Attribute angezeigt werden Probieren Sie nun zum Beispiel folgendes Klappen Sie die Gruppe Data Trans formation Attribute Set Reduction and Transformation Selection auf und ziehen Sie den Operator namens Select Attributes in den Prozess am besten direkt auf die Verbindung nach dem letzten Operator Denken Sie daran dass die Verbindung markiert sein muss bevor Sie den Operator fallen lassen aber dann wird er direkt korrekt neu verbunden Sie sollten nun den Prozess wie in Abbildung definiert haben Process XML BR Process gt 3 ht ii Br Generate Sale Generate Attri Select Attribu Abbildung 3 12 Generierung der Daten Generi
105. n Sie den Dialog mit Finish ab Sie k nnen Ihr Repository nun verwenden 101 5 Repository a Enter parameters to create a new local or remote repository New local repository New remote repository Abbildung 5 2 Sie k nnen ein Repository auf einem gemeinsam genutzten Ana lyseserver RapidAnalytics nutzen oder ein lokales Repository ausw hlen A Enter parameters to create a new local or remote repository MyRespository Root directory CAUsers SimoniDocumentsiRapidMinerRepository QF Previous E gt Nex Abbildung 5 3 RapidMiner erfragt Namen und Verzeichnis fiir ein neu angelegtes lokales Repository ausw hlen 5 2 Das Repository verwenden Es bietet sich an f r Projekte eine einheitliche Verzeichnisstruktur zu verwen den beispielsweise einen Projektordner mit dem Namen des Projekts und jeweils 102 5 2 Das Repository verwenden einen Ordner f r Prozesse Eingabedaten und Ergebnisse Dieser Struktur folgen alle Beispiele in diesem Buch Verzeichnisse erstellen k nnen Sie mit Hilfe des Kontextmen s im Repository View oder mit Hilfe der Schaltfl che in der Werk zeugleiste oben in diesem View 5 2 1 Prozesse und relative Repositoryangaben Bevor wir in den n chsten Abschnitten diskutieren wie Sie Daten und Prozesse im Repository ablegen k nnen und wieder auf diese zugreifen wollen wir zun chst einige grunds tzliche Hinweise zur Referenzierung dieser Objekte innerhalb d
106. n Sie sich merken zum Schnel len einstellen der Spaltenbreiten Aktionen im Kontextmen Sie k nnen in den meisten Tabellen mit einem Rechtsklick auf eine Tabellenzelle ein Kontextmen mit weiteren Aktionen ffnen Im Einzelnen umfassen diese Aktionen 10 11 90 Select Row Auswahl einer Zeile Select Column Auswahl einer Spalte Fit Column Width Anpassen der Breite der ausgew hlten Spalte Fit all Column Widths Anpassen aller Spaltenbreiten Equal Column Widths Verwendung einer gleichen Standardbreite f r alle Spalten Sort by Column Ascending Aufsteigende Sortierung nach dieser Spalte Sort by Column Descending Absteigende Sortierung nach dieser Spalte Add to Sorting Columns Ascending Hinzuf gen zu den Sortierspalten aufsteigend Add to Sorting Columns Descending Hinzuf gen zu den Sortierspalten absteigend Sort Columns by Names Neuanordnung der Spalten nach alphabetischer Sortierung der Spalten berschriften Restore Column Order Wiederherstellung der urspr nglichen Spaltenan ordnung 4 4 Darstellungsformen Result Overview E ExampleSet Generate Sales Data Meta Data View Data View _ Plot View Annotations ExampleSet 100 examples 1 special attribute 7 regular attributes Row No transaction_id store_id customer_id product_id product_category date 1 1 Store 01 Customer1508 53642 Toys 01 04 2007 9 2
107. ni mal verf gbaren Attribute die so gut wie jedes Unternehmen ber seine Kun den pflegt sind beispielsweise geographische Angaben und die Information wel che Produkte oder Dienstleistungen der Kunde bereits erworben hat Sie w ren berrascht welche Vorhersagen bereits aus einer solch kleinen Menge von Attri buten m glich sind Betrachten wir ein zugegebenerma en etwas konstruiertes Beispiel Nehmen wir an dass Sie in einem Unternehmen arbeiten dass in Zukunft seinen Kunden besser aufihre Bed rfnisse zugeschnittene Produkte anbieten m chte Im Rahmen einer Kundenstudie bei nur 100 Ihrer Kunden haben sich einige Bed rfnisse her aus kristallisiert die immerhin 62 dieser 100 Kunden teilen Ihre Forschungs und Entwicklungsabteilung machte sich sofort ans Werk und hat innerhalb k rzester Zeit ein neues Produkt entwickelt das diesen neuen Bed rfnissen besser gerecht wird Die meisten der 62 Kunden mit dem entsprechenden Bed rfnisprofil sind von dem Prototypen jedenfalls begeistert die meisten der brigen Teilnehmer der Studie zeigen jedoch erwartungsgem nur geringes Interesse Insgesamt haben aber immerhin 54 der 100 Kunden im Rahmen der Studie angegeben das neue Produkt n tzlich zu finden Der Prototyp wird also als Erfolg bewertet und geht 1 Grundbegriffe in Produktion nur stellt sich nun die Frage wie Sie aus ihren Bestandskunden oder auch aus anderen potentiellen Kunden genau diejenigen heraussuchen be
108. none v1 9 Weighting none v1 J processes none QQ 01_Learner none Gy 02_Preprocessing none 03_Validation none Gy 04_Attributes none GQ 05_Visualisation none Q 06 _Meta 4 01_ParameterOptimization none w1 02_ParameterSetter none w1 03 RandomOptimization no ne v1 04_LearningCurve none wi 05 _MultipleLabelLearning no ne w1 06_OperatorEnabler none w1 one w1 I 09_PartialExampleSetLearner none w1 10_DifferentStructures none w1 S 11_SubsetlterationAndMacros none w1 QQ 07_Clustering none GQ 08_Other none EAE AEA E E LocalRepository cboeck 07_EvolutionaryParameterOptimization none v 1 Abbildung 5 1 Der Repository View mit einem ge ffneten Beispielverzeichnis 5 1 1 Ein neues Repository anlegen Um das Repository benutzen zu k nnen m ssen Sie zun chst eine solches erstel len RapidMiner fordert Sie auf dies zu tun wenn es zum ersten Mal gestartet wird Sp ter k nnen Sie weitere Repositories hinzuf gen indem Sie die erste Schaltfl che in der Werkzeugleiste der Repository View benutzen Die folgenden Abbildungen zeigen den einfachen Ablauf Sofern Sie nicht ber den Analyse server von RapidAnalytics verf gen w hlen Sie die erste Option um ein lokales Repository anzulegen und w hlen Sie dann Next Vergeben Sie nun einen Namen f r Ihr Repository und w hlen Sie ein Verzeichnis in dem es angelegt werden soll Schlie e
109. nsbereich eines Views durchf hren Jeder View stellt Ihnen die folgenden Aktionen zur Verf gung Unter anderem die folgenden Aktionen sind f r alle Views von RapidMiner m g lich weitere Aktionen sollten selbsterkl rend sein 1 Close Schlie t den View in der aktuellen Perspektive Sie k nnen den View erneut in der aktuellen oder einer anderen Perspektive ffnen mittels des Men s View Show View 2 Maximize Maximiert den View in der aktuellen Perspektive Kann auch 27 2 Design f RapidMiner rapid i 011 Eile Edit Process Tools View Help ISHEFIF Aa pHa UA Oo welcome New Open Recent 3 Open Template Online Tutorial Recent Processes LocalRepositoryProzesseT stTestDeclareMissingvalue LocalRepository Prozesse T stTestReplaceMissingValue ALocalRepository Prozesse T amp stTestRename HLocalRepository Prozesse T stiMetaTest LocalRepository Prozesse T amp stTestProzess LocalRepository TestProzes Samplesiprocesses 01_Leafneri01_DecisionTree Samplesiprocesses 01_Leafner 12_AssotiationRules Career Offers RapidMiner 5 Release Candidate RB released Courses amp Webinars Are you interested in working for Rapid I Then please have We just have released the official candidate for the final release of RapidMiner 5 a look at our career offers at Fast Track Introduction into Data Analysis with Since the release of RapidMiner 5 Beta several weeks ago a lot of work was done in
110. nsicht in der Sie wie gewohnt dank der Views auch mehrere Resultate gleichzeitig be trachten k nnen 3 Welcome Perspektive Die bereits oben beschriebene Willkommensansicht mit der Sie RapidMiner nach dem Programmstart begr t Sie k nnen mittels eines Klicks innerhalb der Toolbar in die gew nschte Perspek tive wechseln oder alternativ mittels des Men eintrags View Perspectives gefolgt von der Auswahl der Zielperspektive Schlie lich fragt RapidMiner Sie auch automatisch falls ein Wechsel in eine andere Perspektive sinnvoll scheint beispielsweise zur Ergebnisansicht bei Beendigung eines Analyseprozesses Wechseln Sie nun mittels eines Klicks in der Toolbar in die Design Perspektive Sie wird im Rahmen dieses Kapitels ausf hrlich behandelt Die Result Perspektive wird dann Thema eines sp teren Kapitels sein Sie sollten nun den folgenden Bildschirm vor sich sehen Da es sich bei der Designansicht um die zentrale Arbeitsumgebung von RapidMi ner handelt werden wir im Folgenden alle Teile der Design Perspektive einzeln besprechen und die grundlegenden Funktionalit ten der zugeh rigen Views dis kutieren 2 3 1 Operators und Repositories View In diesem Bereich finden sich zumindest in der Standardeinstellung zwei ausge sprochen zentrale Views die im Folgenden beschrieben werden Operators View Hier werden alle in RapidMiner verf gbaren Arbeitsschritte Operatoren in Gruppen pr sentiert und steh
111. nur nach dem ersten Operator Wir w hlen daher den neuen Operator Generate Attributes aus und selektieren ihn auf diese Weise Die Anzeige im Parameter View ndert sich dementsprechend und die Parameter dieses Operators werden angezeigt Der wesentliche Parameter hat den Namen function descriptions und wird mit einem Klick wie in Abbildung 3 9 zu sehen auf den zugeh rigen Knopf konfiguriert 66 3 2 Der erste Analyseprozess lt Process XML m Process gt tv Gal d Generate Sale Abbildung 3 8 Die Daten werden zun chst generiert und danach wird ein neues Attribut erzeugt gt Parameters S or HH Generate Attributes function descriptions B Edit List 0 2 hidden expert parameters Abbildung 3 9 Die Parameter des Operators Generate Attributes Nachdem Sie den Knopf mit dem Namen Edit List 0 gedr ckt haben wird sich ein Dialog 6ffnen der Ihnen die Gelegenheit gibt die gewiinschte Berechnung in Abbildung einzugeben Sie k nnen in solchen Listen von Einzelparametern mit den beiden Aktionen Add Entry und Remove Entry weitere Eintr ge hinzunehmen und ausgew hlte Eintr ge auch wieder l schen In der Tabellen berschrift stehen die Namen der 67 3 Analyseprozesse amp Edit Parameter List function descriptions Edit Parameter List function descriptions List of functions to generate attribute name function expressions t
112. nzelnen Objekts an Betrachten wir zun chst die letzten beiden Attribute so f llt auf dass zwar die Anzahl und der Einzelpreis der Objekte innerhalb der Transaktion gegeben sind nicht jedoch der damit verbundene Gesamtumsatz Als n chstes wollen wir des halb ein neues Attribut mit Namen total_price generieren dessen Werte dem Produkt aus Anzahl und Einzelpreis entsprechen Hierzu verwenden wir einen weiteren Operator namens Generate Attributes der sich in der Gruppe Data Transformation Attribute Set Reduction and Transformation Generati on befindet Ziehen Sie den Operator hinter den ersten Operator und verbinden Sie den Output Port des Datengenerators mit dem Input Port des neuen Opera tors sowie dessen Output Port mit der Ergebnisausgabe des Gesamtprozesses Es m sste sich etwa das Bild in Abbildung 3 8 ergeben Tipp Statt einen Operator in den Process View zu ziehen und die Ports neu zu verbinden k nnen Sie den Operator auch auf eine bereits bestehende Verbindung ziehen Wenn Sie die Position des Mauszeigers genau auf die Verbindung bewe gen wird diese hervorgehoben und der neue Operator direkt in die Verbindung sinnvoll eingef gt Auch wenn dieser Prozess nun funktionieren w rde was an den gelben Statusan zeigen und dem leeren Problems View erkannt werden kann so w rde der zweite Operator ohne eine weitere Konfiguration nichts berechnen und das Endergebnis w re das gleiche wie das
113. order to Bankier Webinar optimize the RapidMiner experience and fix bugs wich became release candidate is the first stable version of RapigMiner 5 and we recommend to use Text Mining with RapidMiner 5 from now on for your analysis projcts Career Offers a The extensions for reporting and parallel prodess execution are now also available for New the Reporting all users of the freely available community editibn All extensions can now easily be extension as well as the accessed by the new update and installation servic available from the Help menu atansion far Darallal Abbildung 2 6 Draggen des unteren Log Views an die rechte Seite und Markie rung der neuen Position welcome HAM Abbildung 2 7 Aktionen f r Views mittels Doppelklick auf den Namensbereich durchgef hrt werden 3 Minimize Minimiert den View in der aktuellen Perspektive Der View wird auf der linken Seite der Perspektive angezeigt und kann von dort aus wieder maximiert oder kurz betrachtet werden 4 Detach L st den View aus der aktuellen Perspektive und stellt ihn inner halb eines eigenen Fensters dar welches beliebig verschoben werden kann Probieren Sie nun einfach ein wenig die beiden Views auf verschiedene Arten anzuordnen Es erfordert manchmal ein wenig Ubung die Views genau an der 28 2 3 Design Perspektive gew nschten Stelle abzulegen Es lohnt sich jedoch ein wenig mit den Anord nungen zu experimentieren denn je nach Bi
114. otal_price amount single_price Tester Teen en Abbildung 3 10 Berechnung des neuen Attributs total_price als Produkt aus amount und single_price gew nschten Parameter F gen Sie eine Zeile hinzu geben Sie links den Namen des neuen Attributs ein und rechts die Funktion die dieses neue Attribut berech net In diesem Fall handelt es sich dabei einfach um das Produkt aus zwei anderen Attributen Best tigen Sie Ihre Eingabe mit Ok und der Dialog wird sich schlie en Der Knopf mit der Beschriftung Edit List m sste nun in Klammern eine 1 anzeigen so dass Sie erkennen k nnen wie viele Eintr ge die Parameterliste hat und folglich in diesem Fall auch wie viele neue Attribute generiert werden Wir k nnen nun beobachten wie sich das Hinzuf gen des Operator Generate Attributes auf die Metadaten auswirkt Im Hintergrund hat RapidMiner n mlich bereits die Metadaten transformiert und Sie k nnen sich die neuen Metadaten erneut als Tooltip ber den Output Port des Operators ansehen Abbildung 3 11 Es ist in der Zeile Generatey by leicht zu sehen dass das Objekt nun als letztes dem Operator Generate Attributes entstammt und zuvor dem Operator Generate Sales Data Dar ber hinaus hat sich fast nichts ge ndert sowohl die Anzahl der Beispiele ist gleich geblieben als auch die acht urspr nglichen Attribute Es ist jedoch noch ein neuntes Attribut neu
115. r verwendete Weg Hinweis Sie k nnen nicht nur Datens tze sondern auch Modelle und alle an deren RapidMiner Objekte mit dem Store Operator verbinden Damit k nnen Sie auch beliebige Ergebnisse in Ihrem Repository speichern Import anderer Formate mittels Operatoren Das Repository speichert Datens tze in einem Format ab das alle von RapidMi ner ben tigten Daten und Metadaten enth lt Ihre Daten werden zu Beginn ver mutlich in einem anderen Format vorliegen CSV Excel SQL Datenbanken etc Wie oben beschrieben k nnen Sie diese Dateien in Ihr Repository berf hren RapidMiner kann jedoch auch zahlreiche andere Formate innerhalb von Prozessen importieren Operatoren dazu finden Sie in der Gruppe Import Bei der Benut zung dieser Operatoren ist jedoch Vorsicht geboten Metadaten stehen f r diese Operatoren nicht garantiert zur Verf gung was beispielsweise dazu f hren kann dass Prozesse die von der Existenz bestimmter Attributwerte ausgehen m gliche Fehler erst zur Laufzeit des Prozesses bemerken Dennoch ist die Verwendung die ser Dateiformate mitunter nicht vermeidbar z B f r die regelm ige Ausf hrung von ETL Prozessen Das Ziel dieser Prozesse sollte es jedoch sein die Daten mit einem nachfolgenden Store Operator in das Repository zu berf hren so dass sie von den nachfolgenden eigentlichen Analyseprozessen verwendet werden k nnen Die Operatoren der Import Gruppe haben zahlreiche auf das jeweilige
116. r Dateien erfordert keine weiteren Einstellun gen Daten k nnen durch einen einzelnen Klick ge ffnet betrachtet oder in den Prozess eingebaut werden Eine bersicht ber die abgespeicherten Daten ihre Eigenschaften und von Ihnen selbst vergebene Bemerkungen bekommen Sie jederzeit ohne die Datei einzeln ffnen zu m ssen e Alle Ein und Ausgabedaten sowie Zwischenergebnisse werden mit Meta informationen annotiert Dies garantiert Konsistenz und Integrit t Ihrer Daten und erlaubt die Validierung von Prozessen zur Entwicklungszeit so wie das Bereitstellen von kontextsensitiven Assistenten Das Repository kann entweder auf einem lokalen oder geteilten Dateisystem lie gen oder durch den externen RapidMiner Analyseserver namens Rapid Analytics bereitgestellt werden Die folgende Abbildung zeigt den Repository View der den Inhalt des Repositorys darstellt RapidMiner stellt einen Satz von Beispielpro zessen und daten zur Verf gung die Sie im initial angelegten Repository finden Einige von diesen sind in der Abbildung 5 1 zu sehen 100 5 1 Das RapidMiner Repository T ee J Repositories Operators 3 Golf inc ne v1 9 Golf Testset none v1 P Iris none v1 J Labor Negotiations none w1 3 Market Data none v1 Polynomial none v1 3 Ripley Set Sonar none v1 Transactions
117. r Daten lediglich eine weitere Sicht auf die Daten gelegt wird die die Daten on the fly also w hrend des Datenzugriffs ndert Diese Berechnungen betreffen dann vorherige Ports oder auch Ports in anderen parallelen Str ngen des Prozesses nicht 2 Explizite Kopien Speziell f r kleinere Datens tze kann die Kombination der Operatoren Multiply mit Materialize Data einen Ausweg darstel len Hiermit definieren Sie als Analyst explizit den Wunsch nach einer Kopie der Daten indem Sie zun chst die Referenz auf den Datensatz mittels Mul tiply vervielf ltigen und dann beide virtuellen Datens tze explizit mittels Materialize Data als Tabellen neu anlegen Kein Analyst wird diesen Aufwand ernsthaft betreiben lediglich um ber die 84 4 4 Darstellungsformen Ports auf die Ergebnisse zugreifen zu k nnen Aber auch in parallelen Str ngen von Prozessen k nnen solche Querbeziehungen von Zeit zu Zeit auftreten und dann je nach Gr e des Datensatzes mittels Views oder auch expliziten Kopien aufgel st werden 4 4 Darstellungsformen Wie auch immer die Ergebnisse in die Result Perspektive gekommen sind je des Ergebnis wird innerhalb einer eigenen Registerkarte angezeigt Und dar ber hinaus existieren f r eine Vielzahl von Ergebnissen noch verschiedene Anzei gem glichkeiten die innerhalb von RapidMiner ebenfalls als Views bezeichnet werden Result Overview J Kernel Model SVM 9 ExampleSet Multiply
118. r eine rote Ampel d h es l uft zwar ein Prozess aber er wird derzeit nicht aktiv ausgef hrt W rde derzeit berhaupt kein Prozess laufen so w re diese Anzeige einfach grau Das zweite Kennzeichen f r einen Breakpoint ist das nun gr ne statt blaue Play Symbol PIE Abbildung 3 19 Das gr ne Play Symbol zeigt an dass sich der Prozess gerade in einem Breakpoint befindet und durch Pressen wieder weiter ausgef hrt werden kann Der Prozess kann nun einfach durch Pressen des gr nen Play Symbols wieder aufgenommen werden und zu Ende oder bis zum n chsten Breakpoint weiter ausgef hrt werden Nat rlich k nnen Sie den Prozess durch Stop wie gewohnt auch vollst ndig abbrechen 78 4 Darstellung von Daten und Ergebnissen In den vorigen Abschnitten haben wir gesehen wie die graphische Oberfl che von RapidMiner aufgebaut ist und wie Sie mit ihr Analyseprozesse definieren und ausf hren k nnen Am Ende eines solchen Prozesses k nnen die Ergebnisse des Prozesses dann in der Result Perspektive angezeigt werden Wechseln Sie nun mittels eines Klicks in der Toolbar in diese Result Perspektive Sie wird im Rah men dieses Kapitels ausf hrlich behandelt Je nachdem ob Sie bereits darstell bare Ergebnisse erzeugt haben sollten Sie nun zumindest in den urspr nglichen Einstellungen ungef hr den Bildschirm wie in Abbildung 4 1 vor sich sehen Falls nicht k nnen Sie wie gehabt unter View Restore Default Perspective
119. rameter einen bestimmten Wert aufweisen So kann beispielsweise f r den Operator Sampling nur dann eine absolute Anzahl gew nschter Beispiele P g g angegeben werden wenn als Typ des Samplings absolute gew hlt wurde Die Aktionen der Toolbar beziehen sich genau wie die Parameter auf den aktuell ausgew hlten Operator Im Einzelnen sind dies 48 Operator Info Anzeige einiger grundlegender Informationen zu diesem Ope rator wie erwartete Eingaben oder eine Beschreibung Dieser Dialog wird auch durch Dr cken von F1 nach Selektion ber das Kontextmen im Pro cess View sowie ber den Men eintrag Edit Show Operator Info angezeigt Enable Disable Operatoren k nnen vor bergehen deaktiviert werden Dabei werden ihre Verbindungen gel st und sie werden nicht l nger aus gef hrt Deaktivierte Operatoren werden grau dargestellt Operatoren k n nen auch innerhalb ihres Kontextmen s im Process View sowie ber den Meniieintrag Edit Enable Operator de aktiviert werden g Rename Eine der M glichkeiten einen Operator umzubenennen Weitere M glichkeiten sind das Dr cken von F2 nach Selektion die Auswahl Rena me im Kontextmen des Operators im Process View sowie der Men ein trag Edit Rename Delete Eine der M glichkeiten einen Operator zu l schen Weitere M g lichkeiten sind das Dr cken von ENTFERNEN nach Selektion die
120. rde auf dem bekannten Data Mi ning Portal KDnuggets bereits zum dritten Mal in Folge zur meistverwendeten Open Source Data Mining L sung gew hlt und auch insgesamt machte Rapid Miner mit einem knappen zweiten Platz unter den mehr als 30 auch propriet ren L sungen eine mehr als gute Figur 2 0 1 Flexibilit t und Funktionsvielfalt Was genau macht RapidMiner aber zur weltweit f hrenden Open Source Data Mining Software Gem einer unabh ngigen Vergleichsstudie der TU Chemnitz die beim internationalen Data Mining Cup 2007 DMC 2007 vorgestellt wurde schneidet RapidMiner unter den wichtigsten Open Source Data Mining Tools sowohl hinsichtlich der Technologie als auch der Anwendbarkeit am besten ab Dies spiegelt auch den Fokus der Entwicklungsarbeit wieder der stets auf eine benutzerfreundliche Kombinierbarkeit der aktuellsten sowie der bew hrten Data Mining Techniken abzielte Diese Kombinationsfreudigkeit verschafft RapidMiner eine hohe Flexibilit t bei der Definition von Analyseprozessen Wie wir im Folgenden sehen werden k nnen Prozesse aus einer gro en Zahl von nahezu beliebig schachtelbaren Operatoren erzeugt und schlie lich durch sogenannte Operator Trees beziehungsweise durch einen Prozessgraphen Flow Design repr sentiert werden Der Prozessaufbau wird intern durch XML beschrieben und mittels einer graphischen Benutzero berfl che entwickelt Im Hintergrund pr ft RapidMiner st ndig den gerade ent wickelten P
121. rden Sie k nnen den Tooltip in aller Ruhe lesen und auch in der Gr e anpassen wenn Sie zuvor die Taste F3 dr cken Beachten Sie bitte dass die Metadaten oftmals nur eine Sch tzung darstellen k nnen und manchmal eine exakte Angabe nicht m glich ist Dies u ert sich dadurch dass Teile der Metadaten unbekannt sind oder nur ungenau angegeben werden k nnen beispielsweise mit der Angabe lt 100 Examples f r die Zahl der Beispiele Trotzdem sind die Metadaten eine wertvolle Hilfe sowohl bei den n chsten Designentscheidungen als auch bei der automatischen Erkennung von Problemen sowie den Vorschl gen f r deren L sungen also den Quick Fixes Zur ck zu unserem Beispiel Geschulte Analysten werden auf einen Blick erken nen dass es sich bei den Daten um sogenannte Transaktionsdaten handeln muss bei denen jede Transaktion einen Einkauf darstellt Wir haben f r unsere Bei spielmenge die folgenden Attribute gegeben e transaction_id gibt eine eindeutige ID f r die jeweiligen Transaktionen an e store_id gibt das Gesch ft an in dem die Transaktion get tigt wurde 65 3 Analyseprozesse e customer_id gibt den Kunden an mit dem die Transaktion durchgef hrt wurde e product_id gibt die ID des gekauften Produkts an e product_category gibt die Kategorie des gekauften Produkts an e date gibt das Transaktionsdatum an e amount gibt die Anzahl der gekauften Objekte an e single_price gibt den Preis eines ei
122. rdings bisher noch nicht f r konkrete Kunden durchgef hrt Betrachten wir beispielsweise die Attribute des folgenden Kunden e Prototyp positiv aufgenommen ja e Name M ller Systemtechnik GmbH Adresse Meisenstr 7 B blingen Branche Industrie Subbranche Rohrbiegemaschinen Zahl der Mitarbeiter gt 1000 Anzahl der K ufe in Produktgruppe 1 5 Anzahl der K ufe in Produktgruppe 2 0 Wir sagen dass dieser konkrete Kunde ein Beispiel f r unser Konzept Kun de ist Jedes Beispiel kann durch seine Attribute charakterisiert werden und besitzt f r diese Attribute konkrete Werte die mit denen anderer Beispiele ver glichen werden k nnen In dem oben beschriebenen Fall handelt es sich mit der M ller Systemtechnik GmbH dar ber hinaus noch um das Beispiel eines Kunden welches an unserer Studie teilgenommen hat Daher liegt f r unser Zielattribut Prototyp positiv aufgenommen ein Wert vor Die M ller Systemtechnik war zufrieden und hat hier ein ja als Attributwert daher sprechen wir auch von ei nem positiven Beispiel Folgerichtig gibt es auch negative Beispiele und solche 10 1 2 Grundbegriffe Beispiele bei denen wir gar keine Aussage ber das Zielattribut machen k nnen 1 2 3 Attributrollen Wir haben nun schon zwei verschiedene Arten von Attributen kennen gelernt n mlich solche die die Beispiele einfach nur beschreiben und solche die die Bei spiele gesondert kennzeichnen Attribute k
123. rmation blicherweise nur auf regul ren Attributen durchgef hrt werden also auf solchen ohne eine spezielle Rolle Die Operatoren bieten hierzu jedoch eine Option include special attributes so dass sich die nderungen auch auf diejenigen mit einer besonderen Rolle beziehen 3 3 Ausf hrung von Prozessen Nun sind wir soweit und wir wollen den gerade erstellten Prozess erstmalig ausf hren Die Statusanzeigen aller Operatoren sollten nun gelb sein und es soll 72 3 3 Ausf hrung von Prozessen ten keine Eintr ge im Problem View existieren In solch einem Fall sollte unser Prozess bestehend aus den drei Operatoren zum Generieren der Daten zur Be rechnung des Gesamtumsatzes je Transaktion und zur Filterung von Attributen problemlos ausf hrbar sein Sie haben zum Starten des Prozesses die folgenden M glichkeiten 1 Dr cken Sie den gro en Play Button in der Toolbar von RapidMiner 2 W hlen Sie den Men eintrag Process Run 3 Dr cken Sie F11 PIE Abbildung 3 15 Der Play Knopf startet den Prozess mit dem Pausenknopf k nnen Sie den Prozess zwischenzeitlich anhalten und Stopp bricht den Prozess vollst ndig ab W hrend ein Prozess l uft verwandelt sich die Statusanzeige des jeweils gerade ausgef hrten Operators in ein kleines gr nes Play Icon Auf diese Weise k nnen Sie erkennen an welcher Stelle sich der Prozess gerade befindet Nachdem ein Operator erfolgreich ausgef hrt wurde we
124. rozess auf Syntaxkonformit t und gibt automatisch Vorschl ge f r den Problemfall Dies wird erm glicht durch eine die sogenannte Metadaten Transformation welche bereits zur Design Zeit die zu Grunde liegenden Metada ten so transformiert dass die Form des Ergebnisses bereits absehbar ist und bei unpassenden Operatorkombinationen L sungen aufgezeigt werden k nnen Quick Fixes Weiterhin bietet RapidMiner dem Analysten die M glichkeit Breakpoints zu definieren und damit praktisch jedes Zwischenergebnis inspizieren zu k nnen Gelungene Kombinationen von Operatoren k nnen zusammen gefasst werden in Building Blocks und stehen damit in sp teren Prozessen erneut zur Verf gung 20 Damit kombinieren die Prozesse von RapidMiner die M chtigkeit von Entwick lungsumgebungen wie man sie von Programmiersprachen kennt mit der Ein fachheit von visueller Programmierung Das modulare Vorgehen hat zudem den Vorteil dass auch die internen Analyseabl ufe genauestens gepr ft und ausge nutzt werden k nnen Analysten k nnen so beispielsweise auch in die einzelnen Teilschritte einer Kreuzvalidierung hineinsehen oder den Effekt der Vorverar beitung ebenfalls evaluieren was mit anderen L sungen typischerweise nicht m glich ist und oftmals in zu optimistischen Fehlerabsch tzungen resultiert Insgesamt beinhaltet RapidMiner mehr als 500 Operatoren f r alle Aufgaben der professionellen Datenanalyse d h Operatoren f r Ein und Ausgabe sowi
125. s neuen Prozesses Repositories Ei Operators Our EZ SI en Data boeck Result Store Process Here Rename F2 Create Folder E Copy Strg C Paste Strg V Ei Copy Location to Clipboard amp Delete Entf Refresh F5 Abbildung 3 2 Das Kontextmen der Repository Eintr ge sowohl im Reposito ry Browser als auch im Repository View bietet alle notwendigen Optionen zur Verwaltung Ort 2 Rename Benennt den Eintrag oder das Verzeichnis um 3 Create Folder Legt ein neues Verzeichnis an dieser Stelle an 4 Delete L scht den gew hlten Repository Eintrag oder Verzeichnis 5 Copy Kopiert den gew hlten Eintrag zum sp teren Einf gen an anderen Stellen 6 Paste Kopiert einen zuvor kopierten Eintrag an diese Stelle 7 Copy Location to Clipboard Kopiert einen eindeutigen Bezeichner f r diesen Eintrag in die Ablage so dass Sie diese als Parameter f r Operatoren in 59 3 Analyseprozesse Web Interfaces o nutzen k nnen 8 Refresh Aktualisiert die Anzeige Es empfiehlt sich f r einzelne Analyseprojekte neue Verzeichnisse im Reposito ry anzulegen und diese entsprechend zu benennen Eine weitere Strukturierung innerhalb der Projekte kann nie schaden beispielsweise in weitere Unterverzeich nisse f r projektspezifische Daten verschiedene Phasen der Datentransformation und analyse oder f r Ergebnisse Ein Repository k nnte also beispielsweise die folgende Struktur aufweisen
126. schen Ergebnis an einen Ergebnis Port des Prozesses zu legen und den Prozess ganz einfach aus zuf hren Die gew nschten Ergebnisse werden dann in der Result Perspektive angezeigt Aber was k nnen Sie machen wenn der Prozess bereits fertig designt ist und alle Output Ports bereits verbunden Oder sich das Zwischenergebnis tief innerhalb eines verschachtelten Subprozesses befindet Nat rlich gibt es in RapidMiner auch hierf r eine elegante L sung die keinerlei Redesign des Pro zesses n tig macht Sie k nnen einfach einen sogenannten Breakpoint einf gen indem Sie aus dem Kontextmen eines Operators eine der Optionen Breakpoint Before oder Breakpoint After ausw hlen wie in Abbildung 3 17 zu sehen ist Wenn ein Breakpoint beispielsweise nach einem Operator eingef gt wurde so wird die Ausf hrung des Prozesses an dieser Stelle unterbrochen und die Ergeb nisse aller verbundenen Output Ports werden in der Result Perspektive angezeigt So k nnen Sie diese Ergebnisse betrachten ohne dass Sie weitere nderungen am Prozessdesign vornehmen m ssen Analog zu einem Breakpoint nach einem Ope rator funktioniert ein Breakpoint vor einem Operator In diesem Fall wird der 76 3 3 Ausf hrung von Prozessen amp Show Operator Info F1 v Enable Operator Strg E amp Rename F2 Replace Operator gt m Save as Building Block m fe Cut Strg X E Copy Strg C Paste Strg GB Delete Entf amp
127. st rain und sunny an Das Attri but Temperature ist hingegen numerisch und nimmt Werte im Bereich von 64 bis 85 an die Angabe ist nat rlich in Fahrenheit Das Attribut Play schlie lich ist wieder nominal hat aber weiterhin eine spezielle Rolle Es ist als label markiert Die Rolle ist kursiv gesetzt und steht noch vor dem Attributnamen 111 5 Repository r 5 Golf Data Table Number of examples 14 5 attributes Role Name Type Range Missings Comment Outlook nominal overcas 0 Temperat integer 64 55 0 Humidity integer 65 96 0 Wind nominal ffalse tr 0 Play nominal no yes 0 Abbildung 5 6 Die Metadaten des Golfdatensatzes aus dem Beispielsverzeich nis des mit RapidMiner mitgelieferten Repositorys Sample Sie finden den Datensatz namens Golf im Verzeichnis data in diesem Repository 5 3 1 Metadatenpropagierung vom Repository durch den Prozess Sie haben bereits gesehen dass die oben beschriebenen Metadaten die eigent lichen Daten auf Ihrem weg durch den RapidMiner Prozess begleiten bereits w hrend Sie den Prozess erstellen Wie schon zuvor erw hnt ist es f r diese Me tadatenpropagierung und transformation jedoch zwingend notwendig dass Sie die Daten in einem RapidMiner Repository verwalten und die Metadaten von diesem erhalten k nnen Aus diesem Grund m chten wir noch einmal darauf hin weisen dass die Verwendun
128. store 15 NT annie stain EEE 3 3 Store12 Customer13 fH Select Row 4 4 Store 05 Customer 18 HE Select Column 5 5 Store 01 Customer 47 El Fit Column Width 6 6 Store 11 Customer TE Fitall Column Widths 7 7 Store 10 Customer 74 Bl Equal Column Widths 8 8 Store 10 Customer1 amp Sort by Column Ascending 9 g Store 11 Customer1 JF Sort by Column Descending io au Store 14 Customer S add to Sorting Columns Ascending iu a Sore Beenie J7 Add to Sorting Columns Descending 12 12 Store 12 Customer 18 13 13 Store 08 Customer12 14 Sort Columns by Names 14 14 Store 06 Customer12 5 Restore Column Order Abbildung 4 9 Aktionen wie die Auswahl von Zeilen oder Spalten Sortieren der Inhalte nach Spalten oder die Anpassung von Spaltenbreiten ste hen in einem Kontextmenii zur Verfiigung Kopieren von Tabelleninhalten Genau wie bei der Textansicht oben k nnen Sie auch innerhalb von Tabellen ein zelne Zellen mit der Maus markieren oder die vollst ndige Tabelle durch einen Klick in die Tabelle und mittels STRG A Zus tzlich stehen Ihnen im Kon textmen noch Aktionen zur Verf gung um ganze Zeilen oder Spalten zu mar kieren Danach k nnen Sie den ausgew hlten Bereich mittels STRG C in die Zwischenablage kopieren und in andere Applikationen einf gen Beachten Sie bit te dass hierbei die Tabellenstruktur erhalten bleibt wenn Sie beispielsweise in Anwendungen wie Microsoft Excel einf gen die ihrerseits tabellarische
129. t Das neue und bisher nur im Rahmen der Metadaten Transformation berechnete Attribut total price stand Ihnen an dieser Stelle bereits bequem zur Auswahl zur Verf gung und das ohne dass Sie den Pro zess jemals ausgef hrt haben Wenn Sie die Metadaten am Output Port erneut berpr fen so sind nur die drei gew hlten Attribute brig plus die Transaktions ID die allerdings auch eine spezielle Rolle n mlich die der ID innehat und daher nicht von der Auswahl betroffen war Da wir diese ID ebenfalls entfernen 71 3 Analyseprozesse E Select Attributes attributes Select Attributes attributes The attribute which should be chosen Attributes Selected Attributes rien ej ee amount product_category j customer_id store_id date total_price product_id single_price transaction_id Abbildung 3 14 Mit dem Operator Select Attributes k nnen einzelne Attribute oder Teilmengen ausgew hlt oder auch gel scht werden m chten w hlen Sie in den Parametern des Operators Select Attributes die Option include special attributes an und berpr fen Sie die Metadaten erneut Es sind nun nur noch die drei gew nschten Attribute brig Die Auswirkungen dieser und aller anderen Parameter finden Sie in der Beschreibung der Parameter im Help View und auch in der Operator Referenz Tipp Es ist eine Grundregel bei RapidMiner dass Operatoren aus der Gruppe Data Transfo
130. tellen verschieben k nnen Auf diese Weise ist es m glich auch mehrere Ergebnisse gleichzeitig betrachten zu k nnen Nat rlich k nnen Sie auch einzelne Views d h Registerkarten durch einen Klick auf das 81 4 Darstellung Kreuz in der Karte schlie en Auch die anderen Funktionalit ten von Views wie Maximierung durch Doppelklick etc stehen Ihnen an dieser Stelle vollst ndig zur Verf gung Sofern Sie die Nachfrage nicht deaktiviert haben fragt Sie RapidMiner bei Been digung eines Prozesses ob die alten Ergebnisse vor Anzeige der neuen Ergebnisse geschlossen werden sollen Es bleibt letztendlich Ihrem Geschmack berlassen ob Sie zwecks Vergleichbarkeit alte Ergebnisse prinzipiell offen lassen und manu ell schlie en wollen Dank der bereits erw hnten Results Overview scheint diese zus tzliche Arbeit jedoch kaum n tig und so empfehlen wir eher das automatische Schlie en der alten Ergebnisse um die bersicht zu erh hen und Verwirrungen auszuschlie en 4 2 1 Quellen f r die Anzeige von Ergebnissen Es gibt mehrere Quellen aus denen Sie die Anzeige von Ergebnissen speisen k nnen Wir werden Ihnen im Folgenden alle M glichkeiten vorstellen 1 Automatisches ffnen Wir haben bereits gesehen dass die Endresultate eines Prozesses also solche Ob jekte die an die Ergebnis Ports rechts im Prozess geliefert werden automatisch angezeigt werden Gleiches gilt auch f r die Ergebnisse an verbundenen Ports im Fall
131. the official candidate for the final release of RapidMiner 5 intr into Data a look at our career offers at Analysis with Since the release of RapidMiner 5 Beta several weeks ago a lot of work was done in order to RapidMiner Webinar optimize the RapidMiner experience and fix bugs which became obvious in the beta version This release candidate is the first stable version of RapidMiner 5 and we recommend to use Text Mining with RapidMiner 5 from now on for your analysis projets RapidMiner Career Offers Extensions The extensions for reporting and parallel process execution are now also available for Data Management amp New the Reporting all users of the freely available community edition All extensions can now easily be Manipulation Load and aimn ad well mathe accessed by the new update and installation service available from the Help menu Transform your data a gBmshel Satin Bereich f r Gr en nderungen Log View Abbildung 2 5 Gr en nderungen zwischen Views stets nur einer sichtbar ist Oder Sie ziehen den Log View von unten in den rechten Bereich so dass die Teilung nun vertikal und nicht mehr horizontal verl uft Sie k nnen sogar einen View komplett abdocken und au erhalb des RapidMiner Fens ters schieben M chten Sie einen View kurzzeitig vollst ndig sehen so k nnen Sie einen View maximieren und sp ter wieder minimieren Dies wird brigens auch durchgef hrt wenn Sie einen Doppelklick auf den Name
132. tierung gestartet wird und das Programm in dieser Zeit nicht benutzbar ist Sie k nnen den Schwellwert ab dem die Sortierung deaktiviert wird in den Einstellungen unter Tools Preferences einstellen 88 4 4 Darstellungsformen Result Overview E ExampleSet Generate Sales Data Meta Data View Data View Plot View _ Annotations U2 ExampleSet 100 examples 1 special attribute 7 regular attributes View Filter 100 100 all v Row No transaction store_i _ product_cat customer_id product_id date amount single_price 64 64 Store 01 Books Customer 163 61867 30 12 2007 8 95 811 Al 78 78 Store 01 Books Customer 891 44627 05 09 2006 3 98 397 5 5 Store 01 Clothing Customer 475 80069 06 01 2008 5 65 215 65 65 Store 01 Health Customer 789 31254 17 11 2007 1 44 732 15 15 Store 01 Home Garden Customer 1167 90837 28 04 2008 7 46 390 1 1 Store 01 Toys Customer 1508 53642 01 04 2007 3 90 246 55 55 Store 01 Toys Customer 296 93469 15 11 2006 5 35 761 79 79 Store 02 Books Customer 1403 61688 16 04 2006 2 86 820 56 56 Store 02 Electronics Customer 794 55677 30 09 2005 8 75 169 53 53 Store 02 Movies Customer 217 36959 18 07 2008 6 67 188 92 92 Store 02 Sports Customer 1392 60439 07 01 2006 1 57 898 24 24 Store 02 Toys Customer 1901 59553 07 12 2007 3 87 555 72 72 Store 02 Toys Customer 1929 13316 14 04 2007 6 29 414 25 25 Store 03 Health Customer 741 94389 27 04 2007 1 72 882 29 29 Store 03 Home Garden Customer 273 59
133. tory Eintrag oder Verzeichnis Copy Kopiert den gew hlten Eintrag zum sp teren Einf gen an anderen Stellen Paste Kopiert einen zuvor kopierten Eintrag an diese Stelle Copy Location to Clipboard Kopiert einen eindeutigen Bezeichner f r diesen Eintrag in die Ablage so dass Sie diese als Parameter f r Operatoren in Web Interfaces o nutzen k nnen Open Process Haben Sie einen Prozess ausgew hlt wird der aktuelle Pro zess geschlossen und der gew hlte geladen Refresh Wenn das Repository auf einem gemeinsam genutzten Dateisystem liegt oder Sie den RapidMiner Analyseserver RapidAnalytics verwenden so dass Daten zeitgleich von anderen Benutzern ver ndert werden k nnen k nnen Sie hiermit die Ansicht des Repositorys auffrischen 5 2 4 Der Prozesskontext Wir haben schon zuvor die Output Ports des Prozesses am rechten Rand des Process View verwendet beispielsweise um die Ergebnisse des Prozesses in der Result Perspektive sichtbar zu machen Zus tzlich zu den Output Ports des Pro zesses gibt es auch noch Input Ports die Sie am linken Rand des Process View finden Diese haben wir bisher nie verbunden In der Grundeinstellung ist dies auch zumindest f r die Quellen nicht sinnvoll denn der Prozess selbst besitzt dann keine Eingabe Die Verbindung der inneren Senken hat jedoch einen Effekt Alle Objekte die am Ende des Prozesses an einer Senke ankommen werden in der Result Perspektive als Erg
134. tory Prozesse Test TestProzess HLocalRepositoryTestProzess Samplesiprocesses 01_Learner 01_DecisionTree Samplesiprocessesi01_Learner 12_AssociationRules Nachrichten Career Offers RapidMiner 5 Release Candidate RC released Courses amp Webinars Are you interested in working fle Pore Fast Traci for Rapid I Then please have i s A We just have released the official candidate for the final release of RapidMiner 5 oiua a look at our career offers at p Introduction into Data Analysis with Since the release of RapidMiner 5 Beta several weeks ago a lot of work was done in order to RapidMiner Webinar ostimize the RanidMiner experience and fix buas which became obvious inthe beta version This Abbildung 2 3 Welcome Perspektive von RapidMiner 2 Open Recent ffnet den Prozess der in der Liste unterhalb der Aktio nen ausgew hlt ist Sie k nnen alternativ diesen Prozess auch mittels eines Doppelklicks innerhalb der Liste ffnen In jedem Fall wechselt RapidMiner auch hier danach automatisch in die Design Perspektive 3 Open ffnet den Repository Browser und erlaubt die Auswahl eines Pro zesses zum ffnen innerhalb der Prozess Design Perspektive 4 Open Template Zeigt eine Auswahl von verschiedenen vordefinierten Ana lyseprozessen die innerhalb weniger Klicks konfiguriert werden k nnen 5 Online Tutorial Startet ein Tutotial welches direkt innerhalb von Rapid Miner verwendet werden kann und anhand einer
135. ts Completed Feb 7 2010 5 08 42 PM execution time 0 s ox A Ox Ox Ox Abbildung 4 14 Die Result Overview zeigt die Ergebnisse der letzten Analyse prozesse an Die Result Overview dient als kompakte bersicht ber alle Prozessausf hrungen der aktueller RapidMiner Sitzung Jeder zweizeilige Eintrag besteht aus dem Na 97 4 Darstellung men des Prozesses der Anzahl der Ergebnisse sowie Informationen dar ber wann der Prozess beendet wurde und wie lange er lief Jeweils blockweise abwechselnd sind die Ergebnisse des gleichen Prozesses eingef rbt Sie k nnen durch einen Klick auf einen Eintrag eine Detailansicht der Ergebnisse einsehen Im Fall oben besteht das Ergebnis aus einem Example Set und einem SVM Modell Ein weitere Klick auf den Eintrag schlie t diesen wieder Nat rlich k nnen Sie auch mehrere Eintr ge gleichzeitig ffnen und so die Ergebnisse be quem vergleichen F r jeden Eintrag stehen oben rechts zwei Aktionen zur Verf gung n mlich 1 den Prozess der zu einem Eintrag geh rt in dieser Form wieder herzustellen und 2 den Eintrag aus der Result Overview zu l schen Dar ber hinaus steht Ihnen in den Kontextmen s der Overview und der einzel nen Beitr ge auch noch die Option zur Verf gung die vollst ndige Overview zu l schen Hinweis Wenn Sie die Result Overview schlie en m chten warnt RapidMiner Sie mit einem Hinweis darauf dass in dieser Perspektive keine Ergebnisse mehr
136. uelle Ope rator im Hintergrund noch zu Ende durchgef hrt wird Sie k nnen sogar weitere Prozesse starten und brauchen nicht auf die vollst ndige Beendigung des ersten Prozesses zu warten Hinweis Oben wurde darauf hingewiesen dass der gerade ausgef hrte Operator in jedem Fall bei einem Abbruch noch zu Ende ausgef hrt wird Dies ist not wendig um eine saubere Durchf hrung von Operatoren zu gew hrleisten Jedoch kann die Fertigstellung eines Operators im Einzelfall noch sehr viel Zeit und auch andere Ressourcen wie Speicherplatz ben tigen Sollten Sie beim Abbruch sehr aufw ndiger Operatoren also absehen k nnen dass dieser beispielsweise noch Stunden laufen wird und die zus tzlichen Ressourcen ben tigen so bleibt Ihnen nur der Neustart der Applikation 3 3 1 Betrachten von Ergebnissen Nachdem der Prozess beendet wurde sollte RapidMiner darauf hingewiesen ha ben dass neue Ergebnisse vorliegen und fragen ob in die Result Perspektive gewechselt werden soll War dies bei Ihnen nicht der Fall so haben Sie wahr scheinlich den Output Port des letzten Operators nicht mit einem der Ergebnis Ports des Prozesses am rechten Rand verbunden Pr fen Sie dies und auch auf andere m gliche Fehler und beachten Sie in diesem Fall die Hinweise im Problems View Abbildung 3 16 Sie k nnen sich gerne ein wenig mit den Ergebnissen besch ftigen Da der obige Prozess noch keine Modellierung durchgef hrt hat sondern nur Daten transfor
137. ung erzeugt so sparen Sie sich viel Arbeit f r all die F lle in denen die korrekte Verbindung automatisch erkannt wird x Process XML K vv t Abbildung 2 18 Der zweite Operator wird w hrend des Drag Vorgangs markiert Rahmen plus Schatten und wird bevorzugt mit dem neuen Operator verbunden wenn dieser jetzt fallen gelassen wird und sofern dieser eine Beispielmenge erwartet Verbindungen 2 Manuell 39 2 Design Sie k nnen die Operatoren auch manuell miteinander verbinden und tats chlich ist dieses bei komplexeren Prozessen auch notwendig Klicken Sie hierzu auf einen Output Port Sie zeichnen nun eine orangefarbene Linie Klicken Sie auf einen Input Port um den gew hlten Output Port mit diesem Input Port zu verbinden Um den Vorgang abzubrechen halten Sie die Maus still und klicken Sie mit der rechten Maustaste Die orangefarbene Linie verschwindet und Sie k nnen wie gewohnt weiterarbeiten Process XML ern B Process gt t GO amp 3 Abbildung 2 19 Klick auf einen Output Port zum Verbinden Rechtsklick zum Abbrechen Verbindungen 3 Vollautomatisch Manchmal befinden sich schon zahlreiche Operatoren in einem Sub Prozess und sind noch nicht verbunden In einem solchen Fall kann die Option Auto Wire bzw Re Wire gute Dienste leisten welche sich hinter dem Stecker Symbol im Process View direkt neben dem Icon f r das ffnen des Dialogs f r einen neuen Operator v
138. utput Location ProjekvProcesses New Process through Y Resolve relative to LocalRepositoryiProzesse Test Parameters repository entry Repository entry Abbildung 5 4 Der Operator Store kann verwendet werden um beliebige Da ten und Objekte im Repository zu speichern Der Dialog zeigt den Repository Browser um den Speicherort festzulegen und er scheint bei Klick auf den Verzeichnis Knopf in den Parametern des Operators Der Beispielsprozess in dieser Abbildung generiert mit Hilfe des Operators Gene rate Data einen Datensatz der ins Repository gespeichert werden soll Der Sto 105 5 Repository re Operator hat nur einen einzigen Parameter repository_location W hlen Sie die Schaltfl che mit dem Ordner neben diesem Parameter erhalten Sie einen Dialog in dem Sie zun chst einen Ordner im Repository und dann einen Namen f r den Datensatz vergeben k nnen F hren Sie den Prozess aus werden Sie se hen dass Sie einen neuen Eintrag im Repository erhalten der den generierten Datensatz enth lt Der Store Operator ist damit insbesondere f r Prozesse der Datenintegration und transformation sinnvoll die automatisch oder regelm ig durchgef hrt werden sollen beispielsweise im Rahmen des Process Schedulers des Servers RapidAnalytics F r eine einmalige und eher interaktive Integration von Daten ist sicher die oben beschriebene Verwendung der Wizards der h ufige
139. va Runtime mit mindestens Version 6 erforderlich ist Sollten Sie RapidMiner zum ersten Mal starten werden Sie dazu aufgefordert ein neues Repository anzulegen Wir werden uns zun chst auf ein lokales Repository auf Ihrem Rechner beschr nken sp ter k nnen Sie dann auch Repositories im Netzwerk definieren die Sie dar ber hinaus auch mit anderen Analysten teilen k nnen A Enter parameters to create a new local or remote repository New local repository O New remote repository Er Abbildung 2 1 Legen Sie beim ersten Programmstart zun chst ein lokales Repo sitory auf Ihrem Rechner an F r ein lokales Repository brauchen Sie lediglich einen Namen festzulegen Ali as und ein beliebiges Verzeichnis auf Ihrer Festplatte zu definieren Sie k nnen das Verzeichnis direkt mittels eines Klicks auf das Ordner Icon rechts w hlen Es empfiehlt sich im dann aufkommenden Dateidialog ein neues Verzeichnis an einem Ihnen angenehmen Ort anzulegen und dieses neue Verzeichnis dann als Ba sis f r Ihr lokales Repository zu verwenden Dieses Repository dient als zentraler 23 2 Design Speicherort f r Ihre Daten und Analyseprozesse und wird Sie in der n chsten Zeit begleiten a Enter parameters to create a new local or remote repository Alias MyRespository Root directory C UsersiSimon DocumentsiRapidMinerRepository aes Cn ce Abbildung 2 2 Definition eines neuen lokalen Repositories zu Sp
140. zess 57 3 Analyseprozesse amp Repository Browser Ey Select a repository location 9 Samples none LocalRepository boech Q Tea Name New Process Location iLocalRepositoryProzesse New Process Abbildung 3 1 Der Repository Browser dient zur Auswahl von Repository Ein tr gen oder Speicherorten analog zu den von Betriebssystemen bekannten Dateidialogen noch einen Namen und best tigen Sie Ihre Wahl durch Ok Tipp Sie k nnen auch einen neuen Prozess anlegen ohne einen Eintrag im Repo sitory zu generieren indem Sie den Repository Browser mit Cancel schlie en Dies empfiehlt sich jedoch nicht da die brigen Repository Eintr ge wie solche f r Daten relativ zu dem Prozess definiert werden Dies erm glicht sowohl eine leichtere Ausf hrung des Prozesses auf Servern im Netzwerk als auch die Wei tergabe an andere Analysten beziehungsweise die Kopie f r andere Rechner Wir empfehlen daher immer auch einen Repository Eintrag f r neue Prozesse anzu legen Im Prinzip sind Sie v llig frei in der Strukturierung Ihres Repositories Im Kon textmen der Eintr ge im Repository Browser und auch im Repository View finden Sie alle ben tigten Eintr ge zur Verwaltung Ihrer Daten und Prozesse wie sie in Abbildung 3 2 sehen k nnen Diese Aktionen sind im Einzelnen 1 Store Process here speichert den aktuellen Prozess an den angegebenen 58 3 1 Erstellen eine
Download Pdf Manuals
Related Search
Related Contents
Love handler manual F Monitor RLED/LEDD de 7" はじめる!考える!「ガスと暮らしの安心運動」。 Players HR-410 Samsung PL120 Керівництво користувача Newstar THINCLIENT-05 mounting kit Exido Hair Styling Set 235-027 User's Manual 取扱説明書 AP エアフィルター レギュレーター NGC Installation Guide - Bio-Rad Copyright © All rights reserved.
Failed to retrieve file