Home

- Fachgebiet Datenbanken und Informationssysteme

1. e Stuttgart Anmerkung Ein Clustering ohne jegliche vorherige Selektion w rde keinen Sinn machen da durch die Definition des Rasters und der anschlie enden Aggregierung der Bev lkerung die x y Koor dinaten der Centroiden gleichverteilt sind Dadurch w re nur noch ein Clustering nach der Dichte bzw Bev lkerung m glich 133 6 Implementierung 6 2 2 Fallbeispiel Beziehungen zwischen Geo Daten Das zweite Beispiel orientiert sich an den Beispielen aus der Literatur zum Spatial Data Mining KH95 RT04 VB06a Im Folgenden soll nach R umlichen Assoziationsregeln gesucht werden welche Wohngebiete Stra en Gr nanlagen und Sportanlagen in Betracht zieht Im ersten Schritt werden zun chst die ben tigten Schichten definiert die f r die Assoziationsanaly se von Interesse sind In Listing 6 6 ist die Definition einer Schicht die Stra en enth lt dargestellt CREATE TABLE nordseew_Strassen as select rownum as id B layerno as layerno b name as Bez C name as name D objectgeometry as shape from nordseew objects A join nordseew layer B on A layerno b layerno join nordseew object_race C on A objectraceno C objraceno join nordseew object_geometries D on A objno D objectno where B layerno 104 and name Strasse Listing 6 6 Definition einer Schicht f r die Assoziationsanalyse Im n chsten Schritt werden Materialisierungen mit dem dbms
2. Nachbarschaftsbeziehungen p Autokorrelation 1 metrische Beziehungen 1 I 1 t 1 i 1 I 1 i 1 1 I 1 z I 1 1 i topologische Beziehungen 4 gerichtete Beziehungen Abbildung 6 3 Integration der Materialisierung in den KDD Prozess in r umlichen Datenbanken In Abschnitt 6 1 wird die Implementierung der Prozeduren und Funktionen beschrieben Anschlie end wird in Abschnitt 6 2 das Spatial Data Mining unter Anwendung der implementierten Mate rialsierungsfunktionen und der Oracle Data Mining Cartridge beispielhaft vorgestellt 6 1 Spatial Data Mining Transformation Die Implementierung des PL SQL Packages dbms_sdm_transform richtet sich dabei nach dem Kon zept und der Strukturierung des Preprocessing und der Transformation in der Oracle Data Mining Cartridge Die Umsetzung der Materialisierung wird in zwei Kategorien siehe Abb 6 3 unterteilt 1 Materialisierung von r umlichen Beziehungen 2 Materialisierung von geometrischen Objekten 6 1 1 Materialisierung von r umlichen Beziehungen Um die Materialisierung von r umlichen Beziehungen nach dem Prinzip der Oracle Data Mining Cartridge durchzuf hren sind die folgenden Schritte notwendig 1 Erstellen einer Tabelle f r die Materialisierung einer r umlichen Beziehung 2 Durchf hrung der Materialisierung 3 Anf gen der materialisierten Informationen an die Objekt Tabelle F r die aufgelisteten Schritte zur Materialisierung v
3. a x entropy i i 1 Der Fakt dass der Gain_Split tiberwiegend Aufteilungen mit vielen kleinen Partitionen be vorzugt soll durch das Split_Info verhindert werden Gain_Split k a 5 n n 1 Split Info mit Spiel_Info 7 og 7 i 1 Gain_Ratio F r die Konstruktion des Entscheidungsbaums siehe HK00 wird wie bei der Klassifikation b lich eine Trainingsmenge benutzt Anschlie end wird der Entscheidungsbaum d h das Klassifi kationsmodell durch Pruning optimiert indem Ausrei er Outlier und st rende Daten Noise entfernt werden Aus dem Entscheidungsbaum k nnen ebenfalls Klassifikationsregeln der Form IF THEN extrahiert werden Diese Regeln werden f r jeden Pfad des Entscheidungsbaumes vom Wurzelknoten zum Blattknoten generiert b Bayessche Klassifizierung Die Bayessche Klassifikation ist eine statistische Klassifikation HSC91 die die Klassifizierung von Daten anhand von Wahrscheinlichkeiten vornimmt Dabei werden alle Attribute A An und Klassen C mit i N als Zufallsvariablen angenommen Diese Klassifikationsmethode ist im Ver gleich zu anderen Methoden schnell und effizient auch f r gro e Datenmengen HK00 Die Klas sifikation beruht auf dem Theorem von Bayes P A B a wobei P A die Wahrscheinlichkeit von A und P A B die beding te Wahrscheinlichkeit von A unter B ist Die Klassifikation bekommt als Eingabe eine Menge von Attributen A An und der Bayes sche
4. B 4 Klassifikation Neue Daten werden mit dem Klassifikator klassifiziert TESTDATEN mit Vergleichswert SELECT id b rating a target AS actual_target_value substr PREDICTION test_class_1 USING a 1 30 AS predicted_target_value FROM class_prepared_t a join moviedb rating b on a id b movie WHERE rownum lt 20 147 Literaturverzeichnis AMJ99 AMS 96 Atk06 BC00 BM05 Cha91 CP97 DKS95 DL99 DLR77 Dub87 EFKS98 Ege91 EKS97 K H Ankerst M Breunig M S J OPTICS Ordering Points To Identify the Clustering Structure In SIGMOD 1999 Proceedings ACM SIGMOD International Conference on Ma nagement of Data June 1 3 1999 Philadephia Pennsylvania USA ACM Press 1999 49 60 R Agrawal H Mannila R Srikant H Toivonen A I Verkamo Fast discovery of asso ciation rules 307 328 ATKIS Amtliches Topographisch Kartographisches Informationssystem 2006 K P Bennett C Campbell Support Vector Machines Hype or Hallelujah SIGKDD Explorations 2 2 2000 1 13 M C B L Milenova J S Yarmus SVM in Oracle Database 10g Removing the Barriers to Widespread Adoption of Support Vector Machines In Proc of the 31st VLDB Conference Trondheim Norway 2005 2005 E Charniak Bayesian Networks without Tears AI Magazine 1991 M A Carreira Perpinan A Review of Dimension Reduction Techniques Technical Report CS 96 09 Dept o
5. Spaltenname Datentyp Bedeutung col VARCHAR2 30 Name des Attributs val VARCHAR2 4000 bzw NUMBER nominaler Wert bzw untere Grenze bin VARCHAR2 4000 diskretisierter Wert Beh lter Im zweiten Schritt der Diskretisierung werden die einzelnen Werte f r bin Beh lter und val unte rer Grenzwert des Beh lters der Attribute ermittelt ODM stellt folgende Arten der Diskretisierung siehe Kapitel 2 5 zur Verf gung e Top N frequency Binning f r nominale Werte e automatisches Equi width Binning f r numerische Werte wahlweise mit automatischer Berechnung der optimalen Menge diskreter Werte auf Basis von Statistiken der Datenmenge e Equi height Binning f r numerische Werte in Oracle Quantile Binning genannt Im dritten Schritt wird die Diskretisierung der Attribute abgeschlossen indem eine Sicht auf der Datentabelle unter Verwendung der Informationen in der Diskretisierungstabelle erzeugt wird In Listing 3 8 ist die Diskretisierung numerischer Werte verk rzt dargestellt Bei der Diskretisie rung ist der Parameter bin_num der die Anzahl der diskreten Werte angibt in der Funktion IN SERT_BIN_NUM_EQUIWIDTH f r Equi width Binning wichtig Werte f r die Attribute d h bin und val werden ermittelt Anzahl der diskreten Werte wird mit bin_num angegeben Ausgenommen sind die Attribute id und column_a DBMS_DATA_MINING_TRANSFORM INSERT_BIN_NUM_EQUIWIDTH bin_def_table Diskreti
6. as confidence B attribute_name B conditional_operator B attribute_str_value as antecedent 76 4 1 Assoziationsanalyse C attribute_name C conditional_operator C attribute_str_value as consequence FROM TABLE DBMS_DATA_MINING GET_ASSOCIATION_RULES test_asso_1l Name des Modells NULL NULL 0 6 Minimum Confidence 60 0 002 Minimum Support 0 2 NULL max L nge der Regel 2 min L nge der Regel A TABLE A antecedent B TABLE A consequent C ORDER BY 2 desc 3 desc Auszug Assoziationsregel mit Schauspielern 1 ist Markierung RULE_ID SUPPORT CONFIDENCE ANTECEDENT CONSEQUENCE 2 57 100 Fine Larry 1 Howard Moe 1 10 36 100 Howard Shemp 1 Fine Larry 1 10 36 100 Howard Moe 1 Fine Larry 1 11 21 100 Sitka Emil 1 Howard Moe 1 11 21 100 Fine Larry 1 Howard Moe 1 12 21 100 Sitka Emil 1 Fine Larry 1 12 21 100 Howard Moe 1 Fine Larry 1 7 36 98 36 Howard Shemp 1 Howard Moe 1 5 36 98 36 Howard Shemp 1 Fine Larry 1 3 57 96 94 Howard Moe 1 Fine Larry 1 8 36 63 16 Howard Moe 1 Howard Shemp 1 8 36 63 16 Fine Larry 1 Howard Shemp 1 6 36 61 22 Howard Moe 1 Howard Shemp 1 Listing 4 4 Auszug Ausgabe der Assoziationsregeln Die Assoziationsregeln in Listing 4 4 sind schlecht formatiert und somit recht unleserlich Die Schreib weise f r Assoziationsregeln wie sie in Kapitel 2 beschrie
7. Spaltenname Datentyp Bedeutung id VARCHAR2 NUMBER Identifier prediction NUMBER Vorhersage probability NUMBER Wahrscheinlichkeit der Vorhersage Das Attribut prediction kann dabei zwei Werte annehmen 0 steht f r Ausrei er und 1 steht f r typischer Wert Und das Attribut probability gibt die Wahrscheinlichkeit f r die getroffene Vorhersage an In Listing ref wird die Anwendung demonstriert BEGIN Identifizierung unter Verwendung der APPLY Funktion DBMS_DATA_MINING APPLY model_name gt ANOMALY_DETECTION_MODEL data_table_name gt data case_id_column_name gt object_id result_table_name gt outlier_apply_result Ausgabe des Ergebnisses der Ausrei er Analyse SELECT FROM outlier_apply_result id prediction probability 1001 1 93 1001 0 07 END Listing 3 6 Anomalie Erkennung mit APPLY Methode Anmerkung Eine Behandlung von Ausreifsern mittels Clustering bzw Klassifikation ist im Vergleich zum Clipping sehr aufwendig da diese Methode wie die Data Mining Methoden ein eigenes Pre processing und eine eigene Transformation der Daten ben tigt und sollte m glichst nur dann einge setzt werden wenn explizit nach Ausrei ern gesucht wird bzw wenn sich dadurch ein wesentlich besseres Ergebnis erzielen l sst Au erdem lassen sich damit nur ganze Datens tze als Ausrei er identifizieren eine Behandlung von einzelnen Attributen ist nicht m glich Im Sinne der Behand lu
8. conf_clus_sample_9_2 clus_temp_1 clus_prepared END Konstruktion der Konfigurationstabelle und Parameter spezifizieren CREATE TABLE test_clus_settings setting_name VARCHAR2 30 setting_value VARCHAR2 30 BEGIN INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING clus_num_clusters 8 INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING algo_name DBMS_DATA_MINING algo_kmeans INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING kmns_iterations 5 END Modell erstellen BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt test_clus_1 mining_function gt DBMS_DATA_MINING CLUSTERING data_table_name gt clus_prepared case_id_column_name gt id settings_table_name test_clus_settings END 144 B 4 Klassifikation Ausgabe der Regeln select A rule rule_id A rule rule_support A rule rule_confidence 100 B attribute_name B conditional_operator B attribute_num_value B attribute_str_value C attribute_name C conditional_operator C attribute_num_value C attribute_str_value from table DBMS_DATA_MINING GET_MODEL_DETAILS_KM C test_clus_1 A table A rule antecedent B table A rule consequent C table A child D where D ID IS NULL B 4 Klassifikation Selektion der Daten create table tmp_actor as select distinct at movie bt name from moviedb part at join moviedb person bt on at person bt person where
9. Bestimmt die Lange oder den Durchmesser einer Geometrie 122 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen 5 3 7 Materialisierung von gerichteten Beziehungen Die Integration von gerichteten Beziehungen vervollst ndigt die impliziten r umlichen Beziehun gen indem die relative Lage zweier Objekte zueinander ausgedr ckt wird Obwohl die Einbezie hung in das Spatial Data Mining sowie die Materialisierung von gerichteten Beziehungen in der Literatur selten Anwendung findet k nnen gerichtete Beziehungen durchaus wertvolle Informa tionen beitragen In Abb 5 26 links ist die Berechnung einer gerichteten Beziehung zwischen zwei geometrischen Objekten Objekt A zu Objekt B ber den Winkel und Objekt A zu Objekt C ber den Winkel graphisch skizziert Die Beziehung definiert sich letztliche nach der Methodik siehe Abb 5 26 rechts in der die gerichteten Beziehungen unterteilt sind z B 4 Modell oder 8 Modell Abbildung 5 26 Materialisierung gerichteter Beziehungen Im Folgenden wird ein Algorithmus angegeben der eine Materialisierung von gerichteten Bezie hungen realisiert Das Vorgehen ist dabei analog zur Materialisierung von topologischen und me trischen Beziehungen siehe Abb 5 25 EINGABE 1 Referenz Schicht Tabelle 2 Schicht Tabelle thematische Karte 3 Methodik Einteilung in 4 oder 8 Richtungen AUSGABE Referenz Schicht erweitert um ein Attribut
10. Die Assoziationsanalyse die eine Data Mining Methode f r die Analyse von Abh ngigkeiten in den Daten beschreibt l sst sich formal wie folgt definieren Definition Assoziationsanalyse Sei I eine Menge von Objekten h ufig Items genannt und T eine Menge von Transaktionen wobei gilt Vt T t C I Sei weiterhin s 0 100 ein Support und Smin 0 100 ein benutzerdefinierter Minimal Support und c 0 100 eine Confidence und cn 0 100 eine benutzerdefinierte Minimal Confidence Bei der Assoziationsanalyse sind alle Assoziationsregeln zu finden die folgende Bedingungen erf l len 1 Form A gt B mit A C I und B C I und AN B 2 Support s A gt B BD A B T AUB 3 Confidence c A B RER 2 Cmin Die oben definierten Bedingungen dr cken aus wann eine Assoziationsregel g ltig und interessant ist Die erste Bedingung gibt lediglich die Form vor in der eine Assoziationsregeln dargestellt wird Die zweite Bedingung gibt an dass eine gewisse Minimalh ufigkeit f r die in der Assoziations regel vorkommenden Objekte gegeben sein muss d h es sind nur Assoziationsregeln interessant die eine bestimmte Relevanz ausgedr ckt durch die H ufigkeit des Auftretens aufweisen k nnen Schlussendlich gibt die dritte Bedingung an dass Objekte mit einer bestimmten H ufigkeit zusam men auftreten m ssen d h Transaktionen t T die die Pr misse A enthalten m ssen mindestens
11. ter auch keine Ballungsgebiete sind M gliche Ma nahmen zur Behebung der angesprochenen Probleme und letztlich zur L sung des Clustering von Ballungsgebieten sind im Folgenden aufgelistet e Eine M glichkeit besteht in der Normierung der Attribute nach Kapitel 2 5 eine eventuelle existierende Dominanz wird dadurch beseitigt und anschlie ender Gewichtung der Bev l kerung im Vergleich zu den Attributen L ngengrad und Breitengrad Dabei stellt sich jedoch die entscheidende Frage Wie findet man eine geeignete Gewichtung der Attribute e Eine weitere M glichkeit besteht in der Definition des Ballungsgebiets und anschlie endem Ausschluss aller Bereiche die die definierten Kriterien nicht erf llen L sung des Problems Im Folgenden soll der zweite L sungsansatz verfolgt werden da selbst durch die Definition einer geeigneten Gewichtung das Problem weiterbesteht dass Cluster von Regionen gefunden werden die keine Ballungsgebiete sind Der Quellcode zum Beispiel ist in Anhang A 1 nachzulesen 130 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining Im ersten Schritt erfolgt die Vorverabeitung der relevanten Daten f r das Clustering von Ballungs gebieten Dazu muss zun chst der Begriff des Ballungsgebiets definiert werden Ein Ballungsgebiet ist eine Kernstadt die ein suburbanes Umland oder zumindest dicht besiedeltes Gebiet besitzt das au erhalb der Stadtgrenzen liegt aber direkt an sie an grenzt Ein Ball
12. 5 Data Mining die eigentliche Datenanalyse 6 Interpretation Auswertung der gewonnenen Erkenntnisse gt je Pattems Transformed Pre l Data Data fF Date Abbildung 2 1 Uberblick tiber die Stufen des KDD Prozesses FPSS96 Der KDD Prozess ist so aufgebaut das der 5 Schritt das Data Mining eine zentrale Rolle einnimmt in dem die eigentliche Analyse d h die Suche nach verborgenen Informationen stattfindet Die Schritte 1 4 vor dem Data Mining haben die wichtige Aufgabe die Daten so bereitzustellen dass die Data Mining Verfahren brauchbare und verwertbare Ergebnisse liefern k nnen so dass im 6 Schritt die gefundenen Ergebnisse ausgewertet und interpretiert werden k nnen Der interaktive und iterative Charakter ergibt sich aus dem Aspekt dass keine zufriedenstellenden Ergebnisse in Bezug auf ein gesetztes Ziel erzielt worden sind und dadurch Anpassungen in den Schritten 1 4 oder nderungen an den Einstellungen der Data Mining Verfahren vorgenommen werden m ssen Diese Anpassungen werden so lange durchgef hrt bis das gew nschte Ergebnis erzielt ist oder bis die Erkenntnis da ist dass keine signifikanten verborgenen Informationen enthalten sind Das restliche Kapitel befasst sich mit einer detaillierteren Beschreibung der einzelnen Schritte des KDD Prozesses 2 2 Erfassung von Hintergrundwissen und Zielen In diesem Schritt werden die Datengrundlage und die angestrebten Ziele des Anwenders spezif
13. Anzahl der Ele mente in der Pr misse der Regel Je gr er dieser Wert gew hlt wird um so l nger braucht der Algorithmus Der Parameter algo_name f r den Algorithmus zur Assoziationsanalyse muss nicht explizit angegeben werden da nur dieser eine implementiert ist und sowieso verwendet wird Einstellung Werte Beschreibung algo_name algo_apriori_association_rules Spezifiziert den Algorithmus zur Assoziationsanalyse asso_max_rule_length x 2 20 x 4 max Anzahl an Items in der As soziationsregel asso_min_support x 0 1 x 0 1 Minimum Support f r die As soziationsregel asso_min_confidence x 0 1 x 0 1 Minimum Confidence f r die Assoziationsregel Assoziationsanalyse mit Oracle Data Mining Es soll im Folgenden der Prozess des Assoziationsanalyse siehe Abb 3 6 exemplarisch demons triert werden In Listing 3 17 ist ein entsprechender Code Ausschnitt gezeigt Bei diesem Beispiel soll nach Assoziationsregeln mit einem Minimum Support von 0 2 20 und einer Minimum Confidence von 0 5 50 gesucht werden Die Einstellungen f r die Assoziati onsanalyse werden in der Konfigurationstabelle ASS0_SETTINGS gespeichert und anschlie end der Methode CREATE_MODEL bergeben BEGIN INSERT INTO ASSO_SETTINGS setting_name setting_value VALUES DBMS_DATA_MINING asso_min_support 0 2 INSERT INTO ASSO_SETTINGS setting_name setting_value VALUES DBMS_DATA_MINING asso_min_c
14. Attribute entsprechen den Schichten wobei eine Schicht jeweils eine Menge von geographischen Eigenschaften darstellt Z B kann eine Karte aus drei Schichten bestehen 1 Schicht mit St dten 2 Schicht mit Fl ssen und Seen und 3 Stra en Da f r die Konstruktion des Klassifikationsbaums mit derartigen Definitionen f r Datensatz und Attribut keines der bekannten Aufteilungskriterien eingesetzt werden kann wird ein Aufteilungskriterium der spatial information gain eingef hrt das auf der Entropy siehe Kapitel 2 6 4 basiert und den r umlichen Aspekt ber cksichtigt Die eigentliche Konstruktion des Klassifikationsbaums erfolgt analog zur Konstruktion nach der klassischen Methode Zun chst wird ein Klassifikationsattribut d h eine Schicht z B St dte aus gew hlt Anschlie end wird die Datenmenge anhand des spatial information gain Aufteilungskri teriums sukzessive unterteilt bis eine Abbruchbedingung erreicht ist Ein Nachteil der Methode in RT04 ist es dass lediglich Schichten verarbeitet werden k nnen deren geometrische Objekte ausschlie lich Polygone sind Der Grund liegt in der Berechnung des spatial information gain Aufteilungskriteriums da dieser keine Linien oder Punkte bewerten kann In SC03 wird ein komplett gegens tzlicher Ansatz zu den bisher beschriebenen Metho A den f r die R umliche Klassifikation verfolgt Es wird die klassische Klassifikation durch ei ne Anpassung des statistischen Modells
15. D h ein Objekt p muss sich in einer e Umgebung von einem Objekt befinden die den vorgegebenen Schwellenwert bersteigt Es handelt sich dabei um keine symmetrische Beziehung d h q ist directly density reachable von p impliziert nicht zwangs l ufig p ist directly density reachable q In Abb 2 11 beispielsweise die Objekte Pund M Ein Objekt p ist density reachable von einem Objekt q wenn eine Kette von Objekten p 01 0n q existiert so dass pj directly density reachable vom p ist D h die Objekte p q mit p o und q 0p sind nicht directly density reachable jedoch existiert eine Ket te von Punkten o ber die die Objekte p und q miteinander verbunden sind In Abb 2 11 beispielsweise die Objekte P und Q Ein Objekt p ist density connected mit einem Objekt q wenn es ein Objekt o gibt das mit p und q density reachable ist D h die Objekte p und q besitzen in diesem Fall in ihrer e Umgebung nicht die geforderte Mindestanzahl an Objekten sind jedoch ber ein anderes Objekt o derart verbunden dass sowohl p als auch q density reachable verbunden sind In Abb 2 11 beispielsweise die Objekte S und R mit dem Objekt O Zusammenfassend l sst sich ein density based Cluster als eine Menge von density connected Ob jekten beschreiben Jedes Objekt das nicht in einem Cluster ist wird als Ausrei er bezeichnet For mal l sst sich der density based Cluster wie folgt beschreiben Ein Cluster C ist eine nicht leere Menge von Objek
16. Elmasri S B Navathe Fundamentals of Database Systems Third Edition 3rd edition World Student Series Addison Wesley Reading MA 2000 Lorentzkurve http www faes de Basis Basis Lexikon Basis Lexikon Lorenz Kurve basis lexikon lorenz kurve html 2006 Fayyad Irani Multi Interval Discretization of Continuous Valued Attributes for Classi fication Learning 1993 1022 1027 I Fodor A Survey of Dimension Reduction Techniques 2002 U M Fayyad G Piatetsky Shapiro P Smyth From Data Mining to Knowledge Disco very An Overview In Advances in Knowledge Discovery and Data Mining 1996 1 34 U M Fayyad G Piatetsky Shapiro P Smyth R Uthurusamy Advances in Knowledge Discovery and Data Mining The MIT Press Cambridge MA 1996 J Friedman Regularized discriminant analysis Journal of the American Statistical Asso ciation 84 1989 165 175 W J Frawley P G Shapiro C J Matheus Knowledge discovery in databases an overview Ai Magazine 13 1992 57 70 Gazetteer Projekt http world gazetteer com 2006 D Hawkins Identification of Outliers Chapman and Hall London 1980 D Heckerman A tutorial on learning with bayesian networks 1995 J Han Y Fu Discovery of Multiple Level Association Rules from Large Databases In Proc of 1995 Int l Conf on Very Large Data Bases VLDB 95 Z rich Switzerland September 1995 1995 420 431 J Han M Kamber Data Mining Concepts and Techniq
17. FROM class_prepared_b Konstruktion der Konfigurationstabelle und des Modells CREATE TABLE test_class_settings setting_name VARCHAR2 30 setting_value VARCHAR2 30 BEGIN INSERT INTO test_class_settings VALUES dbms_data_mining algo_name dbms_data_mining algo_support_vector_machines END BEGIN DBMS_DATA_MINING CREATE_MODEL model_name test_class_1 mining_function gt DBMS_DATA_MINING CLASSIFICATION data_table_name gt class_prepared_b case_id_column_name gt id target_column_name gt target settings_table_name gt test_class_settings END COMPUTE TEST METRICS Confusion Matrixz for TEST_DATEN SELECT target AS actual_target_value substr PREDICTION test_class_1 USING 1 30 AS predicted_target_value COUNT AS Anzahl FROM class_prepared_t GROUP BY target PREDICTION test_class_1 USING ORDER BY 1 SELECT round SUM DECODE target PREDICTION test_class_1 USING 1 0 count 4 100 as Accuracy FROM class_prepared_t Confusion Matriz for COMPLETE_DATEN SELECT target AS actual_target_value substr PREDICTION test_class_1 USING 1 30 AS predicted_target_value COUNT AS Anzahl FROM class_prepared GROUP BY target PREDICTION test_class_1 USING ORDER BY 1 SELECT round SUM DECODE target PREDICTION test_class_1 USING 1 0 count 4 100 as Accuracy FROM class_prepared 146
18. METHODE 1 Erstelle eine neue Spalte in der Tabelle 2 F r jede Geometrie R in der Referenz Schicht 2 1 Berechne die Abst nde von R mit jeder Geometrie G in thematischer Karte 2 2 WENN Anzahl der Geometrie mit minimalen Abstand gt O DANN 2 2 1 W hle beliebige Geometrie G zur Berechnung 2 3 Berechne gerichtete Beziehung zwischen R und G 2 4 F ge gerichtete Beziehung nach angegebener Methodik ein 3 R ckgabe der Referenz Schicht Tabelle um gerichtete Beziehung Bemerkungen zum Algorithmus In Oracle werden Methoden bereitgestellt die bei der Materialisierung von gerichteten Beziehungen eingesetzt werden k nnen Dabei handelt es sich um die gleichen geometrischen Funktionen die bereits bei der Materialisierung von metrischen Beziehungen genutzt wurden 123 6 Implementierung In diesem Abschnitt wird die vorgenommene Implementierung des im vorigen Abschnitt 5 3 5 ent wickelten Konzepts zur Materialisierung von r umlichen Daten und Beziehungen vorgestellt Die Implementierung wurde vollst ndig in PL SQL vorgenommen und die im Folgenden beschrie benen Prozeduren und Funktionen sind im PL SQL Package dbms_sdm_transform zusammenge fasst Dabei werden ausschlie lich die zur Benutzung relevanten Funktionalit ten vorgestellt Eine bersicht ber alle implementierten Funktionen ist anschaulich in Abb 6 1 dargestellt SDM_TRANSFORM Package Transformation Materialisierung geometrischer Objekte von r umliche
19. METRIC_REL 2Die Benutzung der restlichen Funktionen aus dem dbms_sdm_transform Package funktioniert analog 134 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining DBMS_SDM_TRANSFORM insertMetricRelMaterialisation tmp_metric_1 tmp_res_1 id shape Gr nfl chen shape DBMS_SDM_TRANSFORM xformRelMaterialisation res_mat_1 id tmp_metric_1 res_mat_2 END Listing 6 8 Materialisierung der metrischen Beziehung zw Wohngebiet und Gr nfl che Mater einer metrischen Beziehung zw Wohngebiet und Sportanlage BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation gt tmp_metric_2 DIST_SPORT METRIC_REL DBMS_SDM_TRANSFORM insertMetricRelMaterialisation tmp_metric_2 res_mat_2 id shape Sportanlagen shape DBMS_SDM_TRANSFORM xformRelMaterialisation res_mat_2 id tmp_metric_2 res_mat_3 END Listing 6 9 Materialisierung der metrischen Beziehung zw Wohngebiet und Gr nfl che Nach diesen Schritten besitzt die anf ngliche Tabelle Wohngebiet die lediglich Informationen zu Wohngebieten hatte drei weitere Attribute die Beziehungen ber Stra en Parkanlagen und Sport anlagen repr sentieren In Abb 6 8 ist diese Materialisierung anschaulich dargestellt Wohngebiet Wohngebiet ID Shape Name ER ID Shape Name se ANYINTERACT_STREET DIST_PARK DI
20. at person bt person WHERE at mentioned actor AND at person IN SELECT person FROM moviedb part WHERE mentioned actor AND creditpos is not null GROUP BY person HAVING count movie gt 20 Anzahl der Schauspieler mit mind 20 Filmen CREATE TABLE asso_data_sample_5 AS SELECT movie as id name as actor 1 as present FROM tmp_actor WHERE movie IN select movie from moviedb movie where year between 1950 and 2000 and type cinema AND movie IN select movie from moviedb country where country USA AND movie IN select movie from tmp_actor group by movie having count movie gt 1 order by id movie name 1 Kardinalit ten von Movies Schauspielern select count id as anz_m count distinct id as dist_anz_m count distinct actor as Anz_Actor from asso_data_sample_5 2 Durchschnittliche Anzahl an Schauspieler pro Movie avg 3 select to_char avg anz_actor 999 99 avg_actor from select count actor anz_actor from asso_data_sample_5 group by id 3 Movie und Schauspieler als transactional data darstellen CREATE TABLE asso_prepared NESTED TABLE actor_for_movie STORE AS DM_Nested_Categoricals_asso5 AS SELECT id CAST COLLECT DM_Nested_Mumerical SUBSTRB actor 1 30 present AS DM_Nested_Categoricals actor_for_movie FROM asso_data_sample_5 GROUP BY id 141 B Oracle Data Mining Beispiele Konfigurationstabelle f r den Apriori
21. count as Accuracy FROM test_data_table ACCURACY Listing 3 21 Confusion Matrix Anmerkung ODM stellt zur Berechnung der Confusion Matrix auch eine explizite Funktion mit dem Namen COMPUTE_CONFUSION_MATRIX im Package DBMS_DATA_MINING zur Verfiigung die die Berechnung der obigen SQL Anfragen kapselt Es sei fiir die Anwendung dieser Funktion auf die Dokumentation Ora06f verwiesen In der dritten Phase wird die Klassifizierung von neuen Daten vorgenommen Diese Daten mtissen wiederum auf die gleiche Weise wie in der ersten und zweiten Phase vorverarbeitet werden damit eine genaue und fehlerfreie Klassifizierung gew hrleistet werden kann In Abb 3 10 ist der Prozess der Klassifizierung schematisch illustriert S Anwendung des Modells Klassifizierung zur Datenvorverarbeitun 8 auf unklassifizierte Daten J Analyse benutzen Abbildung 3 10 Anwendung des Models auf unklassifizierte Daten Die Klassifizierung wird in ODM auf zwei unterschiedliche Arten durchgef hrt Die erste M glich keit besteht in der Verwendung der Methode APPLY im Package DBMS_DATA_MINING und die zweite M glichkeit ber die Verwendung der SOL Funktionen PREDICTION PREDICTION_PROBABILITY und PREDICTION_SET Ora06h Die Klassifizierung mit der Methode APPLY stellt dabei die einfachere M glichkeit dar Die Methode bekommt als Parameter das Klassifikationsmodell und die Tabelle mit den unklassifizierten Daten Das Ergebnis der Klassifizier
22. kleinere Regionen unterteilt wird Bei der Unterteilung von geometrischen Objekte in mehrere Teile liegt es daher nahe dass auch die nicht r umlichen Attribute aufgeteilt werden Dabei sollte zwischen den numerisch aufteilbaren numerisch nicht aufteilbaren und nicht numerischen Attributen unterschieden werden Die nume risch nicht aufteilbaren Attribute z B eine Altersangabe Jahreszahl und die nicht numerischen Attribute z B Bezeichnung Typ etc bleiben unver ndert und werden f r die neuen Polygone bernommen F r die Behandlung von numerisch aufteilbaren Attributen ergeben sich zwei Vorgehensweisen die im Folgenden aufgelistet sind 1 unver nderte bernahme der numerischen Attribute 2 prozentuale Aufteilung von numerischen Attribute Die erste Variante ist einfach zu realisieren hat jedoch den entscheidenden Nachteil dass Polygone die in kleinere Polygone aufgeteilt worden sind eine Verzerrung und Verf lschung der Datenbasis darstellen k nnen Es sei beispielsweise ein Polygon in vier kleinere Polygone unterteilt dann besit zen alle Polygone die gleichen nicht r umlichen Eigenschaften W rde anschlie end die Dichte f r die einzelnen Polygone z B Bev lkerungsdichte oder Kriminalit tsrate berechnet werden dann w rden sich aufgrund der unterschiedlichen Gr en verschiedene Dichten ergeben Die zweite Variante zur Behandlung von numerisch aufteilbaren Attributen ist semantisch moti viert Das Vorgehen bei
23. nnen k nnen diese wie in Kapitel 2 4 beschrieben vorverarbeitet werden ODM stellt daf r Funktionen bereit mit denen die Daten auf und vorbereitet werden k nnen damit diese den geforderten Richt linien bzw Vorgaben der Algorithmen entsprechen oder damit die Algorithmen besser funktionie ren Der Preprocessing Schritt ist in ODM optional d h die Data Mining Algorithmen funktionieren so lange die Voraussetzungen in Abschnitt 3 3 erf llt sind auch ohne eine vorherige Vorverarbeitung F r den Preprocessing Schritt werden von ODM Funktionen zur Verf gung gestellt die haupt s chlich im Package DBMS_DATA_MINING_TRANSFORM der PL SQL Schnittstelle enthalten sind In 41 3 Oracle Knowledge Discovery und Data Mining ODM werden jedoch auch spezielle Data Mining Funktionen vorgestellt die im Grunde in den Preprocessing Schritt geh ren aber aufgrund des Modell Objekt Prinzips und dem Aspekt das es sich dabei um eine spezielle Anwendung einer Data Mining Methode handelt im Package DBMS_ DATA_MINING enthalten sind In ODM sind folgende Preprocessing Ma nahmen siehe Kapitel 2 4 umgesetzt worden a Behandlung von fehlenden Werten b Behandlung von Ausrei ern Allgemeines Prinzip in Oracle Preprocessing und Transformation In Oracle funktioniert das Preprocessing und die Transformation beschr nkt auf die Funktionen im Package DBMS_DATA_MINING_TRANSFORM nach dem folgenden Prinzip wobei das X f r die Art des Preproces
24. r die beiden neuen Cluster wird anschlie end ebenfalls eine Aufteilung gesucht rekursiver Aufruf des Algorithmus mit den neu entstandenen Clustern bis keine sinnvollen Aufteilungen mehr m glich sind F r eine detailliertere Beschreibung des Al gorithmus sei auf MC02 verwiesen Der O Cluster ben tigt im Vergleich zum Enhanced k Means Algorithmus eigentlich keine Para meter jedoch hat sich herausgestellt dass die Einf hrung eines Parameters sensitivity n tzlich sein kann MC02 Der Parameter sensitivity hat die Aufgabe die Anzahl der Cluster zu regulieren Ein hoher Wert fiir sensitivity hat dabei zur Folge dass viele Cluster darunter viele kleine Cluster kon struiert werden Bei einem kleinen Wert fiir sensitivity werden hingegen insgesamt weniger Cluster konstruiert da die kleinen Cluster herausgefiltert werden Bei der Verwendung des O Cluster Algorithmus gibt Oracle noch folgende Empfehlungen um m glichst gute Resultate zu erzielen e Behandlung der Ausrei er durch Trimming nicht durch Winsorizing e Diskretisierung numerischer Werte da O Cluster kein distanz basierter Algorithmus ist und ansonsten keine optimalen Aufteilungen m glich sind Die Einstellungen die f r den O Cluster Algorithmus vorgenommen werden k nnen sind in der folgenden Tabelle aufgelistet Parameter Werte Beschreibung algo_name algo_o_cluster Spezifiziert den Clustering Algo rithmus oclt_max_buffer x 0 00 x 50000 Pu
25. sentiert Die Zerlegung des Polygons und die Transformation in ein oder mehrere repr sentative Punkte ist in Abb 5 20 unten dargestellt Die Handhabung der nicht r umlichen Attribute wird weiter hinten im Abschnitt behandelt da diese zum Teil nicht ohne weiteres unver ndert bernom men werden k nnen Einfaches Polygon kleiner Rasterfeld ID Geometrie Attribute ID Koordinate X Koordinate Y Attribute 1 en 1 Centroid X Centroid Y Einfaches Polygon groesser Rasterfeld ID Koordinate X Koordinate Y Attribute 1 A EN 11 Raster Centroid 1 X Raster Centroid 1 Y ID Geometrie Attribute 3 1 2 RasterCentroid2 X Raster Centroid 2 Y 1 Polygon In Raster Centroid n X Raster Centroid n Y Abbildung 5 20 Unterteilung gro er Polygone und Darstellung durch eine Menge von Punkten Die Transformation von Multi Polygonen d h einer Menge von Polygonen wird durch mehrfa che Anwendung der Transformation von Polygonen durchgef hrt Bei der Zerlegung des Multi Polygon Objektes in die einzelnen Polygone m ssen die nicht r umlichen Attribute differenziert behandelt werden Diese Behandlung orientiert sich am Vorgehen bei der Transformation von Po lygonen die im Folgenden beschrieben wird Anmerkung Bei der Unterteilung der Polygone oder Multi Polygone bleibt die jeweilige Zuor
26. spatial relations or other interesting patterns not explicitly stored in spatial da tabases Im Folgenden sind die allgemeinen Punkte aufgef hrt die den entscheidenden Unterschied zwischen klassischem und Spatial Data Mining ausmachen e In r umlichen Datenbanken die r umliche Zusammenh nge der Realit t abbilden ist die Eigenschaft enthalten dass sich r umliche Objekte implizit gegenseitig beeinflussen Dieser Aspekt ist bekannt als das Erste Gesetz der Geographie Everything is related to everything else but nearby things are more related than distant things Tob79 und wird auch r umliche Autokor relation genannt e Die Annahme dass alle Daten unabh ngig voneinander erzeugt worden sind gilt lediglich beim klassischen Data Mining in relationalen Datenbanken In r umlichen Datenbanken ist die statistische Unabh ngigkeit der Daten nicht gegeben SC03 Durch die Betrachtung r umlicher Aspekte d h ein Ort und seine Beziehungen zu anderen Or ten lassen sich viele soziale konomische und kologische Ph nomene in unserer Umwelt besser verstehen und erkl ren Die genannten Merkmale von raumbezogenen Objekten sind entscheidend f r das Spatial Data Mining und m ssen ber cksichtigt werden Beispielsweise k nnte das implizite Wissen ohne diese r umliche Betrachtung in den folgenden Beispielen nicht entdeckt werden Beispiele SC03 a Im Jahr 1855 grassierte die asiatische Cholera in London Ein Epidemiologe markierte dar
27. stats roc Findex htm 2006 S Rinzivillo F Turini Classification in geographical information systems In PKDD 04 Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases Springer Verlag New York Inc New York NY USA 2004 374 385 S Rinzivillo F Turini Extracting spatial association rules from spatial transactions In GIS 05 Proceedings of the 13th annual ACM international workshop on Geographic informa tion systems ACM Press New York NY USA 2005 79 86 S Shekhar S Chawla Spatial Databases A Tour Prentice Hall Upper Saddle River 2003 D M Schubert Knowledge Discovery and Data Mining Univ Heidelberg SoSe 2005 S Schosser Praktikum Data Warehousing und Data Mining Universitat Karlsruhe 2006 151 Literaturverzeichnis SEKX98 SH00 SS98 SSG01 S u00 Tie03 Tob79 TZ96 Vap95 VB05a VB05b VB06a VBO6b War04 WEK WIK06 WYM97 YLG 05 J Sander M Ester H P Kriegel X Xu Density Based Clustering in Spatial Databases The Algorithm GDBSCAN and Its Applications Data Min Knowl Discov 2 2 1998 169 194 M Skubacz J Hollmen Quantization of Continuous Input Variables for Binary Classifi cation In Intelligent Data Engineering and Automated Learning IDEAL 2000 2000 42 47 A Smola B Schoelkopf A tutorial on support vector regression 1998 J W H S C S
28. table A rule antecedent B table A rule consequent C table A child D WHERE D ID IS NULL ID CONFIDENCE ANTE CONS 10 95 48 AGE gt 5 Cluster 10 10 95 48 AGE lt 1 Cluster 10 10 95 48 HEIGHT gt 4 Cluster 10 10 95 48 HEIGHT lt 1 Cluster 10 86 4 3 Clustering 10 10 95 48 PSEUDO IN O0 Cluster 10 95 48 SEX IN m Cluster 10 Listing 4 19 Clustering Ergebnis Cluster Anmerkung Ein weiteres Vorgehen beim Clustering k nnte beispielsweise in die Hinzunahme bzw Wegnahme von Attributen erfolgen wodurch sich Cluster mit ver nderten Beschreibungen erge ben Unabh ngig vom Ergebnis m ssen die Cluster jeweils interpretiert werden um diese weiter verwenden zu k nnen 4 3 2 Erfahrungen mit der Clusteranalyse in ODM e Beim Versuch das Clustering mit dem O Cluster Algorithmus durchzuf hren endete dieser stets mit dem Abbruch des Clustering mit der folgenden Fehlermeldung in Listing 4 20 Der Algorithmus scheint intern ein Problem mit der Diskretisierung Zeile 4 invalid bin num ber zu haben und bricht aus diesem Grund ab ORA 06512 at SYS DBMS_SYS_ERROR line 105 ORA 06512 at DMSYS ODM_OC_CLUSTERING_MODEL line 122 ORA 06512 at DMSYS ODM_OC_CLUSTERING_MODEL line 2312 ORA 40321 invalid bin number is zero or negative value ORA 06512 at SYS DBMS_SYS_ERROR line 86 ORA 06512 at DMSYS ODM_OC_CLUSTERING_MODEL line 630 ORA 06532 Subscript outside of limit ORA
29. te und kann durch den Grad der Verunreinigung engl impurity beschrieben werden d h die St rung der Gleichheit In Abb 2 17 sind drei m gliche Aufteilungen einer Menge in zwei Unter mengen abgebildet wobei C die Klasse und N die Untermengen beschreibt Die Aufteilung einer Menge in zwei oder mehrere Untermengen beschreibt den Attributtest beim Klassifikationsbaum z B Attribut A lt x Bei den Aufteilungen von links nach rechts betrachtet ist zu kennen dass die entstehenden Mengen von homogen und einen niedrigen Grad an Verunreinigung nach inhomo gen und einen hohen Grad an Verunreinigung wandern Zus tzlich ist in Abb 2 17 der jeweilige Gini Index Berechnung siehe unten f r die Aufteilung der Menge berechnet Aufteilungs i bedingung Attribut A lt x Attribut B lt y Attribut C lt z NI N2 N1 N2 N1 N2 Aufteilung Cl 0 6 Cl 5 1 c 4 2 C2 6 0 C2 1 5 C2 3 3 Gini Index 0 0 0 278 0 486 Abbildung 2 17 Aufteilungskriterium Gini Index e Gini Index Der Gini Index wurde urspr nglich zur Bewertung der Einkommensverteilun gen einer Volkswirtschaft entwickelt und basiert auf der Lorenzkurve FAE06 wobei die Ab weichung von der vollkommenen Gleichverteilung gemessen wird Der Gini Index l sst sich wie folgt berechnen Anzahl Daten der Klasse j Anzahl der Daten im Knoten t gini t 1 j Zur Bewertu
30. wird ber den Parameter abns_max_predictors angegeben Bei diesem Modus werden zwei Ans tze regelbasiertes Vorgehen und bedingte Wahrscheinlichkeiten Bayes Theorem miteinander kombiniert Durch diese Kombination kann die Genauigkeit von Bayes ausge nutzt und gleichzeitig die Klassifikation durch das regelbasierte Vorgehen Klassifikationsre geln nachvollzogen werden Der dritte Modus ist der Multi Feature Build In diesem Modus werden mehrere bedingt un abh ngige Network Features erzeugt und derart behandelt als w ren sie bedingt unabh ngige Pr dikatoren in einem Naive Bayes Modell Durch diese Kombination der Network Features wird die Genauigkeit der Klassifizierung erh ht Auch bei diesem Modus wird die max An zahl an Pr dikatoren die zur Klassifikation verwendet werden sollen ber den Parameter abns_max_predictors angegeben Bei der Klassifikation mit dem Adaptive Bayesian Network Algorithmus ist folgendes zu beachten e Keine Unterst tzung von geschachtelten Tabellen e Nur im Single Feature Build werden Klassifikationsregeln erzeugt e numerische und nicht numerische Attribute diskretisieren e Behandlung von Ausrei ern verbessert das Ergebnis Die Parameter f r den Adaptive Bayesian Network Algorithmus sind der folgenden Tabelle zu ent nehmen wobei die Standardwerte fett hervorgehoben sind Parameter Werte Beschreibung algo_name algo_adaptive_bayes_network Spezifiziert Adaptive Bayesian
31. 1 F ge die X Y Paare von Start und Endpunkt und nicht r umliche Attribute in die Tabelle ein Die Transformation von Polygon Geometrien gestaltet sich ein wenig komplizierter da sie nach ORAb in verschiedenen Formen auftreten z B konvexe und nicht konvexe Polygone Polygon mit Aussparungen optimierte Polygone Um alle diese Polygone auf die gleiche Weise verarbeiten zu k nnen wird eine Abstraktion vorge nommen wobei jeweils nur die konvexe H lle der verschiedenen Polygone betrachtet wird Da durch werden die Sonderf lle bei der Transformation von Polygonen minimiert Durch diese ver einfachte Betrachtung sind nur konvexe Polygone zu transformieren Sie werden dann durch den Centroiden Schwerpunkt des Polygons repr sentiert In Abb 5 20 oben wird ist die Transforma tion dargestellt wobei die nicht r umlichen Attribute einfach bernommen werden Es weiterer Aspekt darin dass Polygone fl chenm ig sehr gro im Vergleich zur Gr e des Be zugssystems sein k nnen Durch die Repr sentation der Polygone durch Punkt Geometrie entsteht dadurch jedoch eine nicht zu verachtende Ungenauigkeit metrische Beziehungen werden verzerrt Um diese zu minimieren werden diese Polygone in kleine Polygone unterteilt Eine einfache Unter teilung stellt ein Raster dar das ber das Polygon gelegt wird Die neuen Polygone die im Vergleich kleiner als das Ursprungspolygon sind werden anschlie end jeweils durch ihren Centroiden repr
32. 3 40000 wohlhabend i i 4 30000 wohlhabend 25000 unbekannt Abbildung 5 2 Integration impliziter Beziehungen F r die Klassifikation wird ein Klassifikationsmodell ben tigt das sowohl die Attribute des Objek tes selbst z B durchschnittliches Einkommen als auch die Attribute der benachbarten Objekte Stichwort Autokorrelation sowie r umliche Beziehungen in den Prozess der Klassifizierung ver einigt Bei der Klassifizierung der Region 5 wohlhabend oder arm k nnten beispielsweise folgende Be trachtungen in den Entscheidungsprozess einbezogen werden e Aggregation des Attributs durchschnittliches Einkommen der benachbarten Objekte z B Durchschnittswert 32500 oder Maximalwert 50000 e Klassifizierung der benachbarten Objekte dreimal wohlhabend und einmal arm e Existenz eines Flusses in der unmittelbaren Umgebung Bei der klassischen Klassifikation wird die Region 5 wobei lediglich das Attribut durchschnittli ches Einkommen 25000 in den Klassifikationsprozess einbezogen wird mit Status arm klassifi ziert Durch die erweiterte Betrachtung d h der r umlich benachbarten Objekte und der r umliche Beziehungen k nnte die Region 5 jedoch mit Status wohlhabend klassifiziert werden Zweite ist die richtige Klassifizierung f r Region 5 97 5 Data Mining in r umlichen Datenbanken R umliche Assoziationsanalyse Das Data Mining von
33. 3 5 Oracle Knowledge Discovery 3 X 23 13 Y 23 75 4 X 78 33 Y 75 00 5 X 50 00 Y 58 33 Listing 3 15 Centroide der Cluster In Listing 3 16 ist eine SQL Anfrage dargestellt die die Cluster Regel f r jeden Cluster ermittelt In eckigen Klammern am Ende der Regel sind der Support s Anzahl der Daten f r die diese Regel gilt und die Confidence c Prozentsatz der die Korrektheit der Regel beschreibt der Regel zus tzlich angegeben In Abb 3 5 sind die Cluster Regeln durch rote Rechtecke dargestellt Objekte im zwei dimensionalen Raum drei Cluster Formatierung der Ergebnisse f r eine bersichtliche Darstellung SELECT b c a rule rule_confidence a rule rule_support FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_KMC model_name a TABLE a rule antecedent b TABLE a rule consequent c TABLE a child d WHERE d id IS NULL cluster rule X gt 10 amp amp X lt 42 amp amp Y gt 10 amp amp Y lt 42 gt Cluster 3 s 8 c 1 X gt 74 amp amp X lt 82 amp amp Y gt 58 amp amp Y lt 90 gt Cluster 4 s 4 c 67 X gt 34 amp amp X lt 66 amp amp Y gt 42 amp amp Y lt 82 gt Cluster 5 s 6 c 1 Listing 3 16 Cluster Regel Au erdem werden in Oracle die SQL Funktionen CLUSTER_ID CLUSTER_PROBABILITY und CLUS TER_SET Ora06h bereitgestellt mit denen ungeclusterte Daten einem bestehenden Cluster Modell zugeordnet werden k nnen
34. Algorithmus CREATE TABLE test_asso_settings setting_name VARCHAR2 30 setting_value VARCHAR2 30 BEGIN INSERT INTO test_asso_settings VALUES dbms_data_mining asso_min_support 0 002 INSERT INTO test_asso_settings VALUES dbms_data_mining asso_min_confidence 0 5 INSERT INTO test_asso_settings VALUES dbms_data_mining asso_max_rule_length 6 END Modell erstellen BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt test_asso_1l mining_function gt DBMS_DATA_MINING ASSOCIATION data_table_name gt asso_prepared case_id_column_name gt id settings_table_name gt test_asso_settings END Frequent Itemsets ansehen SELECT distinct item support number_of_items FROM SELECT I column_value AS item F support F number_of_items FROM TABLE DBMS_DATA_MINING GET_FREQUENT_ITEMSETS test_asso_1 F TABLE F items I ORDER BY number_of_items desc support desc column_value Assoziationsregeln SELECT rule_id rule_support as support rule_confidence as confidence B attribute_name B conditional_operator B attribute_str_value as ante C attribute_name C conditional_operator C attribute_str_value as cons FROM TABLE DBMS_DATA_MINING GET_ASSOCIATION_RULESC test_asso_1 A TABLE A antecedent B TABLE A consequent C B 2 Regressionsanalyse Daten eingeschr nkt Filme zwischen 1990 und 2005 CREATE TABLE reg_data_sample_i AS select rownum as id
35. Analyse AMS 96 eingef hrt Mit der vorgeschlagenen Methode werden R umliche Assoziationsregeln ermittelt die Assozia tionen zwischen Objekten basierend auf einer r umlichen Beziehung beschreiben Dabei wird ebenfalls das Prinzip der Referenz Schicht benutzt wobei deren Objekte die Referenz Objekte die r umlichen Transaktionen f r die Assoziationsanalyse vorgeben Die r umlichen Items einer r umlichen Transaktion werden dabei durch die Verschneidung der Referenz Schicht z B St dte mit weiteren Schichten z B Stra en Fl ssen und Parkanlagen unter Verwendung einer r umlichen Beziehung z B schneidet bestimmt Die folgende Anweisung verschneidet drei Schichten unter der topologi schen Beziehung schneidet wobei die erste Schicht die Referenz Schicht ist SELECT 11 12 13 FROM layer 1 as 12 layer 2 as 12 layer 3 as 13 WHERE schneidet l1 geometry 12 geometry TRUE AND schneidet 11 geometry 13 geometry TRUE Anschaulich beschreibt Abb 5 8 eine r umliche Transaktion die eine Menge von nicht r umlichen Attributen z B Bev lkerung Niederschlag etc aus den berlagerten Schichten repr sentiert die bezogen auf das Referenz Objekt in der Referenz Schicht in allen Schichten g ltig sind thematische Karten als Schichten Modell Referenz Schicht thematische Karten Abbildung 5 8 Definition einer r umlichen Transaktion nach RT05 Beispiel Es seien folgende d
36. Beschr nkung das jedes Objekt durch einen Prim r bzw Unique Schl ssel identifizierbar sein muss ist jedoch relativ restriktiv in Bezug auf das Data Mining da dadurch zu keinem Objekt mehr wertige Beziehungen m glich sind z B beim Warenkorb wo mehrere Waren einem Einkauf zuge ordnet sind Darum bietet Oracle die M glichkeit mehrwertige Beziehungen 1 N Beziehungen durch die Verwendung von geschachtelten Tabellen nested tables zu realisieren ODM benutzt f r mehrwertige Beziehungen die Datentypen DM_NESTED_NUMERICALS f r numeri sche Werte und DM_NESTED_CATEGORICAL f r kategorische Werte Ora06h Diese Datentypen re pr sentieren Mengen von Attribut Wert Paaren die genau einem Objekt zugeordnet sind Durch die geschachtelten Tabellen ist es m glich komplexe Beziehungen in Daten darzustellen Es las sen sich somit beispielsweise Daten in Form von Transaktionen transactional data wie die bei der Warenkorb Analyse d h zu einem Warenkorb geh ren n unterschiedliche Produkte darstellen und mit ODM verarbeiten Eine weitere Beschr nkung liegt in der Anzahl der Attribute die verarbeitet werden k nnen des sen Grenze bei 1000 Attributen liegt Um diese Beschr nkung teilweise zu umgehen bietet ODM wiederum die Verwendung von den geschachtelten Tabellen DM_NESTED_NUMERICALS und DM_ NESTED_CATEGORICAL an wenn die Anzahl der Attribute einer Tabelle respektive Sicht mehr als 38 3 4 Management Prinzip von Oracle Data Min
37. Bins benutzt alle anderen Werte fallen in ein zus tzliches Bin mit der Bezeichnung andere Das Top N Frequent Items Binning ist eine berwachte Diskretisierungsmethode 13 2 Knowledge Discovery und Data Mining Neben dem Binning k nnen ebenfalls die Histogramm Analyse das Clustering eigentlich eine Da ta Mining Methode die Daten anhand von Kriterien gruppiert siehe auch 2 6 2 die Segmentbil dung durch natiirliche Partitionierung und die Entropie basierte Diskretisierung zur Diskretisie rung verwendet werden PT98 HL02 DKS95 2 5 3 Aggregierung Unter einer Aggregierung ist eine Art Zusammenfassung von Sachverhalten zu verstehen Die se Zusammenfassungen k nnen mit den Aggregierungsfunktionen Summe Durchschnitt Maxi mum u s w erzielt werden Z B Die monatlichen Einnahmen eines Unternehmens werden zusam mengefasst zu den j hrlichen Einnahmen 2 5 4 Generalisierung Bei einer Generalisierung werden einzelne Sachverhalte zusammengefasst verallgemeinert oder vereinfacht Eine Generalisierung erfolgt h ufig unter Verwendung von Konzept Hierarchien z B k nnen verschiedene Stra entypen Feldweg Bundesstra e Autobahn zu Stra e abstrahiert wer den 2 5 5 Attribut Konstruktion Neue Attribute werden aus bestehenden Attributen erzeugt um beim anschlie enden Data Mining Prozess die Ausdrucksf higkeit und das Verst ndnis der Daten zu erh hen Der Nutzen konstru ierter Attribute ist h ufig h
38. Clustering Verfahren kann dieses je nach dem wie viele Cluster ben tigt werden auf verschiedenen Ebenen der Hierarchie aufgebrochen werden Die Qualit t von hierarchischen Clustern leidet jedoch darunter dass einmal vorgenom mene Splits Merges nicht r ckg ngig gemacht werden k nnen Algorithmen die zu den hier 19 2 Knowledge Discovery und Data Mining archischen Algorithmen geh ren sind DIANA Dlvisive ANAlysis und AGNES AGglomerati ve NESting KR90 Weitere Algorithmen z B BIRCH Balanced Iterative Reducing and Cluste ring using Hierarchies TZ96 und CHAMELEON KHN99 sind ebenfalls hierarchische Clustering Methoden die jedoch versuchen unter Benutzung anderer Clustering Methoden partitioning based Methoden die Qualit t der Cluster zu erh hen Beispiel f r eine Hierarchical based Methode Das hierarchical based Clustering soll anhand einer agglomerativen Methode demonstriert werden Dabei werden Cluster C erzeugt indem jeweils kleinere Cluster zu gr eren Clustern zusammen gefasst werden Als Kriterium zum Verschmelzen von Clustern sei die Single Link Methode ge w hlt und es sei weiter kein zus tzliches Haltekriterium angegeben das das Clustering fr hzeitig beenden kann Gegeben sei die in Abb 2 10 a dargestellte Datenmenge bestehend aus den Objekten A B C D E Die Objekte sind in einer hnlichkeitsmatrix HK00 angeordnet die die hnlichkeit also den Ab stand z B euklidischer Abstand bei nu
39. Klassifizierung und der Methode von KHS angef hrt bei dem die in der Methode verwendeten r umliche Bereiche um ein Objekt herum sogenannte Buffer durch die Primitive und den Nachbarschaftsbeziehungen erzeugt werden Anmerkung Die R umliche Trend Analyse die ausschlie lich in r umlichen Datenbanken ange wendet werden kann wird in nat rlicher Weise und ausschlie lich durch den vorgeschlagenen Nachbarschaftsgraphen und Nachbarschaftspfade unterst tzt 106 5 2 Spatial Data Mining Materialisierung Ein Framework In VBO5b wird der Knowledge Discovery Prozess der in Kapitel 2 vorgestellt worden ist f r die Anwendung in r umlichen Datenbanken modifiziert Der Ablauf des KDD Prozesses in r umlichen Datenbanken ist in Abb 5 10 abgebildet Dabei sollen die eingef gten Schritte nach VBO5b in ei nem Framework gekapselt werden mit dem dann beliebige r umliche Datenbanksysteme SDBMS und Data Mining Implementierungen arbeiten k nnen Eine erste Implementierung ist in VB06a beschrieben in der das SDBMS PostGIS und die freie Data Mining Bibliothek WEKA WEK ver wendet wird Die Erweiterung Abb 5 10 des Knowledge Discovery Prozesses umfasst die folgenden Schritte 1 Selektion Selection In diesem Schritt werden die relevanten Daten f r die Knowledge Disco very ausgew hlt Dieser Schritt unterteilt sich dabei in zwei Unterschritte 1 Daten Definition und 2 Anwendung von nicht r umlichen Filtern Die Dat
40. Mining Ein Beispiel 4 1 ASSOZIAHONSANALYSE an arena nee OMY RE AS Se en d 4 1 1 Assoziationsanalyse Schauspieler mit Schauspieler in Filmen 4 1 2 Erfahrungen mit der AssoziationsanalyseinODM Inhaltsverzeichnis 4 27 Repression zn nn a In Ie AR ae RE a ee iua a en 79 4 2 1 Regressionsanalyse Jahr und Anzahl produzierter Filme pro Jahr 79 4 2 2 Erfahrungen mit der RegressionsanalyseinODM 83 A 3 Clustering N ee REIN Be are 83 4 3 1 Clustering Demographische Analyse der Schauspieler 83 4 3 2 Erfahrungen mit der Clusteranalysein ODM 2 2 2222 87 AA Klassika HON 2 2 02 ke 2 We er BR ae N ee 88 4 4 1 Klassifikation Einfluss von Schauspielern auf die Bewertung des Films 88 4 4 2 Erfahrungen mit der Klassifikation in ODM 2 2 22 92 5 Data Mining in r umlichen Datenbanken 93 5 1 R umliche Datenbanken 2 2 a m mn nn 93 Bid patie Dat MINAS 22 25 5 a lh E grip tela a oe Sie Saket Sch a oI aed 94 5 2 1 Problemstellungen des Spatial Data Mining 2 2 2202 96 5 2 2 L sungsans tze f r das Spatial Data Mining 99 5 2 3 Frameworks f r Spatial Data Mining 00 0000 105 5 2 4 Zusammenfassung sus gee bee eA eR ORE ee ee x 109 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen 110 5 3 1 Beispiel f r die Materialisierung von r umlichen Informationen 110 5 3 2
41. Mining und der Verarbeitung von r umlichen Daten und im pliziten Beziehungen verwendet Ein letztes Vorgehen das in diesem Abschnitt vorgestellt wurde besteht in der Anpassung des statistischen Modells SC03 wodurch prim r der Aspekt der Inte gration der Autokorrelation in das Data Mining Verfahren verfolgt wird Anmerkung Klassisches Data Mining in r umlichen Datenbanken Data Mining kann nat rlich auch ohne Materialisierung der r umlichen Daten und im pliziten Beziehungen mit den klassischen Methoden Abb 5 12 c durchgef hrt wer den wobei lediglich nicht r umliche Attribute d h numerische und nicht numerische Standard Datentypen verarbeitet werden Diese Art des Data Mining entspricht dem Vorgehen nach Kapitel 2 In SC03 wird dieses Vorgehen des Data Mining in r umlichen Datenbanken also lediglich auf nicht r umlichen Attributen jedoch ausgeschlossen da in keiner Weise ein r umlicher Aspekt involviert ist und die eigentliche Motivation d h die Verarbeitung von r umlichen und nicht r umlichen Daten nicht erreicht wird 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen In diesem Abschnitt wird ein Konzept vorgeschlagen mit dem r umliche Daten und implizite r umliche Beziehungen durch eine geeignete Transformation in Standard Datentypen umgewan delt werden k nnen so dass eine Knowledge Discovery mit Spatial Data Mining unter Anwen dung von klassischen Methoden m glich ist Dabei wi
42. P C f r i 1 2 Also alle Wahrscheinlichkeiten P C und alle bedingten Wahrscheinlichkeiten P X C P Betrug Ja in 0 75 und P Betrug Nein T 0 25 P Betrag mittel Betrug ja 22 0 26 P Betrag mittel Betrug nein x 0 2 P H ufigkeit der Transaktionen hoch Betrug ja 32 0 6 P H ufigkeit der Transaktionen hoch Betrug nein ig 04 P Tageszeit morgens Betrug ja 32 0 3 P Tageszeit morgens Betrug nein 2 0 72 P X Betrug ja P Betrug Ja 0 26 0 6 0 3 0 75 0 04 P X Betrug nein P Betrug Nein 0 2 0 4 0 72 0 25 0 0144 Unter Verwendung der berechneten Wahrscheinlichkeiten ergibt sich dass die Wahrscheinlichkeit f r Betrug P Betrug ja 0 04 gr er als f r kein Betrug P Betrug Nein 0 0144 ist Die Transaktion X wird aus diesem Grund als ein Betrugsfall klassifiziert c Klassifizierung durch Bayesian Belief Networks Das Bayessche Netz Bayesian Belief Network ist eine Metho de aus dem Bereich der K nstlichen Intelligenz Darunter ist ein gerichteter azyklischer Graph zu verstehen mit dem Ent scheidungen Klassifizierung anhand von Wahrscheinlichkei ten getroffen werden H ufigkeit G 0 0 4 0 6 H ufigkeit Die Knoten des Graphen sind Zufallsvariablen und haben zwei oder mehr m gliche Werte
43. Prozess des Data Mining durchgef hrt Es ist dar ber hinaus zu beachten dass beim Aufruf dieser Methode die gesamten Attribute der Tabelle bzw Sicht mit Ausnahme des Prim r bzw Unique Schl ssel der zur eindeutigen Identifikation der Objekte Datens tze dient in den Data Mining Prozess einbe zogen werden Der Ausschluss von Attributen ist bei der Zusammenstellung der Datentabelle oder sp testens nach dem Transformationsschitt durchzuf hren Die Einstellungen f r die Parameter die f r die Data Mining Methode und den Data Mining Al gorithmus vom Benutzer angegeben und angepasst werden k nnen werden in einer sogenannten Konfigurationstabelle gespeichert Wenn keine Konfigurationstabelle explizit angegeben wird so wird eine interne Konfigurationstabelle mit den Standardeinstellungen der Parameter f r den jewei ligen Algorithmus verwendet Diese benutzerdefinierte Konfigurationstabelle wird beim Erzeugen des Modells mit bergeben und berschreibt dadurch die Standardeinstellungen Die Einstellun gen f r die Parameter und die Standardeinstellungen werden im Folgenden bei den Data Mining Algorithmen eingehender beschrieben Das Schema der Konfigurationstabelle ist folgenderma en Spaltenname Datentyp Bedeutung setting name VARCHAR2 30 Name des Parameters setting value VARCHAR2 128 Wert des Parameter Die Methode CREATE_MODEL ben tigt einige Parameter die zur Konstruktion eines Modells notwen dig sin
44. VALUE_3 AND ATTRIBUTE_2 gt VALUE_4 AND ATTRIBUTE_3 is in VALUE_5 VALUE_6 AND ATTRIBUTE_3 is in VALUE_5 VALUE_6 VALUE_7 VALUE_8 THEN CLASS_A END Vereinfachung der Klassifikationsregel 1 IF ATTRIBUTE_1 lt VALUE_1 AND ATTRIBUTE_2 lt VALUE_3 AND ATTRIBUTE_2 gt VALUE_4 AND ATTRIBUTE_3 is in VALUE_5 VALUE_6 THEN CLASS_A END Listing 4 27 Problem bei Klassifikationsregeln in Oracle Data Mining 92 5 Data Mining in r umlichen Datenbanken Der gr te Anteil etwa 80 SC03 der heute digital gespeicherten Informationen sind in Da tenbanken gespeichert die einen r umlichen Anteil haben und werden entsprechend r umliche Datenbanken Spatial Databases genannt Dabei wird der Begriff des Raumes in diesem Zusam menhang stets mit der geographischen Interpretation des Raumes d h R oder R verwendet Anwendungsgebiete von r umlichen Datenbanken sind die Klimaforschung Wetterbeobachtung Geo Marketing Verkehrskontrolle u v m Die Grundlage f r r umliche Daten liefern beispielswei se die Earth Observation Satellites EOS welche die Oberfl che der Erde systematisch erfassen was pro Tag ungef hr ein Terabyte an Informationen ausmachen kann Aufgrund dieser riesigen Datenmenge ist zu erwarten dass darin eine Vielzahl an interessanten jedoch unbekannten Infor mationen enthalten ist Die Knowledge Discovery wie sie in Kapitel 2 beschrieben wurde kann in dieser Form jedoch nicht ohne weiteres
45. Vorgehen der Entwicklung des Konzepts an die in der Literatur diskutierten Problemstellungen und L sungsvorschl ge zur Materialisierung f r das Data Mining in r umlichen Datenbanken F r eine geeignete Implementierung eines Data Mining Systems welches Methoden und Algorith men f r das Data Mining in relationalen Datenbanken bereitstellt f llt die Entscheidung auf die Data Mining Cartridge von Oracle Sowohl der Funktionsumfang als auch die Funktionsweise wer den dabei grundlegend analysiert wobei ebenfalls die Einsatzf higkeit und die Grenzen des Data Mining Systems f r das Data Mining in relationalen Datenbanken berpr ft wird Die Verwendung der Data Mining Cartridge wird im Anschluss daran anhand von Beispielen veranschaulicht Abschlie end wird die Implementierung des Konzepts zur Materialisierung und die Integration in das Datenbank Management System von Oracle vorgestellt Das Data Mining in r umlichen Daten banken wird dann durch die Kombination dieser Erweiterung in Form einer Vorverarbeitung mit der Oracle Data Mining Cartridge demonstriert Inhaltsverzeichnis 1 Einleitung 2 Knowledge Discovery und Data Mining 2 1 bersicht zum KDD Prozess oor 22222 2 om on 2 2 Erfassung von Hintergrundwissen und Zielen 2 2 2222 en 2 3 Selektion wars ri ee are Bhs WE ee es ee ae Nee 22 Ereprocessine 1 5 5 Bat a er te Ay WE en 2 4 1 Behandlung fehlender Werte Missing Values 2 222220 2 4 2 Behandlung
46. Was wird f r das Spatial Data Mining materialisiert 111 5 3 3 Transformation geometrischer Objekte 0 000020008 112 5 3 4 Materialisierung von Nachbarschaftsbeziehungen 2 2 2 0 119 5 3 5 Materialisierung von topologischen Beziehungen 2 2 2 0 120 5 3 6 Materialisierung von metrischen Beziehungen aoaaa 121 5 3 7 Materialisierung von gerichteten Beziehungen 2 2 2 2 123 6 Implementierung 124 6 1 Spatial Data Mining Transformation aaou ee 125 6 1 1 Materialisierung von r umlichen Beziehungen 2 2 2 2 125 6 1 2 Materialisierung von geometrischen Objekten naaa 128 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining 129 6 2 1 Fallbeispiel Clustering von Ballungsgebieten nnau 130 6 2 2 Fallbeispiel Beziehungen zwischen Geo Daten oaoa aaa aa 134 7 Ausblick 137 A Spatial Data Mining Beispiele 139 A 1 Clustering von Ballungsgebieten aoaaa aaa a 139 B Oracle Data Mining Beispiele 141 BL gt Assoziationsanalyse ne ns re EENE TEN E ee 141 B 2 Regressionsanalyse u 4 an a Ble Ae a a 142 Bo Clustering 7 2 e e dain ee ee ra ek aed 144 BA Klassifikation 2 2 oo 0 mon 145 Literaturverzeichnis 148 1 Einleitung In den vergangenen Jahrzehnten kam es in ziemlich jedem Bereich unseres Lebens zu einem enor men Wachstum an gesammelten Daten die in immer gr er werdenden Datenbanken oder Daten bank Clustern g
47. Wert_2 5 6996389 Listing 3 12 Ergebnis der Feature Extraction Durch eine Analyse der Faktoren in Hinblick auf die Attribute und deren Anteil am Faktor las sen sich unwichtige Attribute der Basisdaten identifizieren und somit eine Attribut Reduktion durchf hren 50 3 5 Oracle Knowledge Discovery In ODM werden zus tzlich die SQL Funktionen FEATURE_ID FEATURE_SET und FEATURE_VAL UE Ora06h zur Verf gung gestellt um die Faktoren zur Beschreibung von unbekannte Daten zu verwenden Die Funktion FEATURE_ID ermittelt den Faktor und FEATURE_VALUE ermittelt den exakten Wert der bereinstimmung mit dem Faktor der den unbekannten Datensatz am besten beschreibt Und schlie lich ermittelt die Funktion FEATURE_SET eine Menge von Faktor Wert Paaren basierend auf FEATURE_ID und FEATURE_VALUE f r einen unbekannten Daten satz F r weitere und detailliertere Informationen zur Benutzung der Funktionen wird auf die Dokumentation von Oracle verwiesen Ora06h 3 5 3 Oracle Data Mining ODM bietet eine breite Auswahl an Techniken an um Data Mining f r unterschiedliche Aufgaben und Interessen zu betreiben Im Vordergrund stehen die Methoden und Techniken die in Kapi tel 2 beschrieben wurden Es folgt eine Auflistung der Data Mining Methoden und der konkreten Verfahren die in der Data Mining Cartridge integriert sind o Clustering deskriptiv Enhanced k Means Clustering Orthogonal Partitioning Clustering o Assoziationsanaly
48. aggr_column und aggr_string durch Einbeziehung der Nachbarschaft theme_layer und theme_geom um eine gegebene Geometrie object_layer und object_geom die durch einen Bereich dst_spec spezifiziert ist PROCEDURE insertNumACRelMaterialisation definition_table STRING Tabelle f r berechnete Werte object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels object_geom STRING Spalte der Geometrie theme_layer STRING thematische Karte theme_geom STRING Spalte der Geometrie aggr_string STRING Aggregierungsfunktion aggr_column STRING Spalte f r Aggregierung dst_spec STRING Angabe der Umgebung Die Prozedur insertCatACRelMaterialisation materialisiert die Autokorrelationseigenschaft ei nes nicht numerischen Attributs berdies sind die Beschreibung und die Parameter mit der Proze dur insertNumACRelMaterialisation bereinstimmend PROCEDURE insertCatACRelMaterialisation definition_table STRING Tabelle f r berechnete Werte object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels object_geom STRING Spalte der Geometrie theme_layer STRING thematische Karte theme_geom STRING Spalte der Geometrie aggr_column STRING Spalte f r Aggregierung dst_spec STRING Angabe der Umgebung 127 6 Implementierung Der Abschluss einer Materialisierung von r umlichen Beziehungen wird durch die folgende Pro zedur vorgenommen wobei
49. auf r umliche Datenbanken angewendet werden Aus diesem Grund m ssen die Techniken und Methoden der Knowledge Discovery an die r umlichen Datenbanken angepasst und erweitert werden In diesem Kapitel liegt demnach das Hauptaugenmerk auf der Knowledge Discovery und dem Da ta Mining in r umlichen Datenbanken sowie den damit verbundenen Herausforderungen Ferner soll der Unterschied zwischen dem Data Mining in relationalen Datenbanken im Weiteren als klas sisches Data Mining bezeichnet und dem Data Mining in r umlichen Datenbanken Spatial Data Mining verdeutlicht werden Die weiteren Punkte des Kapitels gliedern sich folgenderma en Zun chst werden die Begriffe r umliche Datenbanken und Spatial Data Mining kurz erl utert woraufhin anschlie end unter schiedliche L sungsvorschl ge aus der Literatur f r das Data Mining in r umlichen Datenbanken aufgef hrt und beschrieben werden Aufbauend auf den L sungsvorschl gen aus der Literatur wird ein Konzept zur Materialisierung Iransformation von r umlichen Daten und Informatio nen entwickelt so dass anschlie end klassisches Data Mining mit den in Kapitel 2 vorgestellten Methoden durchgef hrt werden kann 5 1 R umliche Datenbanken R umliche Datenbanken spatial databases besitzen im Gegensatz zu normalen relationalen Daten banken Attribute die sich in nicht r umliche non spatial und r umliche spatial Attribute auftei len Die nicht r umlichen Attribute charakterisier
50. ausreichend sind d h die zu analysierende Datenmenge nicht mehr berschaubar und die F higkeit der menschlichen Analyse berschritten ist oder die Gefahr droht dass ein Gro teil der Daten nicht analysiert wird Die bisherigen Methoden zur Analyse von Daten leiden au erdem unter dem Aspekt recht statisch zu sein Reportgeneratoren und SQL Anfragen oberfl chlich zu arbeiten und eher einen berblick oder eine einfache Auswertung der Daten wiederzugeben Diese Methoden liefern h ufig nur Informationen die zum einen bereits be kannt sind und zum anderen nur eine Teilmenge der interessanten Daten repr sentieren Es wird je doch nicht versucht die Daten tiefgr ndiger zu analysieren und ber den Tellerrand zu blicken um nicht offensichtliche und verborgene Beziehungen zu finden Das ist der Punkt an dem der KDD Prozess und das Data Mining ansetzen Durch das Data Mining sollen interessante bisher unbekannte Informationen in Form von Gesetzm igkeiten automatisch gefunden werden die jedoch nicht explizit gespeichert sind 2 1 bersicht zum KDD Prozess Die Knowledge Discovery l sst sich als nicht trivialer Prozess zur Identifikation von g ltigen neu artigen potentiell n tzlichen und allgemein verst ndlichen Mustern in Daten beschreiben Know ledge discovery in databases is the non trivial process of identifying valid novel potential useful and ultima tely understandable pattern in data FSM92 Die allgemein
51. baumartige Struktur des Bayesschen Netzes ist gew hrleistet dass die Wahrscheinlichkeitsverteilungen exakt berechnet werden k nnen und nicht nur approximiert werden Cha91 Au erdem werden alle Pr dikatoren durch den Algorithmus diskretisiert so dass das Modell m glichst effektiv und einfach ist z B Alter in 0 25 25 50 und 50 Der ABN Algorithmus besitzt drei Modi mit denen er arbeiten kann 1 Der erste Modus ist der Naive Bayesian Build In diesem Modus wird ein Naive Bayesian Modell siehe Naive Bayesian Klassifikation mit Feature Selection Attribute Importance siehe Kapitel 3 5 2 erzeugt Dabei werden die k Pr dikatoren ausgew hlt die am meisten mit dem 63 3 Oracle Knowledge Discovery und Data Mining Klassifikationsattribut korrelieren Der Wert f r k kann ber den Parameter abns_max_nb_ predictors angegeben werden und bezeichnet die max Anzahl an Pr dikatoren f r die Klas sifikation Die Klassifikation erfolgt dann analog zur Naive Bayesian Klassifikation wobei die beiden Parameter automatisch auf 0 0 Null gesetzt werden Sch06 Der zweite Modus ist der Single Feature Build In diesem Modus wird ein vereinfachter Klas sifikationsbaum Konstruktion nach dem C4 5 Algorithmus Qui93 erzeugt Auf jeder Stu fe des Baumes ist genau ein Pr dikator der so viele Nachfolger besitzt wie der Pr dikator disjunkte Werten Die max Anzahl an Pr dikatoren die zur Klassifikation verwendet werden sollen
52. besonders bei der Klassifikation und der Assoziationsanalyse beraus wichtig Dadurch k nnen r umliche Eigenschaften in die Klassifizierung von Objekten einbezogen werden die beim Spatial Data Mining mit den klassischen Methoden ignoriert w rden Au erdem ist durch die Materia lisierung eine R umliche Assoziationsanalyse nach Abschnitt 5 2 1 und eine Co Location Analyse durchf hrbar Beispiel F r die Klassifizierung einer Region nach Miete hoch und Miete niedrig ist neben den Attributen des Objektes selbst ebenfalls die r umliche Umgebung relevant Deshalb sollen in den Prozess der Klassifikation die folgenden zwei r umlichen Informationen integriert werden 1 In der N he von Objekt X befindet sich eine Autobahn 2 In der N he von Objekt X befindet sich eine Parkanlage Um diese Informationen in den Klassifikationsprozess mit dem klassischen Data Mining zu integrie ren m ssen die topologischen Beziehungen durch eine Erweiterung der Objekt Relation in Form von Attributen erfolgen Im Beispiel ist eine Materialisierung der topologischen Beziehungen in die Attribute Autobahn und Parkanlage sinnvoll wobei die Werte der Attribute entweder TRUE d h topologische Beziehung ist g ltig und FALSE d h topologische Beziehung ist nicht g ltig anneh men Die Materialisierung von topologischen Beziehungen wird nach dem feature type Prinzip V BO6b durchgef hrt Bei dieser Form der Materialisierung wird eine topologische Beziehung von
53. der Datentabelle in der die fehlenden Werte ersetzt wurden DBMS_DATA_MINING_TRANSFORM XFORM_MISS_NUM miss_num_def_table Infos ber die Mittelwerte data_table Datentabelle miss_num_view Ergebnis Sicht END Listing 3 3 Behandlung fehlender numerischer Werte b Behandlung von Ausrei ern In ODM werden Ausrei er haupts chlich durch die Clipping Methode behandelt aber auch durch Data Mining Methoden z B der One Class Support Vector Machine Algorithmus k nnen in Oracle zur Behandlung von Ausrei er Werten siehe Kapitel 2 4 eingesetzt werden Eine Behandlung der Ausrei ern ist in ODM notwendig da einige Algorithmen empfindlich darauf reagieren und somit schlechtere Ergebnisse liefern k nnten Ora06d Im Folgenden werden diese beiden M glichkeiten zur Behandlung von Ausrei ern vorgestellt 1 Clipping Im ersten Schritt zur Behandlung von Ausrei ern wird die Tabelle angelegt die die Werte f r die Grenzen und die alternativen Werte f r die Ausrei er der verschiedenen Attribute speichern soll Es werden der Name des Attributs col die untere 1cut und obere rcut Grenze f r den normalen Bereich und die alternativen Werte f r die unteren 1val und oberen rval Ausrei er gespeichert Diese Tabelle hat somit das folgende Schema Spaltenname Datentyp Bedeutung col VARCHAR2 30 Name des Attributs Icut NUMBER untere linke Grenze lval NUMBER unterer lin
54. der Erstellung des Modells benutzt wurden und entsprechend einen Einfluss hatten e Die Methode GET_DEFAULT_SETTINGS liefert zu einer Data Mining Methode die Standardein stellungen f r die Parameter Anmerkung Die Informationen zu einem Modell sind abh ngig vom Data Mining Algorithmus und werden dementsprechend in den n chsten Abschnitten in denen es um die Data Mining Methoden und Algorithmen geht beschrieben und demonstriert 3 5 Oracle Knowledge Discovery Die Oracle Data Mining Cartridge besteht aus den PL SQL Packages DBMS_DATA_MINING_TRANS FORM und DBMS_DATA_MINING worin die gesamten Funktionen die f r die Knowledge Discovery notwendig sind enthalten sind Dabei fasst Oracle die Schritte Preprocessing und Transformation der Knowledge Discovery im Package DBMS_DATA_MINING_TRANSFORM zusammen Die Funktionen um das Data Mining sind im Package DBMS_DATA_MINING zusammengefasst Die Einteilung und der Umfang der Funktionen in ODM wird an HK00 angelehnt und entspricht nicht dem in Kapitel 2 vorgestellten Data Mining In HK00 wird abweichend die Ausrei er Analyse und die Attribut Reduktion als Data Mining Methoden beschrieben Da es sich jedoch bei der Aus rei er Analyse und der Attribut Reduktion um spezielle Anwendungen der Data Mining Methoden Kapitel 2 handelt wird die Einteilung nach Kapitel 2 beibehalten 3 5 1 Oracle Preprocessing Bevor die Daten von in Oracle bereitgestellten Data Mining Methoden verarbeitet werden k
55. der Objekte gr er als die Anzahl der r umliche Beziehungen ist erzeugt die Materialisierung nach dem Vorgehen mit feature instance eine gro e Anzahl an Attributen die einen niedrigen Abstraktionsgrad besitzen Im Gegensatz dazu erzeugt die Materialisierung mit feature type weniger Attribute jedoch mit einem hohen Abstraktionsgrad Oracle Spatial Analysis and Mining Eine weitere L sung f r das Spatial Data Mining bietet die Oracle on anna anne Spatial Cartridge mit dem SAM Package Spatial Analysis and Mining Ora06g an wobei die Materialisierung von r umlichen Informationen im Vordergrund steht Durch die Materialisierung werden die r umlichen Beziehungen und Eigenschaften auf nicht r umliche Attribute Standard Datentypen abgebildet worauf hin anschlie end die Data Mining Cartridge und die darin ent haltenen Methoden f r das Data Mining benutzt werden kann Materialized data spatial binning Eine besondere Aufmerksamkeit geb hrt der Materialisierung der materialeaton Autokorrelation Nachbarschaftsbeziehungen da diese beim Spa tial Data Mining eine entscheidende Rolle einnimmt Die Metho den im SAM Package versuchen diesen Aspekt auf verschiede ne Arten 1 r umliche Diskretisierung z B Kategorisierung nach Nord S d Ost und West 2 Materialisierung von Nachbarschafts Abbildung 5 11 Oracle Mining beziehungen z B Betrachtung eines Bereichs um einen Punkt oder Betrachtung der n chsten n Nachbarn 3 Identifi
56. dessen Na me auf dem Fakt basiert dass prior Knowledge voriges Wissen bei der Suche benutzt wird Der Apriori Algorithmus verfolgt dabei einen iterativen Ansatz bei dem h ufig vorkommende Daten als frequent itemsets h ufige Mengen betrachtet werden und dann die k itemsets h ufige Men gen mit k Elementen benutzt werden um nach k 1 itemsets zu suchen Eine Menge gilt als fre quent itemsets wenn diese den definierten Minimal Support f r die Assoziationsregel bersteigt Der Apriori Algorithmus macht sich dabei die Eigenschaft Alle nicht leeren Untermengen von frequent itemsets sind ebenfalls frequent bzw Wenn eine Menge nicht frequent ist so sind alle deren Obermengen wiederum nicht frequent zu nutze und reduziert damit den Suchraum Fortsetzung Beispiel Warenkorb Unter Anwendung des Apriori Algorithmus auf die Datenmenge aus diesem Beispiel s 0 wer den iterativ folgende frequent itemsets ermittelt Beispielsweise ergibt sich f r die Menge K Brot Milch dass die Artikel Brot und Milch zusammen in zwei von sechs Transaktionen enthalten sind Bei dieser Menge handelt sich also um ein frequent itemset da der Support von 33 erf llt ist Eine andere Menge K Marmelade ist hingegen nur in einer von sechs Transaktionen enthalten und erreicht lediglich einen Support von 16 Das hat zur Folge dass diese Menge in den nachfolgenden Iterationen nicht mehr betrachtet werden muss Die frequent itemsets weisen e
57. diese auf weniger Dimensionen abzu bilden Das hat jedoch zur Folge dass die Darstellungen nicht mehr intuitiv interpretierbar sind In der Astronomie beispielsweise werden Himmelsk rper anhand von mehreren Merk malen geclustert FSM92 um neue Himmelsk rper zu identifizieren Aus den 40 Attributen die die Himmelsk rper beschreiben sind durch acht Attribute f r das Clustering interessant Eine sinnvolle Visualisierung der 8 Attribute ist hierbei kaum m glich Neben der Intention das implizite Wissen richtig interpretieren zu k nnen ist die Sensibilisierung des Knowledge Discovery Prozesses von Interesse Die Erkenntnisse und Ergebnisse die bisher aus dem Knowledge Discovery Prozess extrahiert wurden sollen dazu verwendet werden um den Prozess weiter zu steuern und zu sensibilisieren damit noch weiteres implizites Wissen aufgedeckt werden kann 35 3 Oracle Knowledge Discovery und Data Mining In diesem Kapitel soll die Data Mining Cartridge von Oracle beschrieben werden Zun chst wird ein kurzer berblick gegeben wobei auf die Ziele und Intentionen von Oracle eingegangen wird Danach werden die M glichkeiten f r die Benutzung der in der Cartridge zur Verf gung gestellten Funktionalit ten beschrieben Anschlie end befasst sich dieses Kapitel mit dem Aspekt welche der in Kapitel 2 vorgestellten Techniken in der Data Mining Cartridge letztendlich umgesetzt worden sind und wie diese eingesetzt werden k nnen um damit Data
58. einen Anteil von Cmin in der Konklusion B beinhalten Eine Assoziationsregel die einen Minimal Support s gt Smin und eine Minimal Confidence c gt Cmin erf llt wird Strong Association Rule starke Assoziationsregel genannt Die starken Assoziations regeln sind h ufig diejenigen die sp ter an den Benutzer weitergegeben werden da ansonsten die 23 2 Knowledge Discovery und Data Mining Gefahr besteht dass zu viele unwichtige und triviale Assoziation ermittelt werden Typische Werte f r den minimalen Support Smin sind 0 01 1 und der minimalen Confidence Cmin sind 0 5 50 Joa allgemein kleiner Wert f r den Support und gro er Wert f r die Confidence Assoziationsregeln k nnen verschiedene Formen annehmen wobei berwiegend zwischen ein dimensionalen und mehrdimensionalen unterschieden wird Bisher wurden sie lediglich in einer Dimension also eindimensional betrachtet Beispielsweise kann die Warenkorbanalyse durch das Pr dikat enth lt beschrieben werden d h eine Assoziationsregeln hat die ver nderte Form ent h lt X Brot gt enth lt X Erdnuss Butter wobei X f r einen Warenkorb steht e eindimensionale Assoziationsregeln Diese Form beinhaltet lediglich ein Pr dikat Attribut und findet wie bereits angedeutet in der Warenkorbanalyse Anwendung enth lt X Brot enth lt X Erdnuss Butter e mehrdimensionale Assoziationsregeln Diese Form beinhaltet mehrere Pr dikate Attri
59. einen schnellen berblick ber die G te des Klassifikators d h die Klassifikation von Daten in die jeweiligen Klassen wobei die Gewichtung von richtig klassifizierten und falsch klassifizierten Daten detailliert aufgef hrt wird Au erdem kann mit der Confusion Matrix die Genauigkeit bzw die Fehlerrate des Klassifikators gemessen werden a Irefferrate Ges b Fehlerrate 27 2 Knowledge Discovery und Data Mining Ist die Genauigkeit des Modells akzeptabel kann das Modell zur Klassifizierung neuer Datens tze verwendet werden Ist die Genauigkeit nicht akzeptabel so wird oftmals von Overfitting ber spezialisierung oder Underfitting Unterspezialisierung des Modells gesprochen d h das Modell wurde entweder zu genau zu komplexes Modell oder zu ungenau zu einfaches Modell an die Trainingsdaten angepasst und liefert im Vergleich schlechtes Ergebnis f r unbekannte Daten In Mit97 wird beispielsweise Overfitting folgenderma en definiert Eine Klassenbeschreibung L ist in Bezug auf eine Menge von Trainingsdaten berspezialisiert wenn es eine alternative Klassenbeschreibung L gibt so dass L in Bezug auf die Trainingsdaten eine geringere Fehlerrate hat als L aber in Bezug auf alle m glichen Beispiele insbesondere bisher nicht bekannte Daten wie die Testdaten eine gr ere Fehlerrate hat als L Formal l sst sich das Klassifikation folgenderma en definieren Definition Klassifikation Sei
60. er Da tenmengen und Datenvisualisierung bersichtlich dargestellt sind die anderen Fachbereiche in Abb 2 3 Hochleistungsrechnertechnik K nstliche Intelligenz Data Mining 1 NS Datenbanksysteme Selsi SEID ee Maschinelles Lernen Visualisi a i perenne f i Mustererkennung 1 Statistik Abbildung 2 3 Data Mining Bereiche 2 6 1 bersicht zum Data Mining Das Data Mining umfasst eine Menge von Methoden die zur Knowledge Discovery eingesetzt wer den k nnen Diese Data Mining Methoden lassen sich in deskriptive unsupervised und pr diktive supervised Methoden unterteilen Die pr diktiven Methoden funktionieren allgemein betrachtet nach dem Prinzip vom Lernen an Beispielen und im Gegensatz dazu kommen die deskriptiven Methoden ohne Beispiele aus Die deskriptiven Methoden charakterisieren die allgemeinen Eigenschaften der Daten Diese wer den vorwiegend eingesetzt um Informationen aus den bestehenden Daten zu extrahieren Bei spielsweise lassen sich mit deskriptive Methoden Abweichungen Regelm igkeiten oder Ballun gen in Daten finden Die pr diktiven Methoden f hren hingegen Schlussfolgerungen auf Daten an hand der Eigenschaften durch und konstruieren damit ein sogenanntes Vorhersage Modell Unter Anwendung des Vorhersage Modells soll dann eine Aussage ber neue Daten anhand von gegebe nen Eigenschaften gemacht werden k nnen Gemeinsam haben al
61. f r den Algorithmus svms_std_dev x 0 00 und Default wird durch Algorithmus bestimmt Standardabweichung f r Algo rithmus Nur svms_gaussian svms_complexity_factor x 0 00 und Default wird durch Algorithmus bestimmt Wert f r den Komplexit tsfaktor des Algorithmus svms_epsilon x 0 00 und Default wird durch Algorithmus bestimmt Wert f r den Epsilonfaktor des Algorithmus svms_outlier_rate x 0 1 x 0 1 Ausrei errate in der Trainings menge Kann nicht mit Kom plexit tsfaktor verwendet wer den Nur One Class SVM Klassifikation mit Oracle Data Mining Es soll im Folgenden der Prozess der Konstruktion des Klassifikators siehe Abb 3 8 exemplarisch beschrieben werden In Listing 3 20 wird dazu ein Code Ausschnitt gezeigt dass den Klassifikator erzeugt Die Klassifizierung soll mit dem Support Vector Machine Algorithmus durchgef hrt werden Die einzigen Parameter die in der Konfigurationstabelle CLASS_SETTINGS gespeichert werden sind der Name des Algorithmus und die Deaktivierung von Aktives Lernen Alle anderen Parameter f r die Klassifikation mit Support Vector Machine sollen vom Algorithmus automatisch bestimmt werden Bei der Klassifikation in ODM ist das Vorgehen bei der Konstruktion des Klassifikators f r alle Algorithmen gleich wobei jeweils der Name des bevorzugten Algorithmus angegeben und die ent sprechenden Parameter f r den Algorith
62. her als der Nutzen der bestehenden Attribute aus denen die neuen Attribute konstruiert wurden Beispielsweise m chte man das Attribut Fl che basierend auf den Attributen L nge und Breite einf hren 2 5 6 Attribut Reduktion Das Data Mining auf riesigen Datenmengen bezogen auf eine Attributmenge A kann sehr zeit intensiv sein Dadurch wird eine Analyse h ufig unpraktikabel und in einigen F llen sogar un durchf hrbar Die Datenreduktion durch Attribut Reduktion kann die Daten von irrelevanten oder nur schwach relevanten Attributen befreien und sich haupts chlich auf die wirklich relevanten At tribute beziehen Dazu muss eine minimale Attributmenge A C A gefunden werden so dass sich das Ergebnis hnlich zu dem der kompletten Menge verh lt Durch die Attribut Reduktion erschei nen weniger Attribute in den gefundenen Mustern und sind dadurch einfacher verst ndlich Dabei ist es notwendig eine Unterscheidung zwischen relevanten und nicht relevanten Attributen zu tref fen Methoden die zur Attribut Reduktion verwendet werden k nnen sind in CP97 und Fod02 beschrieben 2 6 Data Mining Das Data Mining ist der entscheidende Schritt im KDD Prozess und beschreibt den eigentlichen Vorgang der Knowledge Discovery Die Data Mining Verfahren die daf r eingesetzt werden sollen dabei so autonom wie m glich interessante Gesetzm igkeiten Muster in den Daten identifizie ren und extrahieren Damit das Data Mining erfolgreich verl uf
63. ins besondere durch die Erweiterung um die Be trachtung der r umlichen Autokorrelation zur R umlichen Klassifikation erweitert Diese Er weiterung wird anhand der linearen Regres Abbildung 5 7 Nachbarschaftsmatrix W SC03 sion demonstriert die in SC03 Spatial Au toregressive Regression SAR genannt wird Im Folgenden wird zum einen eine lineare Regressi onsfunktion und zum anderen dieselbe lineare Regressionsfunktion mit einer Erweiterung um die r umliche Autokorrelation gezeigt Der Einfluss der Autokorrelation wird dabei durch die Nach barschaftsmatrix W siehe Abb 5 7 und den Korrelationskoeffizienten p beschrieben Ist dieser Ko effizient 0 so ergibt sich die klassische Regressionsfunktion f X Y a X 4 8 gt Y p W Y a X 6 9 oO WwW Die Berechnung dieser SAR Funktion ist im Vergleich zur klassischen linearen Regressionsfunkti on aufgrund des Terms p W Y wesentlich komplexer Jedoch beschreibt das modifizierte Modell die r umlichen Daten durch Einbeziehung der statistischen Abh ngigkeit und der Autokorrelation bedeutend besser L sungsmethoden zur R umlichen Assoziationsanalyse Bei KH95 handelt es sich um einen der ersten Ans tze das allgemeine Konzept der Assozia tionsanalyse auf r umliche Datenbanken zu erweitern Darin wird eine Methode vorgestellt die R umliche Assoziationsregeln ermittelt wobei Assoziationen zwischen Objekten basierend auf ei ner r umlichen Beziehung beschriebe
64. llwert fiir NULL Werte Im zweiten Schritt zur Behandlung von fehlenden Werten werden die entsprechenden Werte f r die numerischen bzw die nicht numerischen Attribute ermittelt ODM stellt f r numerische und f r nicht numerische Attribute jeweils eine Methode zur Verf gung siehe Kapitel 2 4 e numerisch Berechnung des Durchschnittswerts e nicht numerisch Wert mit dem h ufigsten Vorkommen Im dritten Schritt wird die Behandlung von fehlenden Werten abgeschlossen indem eine Sicht auf der Datentabelle erzeugt wird Bei der Definition der Sicht werden die ermittelten Werte f r die Attribute benutzt um damit die NULL Werte der Datentabelle aufzuf llen In Listing 3 3 ist die Behandlung von fehlenden numerischen Werten beispielhaft dargestellt Die Behandlung von nominalen Werte erfolgt analog nur mit dem Unterschied dass andere Funktionen benutzt werden 42 3 5 Oracle Knowledge Discovery BEGIN Definition der Tabelle zur Behandlung der fehlenden Werte Tabelle speichert die Mittelwerte der Attribute die im zweiten Schritt ermittelt werden DBMS_DATA_MINING_TRANSFORM CREATE_MISS_NUMC miss_num_def_table Mittelwerte f r die Attribute werden ermittelt Ausgenommen sind die Attribute id und column_a DBMS_DATA_MINING_TRANSFORM INSERT_MISS_NUM_MEAN miss_num_def_table data_table DBMS_DATA_MINING_TRANSFORM Column_List id column_a Erstellt eine Sicht auf Basis
65. ren hingegen den eigentlichen Betrieb der Datenbank nicht sind jedoch erheblich f r das Data Mining Zum Beispiel stehen in Frageb gen eine Menge von Feldern zum Ausf llen bereit wobei einige obligatorisch und andere optional sind Es muss weiterhin zwischen Fehlwerten die gewollt sind optionale Felder im Fragebogen und Fehlwerten die nicht angegeben wurden obligatorische Felder im Fragebogen unterschieden werden Ursachen f r ersteres k nnte sein dass einige Fel der nicht als so wichtig erachtet und darum nur sporadisch angegeben werden und Ursachen f r zweiteres k nnte Nachl ssigkeit beim Ausf llen des Fragebogens sein Ein weiteres Beispiel ist der Warenkorb bei dem der Datensatz dem Warenkorb entspricht und die Attribute den Waren entsprechen In diesem Fall sind fehlende Werte normal und m ssen nicht behandelt werden da davon ausgegangen werden kann dass lediglich eine kleine Teilmenge des Warenangebotes gekauft wird Zur Behandlung der fehlenden Werte stehen einige Techniken zur Verf gung die die fehlenden Werte sinnvoll auff llen HK00 WIK06 DLR77 1Data Cube Speicherung von mehrdimensionalen aggregierten Daten Einsatz bei OLAP und Data Warehousing 2OLAP Online Analytical Processing 10 2 4 Preprocessing Datensatz mit fehlenden Werten ignorieren Manuelles Auff llen der fehlenden Werte Fehlende Werte mit einer globalen Konstante auff llen z B Unknown Mittelwert zum Auff llen verwe
66. ten 80iger Jahren des 20 Jahrhunderts bis heute stark weiterentwickelt hat In dieser Zeit sind Verfahren entwickelt worden die die Suche nach versteckten und interessanten Informationen in Daten erm glichen um daraus Schlussfolgerungen ber Gesetzm igkeiten ziehen zu k nnen ohne vorher zu wissen welcher Art diese sind Die Gesetzm igkeiten werden dem Benutzer im Anschluss an den Data Mining Prozess in einer verst ndlichen Form pr sentiert Das Data Mining findet dabei in vielen verschiedenen Bereichen Anwendung z B in Texten Text Mining im Internet Web Mining in Bildern und Filmen Multimedia Mining und in Daten in Form von Tabellen Die Datenbanksystem Entwickler Oracle Microsoft IBM etc haben die enorme Bedeutung des Data Mining und den steigenden Einsatz und Nutzen in j ngster Zeit durch Unternehmen erkannt und haben ihre Produkte um diese Errungenschaften erweitert so dass das Data Mining komfor tabler durchgef hrt werden kann Oracle beispielsweise stellt f r das Data Mining in relationalen Datenbanken die Data Mining Cartridge zur Verf gung Darin sind daf r einige g ngige und gut erforschte Algorithmen f r das Data Mining und allgemein f r den KDD Prozess integriert In dieser Arbeit soll das Potential von Oracle in Bezug auf Data Mining in r umlichen Datenban ken untersucht und erweitert werden Die Hauptbestandteile der Untersuchung werden die Data Mining Cartridge die Spatial Cartridge und die Verbi
67. umliche numerische Attribut vorgibt e Eine Aggregierungsfunktion d h AVG MAX etc die die numerischen Werte der spezifizierten Nachbarschaft zusammenfasst 119 5 Data Mining in r umlichen Datenbanken e Spezifikation der Nachbarschaft z B distance 5 unit km entspricht einem Puffer von 5km Radius um die Geometrie oder der Anzahl der Nachbar Objekte z B sdo_num_res 5 entspricht 5 n chsten Nachbar Objekte Um die nicht numerischen Attribute der Nachbar Objekte ebenfalls abzubilden ist ein anderer Me chanismus zu definieren Eine M glichkeit der Materialisierung der nicht numerischen Attribute basiert auf dem Mehrheitsentscheid d h bei Betrachtung von n Nachbar Objekten wird der am h ufigsten vorkommende Wert eines gegebenen Attributs als Repr sentant gew hlt F r die Rea lisierung bietet das SDO_GEOM Package die Funktion SDO_NN an die die n n chsten Nachbarn eines Objektes bestimmt Im Folgenden wird ein Algorithmus zur Transformation der nicht numerischen Attribute der n Nachbarn angegeben EINGABE Geometrie Objekt G Attribut A und Anzahl der Nachbar Objekte n AUSGABE Wert f r das nicht numerische Attribut METHODE 1 Berechne die n n chsten Nachbar Objekte von G 2 Ermittle den h ufigsten Wert f r das Attribut A 3 R ckgabe des ermittelten Wertes 5 3 5 Materialisierung von topologischen Beziehungen Die Integration von materialisierten topologischen Beziehungen in das Spatial Data Mining ist
68. und Transformation In diesem Schritt wird das Preprocessing und die Transfor mation der Daten durchgef hrt Da die Daten jedoch derart stark selektiert wurden dass keine fehlenden Werte enthalten sind kann auf eine Behandlung von fehlenden Werte verzichtet werden 79 4 Data Mining Ein Beispiel 20000 1 1 20000 T T Filme pro Jahr Filme pro Jahr at 15000 F 4 15000 4 10000 F 4 10000 F 4 we po de Hr 5000 F ele 3 5000 F J ae re uaii 0 1 1 0 l 1920 1930 1940 1950 1960 1970 1980 1990 2000 2010 1990 1995 2000 2005 2010 a Filme pro Jahr von 1920 2005 b Filme pro Jahr von 1990 2005 Abbildung 4 2 Diagramm von Jahr und Anzahl produzierter Filme pro Jahr Auch eine Behandlung der Ausrei er im Preprocessing Schritt wird nicht durchgef hrt da sie bei der vorliegenden Kurve die offensichtlich monoton steigend ist keinen Sinn macht Im Transformationsschritt werden die Attribute Jahr und Anzahl der Filme pro Jahr normiert Der Grund ist dass der Algorithmus f r die Regressionsanalyse in ODM von einer Normierung profitieren kann Ora06d Als Normierungsfunktion wird die Min Max Normierung siehe Kapitel 2 5 verwendet Listing 4 9 demonstriert die Normierung der Daten BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_NORM_LINC conf_reg_sample_1_1 DBMS_DATA_MINING_TRANSFORM INSERT_NORM_LIN_MINMAX conf_reg
69. und reale Werte nach Umrechnung rechts ATTRIBUTE_NAME COEFFICIENT ATTRIBUTE_NAME COEFFICIENT ST BREITEN 23 DER EG 1 5 ee ied qo Ses eee aes ST Nessie LS et YEAR 9488868 YEAR 649 4 0611781 1286548 Listing 4 13 Definition der Regressionsfunktion 4 2 2 Erfahrungen mit der Regressionsanalyse in ODM Bei der Regressionsanalyse in ODM die den Support Vector Machine Algorithmus verwendet wird bei vielen Problemen bevorzugt der Gauss Kernel benutzt da dieser flexibler als der lineare Kernel ist Beim Gauss Kernel besteht jedoch nicht die M glichkeit die konstruierte Regressionsfunktion zu betrachten und damit die Rechnung nachzuvollziehen Die eigentliche Abh ngigkeit einer Va riablen bzw eines Attributs von anderen Attributen kann zwar berechnet werden aber man erf hrt nicht wie Der lineare Kernel hingegen erm glicht es durch Betrachtung der Koeffizienten f r die jeweiligen Attribute die Regressionsfunktion zu verstehen und die Berechnung nachzuvollziehen Jedoch lassen sich reale Probleme kaum durch lineare Funktionen beschreiben siehe Kapitel 2 6 4 Die Verwendung kann aber durch eine explizite Angabe in der Konfigurationstabelle siehe oben erzwungen werden 4 3 Clustering In der Movie Datenbank soll eine demographische Analyse der Schauspieler vorgenommen wer den bei der die Personen eingeschr nkt auf Schauspieler zu Cluster zusammengefasst werden sollen Das Ziel des Clustering besteht in einer Unterteilu
70. ur faches Vorkommen von r umlichen Eigenschaften x sogenannten spatial features in einer r umlichen Um T a gebung In Abb 5 3 ist beispielsweise ein zwei di t mensionaler Raum dargestellt in dem sowohl die i Fi spatial features und x sowie die spatial featu res und o und r umlich betrachtet ge meinsam auftreten Im geographischen Kontext re 4 7 pr sentiert ein spatial feature bei der Co Location Ana P Ri lyse ein geographisches Objekt das entweder vor L 5 y handen oder nicht vorhanden ist im Bezug auf ei i ne Position im Raum z B symbiotische Lebensge m m u m mn meinschaften Clownfisch und Seeanemone in Abbildung 5 3 Beispiel Co Location HPX06 der Okologie Diese Co Location der beiden Orga nismen ist in der nachfolgenden Co Location Regel dargestellt wobei der r umliche Kontext zu beachten ist in der die Regel eingebettet ist Der Auf bau einer Co Location Regel ist dabei an die Form der Assoziationsregeln orientiert Die Regel be sagt Wenn die Seeanemone im Ozean an der Position P vorhanden ist dann ist ebenfalls der Clownfisch x an der Position P vorhanden Seeanemone Clownfisch Dabei ist die Co Location Analyse mit der Assoziationsanalyse vergleichbar Tats chlich gibt eine Vielzahl von bereinstimmungen z B ein item in der Assoziationsanalyse entspricht einem spatial feature in de
71. 06512 at DMSYS DBMS_DATA_MINING line 305 Listing 4 20 Clustering O Cluster Algorithmus Beim Versuch eine Menge mit dem Enhanced k Means Algorithmus in 8 Cluster zu untertei len erzeugte der Algorithmus die gew nschte Anzahl an Cluster jedoch wurde die gesamte Menge genau einem Cluster zugeordnet Dieses Vorgehen verst t aber gegen die Definiti on eines Clusters siehe Kapitel 2 wonach jeder Cluster mind ein Element enthalten muss In Listing 4 21 ist die dazugeh rige Cluster Hierarchie abgebildet wobei die Cluster mit ID 2 4 6 8 10 12 14 15 die gesuchten Cluster sind Eine Anfrage zur Auflistung der Cluster Regeln Zeile 15 ff liefert dabei au erdem lediglich die Regel f r den Cluster mit der ID 15 SELECT id parent tree_level as level record_count as count FROM table DBMS_DATA_MINING GET_MODEL_DETAILS_KMC model ID PARENT LEVEL COUNT ID PARENT LEVEL COUNT 1 1 7235 9 7 5 7235 2 1 2 0 10 9 6 0 3 1 2 7235 11 9 6 7235 4 3 3 0 12 11 7 0 5 3 3 7235 13 11 7 7235 6 5 4 0 14 13 8 0 7 5 4 7235 15 13 8 7235 8 T 5 0 Das Beispiel aus der Oracle Data Mining Cartridge funktioniert jedoch aus unersichtlichen Gr nden 87 4 Data Mining Ein Beispiel 4 Ausgabe der Cluster Regeln fiir die 10 Cluster 5 SELECT A rule rule_id as id A rule rule_support as support 6 A rule rule_confidence 100 as confidence 7 FROM table DBMS_DATA_MINING GET_MODEL_DETAI
72. 2 Geometrie vom Typ Linie oder Multi Linie DANN Behandle Geometrie nach der obigen Methode fiir Linien Gehe zu Punkt 2 Geometrie vom Typ Polygon oder Multi Polygon DANN Behandle Geometrie nach der obigen Methode f r Polygone Gehe zu Punkt 2 Geometrie nicht vom unterst tzten Typ DANN Ignoriere Datensatz und gehe zu Punkt 2 Bemerkungen zum Algorithmus In Oracle werden Methoden bereitgestellt die Basis Operationen auf geometrischen Objekten durch f hren Folgende Methoden die im SAM Package und SDO_GEOM Package enthalten sind k nnten bei einer Implementierung benutzt werden e SDO_AREA Berechnet die Fl che eines Polygons e SDO_CONVEXHULL Berechnet die konvexe H lle eines Polygons e SDO_CENTROID Berechnet den Centroiden einer Geometrie o AGGREGATES_FOR_GEOMETRY Berechnet den prozentualen Anteil einer Geometry zu einer an deren Geometrie o AGGREGATES_FOR_LAYER Berechnet den jeweiligen prozentualen Anteil aller Geometrien in Bezug auf eine Menge anderer Geometrien z B Raster ber eine Geometrie Polygon gelegt e TILED_BINS Erzeugt ein Raster nach vorgegebener Granularit t Durch die Materialisierung der r umlichen Attribute hat die Tabelle nun ausschlie lich Standard Datentypen und kann mit den Mechanismen der Oracle Data Mining Cartridge verarbeitet werden 118 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen 5 3 4 Materialisierung von Nachbarschaftsbeziehu
73. 5 4 5 Attribut_B Wert_3 12 41465 4 5 Attribut_C Wert_8 12 41465 4 5 Attribut_D Wert_2 12 41465 4 12 Attribut _A Wert_1 3 724395 3 12 Attribut_E Wert_3 3 724395 3 12 Attribut_D Wert_4 3 724395 3 Listing 3 18 Ausgabe der Frequent Itemsets Listing 3 19 zeigt die SQL Anfrage die die Ausgabe der Top 10 Assoziationsregeln bewirkt Bei den Assoziationsregeln sind die Pr misse und die Konklusion der Regel als geschachtelte Tabelle gespeichert und wie bereits bei den Frequent Itemsets verteilt die SQL Anfrage die Assoziations regel ber mehrere Zeilen In Listing 3 19 sind demnach zwei Assoziationsregeln ID 1003 und ID 1004 dargestellt deren Pr misse jeweils aus drei Elementen besteht SELECT A rule_id as id A rule_support 100 as sup A rule_confidence 1i00 as conf 60 3 5 Oracle Knowledge Discovery B attribute_name as ante C attribute_name as cons FROM TABLE DBMS_DATA_MINING GET_ASSOCIATION_RULES ASSO_MODEL 10 A TABLE A antecedent B TABLE A consequent C ID PRAMISSE KONKLUSION SUP CONF 1003 Attribut_A Wert_1 Attribut_C Wert_8 0 12 100 1003 Attribut_B Wert_3 Attribut_C Wert_8 0 12 100 1003 Attribut_D Wert_2 Attribut_C Wert_8 0 12 100 1004 Attribut_A Wert_1 Attribut_E Wert_3 0 12 100 1004 Attribut_D Wert_4 Attribut_E Wert_3 0 12 100 1004 Attribut_D Wert_3 Attribut_E Wert_3 0 12 100 Listing 3 19 Ausgabe der Assoziationsregeln Kl
74. 6503 60 0 92 1993 7742 7001 741 10 58 1995 9041 8210 831 10 12 1999 11639 11949 310 2 59 2004 14886 16462 1576 9 57 2005 15535 16688 1153 6 91 Listing 4 12 Vergleich reale Werte vs vorhergesagte Werte Testdaten mit linearer Funktion 5 Darstellung amp Auswertung der Ergeb 20000 T r 7 5 2 aten E nisse Die Regressionsfunktion kann nur Regressionsfunktion vom Benutzer eingesehen werden wenn bei der Konstruktion der lineare Kernel ver ER el wendet worden ist Die Angabe der Regres FR sionsfunktion beschr nkt sich auf die Auf oo u listung der Koeffizienten f r die einzelnen Pe a Attribute In Listing 4 13 wird die SQL ae Anfrage gezeigt die die Informationen al sooo J so die Koeffizienten f r die Regressions funktion liefert Die Zusammensetzung In terpretation der Koeffizienten ergibtin die Oa a ia Ge aa o o a sem Beispiel folgende Regressionsfunkti Abbildung 4 3 Regressionsfunktion on f f AnzahlderFilme 649 4 x YEAR 1286548 In Abb 4 3 ist diese Regressionsfunktion graphisch abgebildet Beim Gauss Kernel arbeitet die Re gressionsfunktion nach dem Black Box Prinzip und es besteht keine M glichkeit sich die Funktion anzusehen 82 4 3 Clustering SELECT B attribute_lname round B coefficient 10 as coefficient FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_SVM test_reg_1 A TABLE A attribute_set B normierte Werte links
75. A berlappt B metrische Beziehungen Die metrische Beziehung beschreibt geometrische Berechnungen die durch die Koordinaten zweier Objekte und ein Referenz System z B das metrisches Sys tem bestimmt werden In Bereichen mit geographischem Bezug findet die euklidische Geo metrie mit dem euklidischen Abstand siehe Kapitel 2 6 2 zur Berechnung von metrischen Beziehungen Anwendung 3 O _ gerichtete Beziehungen Die gerichtete Beziehung beschreibt die relative Lage von zwei Ob jekten zueinander im geometrischen Raum z B A NordWest_von B Zur exakten Beschrei bung einer gerichteten Beziehung sind zwei Objekte und ein fester Referenzpunkt notwendig Grunds tzlich lassen sich diese Beziehungen durch numerische Werte z B Winkelangabe oder durch Symbole z B Norden S den Ost West rechts links beschreiben 5 2 Spatial Data Mining Das Data Mining wird bei der Anwendung auf r umliche Datenbanken Spatial Data Mining ge nannt Es dr ngt sich jedoch die Frage auf warum das Data Mining in diesem Zusammenhang eine neue Bezeichnung erh lt Der Grund liegt zum einen in der Darstellung der r umlichen Da ten d h komplexe geometrische Daten und zum anderen in der um r umliche Aspekte erweiterte Betrachtung die in r umlichen Datenbanken implizit gespeichert sind 94 5 2 Spatial Data Mining In HAK00 wird das Spatial Data Mining folgenderma en beschrieben Spatial Data Mining refers to the extraction of knowledge
76. A Clustering LARge Applications KR90 Die Qualit t und Skalierbarkeit von CLARA wurde anschlie end noch mit dem Verfahren CLARANS Cluste ring Large Applications based on RANdomized Search NH94 NH02 gesteigert Beispiel einer Partitioning based Methode Das partitioning based Clustering soll anhand u des bekannten und weit verbreiteten k Means 4 e af ie Verfahrens gezeigt werden Es sei folgende Da tenmenge X gegeben X 01 0n 1 1 clo 1 2 2 2 3 1 1 5 1 5 3 5 0 5 4 1 3 25 2 e ot fe sen 2 3 4 In Abb 2 7 a ist diese Menge gra 6 3 ne phisch in einem Diagramm aufgetragen Wei ee ter sei die Anzahl der Cluster durch K und der te x x Mittelpunkt Mean des Clusters k durch Mg 1 2 03 4 0 1 2 3 0 4 Ye mito R2 D Alter 2 b Re en Vie pu e Abbildung 2 7 Beispiel k Means n gibt sich aus dem Durchschnitt der n Objekte im Cluster wobei die Objekte 0 komponentenweise betrachtet werden F r die Qualit tsfunktion q wird das Squared Error Kriterium JMF99 verwendet K 9 R g C1 Cx se K X 2 D M j 1i Dabei handelt es sich bei ol um das i te Objekt im j ten Cluster und bei Mj um den Mittelpunkt im j ten Cluster Anmerkung Die innere Summe des Squared Error Kriteriums berechnet die qua dratische Differenz f r ein einzelnes Cluster j und die u ere Summe fasst die Ergebnisse der ein zelnen Cluster zu einem Wert zusammen In
77. ASSOCIATION data_table_name gt data case_id_column_name gt object_id setting_table_name gt ASSO_SETTINGS Listing 3 2 Konstruktion eines Modell Objektes Assoziationsanalyse le und f werden in ODM in Anlehnung an HK00 als Data Mining Methoden betrachtet 40 3 5 Oracle Knowledge Discovery Informationen im Modell Objekt Das Modell Objekt speichert alle relevanten Informationen zu einer Data Mining Aufgabe Um an diese gespeicherten Informationen zu gelangen stellt ODM f r jede Data Mining Methode und jeden Data Mining Algorithmus Zugriffs Methoden bereit mit denen auf das Modell Objekt zu gegriffen werden kann Beispielsweise lassen sich damit die Ergebnisse der Assoziationsanalyse die Assoziationsregeln und die frequent itemsets siehe Kapitel 2 6 3 abrufen und ausgeben Die Methoden mit denen Informationen aus dem Modell Objekt abgerufen werden k nnen unter scheiden sich zum einen in Methoden die das Ergebnis einer Data Mining Aufgabe abrufen und verarbeiten und zum anderen in Methoden die die Einstellungen f r eine Data Mining Aufgabe abrufen In der folgenden Auflistung werden diese Methoden kurz beschrieben e Die GET_MODEL_DETAILS Methode erlaubt den Zugriff auf alle Ergebnisse falls vorhanden die durch das Data Mining ermittelt wurden e Die Methode GET_MODEL_SIGNATURE und GET_MODEL_SETTINGS liefern eine Beschreibung des Modell Objektes d h Informationen die bei
78. A_MINING feature_extraction data_table_name gt data case_id_column_name gt object_id Listing 3 11 Berechnung der Feature Extraction Das Ergebnis der Feature Extraction ist eine Menge von Faktoren die sich aus mehreren At tributen der Basisdaten zusammensetzen und sich tiber die Funktion GET_MODEL_DETAILS_ NMF abrufen lassen Den Attributen in den Faktoren sind Koeffizienten zugeordnet die aus driicken welchen Anteil sie am Faktor haben In ODM werden numerische und nominale Attribute unterschiedlich behandelt Die nomi nalen Attribute werden als Name Wert Paare beschrieben d h jeder Wert eines nominalen Attributes erh lt seinen eigenen Koeffizienten und die numerischen Attribute werden nur mit dem Namen beschrieben Eine Auflistung der Faktoren ist beispielhaft in Listing 3 12 dar gestellt wobei es sich ausschlie lich um numerische Attribute in den Faktoren handelt Berechnung der Feature Extraction f r das Attribut target SELECT feature_id attribute_name attribute_value coefficient FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_NMFC model_nmf F TABLE F attribute_set A ORDER BY feature_id coefficient FEATURE_ID ATTRIBUTE_NAME ATTRIBUTE_VALUE COEFFICIENT 1 Attribut_A 5 6996389 Attribut_B 0 9815716 Attribut_C 86 7749359 Attribut_D 1 6792973 2 Attribut_A 7 4687617 Attribut_B 20 929389 3 Attribut_A 43 3020941 Attribut_B 5 6996389 4 Attribut_E Wert_1 12 3020941 Attribut_F
79. Assoziationsregeln mit der Assoziationsanalyse wird in r umlichen Daten banken zur R umlichen Assoziationsanalyse und zu R umlichen Assoziationsregeln erweitert Ei ne R umliche Assoziationsregel ist eine Regel die Beziehungen zwischen r umlichen und nicht r umlichen Attributen eines geographischen Objektes in r umlichen Datenbanken beschreibt Zum Beispiel repr sentiert die Regel Gro e St dte in Deutschland liegen im Westen eine R umliche Assoziationsregel KH95 Das folgende Beispiel stellt eine konkrete R umliche Assoziationsregel mit einem Support s 5 und einer Confidence c 90 dar Die Regel beschreibt das 90 der gro en St dte die am Meer gelegen sind einen Hafen besitzen Das Pr dikat in_der_N he_von beschreibt dabei eine metrische Beziehung ist_eine X gro e Stadt A in_der_N he_von X Meer besitzt X Hafen Neben dem verwendeten Pr dikat in_der_N he_von k nnen eine Vielzahl von r umlichen Pr di katen die aus den r umlichen Beziehungen abgeleitet sind in einer R umliche Assoziationsregel enthalten sein Anmerkung Eine Regel wird R umliche Assoziationsregel genannt wenn mind ein Pr dikat in der Pr misse oder Konklusion ein r umliches Pr dikat ist ansonsten handelt es sich um eine normale Assoziationsregel KH95 Co Location Analyse 5 J Bei der Co Location Analyse wird nach Spatial Co Location Regeln gesucht Diese beschreiben ein mehr a t
80. Ausrei ern Die Parameter f r den Naive Bayes Algorithmus sind der folgenden Tabelle zu entnehmen Parameter Werte Beschreibung algo_name algo_naive_bayes Spezifiziert Naive Bayesian als Klassifikations Algorithmus nabs_singleton_threshold x 0 1 x 0 01 Es sollen nur die Werte von At tributen ber cksichtigt werden die diesen Grenzwert ber schreiten nabs_pairwise_threshold x 0 1 x 0 01 Das gleiche wie Single Thres hold jedoch gilt dieser Grenz wert f r zwei Werte von Attri buten Adaptive Bayesian Network Klassifikation Bei dem Adaptive Bayesian Network Algorithmus ABN handelt es sich einen propriet ren Al gorithmus von Oracle Die Grundlage dieses Algorithmus basiert auf einem informationstheoreti schen Ansatz Minimum Description Length der Attribute sogenannte Pr dikatoren ausw hlt anhand derer die Klassifikation durchgef hrt wird Diese Art der Klassifikation lehnt sich dabei an das Prinzip des Bayesschen Netzes siehe Kapitel 2 6 4 an Das ABN Modell besteht aus einer Menge von Network Features die durch den Minimum Des cription Length Algorithmus ermittelt werden Einfach ausgedr ckt handelt es sich beim Network Feature um eine Baumstruktur hnlich dem Klassifikationsbaum die sich aus einem oder mehreren Attributen zusammensetzt und mit bedingten Wahrscheinlichkeiten annotiert ist Dieser Klassifika tionsbaum stellt das Bayessches Netz dar Durch die
81. Binning ist die Zusammenfassung von hnlichen Werten in Partitionen oder in Bins Beh lter zu verstehen wodurch eine Reduzierung von unterschiedlichen Werten er zielt wird F r das Binning gibt es verschiedene berwachte und un berwachte Methoden einschlie lich den Folgenden 1 Das Binning erfolgt auf Bins gleicher Breite Equiwidth Binning Es handelt sich hier bei um eine recht einfache Technik die auf numerische Attribute angewendet wird Dazu wird das Minimum und das Maximum des Attributes bestimmt und dann in N Bins mit einer Breite d Meximum Minimum Unterteilt Die Anzahl der Bins wird dabei entweder automatisch bestimmt berwachte Diskretisierungsmethode oder vom Benutzer fest gelegt un berwachte Diskretisierungsmethode 2 Das Binning erfolgt auf Bins gleicher H he Equidepth binning Diese Technik wird auf numerische Attribute angewendet und versucht die Menge der Objekte in den Bins so auszubalancieren so dass in jedem Bin ungef hr die gleiche Anzahl ist Die Breiten der Bins sind entsprechend unterschiedlich gro Das Equidepth Binning ist eine berwachte Diskretisierungsmethode 3 Das Binning erfolgt nach den Top N h ufigsten Werten Top N Most Frequent Items Binning Diese Technik wird auf nominale Attribute angewendet und die Bezeichner f r die Bins ergeben sich aus der Berechnung der H ufigkeiten der nominalen Werte des Attributes Dabei werden die N h ufigsten nominalen Werte als Bezeichner f r die
82. Daten und dem Spatial Data Mining umzugehen Durch eine entsprechende Materialisierung besteht bereits die M glichkeit implizite Beziehungen sowie die Autokorrelation ausreichend abzubilden Jedoch sind dieser Methode schnell Grenzen gesetzt da entsprechende Materialisierungen einen enormen Mehraufwand in der Vorverarbeitung bedeuten Aufgrund dessen ist das Vor gehen bei der Materialisierung in den vorliegenden Beispielen auf die Grundprinzipien be schr nkt Des Weiteren ist zu beachten dass keine perfekte Materialisierung durchf hrbar ist d h durch die Materialisierung kann immer nur ein gewisser Bruchteil abgebildet werden Dadurch ergibt sich zwangsl ufig die Notwendig der Entwicklung von Data Mining Algo rithmen die speziell f r das Spatial Data Mining konzipiert sind und mit den Besonderheiten von r umlichen Daten umgehen k nnen In Kapitel 5 2 2 wurde diesbez glich die zweite Al ternative beim Spatial Data Mining identifiziert bei der sowohl das Data Mining als auch das Ergebnis im r umlichen Kontext betrachtet worden ist Auf diese Weise k nnte die Vor verarbeitung wie sie bei der Materialisierung der Fall war reduziert werden wodurch das Hauptaugenmerk wieder auf das Data Mining gelegt werden kann Die L sungsans tze aus der Literatur siehe Kapitel 5 2 2 schlagen bereits verschiedene Methodiken zum Spatial Data Mining vor Die Einf hrung von effizienten Datenstrukturen zur Abbildung von Nachbarschaften und die
83. Datens tze ID Jahreszahl YEAR und Anzahl der produzierten Filme ANZ_MOVIE enth lt Des weiteren sind die Daten auf die Jahre zwischen 1920 und 2005 beschr nkt CREATE TABLE regression_data AS select rownum as id year anz_movie from select year count a movie as anz_movie from moviedb movie a where year gt 1920 and year lt 2005 group by year f Listing 4 8 Daten zur Regressionsanalyse In Abb 4 2 a sind die Daten dieser Tabelle graphisch in einem Diagramm dargestellt Aus dem Diagramm ist erkennbar dass die Regressionsfunktion zwischen den Jahren 1920 und 2005 nicht linear verlaufen wird Da die Regressionsanalyse in ODM mit dem Support Vector Maschine Algorithmus siehe Kapitel 3 durchgef hrt wird werden im nicht linearen Fall keine Informatio nen ber das Modell und somit auch keine Angaben ber die Regressionsfunktion verf gbar sein Aus diesem Grund wird der Bereich zur Definition der Regressionsfunktion im zweiten Schritt auf die Jahre zwischen 1990 und 2005 beschr nkt da die Regressionsfunktion in diesem Bereich ver mutlich linear ist Der eingeschr nkte Bereich ist in Abb 4 2 b graphisch dargestellt Anmerkung Die Veranschaulichung des Problems mittels der Diagramme ist in diesem Beispiel gut realisierbar und vermutlich erscheint dadurch die Regressionsanalyse berfl ssig aber der Aspekt der Visualisierung geht bei mehr dimensionalen Problemen schnell verloren 2 Preprocessing
84. EL_DETAILS_AIC model_ai ORDER BY rank ATTRIBUTE_NAME IMPORTANCE_VALUE RANK Attribut_A 0 537029338 1 Attribut_B 0 443330186 2 Attribut_C 0 371838964 3 Attribut_D 0 115636359 4 Attribut_E 0 354888343 5 Listing 3 10 Ergebnis der Attribute Importance Feature Extraction Die Feature Extraction Funktion erstellt auf Grundlage der Basisdaten eine Menge von Faktoren sogenannte Eigenschaften die die wichtigsten Informationen beinhal ten um die Basisdaten zu charakterisieren Die Faktoren k nnen also mehrere Attribute in sich vereinigen z B dadurch dass ein Faktor einer Linearkombination dem urspr nglichen Attri 49 3 Oracle Knowledge Discovery und Data Mining bute entspricht und dadurch die notwendige Menge der Attribute zur Beschreibung der Ba sisdaten reduzieren Die Faktoren die die Daten beschreiben sind auf einen geringen Bruch teil reduzierbar ohne das eine signifikante Ungenauigkeit entsteht wodurch Attribute mit geringem Anteil am Faktor weggelassen werden k nnen ODM implementiert die Feature Extraction mittels des Non Negative Matrix Factorization DL99 In Listing 3 11 wird eine Feature Extraction durchgef hrt Es sei angenommen dass ein Pre processing und eine Transformation der Daten bereits durchgef hrt worden ist Berechnung der Feature Extraction f r das Attribut target DBMS_DATA_MINING CREATE_MODEL model_name gt MODEL_FE mining_function gt DBMS_DAT
85. Ebene zugelassen werden Eine M glichkeit besteht in der Reduzie rung der konvexen H llen Abb 2 19 a und b um einen definierten Grenzwert wodurch erreicht wird dass der Einfluss der einzelnen Objekte in der Menge reduziert wird Durch diese Ma nahme l sst sich der bisherige L sungsansatz wieder anwenden Es soll ebenfalls wieder eine Maximierung der Margin und zus tzlich eine Minimierung der Fehler erreicht werden Nicht linearer Fall Es sei ein bin res Klassifi kationsproblem Identifikation von Betrugsf l len gegeben dass nicht gut durch ein lineares Modell beschrieben werden kann z B wird ein quadratisches Modell zur optimalen L sung be n tigt Ein nicht linearer Fall wird aus diesem Grund durch eine nicht lineare Abbildung x 6 x transformiert Abb 2 20 Dadurch wird der nicht lineare Fall zum linearen Fallund Abbildung 2 20 Behandlung Nicht linearer Fall kann wie bisher behandelt werden Es ergibt sich zun chst das Problem eine geeignete Repr senta tion als nicht lineare Transformation zu finden Daf r stehen verschiedene Transformationen soge nannte Kernel zur Verf gung z B Polynomial Kernel oder Gauss Kernel 2 6 5 Regression Die Regression ist vergleichbar zur Klassifikation Beide Verfahren stellen ein Vorhersage Modell dar wobei die Klassifikation benutzt wird um diskrete und nominelle Werte vorherzusagen und Regression benutzt wird um numerische kontinuierliche und geo
86. Film muss vom Typ cinema sein e Film wurde in den U S A gedreht sogenannter Hollywood Film e Film stammt aus den Jahren zwischen 1950 und 2000 e Im Film m ssen mind 2 Schauspieler obige Einschr nkung der Schauspieler mitspielen 2 Preprocessing und Transformation Ein Teil des Preprocessing wurde bereits im ersten Schritt bei der Bereitstellung der Daten durchgef hrt Zum Preprocessing geh ren nach Kapitel 2 u a die Behandlung von fehlenden Werten und von Ausrei ern Beides ist in diesem Fall nicht notwendig da zum einen fehlende Werte wenn diese auftreten gewollt sind und zum anderen Ausrei er bei diesem Beispiel und dieser Data Mining Methode nicht vorkommen k nnen Eine Transformation mit den Methoden wie sie in Kapitel 2 und 3 beschrieben wurden ist bei die sem Beispiel der Assoziationsanalyse ebenfalls nicht notwendig Denn eine Normierung der Attri bute ist nur bei numerischen Werte durchf hrbar die in diesem Beispiel nicht vorhanden sind Eine Diskretisierung der Attribute kann zwar auch f r nicht numerische Attribute durchgef hrt wer den ist aber in diesem Fall nicht sinnvoll Auch eine Attribut Reduktion muss nicht durchgef hrt werden da die Daten bereits gen gend eingeschr nkt sind Weiterhin ist noch zu bedenken dass die bereitgestellten Daten in der Tabelle asso_pre_prepared als Film Schauspieler Paar gespeichert sind Listing 4 1 wodurch die einzelnen Datens tze jedoch nicht eindeutig durch den Fi
87. Geographic Information Systems In In SBBD Workshop on Data Mining Algorithms and Applications WAAMD 06 Florianopolis Brazil 2006 9 16 M Ward Finding Needles in Large Scale Multivariate Data Haystacks IEEE Computer Graphics 24 5 2004 16 19 WEKA 3 Data Mining Software in Java Wikipedia The Free Encyclopedia 2006 W Wang J Yang R R Muntz STING A Statistical Information Grid Approach to Spatial Data Mining In Twenty Third International Conference on Very Large Data Bases Morgan Kaufmann Athens Greece 1997 186 195 W Yang Y Luo P Guo H Tao B He A Model for Classification of Topological Relati onships Between Two Spatial Objects In FSKD 2 2005 723 726 152 Erkl rung Hiermit versichere ich dass ich die vorliegende Arbeit und die zugeh rige Implementie rung selbst ndig verfasst und dabei nur die angegebenen Quellen und Hilfsmittel verwen det habe Hannover 30 M rz 2007 Markus Spehling 153
88. INGABE 1 Referenz Schicht Objekt Tabelle 2 Schicht Tabelle thematische Karte 3 Art der topologischen Beziehung AUSGABE Referenz Schicht erweitert um ein boolesches Attribut METHODE 1 Erstelle eine neue Spalte in der Tabelle Bezeichnung topologische Beziehung und thematische Karte 2 F r jede Geometrie R in der Referenz Schicht 2 1 F r jede Geometrie G in der thematischen Karte WENN Art der topo Beziehung zwischen R und G DANN Merke TRUE f r die topo Beziehung f r R 2 2 WENN topologische Beziehung TRUE DANN F ge TRUE f r Geometrie R ein sonst FALSE 2 3 Gehe zu Punkt 2 3 R ckgabe der Referenz Schicht um die topologische Beziehungen Bemerkungen zum Algorithmus In Oracle werden Methoden bereitgestellt die die topologischen Beziehungen zwischen geometri schen Objekten berechnen k nnen Dazu ist in Oracle Spatial das 9 Intersection Modell implementiert Die Untersuchung der topologischen Beziehung zwischen zwei geometrischen Objekten erfolgt un ter Benutzung der in Oracle definierten 12 Beziehungen den sogenannten Masken Tie03 ORAb Diese Masken lassen sich mit dem Operator SDO_RELATE oder der Funktion RELATE aus dem SDO_ GEOM Package kombinieren um die topologischen Beziehungen zwischen zwei geometrischen Ob jekten zu ermitteln Eine weiterf hrende Analyse der Problematik der topologischen Beziehungen wird in Tie03 durchgef hrt 5 3 6 Materialisierung von metrischen Beziehungen Die Integration von me
89. Klassifikator ermittelt die Klasse C zu der der neue Datensatz zugeh rig ist Das Ziel ist den Ausdruck P C A1 An zu maximieren was nach Bayes quivalent zur Maximierung des Aus drucks P A1 An C P C ist Die Naive Bayes Klassifizierung ist der normalen Bayessche Klassifizierung hnlich Es wird ledig lich angenommen dass die Attribute A An unabh ngig voneinander sind und dadurch das Maximierungsproblem wie folgt vereinfacht wird P A An C P A1 C P An C gt Maximierungsproblem P C J I P A C Die Naive Bayessche Klassifikation f r diskrete Attribute wird wie folgt definiert wobei die Wahr scheinlichkeiten durch H ufigkeiten approximiert werden 7Das Pruning bezeichnet den Vorgang der nachtr glichen Vereinfachung einer gelernten Hypothese um ein Overfitting zu verhindern WIK06 30 2 6 Data Mining P A C ze wobei A die Anzahl Objekte ist die das Attribute A besitzen und zur Klasse Cp geh ren und N die Anzahl der Objekte ist die zur Klasse Cp geh ren P Cy Ny ist die Anzahl der Objekte der Klasse C und N alle Objekte Fortsetzung Beispiel Das Kreditinstitut m chte mit Hilfe des Modells eine neue Transaktion klas sifizieren Folgende Informationen stehen zur Verf gung X Betrag mittel H ufigkeit der Transaktionen hoch Tageszeit morgens Dazu m ssen zun chst alle notwendigen Informationen berechnet werden d h P X C x
90. LEIBNIZ UNIVERSIT T HANNOVER FAKULT T F R ELEKTROTECHNIK UND INFORMATIK INSTITUT F R PRAKTISCHE INFORMATIK FACHGEBIET DATENBANKEN UND INFORMATIONSSYSTEME Masterarbeit im Studiengang Informatik Analyse und Erweiterung von Methoden des Data Mining in r umlichen Datenbanken Markus Spehling Matrikel Nr 2036328 Pr fer Prof Dr Udo Lipeck Zweitpr fer Dr Hans Hermann Br ggemann Betreuer Dipl Math Christian Stahlhut 30 M rz 2007 Zusammenf assung In den vergangenen Jahrzehnten ist durch die M glichkeit der Speicherung von gro en Daten mengen das Wachstum an gespeicherten und zu analysierenden Daten rasant angestiegen Das Data Mining beschreibt dabei eine Technik zur automatisierten Analyse In vielen Bereichen des t glichen Lebens wird diese M glichkeit der Analyse genutzt wobei dabei auf eine Vielzahl von Implementierungen zur ckgegriffen wird In r umlichen Datenbanken ist das Data Mining jedoch aufgrund besonderer Eigenschaften von r umlichen Daten nicht mit den herk mmlichen Techniken realisierbar weshalb die vorhandenen Implementierungen der Data Mining Methoden nicht genutzt werden k nnen In dieser Arbeit wird ein Konzept zur Materialisierung von r umlichen Informationen entwickelt wodurch das Data Mining in r umlichen Datenbanken erm glicht werden soll indem ausschlie lich Methoden und Algorithmen f r das Data Mining in relationalen Datenbanken benutzt werden Dabei richtet sich das
91. LS_KM model A 8 table A child B 9 WHERE B ID IS NULL 21 ID SUPPORT CONFIDENCE 2 ee SSeS eesrs 23 15 6766 93 Listing 4 21 Clustering K Means Algorithmus 4 4 Klassifikation Eine weitere interessante Fragestellung ergibt sich wenn der Einfluss von Schauspielern die in einem Film mitgespielt haben auf den Erfolg eines Filmes untersucht wird Diese Frage l sst m gli cherweise sich mit der Klassifikation als Data Mining Methode beantworten Die Daten die f r die Klassifikation notwendig sind sind die Schauspieler und das Rating Bewertung bezogen auf den entsprechenden Film Die Klassifikation erfolgt wiederum in mehreren Schritten die im folgenden aufgelistet und be schrieben sind 1 Bereitstellung der Daten Preprocessing und Transformation Data Mining Klassifikation Verifizierung des Klassifikators Genauigkeit Klassifikation neuer Filme oF WN 4 4 1 Klassifikation Einfluss von Schauspielern auf die Bewertung des Films 1 Bereitstellung der Daten Im ersten Schritt werden wieder alle notwendigen Information fiir die Data Mining Aufgabe gesammelt und in einer Tabelle zusammengefasst Fiir die Klassifikation sind die Schauspieler die in einem Film mitgespielt haben und die Bewertung des jeweiligen Films zusammenzufiihren Die Datenmenge die letztlich zur Konstruktion des Klassifikators verwendet werden soll lasst sich mit den folgenden Punkten beschreiben 1 Ein Schauspieler
92. Materiali sierung dargestellt Das Resultat unterscheidet entsprechend nach der Art der Materialisierung topologische 7 7 Beziehung 7 ATRA ID Geometrie Attribute Geometrie ID Topo_Materialisierung 1 FALSE 1 y gsi ay 2 TRUE 3 ey Bi rz o topologische 3 TRUE Referenz Schicht thematische Karte Materialisierung Objekt Tabelle Abbildung 6 4 Materialisierung einer topologischen Beziehung Die Prozedur insertTopoRelMaterialisation materialisiert eine topologische Beziehung durch Angabe einer Referenz Schicht die durch die Parameter Objekt Tabelle den Prim rschl ssel und dem Geometrie Objekt beschrieben wird sowie einer thematischen Karte mit Geometrie Objekt und einer geltenden topologischen Beziehung Die topologische Beziehung wird dabei durch Anga be eines g ltigen Bezeichners des 9 Intersection Modells von Spatial Oracle ORAb spezifiziert z B mask contains f r enth lt oder mask inside touch f r innerhalb oder ber hrt PROCEDURE insertTopoRelMaterialisation definition_table STRING Tabelle f r berechnete Werte object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels object_geom STRING Spalte der Geometrie theme_layer STRING thematische Karte theme_geom STRING Spalte der Geometrie topo_spec STRING topologische Beziehung Die Prozedur insertMetricRelMaterialisation materialisiert eine metrische Bezi
93. Mining zu betreiben Dieses Kapitel soll jedoch keine vollst ndige Beschreibung oder ein Benutzerhandbuch der Oracle Data Mining sein sondern soll einen Einblick geben inwieweit Oracle Methoden f r das Data Mining und allge mein f r den KDD Prozess bereitstellt Des weiteren soll ein Verst ndnis ber die Funktionsweisen und darin enthaltenen Beschr nkungen der implementierten Methoden gegeben werden 3 1 berblick Oracle hat in seinem Datenbanksystem Oracle Database 10g R2 den Funktionsumfang um Data Mining Funktionalit ten auf einen stabilen Stand erweitert so dass eine breite Basis f r das Da ta Mining zur Verf gung steht Die Erweiterung wird Oracle Data Mining ODM genannt und beinhaltet Funktionen und Algorithmen die zur Entwicklung und zum Betrieb von Data Mining Anwendungen benutzt werden k nnen Dabei wird der Begriff des Data Mining in Oracle synonym mit dem Begriff der Knowledge Discovery in Databases aus Kapitel 2 benutzt Der Knowledge Discovery Prozess der sich wie in Kapitel 2 1 beschrieben in sechs Teilschritte unterteilt wird da bei von ODM in den Schritten Preprocessing Transformation und Data Mining unterst tzt Abb 3 1 soll einen groben berblick ber die Methoden und Techniken in der jeweiligen Phase geben die die Cartridge zur Verf gung stellt In den folgenden Abschnitten soll nun die Unterst tzung von ODM in den einzelnen Schritten des KDD Prozesses n her betrachtet und deren Funktionsweisen und Besch
94. Network als Klassifikations Algorithmus abns_model_type abns_single_feature abns_naive_bayes abns_multi_feature Bezeichnet das Modell den der Adaptive Naive Bayesian Algorithmus verwenden soll abns_max_build_minutes max Zeitlimit f r die Erzeu gung des Modells x 0 bedeu tet kein Limit abns_max_nb_predictors max Anzahl von Pr diktoren zur Klassifizierung Modus 1 abns_max_predictors x 0 co x 0 x 0 c0 x 10 x 0 00 x 25 max Anzahl von Pr diktoren zur Klassifizierung Modus 2 3 Support Vector Machines Klassifikation In ODM ist der Support Vector Machine Algorithmus zur Klassifikation implementiert und un terst tzt die Klassifikation von bin ren und mehrwertigen Attributen BM05 Die Support Vector Machine implementiert zwei Kernel Funktionen 1 Linearer Kernel und 2 Gauss Kernel Die Wahl des Kernel zur Klassifikation kann entweder manuell ber den Parameter svms_kernel_function eingestellt oder automatisch durch den Algorithmus auf Basis von Statistiken bestimmt werden 64 3 5 Oracle Knowledge Discovery Die Funktionsweise des Support Vector Machines Algorithmus wird ber einige Parameter gesteu ert Da die Parameter einen entscheidenden Einfluss auf die Qualit t des Klassifikationsmodells haben k nnen die Parameter in ODM automatisch durch den Algorithmus bestimmt werden und somit f r ein optimales Ergebnis sorgen Die Bestim
95. Qualit t der Cluster Dub87 18 2 6 Data Mining Y Y Y Y A A ee A C2 N 2 4 e 4 c2 e 4 en 4 oe es 1 3 37 37 Jra Cw a CI sena S bare Cl Su T 2 4 0o e 2 Clee 2 e 0 2 je 0 e i C3 e e j er 3 ee w O ee e NE MI h MI j 1 e e 17 e m 1p ho mwe 1p mo 1 Tis ii a t t t x t t t X t t j x j t j x 0 1 2 3 4 0 1 2 3 4 0 1 2 3 4 0 1 2 3 4 Ausgangssituation 1 Iteration 2 Iteration 3 Iteration Abbildung 2 8 Partitioning based Clustering k Means b Hierarchical based Methoden AGGLOMERATIVE Hierarchische Verfahren gruppieren Objekte in eine Hierarchie von Clustern in der die Ebenen G p die hnlichkeit der Objekte wiederspiegelt Da Eu ee bei unterscheiden sich die Verfahren in agglo merative und divisive je nachdem ob die hierar chische De komposition bottom up oder top _ down ist O Der agglomerative Ansatz startet mitjedem Ob O jekt in einem eigenen Cluster und fasst diese u anhand eines Clustering Kriteriums sukzessive Abbildung 2 9 Clustering der Daten A B C D E zusammen bis alle Objekte in einem einzigen Cluster zusammengefasst sind oder ein Haltekriterium erreicht ist Der divisive Ansatz startet mit allen Objekten in einem Cluster und teilt den Cluster anhand eines Clustering Kriteriums in klei nere Cluster auf bis alle Objekte in einem eigenem Cluster sind oder ein Hal
96. Qualit tsfunktion Clustering Kriterium die die Qualit t der Partitionierung misst und auf einer Abstandsfunktion basiert welche die hnlichkeit zwischen jeweils zwei Objekten angibt Partitionierende Verfahren organisieren diese Objekte in die k Partitionen mit k lt n wobei jede Partition einem Cluster entspricht Dabei sind stets die folgenden Bedingungen erf llt 1 Je der Cluster muss mindestens ein Objekt enthalten und 2 jedes Objekt muss genau einem Cluster zugeordnet sein Diese Methode startet h ufig mit einer initialen Partitionierung der n Objekte und versucht anschlie end iterativ die Partitionierung derart zu optimieren dass der Wert der Quali t tsfunktion maximiert wird Ein Nachteil dieser Methode ist dass nur konvexe Cluster gefunden werden 5Eine geometrische Menge ist konvex wenn die Verbindungsstrecke zweier beliebiger Punkte in der Menge liegt 17 2 Knowledge Discovery und Data Mining Unter den partitioning based Methoden befinden sich z B das k Means Clustering das k Medoids Clustering und deren Variationen Diese Verfahren geh ren zu den einfachsten und weit verbreitets ten Sie gelten als die klassischen Vertreter des Clustering Eine fr he Implementierung der k Means und k Medoids Algorithmen sind der Algorithmus von Mac67 und PAM Partitioning Around Me doids von KR87 Eine Weiterentwicklung die besser mit gr eren Datenmengen umgehen konn te ist das sample basierte Verfahren CLAR
97. Raster bestimmen SELECT sdo_geom sdo_mbr geometry FROM gazetteer country_9_1 where cntry_name like Germany CREATE TABLE demo_raster AS SELECT FROM TABLE SDO_SAM TILED_BINS 5 865003 15 033816 47 274714 55 056528 6 Metadaten f r r umliche Operatoren definieren BEGIN insert into user_sdo_geom_metadata values C DEMO_GAZ_DATA SDO_LOCATION SDO_DIM_ARRAY SDO_DIM_ELEMENTC X 0 08 15 033816 000005 SDO_DIM_ELEMENTC Y 47 274714 55 056528 000005 null insert into user_sdo_geom_metadata values C DEMO_GAZ_RASTER GEOMETRY SDO_DIM_ARRAY SDO_DIM_ELEMENTC X 5 865003 15 033816 000005 SDO_DIM_ELEMENT Y 47 274714 55 056528 000005 null insert into user_sdo_geom_metadata values C DEMO_GAZ_RASTER_EXTENDED GEOMETRY SDO_DIM_ARRAY SDO_DIM_ELEMENTC X 5 865003 15 033816 000005 SDO_DIM_ELEMENTC Y 47 274714 55 056528 000005 null insert into user_sdo_geom_metadata values DEMO_GAZ_CLUS GEOMETRY SDO_DIM_ARRAY SDO_DIM_ELEMENT X 5 865003 15 033816 000005 SDO_DIM_ELEMENTC Y 47 274714 55 056528 000005 null END Index fuer die Tabellen erstellen CREATE INDEX demo_gaz_data_sidx ON data_cities SDO_LOCATION indextype is MDSYS SPATIAL_INDEX CREATE INDEX demo_gaz_raster_sidx ON demo_raster GEOMETRY indextype is MDSYS SPATIAL_INDEX BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation def_material
98. S DBMS_DATA_MINING algo_name DBMS_DATA_MINING support_vector_machine Profil zur Identifizierung von Ausrei ern erstellen DBMS_DATA_MINING CREATE_MODEL model_name gt ANOMALY_DETECTION_MODEL mining_function gt DBMS_DATA_MINING classification target_column_name gt NULL One Class ben tigt NULL data_table_name gt data case_id_column_name gt object_id settings_table gt ANOMALY_DETECTION_SETTINGS END Unter Verwendung der SQL Funktion PREDICTION_PROBABILITY und PREDICTION lassen sich Ausrei er einer Datenmenge identif SELECT ID PREDICTION ANOMALY_DETECTION_MODEL using as Prediction PREDICTION_PROBABILITY ANOMALY_DETECTION_MODEL 0 using as Probability FROM data_table ORDER BY 1 ID PREDICTION PROBABILITY 1001 1 93 1001 0 07 1002 1 67 1002 0 33 Listing 3 5 Modell Objekt zur Anomalie Erkennung Eine weitere M glichkeit zur Identifikation der Ausrei er neben der Verwendung der SQL Funktion PREDICTION_PROBABILITY besteht in der Benutzung der Methode DBMS_DATA_MINING APPLY Lis ting 3 6 Diese Methode bekommt als Eingabe eine Tabelle f r die die Ausrei er identifiziert wer den sollen und liefert als Ausgabe eine Tabelle die das Ergebnis f r jeden Datensatz enth lt Das Schema der Tabelle die das Ergebnis speichert ist im Folgenden dargestellt 45 3 Oracle Knowledge Discovery und Data Mining
99. ST_SPORT Abbildung 6 8 Materialisierung der metrischen Beziehung zw Wohngebiet und Sportanlage Im n chsten Schritt nachdem alle relevanten Information zusammengestellt worden sind kann die Assoziationsanalyse mit der Oracle Data Mining Cartridge durchgef hrt werden Die Vorgehens weise richtet sich dabei nach dem in Kapitel 3 vorgestellten und in Kapitel 4 1 1 demonstrierten Prinzip Anmerkung Eine Transformation der geometrischen Objekte in x y Koordinaten ist bei diesem Beispiel nicht durchzuf hren da die r umliche Position der Objekte bei der Assoziationsanalyse nicht von Bedeutung ist Im Transformationsschritt f r die Assoziationsanalyse wird eine Diskretisierung der numerischen Attribute speziell DIST_PARK und DIST_SPORT durchgef hrt Im Anschluss wird dann die Asso ziationsanalyse wie in Listing 6 8 skizzenhaft dargestellt realisiert BEGIN Diskretisierung von DIST_PARK und DIST_SPORT jeweils in 4 Bereiche 135 6 Implementierung DBMS_DATA_MINING_TRANSFORM CREATE_BIN_NUMC conf_asso_bin DBMS_DATA_MINING_TRANSFORM INSERT_BIN_NUM_QTILE conf_asso_bin res_mat_3 4 DBMS_DATA_MINING_TRANSFORM COLUMN_LISTC id DBMS_DATA_MINING_TRANSFORM XFORM_BIN_NUM conf_asso_bin res_mat_3 sdm_asso END Modell erstellen BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt demo_asso_model
100. Smin 20 und Minimal Confidence cn 70 gege ben dann wird die Assoziationsregel die auf einer niedrigen Ebene der Konzept Hierarchie fu t nicht gefunden kauft X Schwarzbrot kauft X Pilsener s 10 c 60 e multi level Assoziationsregeln Die Grundidee dieser Assoziationsregeln besteht darin dass interessante Zusammenh nge eventuell auch auf anderen Abstraktionsebenen einer Konzept Hierarchie existieren k nnen HF95 Der Nachteil ist dass diese Assoziationsregeln tenden ziell weniger interessant sind viele hnliche Zusammenh nge gefunden werden und die zu durchsuchende Menge exponentiell mit der H he der Abstraktionsebenen w chst 24 2 6 Data Mining Beispielsweise werden Assoziationsregeln mit einem Minimal Support Smin 20 und einer Minimal Confidence cin 50 gesucht Es sei die folgende Assoziationsregel ge geben die auf einer niedrigen Abstraktionsebene einen Support s 10 und Confidence c 50 besitzt Alter X 20 25 kauft X Alkoholfrei s 10 c 50 Wird diese Assoziationsregel jedoch auf einer h heren Abstraktionsebene betrachtet mit den Abstraktionen von 20 25 gt jung und Alkoholfrei gt Bier werden die vorgegebenen Minimalvoraussetzungen erf llt und die Assoziationsregel gilt als in teressant Alter X jung kauft X Bier s 30 c 60 Zur Suche nach Assoziationsregeln wird der Apriori Algorithmus AMS 96 eingesetzt
101. Voraussetzung ist gleiche Vorverarbeitung d h Preprocessing und Transformation Die Funktion CLUSTER_ID bestimmt anhand von Attributen zu welchem Cluster ein Objekt am wahrscheinlichsten geh rt Die Funktion CLUSTER_PROBABILITY berechnet die Wahr scheinlichkeit des Objekts in Bezug auf die Zugeh rigkeit zu einem Cluster W hrend die Funktion CLUSTER_SET eine Menge von Clustern liefert zu denen ein Objekt potentiell geh ren k nnte F r eine ausf hrliche Beschreibung der Funktionen CLUSTER_ID CLUSTER_PROBABILITY und CLUS TER_SET sei auf die Literatur Ora06h verwiesen Assoziationsanalyse ODM implementiert fiir die Assoziationsanalyse nur einen Algorithmus den Apriori Algorithmus um nach Assoziationsregeln zu suchen AMS 96 Der schematische Ablauf der Assoziationsana lyse in Oracle ist in Abb 3 6 illustriert 7 Datenvorverarbeitung Konstruktion N des Modells i Abbildung 3 6 Flussdiagramm Assoziationsanalyse 57 3 Oracle Knowledge Discovery und Data Mining Es ist eine Tabelle R mit den Attributen Al A2 A3 gegeben und die Werte diese Attribute sind nat rliche Zahlen Die Assoziationsregeln in ODM haben dann den Aufbau Ai mN AAj n Ak o mit 1 j k m n o beliebig gew hlt Die Elemente der Pr misse und der Konklusion der Assoziationsregeln stellen demnach Attribut Wert Paare dar Die Assoziationsanalyse in ODM ist auf Assoziationsregeln beschr nkt die die Form A B haben wobei A B Mengen d
102. WYM97 Beispiel einer Grid based Methode Die Idee des Clustering mit der grid based Me ae thode soll anhand des STING Algorithmus er Deren ae am A O O a Br l utert werden Der STING Algorithmus unter i da o teilt den Datenraum in eine Menge von disjunk ten Zellen die ein Raster formen Diese Raster existieren auf verschiedenen Ebenen die sich lediglich in der Anzahl der Zellen unterschei A of i I th level den und formen gesamtheitlich eine hierarchi e sche Struktur Abb 2 12 Auf oberster Ebene bilden wenig Zellen das Raster und auf unters ter Ebene bilden viele Zellen das Raster Zu je der Zelle in der Hierarchie werden in einem Preprocessing Schritt statistische Informationen z B die Dichte der Zelle gesammelt die im weiteren Verlauf benutzt werden Abbildung 2 12 Raster Hierarchie WYM97 Der STING Algorithmus verfolgt einen Top Down Ansatz und betrachtet und bewertet die Zellen anhand von statistischen Informationen Die Zellen des Rasters werden sukzessive unterteilt d h in mehrere Zellen aufgeteilt bis die unterste Hierarchie Stufe erreicht ist Eine Zelle die also in der i ten Hierarchie Stufe interessant ist gemessen an den statistischen Informationen wird in der i 1 ten Hierarchie Stufe weiter betrachtet sonst nicht Ist die unterste Stufe erreicht werden alle benachbarten Zellen die beispielsweise eine bestimmte Dichte aufweisen zu Clustern zusammen gefasst wobei sich Cluster auch auf h h
103. X ein Objektraum und T C X eine sogenannte Trainingsmen ge Sei weiter t T definiert als t A Aa mit d N und den Attributen Aj 1 lt i lt d Au erdem soll eine Zuordnung von zu einer Klasse Cj also t C existieren wobei C C C 1 Cr mitk N Zu finden ist ein Klassifikator K X C der die Klas senzugeh rigkeit f r alle X T korrekt bestimmt F r die Klassifikation existieren verschiedene Klassifikations Methoden Im Folgenden sind einige der wichtigsten und bekanntesten Methoden aufgelistet a Klassifikationsb ume Klassifikationsregeln b Bayesian und Naive Bayesian Klassifizierung c Bayesian Belief Network Klassifizierung d Support Vector Machines SVM e Weitere k Nearest Neighbor Klassifizierung Neuronale Netze Genetische Algorithmen a Klassifikationsb ume Die Klassifizierung mit Klassifikationsb umen auch Ent scheidungsb ume genannt ist eine einfache und effekti ve Methode In Abb 2 16 ist ein Entscheidungsbaum ab gebildet der beispielsweise Betrugsf lle klassifiziert Das Modell wird durch einen Baum repr sentiert wobei der d hoch gering H ufigkeit Wurzelknoten und jeder interne Knoten einem Attribut er Transaktionen test jeder Zweig einem Ergebnis eines Attributtests und jedes Blatt einer Klasse bzw Klassifizierung entspricht Neue Daten die klassifiziert werden sollen werden gegen den Baum getestet indem die At
104. _CATEGORICAL Listing 4 7 hingegen ben tigte die gleiche Analyse bereits 2 min 30 sec war also 10 mal langsamer Die Markierung ist ein String 1 und keine Zahl 1 CAST COLLECT DM_Nested_Categorical actor 1 AS DM_Nested_Categoricals actor_for_movie Listing 4 7 DM_NESTED_NUMERICALS vs DM_NESTED_CATEGORICAL 78 4 2 Regression 4 2 Regression In der Movie Datenbank soll untersucht werden ob es zwischen dem Jahr und der Anzahl produ zierter Filme eine Abh ngigkeit in Form einer Regressionsfunktion gibt Diese Regressionsfunktion ist bewusst nur von einem Parameter abh ngig damit diese anschaulich in einem zweidimensio nalen Diagramm dargestellt werden kann Es wird also eine Funktion gesucht die bei Angabe der Jahreszahl die Anzahl der produzierten Filme in dem Jahr berechnet Das Vorgehen dieser Data Mining Aufgabe der Regressionsanalyse wird in die folgenden Schritte unterteilt 1 Bereitstellung der Daten Preprocessing und Transformation Data Mining Regressionsanalyse Testen des Regressionsmodells Genauigkeit oF WCW N Darstellung amp Auswertung der Ergebnisse 4 2 1 Regressionsanalyse Jahr und Anzahl produzierter Filme pro Jahr 1 Bereitstellung der Daten Zun chst werden die Daten die zur Definition der Regressionsfunkti on erforderlich sind zusammengefasst In Listing 4 8 wird dazu eine Tabelle definiert die die not wendigen Informationen Identifikation der
105. _sample_1l_1 reg_data_sample_1l DBMS_DATA_MINING_TRANSFORM COLUMN_LISTC id DBMS_DATA_MINING_TRANSFORM XFORM_NORM_LIN gt conf_reg_sample_i_1 Parameter Werte reg_data_sample_1l Datentabelle tmp_reg_prepared Ergebnis END Listing 4 9 Normierung der Daten Jahr und Anzahl der Filme pro Jahr Vor dem n chsten Schritt dem Data Mining werden die Daten in Trainingsdaten build_data und Testdaten test_data aufgeteilt Die Trainingsdaten werden zur Konstruktion der Regressions funktion und die Testdaten zum anschlie enden Testen der Genauigkeit der Funktion verwendet Dabei erfolgt die Selektion der Testdaten stichprobenartig aus der gesamten Datenmenge Stichpro be bedeutet in diesem Fall dass jeder dritte Eintrag zum Testen verwendet wird 3 Data Mining Regressionsanalyse In diesem Schritt wird das Modell die Regressionsfunktion ermittelt Ausgehend von den Daten in Abb 4 2 a und b wird die Regressionsanalyse zweimal durchgef hrt 80 4 2 Regression Die erste Regressionsanalyse erh lt die kompletten Daten aus Abb 4 2 a und erstellt darauf ba sierend die Regressionsfunktion Die zweite Regressionsanalyse erh lt f r die Konstruktion der Re gressionsfunktion lediglich die auf den Bereich zwischen den Jahren 1990 und 2005 eingeschr nkten Daten Au erdem wird im zweiten Fall die Verwendung des linearen Kernels zur Konstruktion der Regressionsfunktion expl
106. _sdm_transform Package durchf hrt Dabei bezeichnet die Schicht mit den Wohngebieten die Referenz Schicht und die brigen Schich ten sind die thematischen Karten die in Beziehung gesetzt werden In Listing 6 7 6 9 sind die Materialisierungen der Informationen dargestellt wobei die folgenden Attribute bzw Beziehungen materialisiert werden sollen e ANYINTERACT_STREET beschreibt eine beliebige topologische Beziehung zwischen Wohnge biet und Stra e e DIST_PARK beschreibt den k rzesten Abstand eines Wohngebiets zu einer Gr nfl che e DIST_SPORT beschreibt den k rzesten Abstand eines Wohngebiets zu einer Sportanlage Mater einer topologischen Beziehung zw Wohngebiet und Stra e tmp_topo_1 Hilfstabelle zur Speicherung der Materialisierung res_mat_1 erweiterte Tabelle mit der Materialisierung BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation tmp_topo ANYINTERACT_STREET TOPO_REL DBMS_SDM_TRANSFORM insertTopoRelMaterialisation gt tmp_topo Wohngebiet id shape Strassen shape mask ANYINTERACT DBMS_SDM_TRANSFORM xformRelMaterialisation Wohngebiet id tmp_topo res_mat_1 END Listing 6 7 Materialisierung der topologischen Beziehung zw Wohngebiet und Stra e Mater einer metrischen Beziehung zw Wohngebiet und Gr nfl che BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation gt tmp_metric_1 DIST_PARK
107. _settings VALUES dbms_data_mining asso_min_confidence 0 5 50 INSERT INTO test_asso_settings VALUES dbms_data_mining asso_max_rule_length 6 END BEGIN Modell erstellen DBMS_DATA_MINING CREATE_MODEL model_name gt test_asso_1 mining function gt DBMS_DATA_MINING ASSOCIATION data_table_name gt asso_prepared case_id_column_name gt id settings_table_name gt test_asso_settings END Listing 4 3 Konstruktion des Modells 4 Darstellung amp Auswertung der Ergebnisse Das Ergebnis der Assoziationsanalyse ist im Modell Objekt gespeichert und gibt Auskunft welche Schauspieler h ufig zusammen in Filmen gespielt haben Aus den Regeln l sst sich anschlie end beispielsweise folgern dass die Schauspieler be freundet sind waren oder das die Filme mit den Paarungen erfolgreich sind waren Die Assozia tionsregeln k nnen ber die Funktion GET_ASSOCIATION_RULES abgerufen werden In Listing 4 4 wird diese Funktion benutzt um alle Assoziationsregeln auszugeben die einen Minimum Support von 0 2 eine Minimum Confidence von 60 aufweisen und dessen L nge der Regel mind 2 ist Die Regeln beschreiben also wenn ein Schauspieler A in einem Film C mitgespielt hat dann hat zu x der Schauspieler B ebenfalls mitgespielt F r weitere Informationen zur Methode sei auf die Dokumentation Ora06f verwiesen SELECT rule_id rule_support 100 as support rule_lconfidence 100
108. a_mining algo_name dbms_data_mining algo_support_vector_machines DBMS_DATA_MINING CREATE_MODEL model_name gt classificator mining_function gt DBMS_DATA_MINING CLASSIFICATION data_table_name gt data_table_training case_id_column_name gt id ID f r Movie target_column_name gt target Rating settings_table_name gt class_settings END Listing 4 23 Konstruktion des Klassifikators 89 4 Data Mining Ein Beispiel 4 Verifizierung des Klassifikators Nach der Konstruktion des Klassifikator soll anschlie end die Zuverl ssigkeit Genauigkeit gemessen werden Entspricht die Genauigkeit nicht den gesetzten Erwartungen so m ssen ggf Modifikationen in den vorhergehenden Schritten siehe Kapitel 2 vorgenommen werden Bei der Berechnung der Genauigkeit des Klassifikators werden zwei Unterscheidungen gemacht Im ersten Fall wird die Genauigkeit f r die gesamten Daten berechnet d h die Trainingsdaten und die Testdaten zusammen Und im zweiten Fall wird die Genauigkeit des Klassifikators eingeschr nkt auf die Testdaten berechnet Durch den Vergleich dieser Werte kann man erkennen ob der Klassifikator m glicherweise an Over fitting 2 6 4 leidet In Listing 4 24 sind die Anfragen zur Berechnung der Confusion Matrix und die Genauigkeit des Klassifikators dargestellt Aus der Betrachtung der Werte f r die Genauigkeit ist zu erkennen dass der Wert f r die Train
109. abases SSD volume 951 Springer Verlag 1995 47 66 G Karypis E H S Han V K NEWS Chameleon Hierarchical Clustering Using Dy namic Modeling Computer 32 8 1999 68 75 K Koperski J Han N Stefanovic An Efficient Two Step Method for Classification of Spatial Data D J U Kietz Data Mining zur Wissensgewinnung aus Datenbanken Univ Z rich SoSe 2006 D A Keim H P Kriegel Visualization Techniques for Mining Large Databases A Com parison Transactions on Knowledge and Data Engineering Special Issue on Data Mining 8 6 1996 923 938 E M Knorr R T Ng A Unified Notion of Outliers Properties and Computation In Knowledge Discovery and Data Mining 1997 219 222 L Kaufman P J Rousseeuw Clustering by means of medoids 405 416 L Kaufman P J Rousseeuw Finding Groups in Data An Itroduction to Cluster Analy sis M Lenzerini Data integration a theoretical perspective In PODS 02 Proceedings of the twenty first ACM SIGMOD SIGACT SIGART symposium on Principles of database systems ACM Press 2002 233 246 D D Lewis Naive Bayes at forty The independence assumption in information retrie val In Proceedings of ECML 98 10th European Conference on Machine Learning Springer Verlag Heidelberg DE 1998 U Lipeck Datenbanksysteme Ila Kapitel ber das Zusammenf hren von Datenbanken ER Diagramme Universit t Hannover 2004 D Loss Data Mining Klassifikations und Clust
110. ad 6 bedeutet dass jede Dimension in 2 64 Abschnitte unterteilt wird CREATE TABLE demo_raster AS SELECT FROM TABLE SDO_SAM TILED_BINS 5 865 15 033 47 274 55 056 6 Listing 6 1 SQL Anfrage zur Definition eines Rasters Die Summation der Bev lkerung f r die jeweilige Region wird dabei durch die Materialisierung von Nachbarschaftsbeziehungen Autokorrelation d h die Raster Geometrie im Bezug auf die da zugeh rigen Siedlungen realisiert In Listing 6 2 wird dieser Vorgang unter Verwendung der Funk tionen aus dem dbms_sdm_transform Package durchgef hrt und das Ergebnis steht im Anschluss in der Tabelle demo_agglo_1 bereit Die Materialisierung ist im Attribut aggr_population gespei chert 3 BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation def_materialisation_1 aggr_population NUM_AC_REL 131 6 Implementierung DBMS_SDM_TRANSFORM insertNumACRelMaterialisation def_materialisation_1 demo_raster id geometry data_cities sdo_location SUM population NULL DBMS_SDM_TRANSFORM xformRelMaterialisation def_materialisation_1 demo_raster id demo_agglo_1 END Listing 6 2 Summation der Bev lkerung die definierten Regionen Durch diese Transformation kann die zweite Bedingung die Dichte der Definition eines Ballungs gebiets berechnet werden indem der Wert der aggregierten Bev lkerung durch die F
111. amm 2 21 ist zu entnehmen dass es eine linea re Abh ngigkeit zwischen dem Jahr und der Neigung gibt Die Stabilit t bzw die Neigung des Turm l sst sich also anhand der OR a En linearen Regression rote Gerade in Abb 2 21 f r die zuk nfti Abbildung 2 21 Beispiel Pisa gen Jahre bestimmen Jahr 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 Neigung 2 9642 2 9644 2 9656 2 9667 2 9673 2 9688 2 9696 2 9698 2 9713 2 9717 Epsilon Support Vector Machine Regression Die Support Vector Machines k nnen ebenfalls zur Regression d h zur Vorhersage von numerische kontinuierlichen Werten benutzt werden BC00 SS98 Der Support Vector Machine Algorithmus soll bei der Regression jedoch abweichend von der Verwendung bei der Klassifikation keine Klas sen durch Hyper Ebenen separieren sondern soll versuchen die Daten durch eine Hyper Ebene miteinander zu verbinden Bei der Regression mit Support Vector Machines soll wie bei den anderen Regressionsproblemen auch eine Regressionsfunktion f die eine funktionale Abh ngigkeit zwischen ein oder mehreren Variablen darstellt ermittelt werden Die Support Vector Machines f r Regression verwendet zur Bestimmung der Regressionsfunkti on f eine e Umgebung um die Funktion f herum In Abb 2 22 ist eine lineare Regressionsfunk tion und die e Umgebung gestrichelte Linien dargestellt Alle Funktionswerte die sich in dieser e Umgebung der Regressionsfunktion befinden werden
112. arstellen und die Kardinalit ten 0 lt A lt 20 und B 1 besitzen Eine Regel dessen Konklusion aus mehreren Elementen besteht ist folglich nicht m glich obwohl die verwen deten Datentypen und die frequent itemsets in ODM vorhanden sind siehe Datentyp DM_RULE f r Assoziationsregel Ora06f Allerdings w re jedoch unter Verwendung der frequent itemsets und deren gespeicherter Support eine Berechnung von Assoziationsregeln mit Konklusionen B gt 1 s A gt B sA siehe denkbar Die Berechnung basiert dabei auf der Definition der Confidence mit c Kapitel 2 6 3 Eine weitere Einschr nkung besteht in der fehlenden Unterst tzung von Konzept Hierarchien wo durch keine single level und multi level Assoziationsregeln gefunden werden k nnen siehe Kapi tel 2 6 3 Mit der Assoziationsanalyse in ODM k nnen folgende Assoziationsregeln die in Kapitel 2 6 3 vor gestellt worden sind gefunden werden e eindimensionale Assoziationsregeln unter Verwendung von geschachtelten Tabellen die Da tentypen DM_NESTED_NUMERICALS f r numerische Werte und DM_NESTED_CATEGORICAL f r no minale Werte e mehrdimensionale Assoziationsregeln normale Anwendung der Data Mining Methode As soziationsanalyse auf eine relationale Tabelle dessen Attribute e single level und multi level Assoziationsregeln aber nur wenn die Konzept Hierarchie mit immensem Aufwand durch Update Operationen in die Daten eingepflegt werden Die Assoziationsanalyse von e
113. arte AUSGABE Referenz Schicht erweitert um ein Attribut METHODE 1 Erstelle eine neue Spalte in der Tabelle Bezeichnung metrische Beziehung und themat Karte 2 F r jede Geometrie R in der Referenz Schicht 2 1 F r jede Geometrie G in der thematischen Karte Berechne Abstand zwischen R und G WENN Abstand kleiner als Minimal Abstand DANN Merke neuen Abstand zwischen R und G als Minimal Abstand 2 2 F ge Minimal Abstand f r Geometrie R ein 2 3 Gehe zu Punkt 2 3 R ckgabe der Referenz Schicht Tabelle um metrische Beziehung Bemerkungen zum Algorithmus In Oracle werden Methoden bereitgestellt die bei der Materialisierung der metrischen Beziehung verwendet werden k nnen Es handelt sich um geometrische Funktionen die im Folgenden aufge f hrt sind e SDO_NN Bestimmt die n n chsten Nachbarn einer Geometrie e SDO_NN_DISTANCE Bestimmt die Abst nde derjenigen Objekte die vom Operator SDO_NN zu r ckgeliefert werden e SDO_WITHIN_DISTANCE Bestimmt ob zwei Geometrien innerhalb einer vorgegeben Distanz liegen e SDO_DISTANCE Berechnet minimalen Abstand zwischen zwei Geometrien Weitere Informationen der geometrischen Objekte die ebenfalls metrischer Natur sind z B L nge eines Flusses oder Stra e bzw die Fl che eines Waldgebiets k nnen durch Funktionen die bereits in ORAb integriert sind in Form von Attributen materialisiert werden e SDO_AREA Bestimmt die Fl che eines zweidimensionalen Polygons e SDO_LENGTH
114. assifikation In ODM wird die Klassifikation in drei Phasen unterteilt In der ersten Phase erfolgt die Konstrukti on des Modell Objekts Klassifikator in der zweiten Phase erfolgt die Bewertung des Klassifikators und schlie lich in der dritten Phase erfolgt die Klassifizierung von neuen unklassifizierten Daten unter Anwendung des Modells Diese Einteilung unterscheidet sich geringf gig vom Vorgehen aus Kapitel 2 in der die Bewertung und die Klassifizierung zu einem Schritt zusammengefasst worden sind Die erste Phase ist in Abb 3 8 schematisch illustriert und zeigt detailliert die einzelnen Teilschritte f r die Konstruktion des Klassifikators Der Teilschritt Spezifikation ist dabei zum einen optional in der Anwendung und wird daher im Weiteren nicht n her betrachtet und zum anderen ist die Angabe von Kosten Priorit ten und Gewichten abh ngig vom Klassifikations Algorithmus Durch die Angabe von Kosten Priorit ten oder Gewichten kann soll die Konstruktion des Klassifikators beeinflusst werden Dies erfolgt beispielsweise durch die Gewichtung der Attribute mittels Priori t ten um deren Relevanz hervorzuheben Ora06b Spezifikation Kosten Klassifikationsbaum ERS Priorit ten Bayesian Gewichte SVM Y Klassifikationsattribut Konstruktion angeben Zielattribut des Modells Datenvorverarbeitung I l zat Abbildung 3 8 Konstruktion des Modells Klassifikator In ODM werden f r die Klassifikation
115. at mentioned actor and at person IN select person from moviedb part where mentioned actor and creditpos is not null group by person having count movie gt 10 Weitere Selektion und Diskretisierung des Attributs RATING CREATE TABLE class_data_sample_3 AS select a movie as id b name 1 as name_present CASE WHEN c rating gt 4 THEN CASE WHEN c rating gt 7 THEN hoch else mittel END ELSE niedrig END as target from moviedb movie a join tmp_actor b on a movie b movie join moviedb rating c on a movie c movie where type cinema and votes gt 1000 CREATE TABLE class_prepared NESTED TABLE actor_for_movie STORE AS DM_Nested_Numericals_actor AS SELECT id CAST COLLECT DM_Nested_Numerical SUBSTRB name 1 30 name_present AS DM_Nested_Numericals actor_for_movie target FROM class_temp_1 GROUP BY id target Daten zur Konstruktion des Modells build data und zum Testen test data CREATE TABLE class_prepared_b NESTED TABLE actor_for_movie STORE AS DM_Nested_Numericals_actor_b AS SELECT id actor_for_movie target FROM class_prepared natural join select id mod rownum 25 as sel from class_prepared WHERE sel lt gt 1 Ns 145 B Oracle Data Mining Beispiele CREATE TABLE class_prepared_t NESTED TABLE actor_for_movie STORE AS DM_Nested_Numericals_actor_t AS SELECT id actor_for_movie target FROM class_prepared WHERE id NOT IN SELECT id
116. ation der XML Struktur f r den Klassifikationsbaum richtet sich dabei nach der Data Mining Group Predictive Model Markup Language PMML e GET_MODEL_DETAILS_NB Diese Methode liefert f r jede Auspr gung Wert des Klassifika tionsattributs eine Menge von Attribut Wert Paaren die die jeweilige Klassifikationsklasse d h einen Wert des Klassifikationsattributs beschreiben Zu den Informationen geh ren das Klassifikationsattribut und alle Auspr gungen des Attributs inklusive Wahrscheinlichkeiten d h die disjunkten Werte und deren Auftrittswahrscheinlichkeiten Au erdem wird zu jedem Wert des Klassifikationsattributs eine Menge von Attributen mit bedingten Wahrscheinlich keiten gespeichert 67 3 Oracle Knowledge Discovery und Data Mining Die Berechnung der Wahrscheinlichkeiten basiert auf dem im Kapitel 2 6 4 beschriebenen Vor gehen Die Wahrscheinlichkeiten des Klassifikationsattributs und die Wahrscheinlichkeiten der Attribute die das Klassifikationsattribut beschreiben summieren sich jeweils allesamt zur Wahrscheinlichkeit 1 logisch auf Das Besondere ist dass bei einer bestimmten Auspr gung eines Datensatzes berechnet werden kann mit welcher Wahrscheinlichkeit dieser den jeweili gen Klassifikationsklassen angeh rt Diese Informationen sind im Modell Objekt f r die Klas sifikation mit dem Naive Bayes Algorithmus gespeichert e GET_MODEL_DETAILS_ABN Diese Methode liefert lediglich Informationen ber den Klassifika t
117. auf hin alle Orte auf einer Karte in denen ein Krankheitsfall gemeldet wurde Die Markierungen auf der Karte formten sich zu Cluster in deren Zentren sich jeweils ein Brunnen befand wel che Ausl ser der Epidemie waren Entscheidend hierbei ist der r umliche Zusammenhang der sich aus der r umlichen Vertei lung der Krankheitsf lle um die st dtischen Brunnen f r die Wasserversorgung ergibt g Im Jahr 1909 machte eine Gruppe von Zahn rzten eine interessante Entdeckung Sie fanden heraus dass die Menschen in Colorado Springs ungew hnlich gesunde Z hne hatten Eine sp tere Studie ergab dass das Trinkwasser einen besonders hohen Anteil an Fluoriden auf wies In diesem Fall ist ebenfalls entscheidend dass sich der r umliche Zusammenhang daraus ergibt dass die Personen mit den ungew hnlich gesunden Z hnen in der r umlichen Umge bung eines au erordentlichen Trinkwasser Speichers anzutreffen waren Diese Beispiele zeigen bereits dass mit dem Spatial Data Mining ein besseres Verst ndnis von r um lichen und nicht r umlichen Daten ausgedr ckt in r umlichen Zusammenh ngen und Beziehun gen erreicht werden kann Au erdem stehen beim Spatial Data Mining prim r Erkenntnisse und Zusammenh nge im Vordergrund bei denen nicht r umliche und r umliche Daten involviert sind Im Vergleich stellt sich das Data Mining in r umlichen Datenbanken deutlich komplexer und schwie riger als das klassische Data Mining dar Folgende Punk
118. axime gilt If you don t know what you are looking for use association analysis Bei dem Prozess der Assoziationsanalyse werden interessante Assoziationen oder Korrelationen zwischen Daten gefunden die in Association Rules Assoziationsregeln ausgedr ckt werden Eine Assoziationsregel ist eine Implikation A B d h aus A folgt B z B die Assoziation zwischen den Produkten Brot und Erdnuss Butter wird als Brot gt Erdnuss Butter dargestellt die besagt dass wenn der Artikel Brot gekauft wird dann wird auch der Artikel Erdnuss Butter gekauft Assoziationsregel Brot Erdnuss Butter Was zeichnet jedoch eine Assoziation gegen ber anderen Assoziationen aus sind alle gleich in teressant oder sind einige interessanter Aus diesem Grund muss eine Assoziation in irgendeiner Weise bewertet werden um die Relevanz oder Wichtigkeit einstufen zu k nnen Diese Bewertung beruht zum einen auf der H ufigkeit auch Support genannt z B in 10 der F lle wurden Brot und Erdnuss Butter zusammen gekauft und zum anderen auf dem Vertrauen einer Assoziation auch Confidence genannt d h wie h ufig trifft die Assoziation zu z B in 70 der F lle in de nen Brot gekauft wurde wurde ebenfalls Erdnuss Butter gekauft Die Assoziationsregel Brot gt Erdnuss Butter l sst sich mit den Zusatzinformationen ber die Relevanz beziehungsweise Wich tigkeit folgenderma en schreiben Assoziationsregel Brot Erdnuss Butter Support 10 Confidence 70
119. ben ist macht die obigen Regeln f r den Benutzer verst ndlicher z B die Regel mit der ID 10 Howard Shemp AND Howard Moe Fine Larry s 0 36 c 100 Die frequent itemsets k nnen mit der Funktion GET_FREQUENT_ITEMSETS abgerufen werden Die Ver wendung der Funktion erfolgt analog zur Funktion f r die Assoziationsregeln In Listing 4 5 ist die Ausgabe der frequent itemsets mit mind zwei Elementen dargestellt sie unterscheidet sich nicht gravierend von der der Assoziationsregeln SELECT distinct id item support number_of_itens FROM SELECT itemset_id as id I column_value AS item F support 100 as support Support F number_of_itens Anzahl der Elemente FROM TABLE DBMS_DATA_MINING GET_FREQUENT_ITEMSETS test_asso_1 F TABLE F items I where number_of_items gt 1 ORDER BY id 77 4 Data Mining Ein Beispiel ID ITEM SUPPORT NUMBER_OF_ITEMS 999 Blanc Mel 480893 23 2 999 Foray June 121279 23 2 1000 Farnum Franklyn 610072 22 2 1000 Flowers Bess 120373 22 2 1001 Fine Larry 616985 57 2 1001 Howard Moe 702359 57 2 1006 Fine Larry 616985 36 3 1006 Howard Moe 702359 36 3 1006 Howard Shemp 702427 36 3 Listing 4 5 Ausgabe der frequent itemsets Diese Funktion d h die Ausgabe der frequent itemsets wird genau dann interessant wenn die As soziationsanalyse keine Regeln gefunden hat In diesem Fall werden die frequent itemsets untersucht und ermittelt ob es berhaupt welch
120. bute z B kann eine Assoziation zwischen dem Attribut Region dem Attribut Bev lkerung und dem Attribut Verkehr saufkommen damit beschrieben werden Sie findet Anwendung in re lationalen Datenbanken in denen Assoziationen zwischen den einzelnen Attributen einer Ta belle beschrieben werden k nnen Folgendes Beispiel verdeutlicht den Unterschied zur eindi mensionalen Assoziationsregel Region X Hannover A Bev lkerung X gt 500000 Verkehr X hoch Weitere Formen von Assoziationsregeln sind durch Einf hrung von Konzept Hierarchien m glich In Abb 2 13 sei eine vereinfachte Konzept Hierarchie f r den Warenkorb abgebildet Nahrungsmittel Getr nk Aufstrich Marmelade Erdnuss Butter Schwarzbrot_ Mischbrot Alkoholfrei_ Pilsener Abbildung 2 13 Konzept Hierarchie Warenkorb Die Konzept Hierarchien bieten den Vorteil dass Assoziationsregeln durch deren Verwendung zu starken Assoziationsregeln werden d h den Minimum Support und die Minimum Confidence er reichen Es wird dabei unter den single level und den multi level Assoziationsregeln unterschieden e single level Assoziationsregeln Diese Form der Assoziationsregel beschr nkt sich auf eine Abstraktionsebene einer Konzept Hierarchie wodurch m glicherweise nur ein Bruchteil an Korrelationen in den Daten gefunden wird oder die Assoziationsregeln zu allgemein sind Sei beispielsweise ein Minimal Support
121. ch mehrfache Anwendung der Transforma tion der Linien Geometrie durchgef hrt d h die Multi Linie wird in ihre Linien Segmente zerlegt und anschlie end nach der obigen Transformation einer einfachen Linie transformiert In Abb 5 19 ist diese Transformation dargestellt Die nicht r umlichen Attribute bleiben bei der Transformation wiederum unver ndert und werden einfach von den Punkt Darstellungen bernommen Zusammengesetzte Linie ID Koordinate X Koordinate Y Attribute 11 Linien Punkt_1 X Linien Punkt_1 Y 12 Linien Punkt_2 X Linien Punkt_2 Y ID Geometrie Attribute 1 Multi Linie Linien Punkt_n Y In Linien Punkt_n X Abbildung 5 19 Transformation einer Multi Linie zu einer Menge von Punkten Multi Punkt Im Folgenden wird ein Algorithmus angegeben der die Zerlegung von Geometrien vom Typ Linie und Multi Linie durchfiihrt EINGABE 1 2 Wert fiir max Lange der Linie AUSGABE relationale Tabelle mit materialisierten Geometrien METHODE 1 WENN Geometrie vom Typ Multi Linie ODER Lange der Linie gt max Lange DANN 1 1 Zerlege Linie in kleinere Linien Segmente 1 2 Rekursiver Aufruf dieser Methode mit den Linien Segmenten Geometrie Linie oder Multi Linie 114 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen 2 SONST 2 1 Extrahiere die Koordinaten X und Y von Start und Endpunkt der Linie 2
122. chauspielern SELECT count id count distinct id count distinct actor FROM asso_pre_prepared Eintr ge Filme Schauspieler 156351 16529 12272 2 Durchschnittliche Anzahl von Schauspielern pro Film SELECT to_char avg actor 99 99 avg_actor FROM select count actor actor from asso_pre_prepared group by id 75 4 Data Mining Ein Beispiel AVG_ACTOR Listing 4 2 Analyse der Daten im Bezug auf die Parameter des Algorithmus 3 Data Mining Assoziationsanalyse Im folgenden Schritt wird das Modell mit den erforderli chen Einstellungen f r die Assoziationsanalyse erstellt Da die zuvor festgelegten Werte f r die Pa rameter keine Ergebnisse in Form von Assoziationsregeln lieferten sind diese in Listing 4 3 bereits angepasst Die Ermittlung der Werte erfolgte dabei durch Herumprobieren wobei untersucht wurde ab welchem Support und welcher Confidence Assoziationsregeln gefunden werden d h Support reduzieren und Confidence anpassen Es ergeben sich f r die Parameter folgende Werte Minimum Support liegt bei mind 0 2 also in mind 33 von 16529 Filmen Minimum Confidence liegt bei mind 50 und die max L nge der Regel ist auf 6 festgelegt Mit diesen Einstellungen findet die Assoziationsanalyse 12 Assoziationsregeln Auszug der Regeln siehe Listing 4 4 BEGIN Einstellungen festlegen INSERT INTO test_asso_settings VALUES dbms_data_mining asso_min_support 0 002 0 2 INSERT INTO test_asso
123. chnittstelle ist eine von Oracle definierte Spezifikation f r das Aufgabengebiet des Data Mining Die Schnittstelle bietet die M glichkeit die Data Mining Funktionalit t in Java Anwendungen zu integrieren Es wird dabei eine Unterst tzung zur Erstel lung Speicherung Zugriff und Wartung von Daten und Metadaten bez glich des Data Mining der Data Mining Ergebnissen und der Datentransformationen gegeben Eine ausf hrliche Anleitung zur Benutzung der JDM Schnittstelle ist in Ora06b Kapitel 6 und 7 zu finden 3 3 Voraussetzungen Das Data Mining mit der Oracle Data Mining Cartridge unterliegt Bedingungen die erf llt sein m ssen damit die Methoden und Algorithmen funktionieren k nnen Sind die jeweiligen Bedin gungen auch Voraussetzungen genannt nicht erf llt so funktioniert die Methode oder Funktion nicht bzw quittiert mit einer entsprechenden Fehlermeldung F r die Eingabe der Data Mining Funktionen werden relationale Tabellen oder Sichten erwartet wobei jede Zeile der Tabelle bzw Sicht ein einzelnes Objekt und jedes Attribut eine Eigenschaft des Objektes darstellt Die Attribute d rfen dabei nur einfache Datentypen z B NUMBER oder VAR CHAR2 annehmen Jedes Objekt ist dar ber hinaus eindeutig ber einen Prim r oder Unique Schl ssel zu identifizieren Dieser Prim r bzw Unique Schl ssel wird anschlie end in Form eines Parameters jeweils der Data Mining Methode bergeben siehe Abschnitt 3 4 Listing 3 2 Die
124. ck_growth x 1 5 x 2 Wachstumsfaktor f r den al lozierten Speicher der einen Cluster enth lt kmns_min_pct_attr_support x 0 1 x 0 1 Mindestprozentsatz ei nes Attributs um in der Beschreibungsregel des Clus ters zu stehen 53 3 Oracle Knowledge Discovery und Data Mining Orthogonal Partitioning Clustering Der O Cluster Algorithmus geht bei der Konstruktion der Cluster ebenfalls hierarchisch nach dem divisiven Prinzip vor wobei wie beim Enhanced k Means Algorithmus eine bin re Cluster Hie rarchie d h bin rer Baum aufgebaut wird Diese Aufteilung der Cluster respektive das Wachstum des Baumes wird solange durchgef hrt bis entweder alle Daten untersucht worden sind oder keine signifikanten Verbesserungen durch neue Cluster zu erwarten sind Dabei arbeitet der Algorithmus stets auf einer kleinen Menge von Daten deren Gr e durch den Parameter max_buffer spezifiziert ist Die Cluster die durch den O Cluster Algorithmus entstehen entsprechen einer Gitterstruktur hn lich der bei den grid based Methoden Die Konstruktion eines neuen Clusters wird dabei durch ein Aufteilungskriterium das nach der density based Methode funktioniert entschieden Dabei wird versucht in einem Cluster einen Bereich auch als Tal bezeichnet mit der niedrigsten Dichte umge ben von Bereichen mit h heren Dichten zu finden so dass der Unterschied maximal ist An dieser Stelle wird der Cluster dann aufgeteilt F
125. column_name gt id target_column_name gt target settings_table_name test_reg_settings END Display Details zum Modells SELECT B attribute_name B coefficient FROM TABLE CDBMS_DATA_MINING GET_MODEL_DETAILS_SVMC test_reg_1 A TABLE A attribute_set B COMPUTE TEST METRICS BEGIN DBMS_DATA_MINING APPLY model_name gt test_reg_1 data_table_name gt reg_prepared_t case_id_column_name gt ad result_table_name gt test_reg_score END Seas SCORING RESULTS 1 Root Mean Square Error Sqrt Mean z 2 2 SELECT SQORT AVG A prediction B target A prediction B target 2 rmse FROM test_reg_score A NATURAL JOIN reg_prepared_t B 2 Mean Absolute Error Mean I z SELECT AVG ABS a prediction B target mae FROM test_reg_score A NATURAL JOIN reg_prepared_t B select year c scale c shift as YEAR abs prediction target as DIFF abs prediction target 100 target as ABWEICHUNG prediction TARGET from select id round prediction scale shift 0 as prediction from test_reg_score conf_reg_sample_3_1 where col TARGET a natural join select id year target scale shift as target from reg_prepared_t conf_reg_sample_3_1 where col TARGET b conf_reg_sample_3_1 c where c col YEAR order by 1 143 B Oracle Data Mining Beispiele B 3 Clustering Selektion de
126. d Die Parameter und deren jeweilige Bedeutung werden im Folgenden beschrieben model_name Name unter dem das Modell gespeichert wird mining_function Data Mining Methode die verwendet wird data_table_name Name der Tabelle die die Daten f r das Data Mining enth lt case_id_column_name eindeutiger Identifier der ein Objekt eindeutig identifiziert setting_table_name Konfigurationstabelle f r die Einstellungen des Algorithmus o oF WN m target_column_name Klassifikationsattribut NULL f r deskriptive Modelle Anmerkung Bei den Parametern der Methode CREATE_MODEL ist der Wertevorrat f r den Parameter mining_function auf die folgenden Werte begrenzt a ASSOCIATION b CLUSTERING c CLAS SIFICATION d REGRESSION e ATTRIBUTE_IMPORTANCE f FEATURE_EXTRACTION Die brigen Parameter der Methode CREATE_MODEL unterliegen keinen festen Vorgaben Beispiel Das Code Fragment in Listing 3 2 beschreibt die Konstruktion eines Modell Objekts mit dem Namen ASSO_MODEL und startet damit gleichzeitig das Data Mining Als Data Mining Methode wird in diesem Fall die Assoziationsanalyse verwendet und durch die Einstellungen in der Konfi gurationstabelle ASSO_SETTINGS wird der Algorithmus gesteuert Die Einstellungen k nnten die Angabe des Minimum Supports und der Minimum Confidence sein siehe Kapitel 2 6 3 2 DBMS_DATA_MINING CREATE_MODEL model_name gt ASSO_MODEL mining_function gt DBMS_DATA_MINING
127. damit verbundene Integration in das Spatial Data Mining Obwohl in EKS97 bereits eine Datenstruktur und entsprechende Operationen definiert worden sind stellt bei gr eren Datenmengen der gro e Speicherbedarf ein erhebliches Problem dar Eine weitere Integration eines Nachbarschaftsgraphen wurde in Mor01 vorgestellt um damit Co Location Analyse durchzuf hren Der darin verwendete Graph das Voronoi Diagramm ist einerseits effizient in der Konstruktion dennoch kann dieser nicht f r andere Objekte als f r Punkte definiert werden Eine weitere interessante Alternative Spatial Data Mining ohne die Einf hrung von Da tenstrukturen und ohne jegliche Materialisierung durchzuf hren besteht in der Abbil dung der klassischen Problemstellungen auf die r umlichen Pendants und entsprechen de Abbildungen f r die L sungsmethoden zu finden RT04 RT05 Dabei ergeben sich die Schwierigkeiten bei der Abbildung die ein im Vergleich wesentlich komplexeres Ver st ndnis des Problems verlangt 138 A Spatial Data Mining Beispiele Im Folgende ist der Quellcode des Beispiels zur Demonstration des dbms_sdm_transform Packages in Kombination mit der Oracle Data Mining Cartridge aufgef hrt A 1 Clustering von Ballungsgebieten CREATE TABLE data_cities AS SELECT FROM gazetteer gazetteer a WHERE a country Germany AND a admin_lv13 is not null AND a admin_lvl2 is not null AND a admin_lvli is not null Grenzen ftir das
128. daten liefert das Gazetteer Projekt Gaz06 das zahlreiche Daten f r Staaten und Siedlungen Siedlungsgebiete und St dte bereitstellt siehe Abb 6 6 Informationen zu den Staaten Informationen zu Siedlungen Name Fl che qkm Bev lkerung Geometrie Name Staat Bev lkerung Geometrie Deutschland 360000 82 5 Mio ey Hannover Deutschland 500000 e Frankreich 550000 614Mio my Ben Abbildung 6 6 Daten aus dem Gazetteer Projekt Auszug L sungsansatz Der intuitive L sungsansatz zur Beantwortung des Problems f r das Clustering von Ballungsge bieten besteht darin dem Algorithmus die Attribute L ngengrad Breitengrad und Bev lkerung bereitzustellen und das Clustering anhand dieser Attribute durchzuf hren Dieses Vorgehen hat jedoch folgende Schwachstellen e Bei der Berechnung der hnlichkeit mit dem euklidischen Abstand kann es durch die unter schiedlichen Skalen der Attribute zu einer unvorhergesehenen Dominanz kommen z B bei den Wertebereichen L ngengrad 180 lt I lt 180 Breitengrad 90 lt b lt 90 und Bev lkerung population gt 0 wird die hnlichkeit durch die Bev lkerung dominiert e Dar ber hinaus k nnen Siedlungen oder St dte zu Cluster zusammengefasst werden die zwar hnlich zueinander sind und eine f r das Clustering notwendig H ufung bilden je doch keinem Ballungsgebiet entsprechen Das Ergebnis liefert demnach viele Cluster worun
129. der Aufteilung von nicht r umlichen Attributen ist daher situationsabh n gig Die Polygone werden bei dieser Variante nach ihrem prozentualen Anteil am Ursprungspoly gon mit den numerischen Attributen versehen z B die berdeckung der Polygone betr gt 20 dann ist der Wert f r ein numerisches Attribut ebenfalls 20 117 5 Data Mining in r umlichen Datenbanken Im Folgenden wird ein Algorithmus zur Transformation von geometrischen Objekten angegeben wobei Punkte Multi Punkte Polygone und Multi Polygone transformiert werden EINGABE AUSGABE METHODE 1 w 1 Tabelle mit nicht r umlichen Attributen einem r umlichen Attribut 2 Gr e A bei der ein Polygon unterteilt wird relationale Tabelle mit materialisierten Geometrien Erstelle eine Tabelle R ckgabe der Methode Spalten der Tabelle ergeben sich aus nicht r umlichen Spalten der Eingabe Tabelle und den neuen Spalten X und Y F r j Bestimme die Art der Geometrie WENN 4 1 4 2 4 3 WENN 5 1 5 2 5 3 WENN 6 1 6 2 WENN 7 1 7 2 WENN 8 1 ede Geometrie in der Tabelle Geometrie vom Typ Punkt DANN Extrahiere die Koordinaten X und Y F ge X Y und nicht r umliche Attribute in die Tabelle ein Gehe zu Punkt 2 Geometrie vom Typ Multi Punkt DANN Zerlege Multi Punkt in mehrere Punkte Fur jeden Punkt extrahiere die Koordinaten X und Y 5 2 1 Fuge X Y und nicht raumliche Attribute in die Tabelle ein Gehe zu Punkt
130. der Qualit tsfunktion q ist implizit das Quadrat der Euklidische Norm d o M 0 Mj mit 0 M IR als Abstandsfunktion enthalten Das k Means Verfahren soll die Datenmenge X in drei Cluster K 3 partitionieren Die initialen Mittelwerte der Cluster Ci Cp und C3 seien zuf llig mit M 1 1 Ma 2 2 und M3 4 1 gew hlt Das Clustering ist in Abb 2 8 anschaulich illustriert wobei die Cluster C und die zuge ordneten Daten und die Mittelpunkte M gr ne Punkte in Abb 2 8 angegeben sind Funktionsweise Es werden alle Daten nacheinander durchgegangen und jeweils die Ab st nde zu den Mittelpunkten der Cluster berechnet Das aktuell betrachtete Objekt wird dann dem Cluster zugeordnet zu dessen Mittelpunkt das Objekt den minimalsten Ab stand hat Gibt es keine nderungen der Cluster in der i ten Iteration im Vergleich zur i 1 ten Iteration so endet der Algorithmus Der Algorithmus endet ebenfalls falls eine festgelegte Anzahl an Iterationen durchgef hrt wurde Der Algorithmus endet nach vier Iterationen da keine weiteren Verschiebungen unterhalb der Clus ter zwischen der 3 und 4 Iteration stattfinden aus diesem Grund wurde die 4 Iteration nicht mehr veranschaulicht Das Ergebnis vom k Means Verfahren ist im letzten Diagramm in Abb 2 8 zu se hen Au erdem spielen die Wahl der Initial Mittelwerte und die Anzahl der zu erzeugenden Cluster eine entscheidende Rolle in puncto Anzahl der Iterationen und
131. die jeweils Wahrscheinlichkeiten besitzen Der einfachste Fall sind die zwei booleschen Werte EET true und false mit jeweils der Wahrscheinlichkeit von 50 Die oe Heine Einteilung von Intensit ten von Erdbeben k nnte z B die Wer te kein leicht mittel und hoch sein W Wenig Betrag Haufigkeit T F O Oft Ww G 0 99 0 01 G Gelegen WwW o 0 8 0 2 T True y G 0 9 0 1 F Vv 0 0 0 10 Die Kanten des Graphen entsprechen statistischen Abh ngig keitsbeziehungen zwischen den Zufallsvariablen die durch be dingte Wahrscheinlichkeiten ausgedr ckt werden In Abb 2 18 Abbildung 2 18 Bayessches Netz sind die Knoten Betrag und H ufigkeit der Transaktionen durch eine Kante verbunden d h der H u figkeit ist direkt abh ngig vom Knoten Betrag und die dazugeh rigen bedingten Wahrscheinlichkei ten sind in der nebenstehenden Tabelle notiert False Diese Abh ngigkeitsbeziehungen werden zur Berechnung der Wahrscheinlichkeitsverteilung unter den Knoten des Graphen verwendet unter Benutzung des Theorems von Bayes P X1 Xn I 13 1 X Vorg ngerknoten X Zur vollst ndigen Berechnung der Wahrscheinlichkeitsverteilung 31 2 Knowledge Discovery und Data Mining des Bayessche Netzes sind demnach die Wahrscheinlichkeiten der Wurzelknoten Knoten ohne Vor g ngerknoten und die bedingten Wahrscheinlichkeiten aller anderen Knoten in Bezug auf die di rekten Vorg ngerknoten notwendig Damit ist es da
132. disjunkten Werten des Attributs zu gro ist da dadurch m glicher weise im Data Mining Schritt ungen gende Ergebnisse aufgrund der hohen Detaillierung erzielt werden z B die Angabe des Alters in Jahren vs die Angabe des Alters in die Bereiche 0 25 25 40 40 65 und gt 65 Im Beispiel in Abb 2 2 werden die Noten die in Prozent Noten Noten also im Bereich zwischen 0 100 angegeben sind auf l Ai 1 6 die Mengen 1 bis 6 diskretisiert T030 6 ee Ber Diskretisierung Doch diese Transformation ist nicht verlustfrei da poten see tiell wichtige Details vernachl ssigt werden die jedoch 10 95 2 m glicherweise interessant f r den Data Mining Prozess 195 1001 DE gewesen w ren In Abb 2 2 gehen beispielsweise die ge nauen Prozente die einer Note entsprechen verloren Wo mit keine Aussagen mehr getroffen werden k nnen wie viel Prozent einer Pr fung nur knapp einer besseren respektive schlechteren Note entgangen sind F r die Diskretisierung gibt es zwei Ans tze die berwachte supervised und die un berwachte unsupervised Diskretisierung DKS95 Bei der berwachten Diskretisierung werden die Daten in den Bildungsprozess der disjunkten Intervalle mit integriert bei der un berwachten erfolgt die Intervallbildung ohne jegliche Kenntnis der Daten Im folgenden soll die Diskretisierung anhand der Binning Methode n her erl utert werden Binning Unter
133. dnung der kleineren Polygone zu ihrem Ursprungspolygon erhalten 115 5 Data Mining in r umlichen Datenbanken Probleme bei der Transformation von Polygonen Bei der vorgeschlagenen Transformation der Polygone k nnen jedoch Probleme auftreten die durch die Gestalt der Geometrien verursacht werden In Abb 5 21 sind einige Beispiele dargestellt Durch die Abstraktion der Geometrie durch die konvexe H lle k nnen Geometrien mit sich stark unter scheidenden Eigenschaften entstehen Besonders deutlich macht sich dabei die Ver nderung der Fl che einer Geometrie bemerkbar Ist ein auffallend gro er Unterschied zwischen der Fl che des eigentlichen Polygons und des Polygons das durch die konvexe H lle repr sentiert wird zu ver zeichnen so sollte das Polygon nicht durch die konvexe H lle dargestellt werden In diesem Fall ist es plausibel dass das Polygon ebenfalls durch ein Raster unterteilt wird um somit eine genauere Repr sentation durch eine Punktmenge zu erreichen b l ngliches Polygon c Multipolygon d Multipolygon mit geschachteltem Polygon go gg a Polygon mit Loch Abbildung 5 21 Probleme bei der Transformation von Polygonen Da es bei diesem Vorgehen jedoch vorkommen kann dass ein Polygon bereits sehr klein ist aber dennoch eine gro e Diskrepanz zwischen der Fl che des Polygons und der Fl che konvexen H l le aufweist bietet sich hierbei ein Richtwert an der angibt wann ein Polygon nicht m
134. e gt movie_apply_result END Ausgabe der wahrscheinlichsten Klassifikation der Filme SELECT id prediction probability 100 as probability FROM SELECT id max probability as probability FROM movie_apply_result GROUP BY id NATURAL JOIN movie_apply_result ID PREDICTION PROBABILITY IMDB 1001 mittel 62 6 4 mittel 1002 hoch 58 8 5 hoch Listing 4 25 Klassifikation unbekannter Daten Eine andere Anwendung des Klassifikators w re z B die m gliche Klassifikation eines Films in dem Schauspieler im Vorhinein ausgew hlt werden um dadurch die Chancen auf einen erfolgrei chen Film auszuloten In Listing 4 26 ist ein Ergebnis f r eine derartige Anfrage dargestellt die untersucht ob ein Film mit den Schauspielern 1 Matt Damon und 2 Humphrey Bogart Erfolg haben w rde Anmerkung Sehr hypothetisch 91 4 Data Mining Ein Beispiel Anwendung des Klassifikators mittels der APPLY Funktion ID ist ein k nstliches Attribut zur Identifikation SELECT id prediction probability 100 as probability FROM movie_apply_result ID PREDICTION PROBABILITY 1003 hoch 50 1003 mittel 35 1003 niedrig 15 Listing 4 26 Bewertung eines Films mit einer fiktiven Kombination von Schauspielern 4 4 2 Erfahrungen mit der Klassifikation in ODM e Die Klassifikation in Oracle Data Mining bietet durch die vier implementierten Algorithmen eine gro e Auswahl und macht somit ein
135. e z B Polygon Linien etc soll durch eine Abbildung der Geometrie auf einen oder mehrere repr sentative Punkte P d h P x y 112 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen durchgef hrt werden Durch die reduzierte Repr sentation der geometrischen Objekte durch Punk te werden jedoch die topologischen Beziehungen komplett vernachl ssigt und die metrischen Be ziehungen verf lscht In Abb 5 14 ist dieser Zusammenhang anschaulich dargestellt Die Polygone A und C besitzen die topologische Beziehung benachbart und die Polygone B und C berlappt Durch die Repr sentation durch Punkte gehen diese Informationen vollst ndig verloren Transformation Polygon Darstellung Punkt Darstellung Abbildung 5 14 Verlust der topologischen Beziehungen zw den Geometrien Die Verf lschung der metrischen Beziehungen schildert folgendes Beispiel Z B sind die Polygone A und C benachbart und haben den Abstand 0 voneinander Durch die Punkt Darstellung von A und C ist der Abstand jedoch gt 0 Um diese Unzul nglichkeiten bei der Konservierung der metrischen Beziehungen zu minimieren m ssen entsprechend Transformationen f r die geometrischen Objekte definiert werden Im Fol genden wird durch die thematische Betrachtungsweise der Aspekt gebilligt dass die topologischen Beziehungen zwischen den geometrischen Objekten durch die Repr sentation durch Punkte kom plett verloren gehen Im Wei
136. e Entdecken und Aufl sen von Konflikten in den Daten Die Selektion und die damit verbundene Datenintegration ist essentiell da die nachfolgenden Schrit te des KDD Prozesses und insbesondere die Methoden im Data Mining Schritt nicht mit mehreren Quellen arbeiten k nnen 2 4 Preprocessing Im Preprocessing Schritt sollen die Daten aufgearbeitet und von Fehlern bereinigt werden Ein gravierendes und h ufig vorkommendes Problem heutiger Datensammlungen die in relationa len Datenbanksystemen gespeichert sind liegt darin dass die Datensammlungen unvollst ndige Daten d h Attributwerte fehlen oder nur aggregierte Attributwerte vorhanden sind st rende Da ten Fehler oder Ausrei er inkonsistente Daten und Redundanzen aufweisen Darum ist es im Preprocessing Schritt notwendig dass diese Unstimmigkeiten behoben und f r den Data Mining Schritt vorbereitet werden Dadurch soll erreicht werden dass die Data Mining Verfahren schnell und effizient arbeiten k nnen und das Ergebnis qualitativ besser und die gefundenen Gesetzm Gigkeiten aussagekr ftiger sind Zum Preprocessing geh ren nachfolgende Teilschritte 2 4 1 Behandlung fehlender Werte Missing Values Das Problem der fehlenden Werte tritt in relationalen Datenbanken relativ h ufig auf da oftmals dieselbe Anzahl an Attributen f r jeden Datensatz auch dann gefordert ist wenn f r einige At tribute keine Eintragungen m glich sind oder unwichtig erscheinen Die fehlenden Werte st
137. e Intention der Suche nach verborgenen Informationen in gro en Datenmengen die der KDD Prozess zweifellos verfolgt ist spannend und reizvoll zugleich jedoch stellt sich dieser Prozess im Allgemeinen als recht schwierig dar Es kommt beispielsweise die Frage auf wann ein Muster neuartig ist oder wann ein Muster als potentiell n tz lich erachtet wird und wer das alles letztendlich entscheidet Im Idealfall l uft der Prozess der Knowledge Discovery vollautomatisch und geradlinig ab In der Praxis wird jedoch eher beobachtet dass der vollautomatische lineare Prozess eher ein interaktiver und iterativer Prozess ist bei dem mehrere Schleifen enthalten sein k nnen und bei dem der An wender h ufig korrigierend eingreifen muss da sonst falsche und unsinnige Ergebnisse oder wo m glich gar keine Ergebnisse aus dem KDD Prozess hervorgehen In Abb 2 1 wird dieser interaktive und iterative Charakter des Prozesses bersichtlich dargestellt Der KDD Prozess unterteilt sich danach in die nachfolgenden sechs Schritte FPSS96 HK00 wobei der erste Schritt nicht direkt dargestellt ist da dieser die Auswahl der Datenbank z B Bibliotheks datenbank oder Studentendatenbank betrifft 1 Erfassung von Hintergrundwissen und Zielen 2 Selektion Datenauswahl und Datenintegration 3 Preprocessing Datenvorverarbeitung Datenbereinigung 2 2 Erfassung von Hintergrundwissen und Zielen 4 Transformation Datenreduktion und Datentransformation
138. e Kapitel 2 Assoziationsanalyse entsprechen bei dem der Film den Waren korb und die Schauspieler die Waren repr sentieren Das Vorgehen dieser Transformation wurde bereits in Abschnitt 4 1 1 demonstriert In Listing 4 22 wird lediglich die Transformation der Daten dargestellt CREATE TABLE class_prepared NESTED TABLE actor_for_movie STORE AS DM_Nested_Numericals_actor AS SELECT id CAST COLLECT DM_Nested_Numerical SUBSTRB name 1 30 1 AS DM_Nested_Numericals actor_for_movie target FROM daten_tabelle GROUP BY id target Listing 4 22 Klassifikation Transformation der Daten 3 Data Mining Klassifikation In diesem Schritt erfolgt die Konstruktion des Klassifikators auf Grundlage der vorbereiteten Daten Die Daten werden dabei in Trainingsdaten und und Testdaten aufgeteilt wobei sich der Anteil der Testdaten auf 4 der gesamten Daten bel uft F r die Konstruktion des Klassifikator kommt aufgrund der Verwendung einer geschachtelten Ta belle nur der Naive Bayes Algorithmus oder der Support Vector Machine Algorithmus in Frage Die Wahl f llt auf den Support Vector Machine Algorithmus da dieser im Gegensatz zum Naive Bayes die notwendigen Parameter automatisch bestimmt und somit ein optimales Ergebnis im Sinne der zur Verf gung stehenden Daten liefert BM05 Listing 4 23 beschreibt die Konstruktion des Klassifikators BEGIN INSERT INTO class_settings setting_name setting_value VALUES dbms_dat
139. e breite Anwendung m glich Jedoch kann es pro blematisch werden wenn man eine der verf gbaren Methoden favorisiert da beispielswei se die Verarbeitung von geschachtelten Tabellen lediglich auf den Support Vector Machine Algorithmus und den Naive Bayes Algorithmus beschr nkt ist Und die Transparenz der Me thode ist nur beim Klassifikationsbaum im Single Feature Modus vom Adaptive Bayes Net work und beim linearen Kernel der Support Vector Machines gegeben e Die Konstruktion des Klassifikators und die anschlie ende Klassifikation ist sehr schnell so dass die durchgef hrten Beispiele weniger als 20sec f r die Konstruktion respektive Klassifi kation ben tigten e Bei der Klassifikation mit dem Klassifikationsbaum kann der Klassifikationsprozess u a durch die Klassifikationsregeln nachvollzogen werden Listing 4 27 enth lt dazu beispielhaft eine Klassifikationsregel die in der Form von Oracle Data Mining durch das Parsen des XML Baums siehe Kapitel 3 erzeugt worden ist Bei dieser Regel ist bereits zu erkennen dass diese noch vereinfacht werden k nnte Oracle Data Mining fasst also einfach alle Entschei dungen vom Wurzelknoten bis zum Blattknoten zu einer Klassifikationsregel zusammen Ein Post Processing zur Vereinfachung der Regeln findet nicht statt wodurch die Lesbarkeit und das Verst ndnis gemindert wird Klassifikationsregel 1 Oracle IF ATTRIBUTE_1 lt VALUE_1 AND ATTRIBUTE_1 lt VALUE_2 AND ATTRIBUTE_2 lt
140. e gibt die mehr als zwei Elemente haben woraus Assoziati onsregeln gebildet werden k nnen Ist dies der Fall kann die Minimum Confidence f r die Asso ziationsregeln entsprechend reduziert werden Tritt jedoch der Fall ein dass keine frequent itemsets oder lediglich frequent itemsets mit genau einem Element vorhanden sind dann muss der Minimum Support reduziert werden 4 1 2 Erfahrungen mit der Assoziationsanalyse in ODM Ein Problem bei der Assoziationsanalyse stellt der grofse Speicherbedarf den der Algorithmus bei der Analyse der Daten ben tigt dar Der Algorithmus stoppt die Analyse mit der in Listing 4 6 abgebildeten Fehlermeldung Die Ursache liegt darin dass nicht gentigend Speicher fiir die tempo raren Daten in der Datenbank tablespace vorhanden ist ERROR at line 1 ORA 40101 Data Mining System Error ODM_ASSOCIATION_MODEL BUILD ORA 06512 at SYS DBMS_SYS_ERROR line 105 ORA 06512 at DMSYS ODM_ASSOCIATION_RULE_MODEL line 1396 ORA 01653 unable to extend table Z10_32NKBT by 1024 in tablespace Listing 4 6 Probleme bei Assoziationsanalyse Bei Assoziationsanalyse von eindimenstionalen Assoziationsregeln und die damit verbundene Ver wendung der geschachtelten Tabellen DM_NESTED_NUMERICALS und DM_NESTED_CATEGORICAL tritt ein weiteres Ph nomen auf Im obigen Beispiel wurde beispielsweise der Datentyp DM_NESTED_ NUMERICALS verwendet und die Assoziationsanalyse dauerte ca 15sec Bei der Verwendung von DM_NESTED
141. ederum durch den Support Vector Machine Algorithmus automatisch bestimmt wird Damit soll das Ergebnis zu optimiert und die Interaktion zu minimiert werden 70 3 5 Oracle Knowledge Discovery Anmerkung Die Parameter f r den Support Vector Machine Algorithmus im Fall der Regression sind der Tabelle aus dem Abschnitt Klassifikation 3 5 3 zu entnehmen In der ersten Phase die analog zur ersten Phasen der Klassifikation in Abb 3 8 ist wird das Modell also die Regressionsfunktion f r die Regression konstruiert In Listing 3 23 ist die Konstruktion eines Regressionsmodells dargestellt wobei der Parameter target_column_name numerisch sein muss DBMS_DATA_MINING CREATE_MODEL model_name gt REGRESSION_MODEL mining_function gt DBMS_DATA_MINING regression data_table_name gt data case_id_column_name gt object_id target_column_name gt target Listing 3 23 Regression Das Modell fiir die Regression mit dem Support Vector Machine Algorithmus kann bei ODM wie bei der Klassifikation nur eingesehen werden wenn der Lineare Kernel benutzt wird In Listing 3 24 ist die SQL Anfrage abgebildet die Details fiir die Regressionsfunktion ausgibt Es werden die Koeffizienten fiir jedes Attribut das an der Regressionsfunktion beteiligt ist wiedergegeben Beispielsweise wurde ein Modell mit beliebigen Punkten der Funktion f x 4x 20 erstellt Das Ergebnis d h die Koeffizienten der Reg
142. ehr zerlegt werden darf Im Folgenden wird ein Algorithmus angegeben der die Zerlegung von beliebigen Polygonen z B Polygone mit L chern abstrahiert durch die konvexe H lle realisiert EINGABE 1 Geometrie Polygon 2 Werte f r max Fl chenunterschied und min Fl che zur Zerlegung AUSGABE relationale Tabelle mit materialisierten Geometrien METHODE 1 Berechne die konvexe H lle WENN Fl che Polygon lt min Fl che zur Zerlegung DANN 2 1 Gehe zu Punkt 4 WENN Fl che der konvexen H lle gt gt Fl che Polygon DANN 3 1 Zerlege Polygon anhand eines Rasters in kleine Polygone 3 2 Berechne nicht r umliche Attribute f r die neuen Polyone 3 3 Rekursiver Aufruf dieser Methode mit den neuen Polygonen SONST 4 1 Berechne den Centroiden des Polygons und Extrahiere X und Y 4 2 F ge X Y und die nicht r umlichen Attribute in die Tabelle ein N w gt Behandlung von nicht r umlichen Attribute Bei der Zerlegung von Polygonen und Multi Polygonen ist es notwendig zu entscheiden was mit den nicht r umlichen Attributen die das Polygon beschreiben passieren soll Dieser Aspekt soll anhand eines kurzen Beispiels erl utert werden 116 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen In Abb 5 22 ist eine Karte mit drei Waldfl chen gegeben die durch die Attribute Art des Waldge biets Art des Waldes Gr e des Waldgebiets Fl che und Anzahl der Br nde f r das Waldgebiet Anzahl an B
143. ehung durch Angabe einer Referenz Schicht die durch die Parameter Objekt Tabelle den Prim rschl ssel und dem Geometrie Objekt beschrieben wird sowie einer thematischen Karte mit Geometrie Objekt PROCEDURE insertMetricRelMaterialisation definition_table STRING Tabelle f r berechnete Werte object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels 126 6 1 Spatial Data Mining Transformation object_geom STRING Spalte der Geometrie theme_layer STRING thematische Karte theme_geom STRING Spalte der Geometrie Die Prozedur insertDirctRelMaterialisation materialisiert eine gerichtete Beziehung Das Vor gehen und die Parameter entsprechen den der Prozeduren insertTopoRelMaterialisation und insertMetricRelMaterialisation Ferner spezifiziert der Parameter direct_modell die Einteilung der Richtungen und besitzt nach Abb 5 25 in Kapitel 5 26 einen der folgenden Werte 4DM oder 8DM fiir 4 bzw 8 Richtungen PROCEDURE insertDirctRelMaterialisation definition_table STRING Tabelle fiir berechnete Werte object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels object_geom STRING Spalte der Geometrie theme_layer STRING thematische Karte theme_geom STRING Spalte der Geometrie direct_modell STRING Modell zur Einteilung Die Prozedur insertNumACRelMaterialisation materialisiert die Autokorrelationseigenschaft ei nes numerischen Attributs
144. ei n dimensionale Vektoren x und y repr sentiert En a sei en x 1 2 1 0 5 und y 4 3 0 0 3 zwei 5 dimensionale Vektoren dann ergibt der Euklidische Abstand d x y 3 6 b 16 2 6 Data Mining 2 Der Cosinus Abstand zweier Objekte ist definiert als d x y cos x ver wobei Teak j alt lt gt entspricht dem Skalarprodukt zwei er Objekte und entspricht der L nge bzw dem Betrag eines Objekts und die Objekte durch zwei n dimensionale Vektoren X und y repr sentiert werden Durch den Cosinus Abstand wird der Korrelationskoeffizient zwischen zwei Vektoren beschrieben Ein Koeffi zient nahe 0 beschreibt eine signifikante Korrelation und nahe 1 keine Korrelation Es sei en X 1 2 1 0 5 und y 4 3 0 0 3 zwei 5 dimensionale Vektoren dann ergibt der Cosinus Abstand d x y x 0 2 3 Der Schneller Cosinus Abstand zweier Objekte ist definiert als d x y 1 lt x y gt und somit hnlich zum Cosinus Abstand Der Unterschied liegt in der Normalisierung der Vektoren x und y da angenommen wird dass X y 1 f r den Cosinus gilt cos x 7 Eine formale Definition f r das Clustering gibt Joa Definition Clustering Sei X 01 0 ein Menge von Objekten Sei weiterhin q P P X R eine Qualit tsfunktion die die Qualit t der erstellten Cluster misst F r die Definition der Qualit tsfunktion q wird h ufig eine Abstandsfunktion siehe Beispiel weiter hinten verw
145. ei werden zwei Vorgehensweisen bei der Materialisie rung vorgeschlagen e feature instance beschreibt die Materialisierung einer r umlichen Beziehung nach dem r um lichen feature und der Identifizierung durch die instance Z B Die Stadt Hannover wird vom Fluss Leine geschnitten d h topologische Beziehung schneidet Hannover Fluss Leine TRUE 107 5 Data Mining in r umlichen Datenbanken Die Materialisierung erfolgt dann durch die Erweiterung der Relation St dte um das Attribut Fluss_Leine Fluss entspricht feature und Leine entspricht instance das den Wert schneidet erh lt Diese Art der Materialisierung hat zur Folge dass die Relation f r jedes materialisierte Objekt um ein neues Attribut erweitert wird Des Weiteren wird durch die Beschr nkung der topologischen Beziehungen auf das 9 IM Ege91 gew hrleistet dass keine Mehrdeutigkeiten zwischen dem feature und der instance auftreten k nnen e feature type beschreibt die Materialisierung einer r umlichen Beziehung nach dem r umli chen feature und dem type der r umlichen Beziehung Z B Die topologische Beziehung schnei det Hannover Fluss Leine TRUE wird zun chst auf schneidet Hannover Fluss TRUE re duziert und anschlie end durch die Erweiterung der Relation St dte um ein weiteres Attri but Fluss_schneidet Fluss entspricht feature und schneidet entspricht type das den Wert TRUE erh lt materialisiert Anmerkung Unter der Annahme dass die Anzahl
146. eighbors gt 1000000 and density gt 100000 BEGIN DBMS_SDM_TRANSFORM create_SDM_Transform demo_clustering demo_clus_selection DBMS_SDM_TRANSFORM insert_SDM_Transform demo_clustering demo_clus_selection geometry DBMS_SDM_TRANSFORM xform_SDM_Transform demo_clustering END DATA MINING Konstruktion der Konfigurationstabelle und des Modells CREATE TABLE test_clus_settings setting_name VARCHAR2 30 setting_value VARCHAR2 30 BEGIN INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING clus_num_clusters 8 INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING kmns_iterations 5 END BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt test_clus_1 mining_function gt DBMS_DATA_MINING CLUSTERING data_table_name demo_clustering case_id_column_name gt sdm_id settings_table_name gt test_clus_settings END Ausgabe der Centroide und Beschreibungen der Cluster siehe Anhang B f r Clustering 140 B Oracle Data Mining Beispiele Im Folgende wird der Quellcode der Beispiele zur Anwendung der Oracle Data Mining Cartridge die in Kapitel 4 vorgestellt und beschrieben wurden aufgelistet B 1 Assoziationsanalyse 4 Daten f r Assoziationsanalyse f r Schauspieler also wer mit wem CREATE TABLE tmp_actor AS SELECT distinct at movie bt person bt name FROM moviedb part at join moviedb person bt on
147. eine enorme Benutzerinteraktion zur Post Analyse der Assoziati onsregeln nach sich zieht Dieses Problem der Assoziationsanalyse l sst sich nur schwer automati sieren da die Interessantheit beziehungsweise Wichtigkeit einer Regeln ein subjektives Empfinden ist und von Benutzer zu Benutzer abweichen kann 2 6 4 Klassifikation Beispiel Ein Kreditinstitut hat in letzter Zeit vermehrt F lle von Kreditkartenmi brauch verzeich net Das Kreditinstitut m chte aus diesem Grund ein System einsetzen das seine Kunden besser sch tzt indem Betrugsversuche fr hzeitig erkannt werden Wie kann man jedoch entscheiden wann ein Betrugsfall vorliegt und wann nicht F r die Entscheidungsfindung wird ein Vorhersa gesystem eingesetzt das anhand von gegebenen Eigenschaften Attributen eine Einstufung oder Einteilung in Betrug und kein Betrug vornimmt F r die Einteilung von Daten in verschiedene Kate gorien oder Klassen deren Anzahl endlich ist kommt die Klassifikation zur Anwendung Die Klassifikation ist eine pr diktive Data Mining Methode die eine bereits vorhandene Klassi fizierung von einigen Objekten in den zu analysierenden Daten voraussetzt Damit soll versucht werden ein Modell zu finden das eine allgemeing ltige Klassifizierungsvorschrift darstellt Das Modell enth lt die Attribute sogenannte Pr dikatoren und die Beziehungen zwischen den Attribu ten die zur Klassifikation essentiell sind Es wird zwischen bin rer und mehrwertiger Kla
148. eine neue Tabelle target_table durch das Anf gen der materialisierten Informationen definition_table an die Objekt Tabelle object_layer konstruiert wird PROCEDURE xformRelMaterialisation definition_table STRING Materialisierung object_layer STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels target_table STRING Erweiterte Tabelle 6 1 2 Materialisierung von geometrischen Objekten F r die Materialisierung von geometrischen Objekten nach dem in Abschnitt 5 3 3 vorgestellten Konzept sind ebenfalls entsprechende Prozeduren und Funktionen im PL SQL Package sdm_trans form implementiert Mit der folgenden Prozedur wird die Materialisierung von geometrischen Objekten eingeleitet Da bei wird eine Tabelle mit dem Namen augment_table_name erstellt deren Struktur sich nach der Struktur der Objekt Tabelle object_table richtet jedoch um die Spalten vom Typ SDO_GEOMETRY reduziert und um die Spalten X und Y erweitert PROCEDURE create_SDM_Transform augment_table_name STRING erweiterte Tabelle object_table STRING Objekt Tabelle setting_table STRING Konfigurationstabelle Uber die Konfigurationstabelle setting_table die beim Aufruf der Prozedur create_SDM_Transform angegeben werden kann k nnen die folgenden Parameter die bei der Materialisierung der geome trische Objekte in eine repr sentative Punktmenge relevant sind beeinflusst werden e DBMS_SDM_TRANSFORM MAX_AREA max Gr e ein
149. einem hohen Abstraktionsgrad betrachtet Das folgende Beispiel einer topologischen Beziehung schneidet Fluss Leine Stadt Hannover TRUE wird nach dem feature type Prinzip folgendermafsen reduziert schneidet Fluss Stadt Hannover TRUE 120 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen Mit der Materialisierung mit dem hohen Abstraktionsgrad soll lediglich ausdr ckt werden dass eine topologische Beziehung zwischen zwei geometrischen Objekten g ltig ist Dabei ist es weniger interessant welche geometrischen Objekte daran beteiligt sind Technisch betrachtet wird die Materialisierung von topologischen Beziehungen durch das Hin zuf gen von booleschen Attributen an die Objekt Tabelle realisiert Abb 5 25 Dabei wird nach dem Schichten Modell vorgegangen Zun chst wird eine Referenz Schicht z B St dte die Objekt Tabelle ausgew hlt Anschlie end werden durch berlagerung von thematischen Karten z B Stra en oder Fl sse mit der Referenz Schicht die topologischen Beziehungen materialisiert topologische Beziehung zw Referenz Schicht und ID Attribute Hinzuf gen thematischer Karte TRUE FALSE St dte Fl sse Strassen Abbildung 5 25 Materialisierung topologischer Beziehungen Im Folgenden wird ein Algorithmus vorgestellt der eine Transformation einer topologischen Bezie hung in ein boolesches Attribut durchf hrt E
150. en m ssen die numerischen Attribute ebenfalls diesen Wertebereich haben Um dies zu erreichen werden die numerischen Attribute mit der Min Max Normierung auf den Bereich 0 1 transformiert Dadurch haben alle Attribute den gleichen Einfluss auf die Abstandsfunktion bei der Verwendung von Enhanced k Means Algorithmus In Listing 4 16 wird die Transformation der Daten dargestellt 84 4 3 Clustering BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_NORM_LIN conf_clus_sample_8_2 DBMS_DATA_MINING_TRANSFORM INSERT_NORM_LIN_MINMAX gt conf_clus_sample_8_2 clus_temp_1 DBMS_DATA_MINING_TRANSFORM COLUMN_LISTC 2247 DBMS_DATA_MINING_TRANSFORM XFORM_NORM_LIN gt conf_clus_sample_8_2 clus_temp_1 gt clus_prepared END Listing 4 16 Transformation Normierung der numerische Werte 3 Data Mining Clustering Nachdem die Daten vorbereitet sind kann die demographische Eintei lung der Schauspieler durchgef hrt werden F r das Beispiel soll das Clustering mit dem k Means Algorithmus durchgef hrt werden Die Einteilung der Schauspieler soll in acht Gruppen erfolgen und diese Einstellung wird entsprechend in der Konfigurationstabelle vorgenommen indem der Parameter clus_num_clusters gleich acht gesetzt wird Au erdem wird die Anzahl der durch zuf hrenden Iterationen zur Findung der Cluster dessen Parameter kmns_iterations einen Wert zwischen 0 und 20 annehmen kann auf f nf geset
151. en Definition beschreibt die Aus wahl der Relationen und der Attribute der Datenbank die f r die weitere Verarbeitung rele vant sind Und die nicht r umlichen Filter geben Bedingungen vor die die Daten die durch die Daten Definition spezifiziert sind erf llen m ssen 2 Materialisierung Materialization Dieser Schritt unterteilt in die Unterschritte Spatial Join und Spatial Optimizer materialisiert transformiert die r umlichen Daten d h alle r umli chen Datentypen und r umlichen Beziehungen topologisch metrisch gerichtet werden zu nicht r umlichen Attributen umgewandelt F r die Materialisierung werden dabei Optimie rungsfunktionen und Indexe zur Beschleunigung der r umlichen Berechnungen definiert 3 Transformation Transformation In diesem Schritt werden die nicht r umlichen Attribute und alle materialisierten Informationen aus dem vorangegangenen Schritt zu einer einzelnen Tabelle zusammengefasst Diese Tabelle wird anschlie end mit dem klassischen Data Mining verarbeitet Geographic Data Preparation Transformation Materialization H m E Sau Classical DM UW u gt u ER A Spatial Spatial Optimizer Join Geographic Database Data Non Spatial Definition Filter Abbildung 5 10 Knowledge Discovery in r umlichen Datenbanken VBO5b Die Materialisierung der r umlichen Beziehungen beschr nkt auf topologische und metrische Be ziehungen wird in VBO6b beschrieben Dab
152. en Eigenschaften welche nicht raumbezogen sind z B Name Bev lkerung und Kriminalit tsrate einer Stadt und nehmen einfache Datentypen wie z B Zahlen NUMBER etc und Zeichenketten VARCHAR etc an Im Gegensatz dazu charakte risieren die r umlichen Attribute die r umliche Lage L ngen und Breitengrad und geometrischen Eigenschaften z B H henangabe und Geometrie Form und nehmen komplexere Datentypen an z B Polygon Linie Punkt Die Kombination der r umlichen und nicht r umlichen Attribute wird in r umlichen Datenbanken als Schicht Layer bezeichnet Dabei ist charakteristisch dass eine Schicht immer genau ein r umli ches Attribut und mehrere nicht r umliche Attribute die sich auf das r umliche Attribut beziehen besitzt Die Realisierung der Schichten in der Datenbank erfolgt durch Relationen d h Tabellen 93 5 Data Mining in r umlichen Datenbanken Eine Schicht wird auch als thematische Karte bezeichnet F r die Darstellung der thematischen Karten gibt es zwei M glichkeiten Raster Darstellung und Vektor Darstellung KAH96 1 In der Raster Darstellung werden die r umlichen Attribute durch Punkte dargestellt und die nicht r umlichen Attribute werden durch Intensit ten oder Farben repr sentiert 2 In der Vektor Darstellung werden die r umlichen Attribute durch Geometrien dargestellt i d R durch die Begrenzung der Geometrie die mit nicht r umlichen Attributen annotiert sind Die Daten in ein
153. en der Name des Attributs col die Verschiebung shift um einen errechneten Wert und ein Skalierungsfaktor scale gespeichert Bei der R ck transformation der normierten Werte werden die Informationen der Normierungstabelle wiederum ben tigt um die urspr nglichen Werte zur ckzurechnen Diese Tabelle hat das folgende Schema Spaltenname Datentyp Bedeutung col VARCHAR2 30 Name des Attributs shift NUMBER Verschiebung T d Zahlers scale NUMBER Skalierung Nenner Im zweiten Schritt der Normierung werden die einzelnen Werte fiir shift und scale der numeri schen Attribute je nach Normierungsmethode ermittelt ODM stellt folgende Arten der Normierung zur Verfiigung siehe Kapitel 2 5 e Min Max Normierung shift Minimum und scale Maximum Minimum e Z Score Normierung shift Mittelwert und scale Standardabweichung e Skalen Normierung shift 0 und scale max abs Maximum abs Minimum Im dritten Schritt wird die Normierung der numerischen Attribute abgeschlossen indem eine Sicht auf der Datentabelle unter Verwendung der Informationen in der Normierungstabelle erzeugt wird F r die Normierung wird die folgende Berechnungsvorschrift benutzt norm_x eu x Minimum Maximum Minimum F r die Min Max Normierung ergibt sich die folgende Berechnung norm_x In Listing 3 7 wird die Durchf hrung der Normierung von numerischen Werten in ODM beschrie ben In diesem Beisp
154. endet Gegeben X und q besteht die Aufgabe des Clustering darin eine Menge von Clustern C C Ck P P X wobei C P X c X f r alle i 1 k zu finden so dass q C maximiert wird d h die hnlichkeit der Objekte 0 innerhalb eines Clus ters soll maximal sein und die hnlichkeit der Objekte 0 in unterschiedlichen Clustern sollen minimal sein Es gilt dabei X U 1 x Ci Weiterhin soll optional gelten dass die Cluster disjunkt sind d h C Cj f r alle i Aj 1 k Die wichtigsten Clustering Verfahren lassen sich in die folgenden Kategorien Abb 2 6 einteilen Die Wahl des Verfahrens ist dabei haufig abhangig von den zur Verfiigung stehenden Daten da die einzelnen Verfahren auf gleichen Daten unterschiedlich gute Cluster bilden k nnen Im Folgenden werden die einzelnen Kategorien kurz beschrieben Des Weiteren werden die wichtigsten und am h ufigsten verwendeten Verfahren bzgl ihrer Kategorie anhand von Beispielen n her erl utert F r ein tieferes Verst ndnis aller Kategorien und den damit verbundenen Verfahren sei auf die angege bene Literatur JMF99 HK00 Sch05 verwiesen Clustering Partitioning based Hierarchical based Density based Grid based Abbildung 2 6 Kategorien des Clustering a Partitioning based Methoden Gegeben seien n Objekte Weiter seik N die Anzahl der zu erzeugenden Partitionen Ebenfalls ge geben sei eine
155. er r umlichen Datenbank beinhal Topological relations b Distance relations c Direction Order relations ten dar ber hinaus implizite Beziehungen die die Lage und Nachbarschaft der Objekte zueinander beschreiben Nach EKS97 KH95 SC03 lassen sich die impliziten Beziehungen in die folgenden drei Gruppen siehe Abb 5 1 einteilen a topolo B southeast A gische Beziehungen z B Az benachbart B2 B3 ent h lt A oder Az schneidet By b metrische Bezie Abbildung 5 1 R uml Beziehungen VB05a hungen z B Abstand d Abstand von A nach A2 Durchmesser Fl che Fl cheinhalt B4 und c gerichtete Beziehungen z B Bz S dWest_von Aj B2 Nord_von A a topologische Beziehungen Die topologischen Beziehungen zweier Objekte ergeben sich aus der Betrachtung der m glichen Uberlagerungen der Objekte F r zwei dimensionale Objek te A und B ergeben sich nach Ege91 acht topologische Beziehungen A disjunkt B A ber hrt B A berdeckt B A wird_ berdeckt_von B A innerhalb B A gleich B A enth lt Bund A berlappt B Diese Beziehungen werden nach Ege91 in einem Modell dem sogenannten 9 Intersection Modell 9IM zusammengefasst Einige dieser Beziehungen sind jedoch redundant z B A berdeckt B A wird_ berdeckt_von B weshalb in YLG 05 bewiesen wird dass lediglich f nf topologische Beziehungen zwischen zwei zwei dimensionalen Objekten n tig sind A disjunkt B A ber hrt B A gleich B A innerhalb B und
156. eren Stufen der Hierarchie aufgrund der Zusammenfassung ergeben k nnen 2 6 3 Assoziationsanalyse In der folgenden Tabelle sind beispielhaft Datens tze eines Supermarktes aufgelistet die den Inhalt von Warenk rben beschreiben Bei genauer Analyse der Daten ist auff llig dass es Artikel gibt die oftmals zusammen gekauft werden Dieser Aspekt suggeriert eine Abh ngigkeit unter den Artikeln z B Produkt Brot wird oftmals mit Produkt Erdnuss Butter gekauft Beispiel Supermarkt Warenkorb Bier Brot Erdnuss Marmelade Milch Butter Wy x x x W2 X X W3 x x X w4 X X ws X X W6 x x X Diese Abh ngigkeiten unter den Daten sind von besonderem Interesse da diese im Allgemeinen nicht offensichtlich sind und somit interessante Erkenntnisse bieten oder R ckschl sse auf Zusam 22 2 6 Data Mining menh nge zulassen Die Assoziationsanalyse AMS 96 ist eine Data Mining Methode mit der die se interessanten und signifikanten Abh ngigkeiten Assoziationen in den Daten entdeckt werden k nnen Als typisches Beispiel der Assoziationsanalyse ist die Warenkorbanalyse die im Beispiel angedeutet ist und die Untersuchung des Kundenverhaltens in Bezug auf die gekauften Artikel beschreibt zu nennen Die Assoziationsanalyse ist eine deskriptive Data Mining Methode mit dessen Hilfe Muster mit einfacher Struktur in den Daten gefunden werden k nnen und immer dann Anwendung findet wenn die M
157. eringverfahren Westf lische Wilhelms Universit t M nster 2006 J MacQueen Some Methods for Classification and Analysis of Multivariate Observati on 281 297 J B Marshall STAT 3005 Statistical Methods Virginia Tech 2005 B L Milenova M M Campos O Cluster Scalable Clustering of Large High Dimensio nal Data Sets In ICDM 02 Proceedings of the 2002 IEEE International Conference on Data Mining ICDM 02 IEEE Computer Society Washington DC USA 2002 290 J S X X Martin Ester Hans Peter Kriegel A density based algorithm for discover ing clusters in large spatial databases with noise In In Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining 1996 226 231 T M Mitchell Machine learning New York NY McGraw Hill SoSe 1997 Y Morimoto Mining frequent neighboring class sets in spatial databases In KDD 01 Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining ACM Press New York NY USA 2001 353 358 150 Literaturverzeichnis NH94 NH02 NMV92 Oraa ORAb ORA06a Ora06b Ora06c Ora06d Ora06e Ora06f Ora06g Ora06h PT98 Qui93 Ris78 ROC06 RTO4 RTO5 SC03 Sch05 Sch06 R T Ng J Han Efficient and Effective Clustering Methods for Spatial Data Mining In J Bocca M Jarke C Zaniolo eds 20th International Conference on Very Large Da
158. ermittelt Ausgenommen sind die Attribute id und column_a DBMS_DATA_MINING_TRANSFORM INSERT_MISS_NUM_MEAN winsor_def_table Clipping Tabelle data_table Datentabelle 0 05 prozent Anteil der betroffenen Daten DBMS_DATA_MINING_TRANSFORM Column_List id column_a Listing 3 4 Behandlung von Ausrei ern 2 One Class Support Vector Machine In Oracle Data Mining kann speziell eine weitere M glichkeit f r die Behandlung von Ausrei ern genutzt werden Es handelt sich dabei um den One Class Support Vector Machine Algorithmus der eine Variante des Support Vector Maschine Algorithmus siehe Kapitel 2 6 4 Methoden zur Klassifikation darstellt Diese Methode zur Identifikation von Ausrei ern wird in ODM als Anomaly Detection Anomalie Erkennung bezeichnet Dabei wird ein sogenanntes Profil auf Basis der Daten erstellt welches die Daten in zwei Gruppen normale Daten und andere Daten sogenannte Ausrei er einteilt und in ei nem Modell Objekt das die Unterscheidung zwischen diesen beiden Gruppen enth lt gespeichert Anschlie end wird dieses Profil f r neue oder bestehende Daten verwendet um diese einer der bei den Gruppen zuzuordnen Eine direkte Behandlung der Ausrei er mit der Anomalie Erkennung ist jedoch nicht m glich da diese lediglich identifiziert werden Die Behandlung d h die Korrektur muss entsprechend anderweitig erfolgen Anmerkung Die Verwendung von Data Mining Methoden
159. ert Beziehun gen zwischen geometrischen Objekten die die Metrik betreffen z B Abstand zweier Objekte oder Fl che eines Objektes Diese Informationen lassen sich durch Berechnungen abbilden z B Abbildung des euklidischen Abstands eines Wohngebiets zum Meer auf einen numeri schen Standard Datentyp 5 Gerichtete Beziehungen Diese Art von Beziehungen werden gew hnlich beim Spatial Da ta Mining vernachl ssigt VBO6b werden jedoch aus Gr nden der Vollst ndigkeit ebenfalls materialisiert Dabei erfolgt eine Materialisierung einer gerichteten Beziehung durch die Ab bildung der relativen Lage zwischen zwei geometrischen Objekten Anmerkung Das allgemeine Vorgehen der Materialisierung besteht in der Erweiterung einer einzi gen Objekt Tabelle um Attribute die die materialisierten r umlichen Informationen beinhalten und f r die Methoden und Algorithmen des klassischen Data Mining Oracle Data Mining bereitge stellt werden 5 3 3 Transformation geometrischer Objekte Bei der Transformation von geometrischen Objekten stellt sich zun chst die Frage nach der Betrach tungsweise des Problems d h welches Ziel soll mit der Transformation erreicht werden In diesem Zusammenhang ergeben sich die folgenden zwei Betrachtungen 1 Geometrische Betrachtung z B Informationen ber die Beziehung der geometrischen Objekte X Y mit X benachbart_zu Y oder X schneidet Y 2 Thematische Betrachtung z B die Identifizierung von Regionen mit erh
160. erung an die realen Daten durch die Regressionsfunktion BEGIN DBMS_DATA_MINING APPLYC model_name gt regression_model data_table_name gt test_data Test case_id_column_name gt id result_table_name gt test_reg_score ie END 1 Root Mean Square Error Sqrt Mean x x 2 SELECT SQRT AVG A prediction B target A prediction B target rmse FROM test_reg_score A natural join test_data B 81 4 Data Mining Ein Beispiel RMSE l Umrechnung in ANZ_MOVIE Zea ae a ae 09027 926 2 Mean Absolute Error Mean x x SELECT AVG ABS a prediction B target mae FROM test_reg_score A natural join test_data B MAE l Umrechnung in ANZ_MOVIE Listing 4 11 Genauigkeit des Regressionsmodells Neben der reinen Berechnung der Genauigkeit der Regressionsfunktion lassen sich die realen Werte und die vorhergesagten Werte ausgeben In Listing 4 12 sind die Testdaten und deren Abweichung in Prozent unter Anwendung der linearen Regressionsfunktion Abb 4 3 dargestellt Ist die Genauigkeit des Modells ausreichend so kann diese f r weitere Vorhersagen benutzt wer den d h man gibt dem Modell eine Menge von Jahreszahlen und l sst sich die voraussichtliche Anzahl an Filmen pro Jahr berechnen F r die Vorhersage wird ebenfalls die Methode DBMS_DATA_ MINING APPLY siehe Listing 4 11 verwendet YEAR Vorhersage Realer Wert DIFF ABWEICHUNG 1991 6443
161. erung unter Verwendung von APPLY Anmerkung Die Klassifizierung neuer Daten mit den SQL Funktionen nimmt den Prozess der Klas sifizierung mit der APPLY Funktion auseinander Es ist m glich die APPLY Funktion zu simulieren indem die Funktionen PREDICTION und PREDICTION_PROBABILITY verwendet werden siehe Berech nung der Confusion Matrix in Listing 3 21 Ein Vorteil der Verwendung dieser Funktionen besteht in der vielseitigen Einsetzbarkeit wodurch verschiedene Ergebnisse erzielt werden k nnen Die Funktion PREDICTION_SET erlaubt beispielsweise die Analyse der Klassifikation durch eine Menge von m glichen Szenarien der Klassifizierung mit entsprechenden Wahrscheinlichkeiten F r weite re Informationen und Anwendungen sei auf Ora06f verwiesen Regression Die Regression l uft in Oracle Data Mining prinzipiell analog zur Klassifikation ab jedoch k nnen nicht alle Algorithmen die bei der Klassifikation vorgestellt wurden verwendet werden In ODM kann die Regression lediglich mit dem Support Vector Machine Algorithmus durchgef hrt werden und das Klassifikationsattribut target_column_name muss einen der folgenden Datentypen besit zen e INTEGER FLOAT oder NUMBER Des Weiteren ist fiir die Regression der Parameter svms_epsilon von besonderer Bedeutung da dieser den e Bereich festlegt in dem der Algorithmus eine Funktion zu finden versucht siehe Ka pitel 2 6 5 Die Angabe dieses Parameters ist jedoch nicht erforderlich da dieser wi
162. es Polygons f r die Repr sentation durch einen einzelnen Centroiden e DBMS_SDM_TRANSFORM MIN_AREA min Gr e eines Polygons f r die Zerlegung nach einem Raster e DBMS_SDM_TRANSFORM TOLERANCE max Differenz zwischen der Fl che des Polygons und der Fl che der konvexen H lle des Polygons e DBMS_SDM_TRANSFORM MAX_LENGTH max L nge einer Linie Geometrie f r die Repr sentation durch Start und Endpunkt e DBMS_SDM_TRANSFORM DIM_INFO Spezifiziert den Toleranzwert f r Prozeduren im PL SQL Package SDO_GEOM Ora06f Dieser Wert beschreibt den max Abstand zwischen zwei Objek ten so dass diese noch als ein Objekt interpretiert werden e DBMS_SDM_TRANSFORM SCALE und DBMS_SDM_TRANSFORM PRECISION Werte f r die Angabe der transformierten x y Koordinaten Das Schema der Konfigurationstabelle ist folgenderma en Spaltenname Datentyp Bedeutung setting name VARCHAR2 50 Name des Parameters setting_value NUMBER 20 15 Wert des Parameters 1Bei der Materialisierung von geometrischen Objekten handelt es sich vielmehr um eine Transformation da lediglich beliebige geometrische Objekte vom Typ SDO_GEOMETRY in einen Punkt bzw Punktmenge umgewandelt werden 128 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining Mit der nachfolgenden Prozedur wird die Materialisierung der Geometrien in eine repr sentati ve Punktmenge durchgef hrt Die Prozedur speichert das Ergebnis der Transformati
163. espeichert sind Dazu z hlen z B das Internet die Telekommunikationsbranche Verbindungsdaten etc und Geographische Informationssysteme Karten und Standortinforma tionen Atk06 um nur einige wenige zu nennen Dieser rasante Anstieg an gespeicherten Daten hat jedoch zur Folge dass die F higkeit der menschlichen Analyse bei weitem berschritten ist Die Konsequenz sind Datengr ber data tombs HK00 d h Archive die berwiegend Daten spei chern aber nur in geringem Ma e wieder angefragt oder ausgewertet werden Die gespeicherten Daten k nnen jedoch m glicherweise interessante Informationen enthalten die nicht explizit ge speichert sind und somit auch nicht durch die Anfragenm glichkeiten normaler Datenbanksysteme oder durch maschinell erstellte Reports Reportgeneratoren ermittelt werden k nnen Es lassen sich somit zwar beliebige Einzelinformationen oder auch Aggregierungen von Informationen er mitteln jedoch Muster Strukturen und Regelm igkeiten die allgemein als Gesetzm igkeiten be zeichnet werden bleiben dabei unbemerkt Aus diesem Grund wurde der Begriff des Data Mining also das Sch rfen nach Daten in Datenmengen zum Aufdecken von impliziten Informationen ge pr gt Dar ber hinaus wurde der komplette Prozess um das Data Mining als Knowledge Discovery in Databases KDD bezeichnet in dem es einen wichtigen Bestandteil repr sentiert Data Mining ist ein Forschungsbereich in der Informatik der sich seit den sp
164. ession In KHS wird eine Methode zur Konstruktion von Klassifikationsb umen vorgestellt die die Klas sifikation von Daten mit r umlichem Bezug erm glicht Der vorgestellte Algorithmus basiert auf dem ID3 Algorithmus und verwendet zur Konstruktion des Klassifikationsbaums sowohl nicht r umliche Attribute z B Bev lkerung einer Stadt als auch r umliche Attribute in Form von Pr dikaten z B Bev lkerung im Umkreis von 2 km einer Stadt Des Weiteren wird eine Selektion der relevanten Attribute f r den Klassifikationsprozess vorge schlagen die auf dem Konzept des nearest hit dichtester Nachbar geh rt zur gleichen Klasse und 100 5 2 Spatial Data Mining nearest miss dichtester Nachbar geh rt zu einer anderen Klasse basiert Die Methode verarbeitet dabei zu jedem Objekt umgeben von einem definierten Bereich Puffer die r umlichen Beziehun gen und legt die Ergebnisse bez glich jedes Objektes in Form von Pr dikaten z B durchschnitt liches_Einkommen X hoch in einer Tabelle ab Dabei besteht ein wichtiger Zwischenschritt dieser Methode aus der effizienten Vorverarbeitung der r umlichen Beziehungen die sich entspre chend in zwei Phasen unterteilt In der ersten Phase wird eine grobe und ungenaue Berechnung und in der zweiten Phase eine verfeinerte Berechnung f r die Ergebnisse der ersten Phase durchgef hrt Anschlie end wird der Klassifikationsbaum auf der relationalen Tabelle mit den nicht r umlichen
165. et in eine einmal festgelegte Richtung geht d h die Pfade breiten sich sternf rmig von einem Zentrum aus Die Basis Operationen die auf dem Nachbarschaftsgraphen operieren sind im Folgenden auflistet e get Graph Erstellt einen Nachbarschaftsgraphen bez glich einer r umlichen Beziehung e get Neighborhood Ermittelt alle direkt verbundenen Nachbar Objekte die einer vorgegebe nen Bedingung gentigen e create Path Erstellt eine Menge von Nachbarschaftspfaden ausgehend von einem spezifizier ten Objekt e extend Path Erweitert einen Nachbarschaftspfad um eine vorgegebene Anzahl an Kanten F r eine effiziente Unterst tzung der Primitive und des Nachbarschaftsgraphen wird der Nachbar schafts Index eingeftihrt In Abb 5 9 ist beispielhaft ein Nachbarschafts Index dargestellt Dieser kann durch die r umlichen Index Strukturen z B B Baum oder R Baum realisiert werden Object ID Neighbour Topology 0 0 southwest disjoint 0 03 northwest overlap Abbildung 5 9 Nachbarschafts Index in EFKS98 In EKS97 wird weiterhin gezeigt dass Spatial Data Mining Algorithmen mit den vorgeschlagenen Primitiven realisiert werden k nnen Als Beispiel f r die R umliche Assoziationsanalyse wurde die Methode von KH95 untersucht und der Ablauf der Methode derart modifiziert dass die Berech nung der Spatial Joins der r umlichen Daten durch die Primitive durchgef hrt wird Ein weiteres Beispiel wird mit der Spatial
166. ethoden durchgef hrt werden e AGGREGATES_FOR_GEOMETRY Berechnet den prozentualen Anteil einer Geometry zu anderen Geometrien d h sich berlappende Bereiche der Geometrien werden aggregiert Der nach barschaftliche Einfluss kann durch einen Radius um das Objekt z B 2 km Abb 5 23 a oder durch Angabe der n am n chsten benachbarten Objekten Abb 5 23 b beschr nkt werden e AGGREGATES_FOR_LAYER Berechnet den jeweiligen prozentualen Anteil aller Geometrien ei ner Tabelle in Bezug auf eine Menge anderer Geometrien einer anderen Tabelle d h die Me thode f hrt die Methode AGGREGATES_FOR_GEOMETRY f r jedes Geometrie Objekt einzeln aus Die Materialisierung der Autokorrelation erfolgt durch das Hinzuf gen von weiteren Attributen an die Objekt Relation Dabei wird f r jedes spezifizierte numerische Attribut jeweils ein weiteres Attribut erzeugt In Abb 5 24 ist die Materialisierung der Autokorrelation schematisch dargestellt thematisches ID Attribute aggregiertes Attribut Hinzuf gen Abbildung 5 24 Materialisierung der Autokorrelationseigenschaft Folgende Parameter f r die Materialisierung sind f r die Methoden im SAM Package erforderlich e Eine Objekt Relation f r die Methode AGGREGATES_FOR_LAYER die ein Attribut mit Geomet rie Objekten besitzt oder ein Geometrie Objekt f r die Methode AGGREGATES_FOR_GEOMETRY e Eine thematische Karte die das nicht r
167. ev lkerung von mehr als 100000 Ein wohnern liegen an einer Autobahn e Spatial Diskretisierung bei der eine Diskretisierung in Form einer Aufteilung der Karte z B Nord S d Ost West vorliegt und anschlie end die geometrischen Objekte durch Berechnung der Schnittmenge von Objekt und Aufteilung der Karte einem diskretisierten Wert zugeordnet werden In Oraa wird die Anwendung und Funktionsweisen der Methoden von Spatial Analysis und Mi ning anschaulich an Beispielen zur Kriminalit tsrate einer Region beschrieben Das Spatial Data Mining unter Anwendung der Methoden im SAM Package wird anhand einer Klassifikation der Kriminalit tsrate in vier Bereiche gering mittel hoch extrem hoch demonstriert Dazu wird die Tabelle welche die notwendigen Daten f r die Klassifikation enth lt um zwei weitere Attribute erweitert die den nachbarschaftlichen Einfluss zum einen begrenzt auf 500m und zum anderen begrenzt auf die f nf n chsten Nachbarn repr sentieren Das Ergebnis nach Oraa beschreibt ei ne Genauigkeitssteigerung der Klassifikation von 50 62 ohne und 92 mit Betrachtung der r umlichen Autokorrelation 5 2 4 Zusammenfassung In den vorangegangenen Abschnitten wurden unterschiedliche Herangehensweisen zum Spatial Data Mining in r umlichen Datenbanken vorgeschlagen Es wurden dabei Methoden und Algo rithmen vorgestellt die die Herausforderungen des Data Mining in r umlichen Datenbanken d h komplexe Datenstrukturen imp
168. f Computer Science University of Sheffield 1997 J Dougherty R Kohavi M Sahami Supervised and Unsupervised Discretization of Continuous Features In International Conference on Machine Learning Morgan Kaufmann Publishers San Francisco CA 1995 194 202 H S D D Lee Learning the parts of objects by nonnegative matrix factorization Na ture 401 1999 788 791 A P Dempster N M Laird D B Rubin Maximum Likelihood from Incomplete Data via the EM Algorithm Journal of the Royal Statistical Society Series B Methodological 39 1 1977 1 38 R C Dubes How many clusters are best an experiment Pattern Recogn 20 6 1987 645 663 M Ester A Frommelt H P Kriegel J Sander Algorithms for Characterization and Trend Detection in Spatial Databases In KDD 1998 44 50 M J Egenhofer Reasoning about Binary Topological Relations In SSD 91 Proceedings of the Second International Symposium on Advances in Spatial Databases Springer Verlag London UK 1991 143 160 M Ester H P Kriegel J Sander Spatial Data Mining A Database Approach In M Scholl A Voisard eds Fifth Symposium on Large Spatial Databases SSD 97 volu me 1262 Springer Berlin Germany 1997 48 66 148 Literaturverzeichnis ENO00 FAE06 FI93 Fod02 FPSS96 FPSSU96 Fri89 FSM92 Gaz06 Haw80 Hec95 HF95 HK00 HLO2 HPX06 HSC91 JJMF99 Joa KAH96 R
169. fehlerfrei funktionieren jedoch geht durch die Repr sen tation des Punktes durch seine Koordinaten die Semantik verloren die m glicherweise von Bedeutung ist wenn das Ergebnis des Data Mining ausgewertet wird d h es werden keine Punkte sondern lediglich zusammenhanglose Attribute verarbeitet Ebenso k nnte ein Rechteck repr sentiert durch die Punkte der linken unteren und rechten oberen Ecke beschrieben und gleichfalls durch Attribute ausgedr ckt werden jedoch geht in diesem Fall erst recht die Semantik verloren da das klassische Data Mining keine Rechtecke sondern Eckpunkte dargestellt durch Koordinaten verarbeitet Im Folgenden werden die Methoden die beim Spatial Data Mining eingesetzt werden angegeben und beschrieben Zum einen gilt dass die Methoden die bereits beim klassischen Data Mining ein gesetzt wurden auch in r umlichen Datenbanken eingesetzt werden k nnen und demzufolge ein entsprechendes Gegenst ck besitzen Dar ber hinaus k nnen jedoch noch weitere Methoden ein gesetzt werden da durch die r umlichen Eigenschaften vor allem die Autokorrelation Muster in den Daten enthalten sind die im klassischen Fall nicht vorhanden sind SSG01 Die folgende Auf listung gibt einen berblick ber die Methoden die zum Data Mining in r umlichen Datenbanken eingesetzt werden 1 Spatial Clustering 4 Spezielle Spatial Data Mining Methoden 2 R umliche Klassifikation und Regression a Co Location Analyse 3 R umlic
170. ffergr e oclt_sensitivity x 0 1 x 0 5 Anteil der angibt wann ein neuer Cluster erstellt wird Clustering mit Oracle Data Mining Es soll im Folgenden der Prozess des Clustering siehe Abb 3 3 exemplarisch demonstriert wer den Dazu ist in Listing 3 13 ein Code Ausschnitt gegeben der das Clustering mit dem k Means Cluster Algorithmus illustriert mit dem Ziel dass im Anschluss drei Cluster entstehen In Abb 3 5 ist die korrespondierende Punktmenge schwarze Punkte abgebildet die in drei Cluster unterteilt werden soll Die Einstellungen fiir den Clustering Algorithmus sind in der Konfigurationstabelle KM_SETTINGS gespeichert 54 3 5 Oracle Knowledge Discovery CREATE TABLE KM_SETTINGS setting_name VARCHAR2 30 setting_value VARCHAR2 128 BEGIN Einstellungen k Means Algorithmus und Anzahl der Cluster ist 3 INSERT INTO KM_SETTINGS setting_name setting_value VALUES DBMS_DATA_MINING algo_name DBMS_DATA_MINING algo_kmeans INSERT INTO KM_SETTINGS setting_name setting_value VALUES DBMS_DATA_MINING clus_num_clusters 3 END Data Mining mit der Clustering Methode DBMS_DATA_MINING CREATE_MODEL model_name gt KM_MODEL mining_function gt DBMS_DATA_MINING clustering data_table_name gt data case_id_column_name gt object_id setting_table_name gt KM_SETTINGS Listing 3 13 Clustering mit k Means Im Anschluss des Clusteri
171. g das die obersten und untersten Werte durch spezifizierte Werte ersetzt und zum anderen das Trimming das die obersten und untersten Werte einfach entfernt und somit ignoriert Beispiel Es seien folgende Daten gegeben 1 5 7 8 9 10 18 Beim Trimming werden die extre men Werte einfach ignoriert und die Menge der Werte sinkt auf 5 7 8 9 10 Beim Winsorizing werden die extremen Werte durch vorgegebene Werte ersetzt und die Menge der Werte bleibt konstant 5 5 7 8 9 10 10 3 Clustering Das Clustering das eigentlich eine Data Mining Methode ist um Daten anhand bestimmter Kriterien zu gruppieren siehe auch 2 6 2 kann dazu benutzt werden um Aus rei er zu identifizieren und zu eliminieren 4 Semi automatische Analyse Die Ausrei er werden durch ein beliebiges Verfahren identifi ziert und danach durch manuelle berpr fung entfernt oder nicht 5 Regression Die Regression die ebenfalls eine Data Mining Methode ist um numerische Wer te mittels einer Regressionsfunktion zu bestimmen bzw vorherzusagen siehe auch 2 6 5 kann zur Identifizierung und Eliminierung benutzt werden 2 4 3 Behandlung von Redundanzen Redundanzen entstehen wenn Namenskonventionen und Normierungen in den Datenmodellen fehlen Durch fehlende Namenskonventionen kann es vorkommen dass gleiche Attribute in ver schiedenen Quellen unterschiedliche Bezeichnungen besitzen und bei der Zusammenf hrung der Daten semantisch betrachtet doppelt auftreten und impli
172. g 4 1 Transformation der Daten Im n chsten Schritt werden die Parameter f r die Assoziationsanalyse bestimmt und festgelegt also der Minimum Support die Minimum Confidence und die maximale L nge der Regel Zur Be stimmung der Parameter speziell f r die L nge der Regel und den Minimum Support werden die Daten analysiert Listing 4 2 demonstriert eine einfache Analyse der Daten in der zun chst die An zahl der Filme und die Anzahl der Schauspieler ermittelt wird Aus der Anzahl der Filme kann dann ein sinnvoller Wert f r den Minimum Support festgelegt werden d h die Anzahl der Filme in denen Schauspieler Paarungen zusammen gespielt haben Bei diesem Beispiel wird mit einem Minimum Support von 1 und einer Minimum Confidence von 10 begonnen und anschlie end falls n tig korrigiert Der Minimum Support von 1 bedeutet in diesem Beispiel dass eine Menge von Schauspielern zusammen in mind 165 Filmen 1 von 16529 Filmen gespielt haben m ssen Die Minimum Confidence bedeutet dass eine Regel die aus der Menge der Schauspieler hervor geht zu 10 zutrifft Im zweiten Schritt wird die durchschnittliche Anzahl an Schauspielern in Filmen berechnet Das Ergebnis gibt Aufschluss ber die zu erwartende L nge der Assoziationsre gel Diese kann durch einen Parameter beschr nkt werden was Auswirkung auf die Laufzeit der Analyse hat Damit ist das Preprocessing und die Transformation abgeschlossen 1 Kardinalit ten von Movies und S
173. g und die Transformation der Daten ber die Java API erfolgen das Data Mining ber die PL SQL API durchgef hrt werden und anschlie end die Ergebnisse wiederum ber die Java API abgerufen und verarbeitet werden ohne dass es zu einer Inkompatibilit t kommt Ora06b 3 2 1 PL SQL Schnittstelle Die PL SQL Schnittstelle bietet die M glichkeit die Data Mining Funktionalit t in PL SQL Pro gramme zu integrieren Die Schnittstelle f r das Data Mining teilt sich in zwei Packages auf DBMS_DATA_MINING Package DBMS_DATA_MINING_TRANSFORM Package Das DBMS_DATA_MINING Package umfasst die gesamte Funktionalit t die sich mit dem Data Mining Schritt des KDD Prozesses befasst Au erdem werden Funktionen bereitgestellt mit denen die 37 3 Oracle Knowledge Discovery und Data Mining Ergebnisse des Data Mining abgerufen und eingesehen werden k nnen Und das DBMS_DATA_ MINING_TRANSFORM Package umfasst alle Funktionen mit denen das Preprocessing und die Trans formation der Daten durchgef hrt werden k nnen bevor die Daten mit den Funktionen im DBMS_ DATA_MINING Package verarbeitet werden Die Funktionen in diesen beiden Packages werden im weiteren Verlauf in den Abschnitten tiber Preprocessing Transformation und Data Mining beschrie ben F r eine detaillierte Beschreibung der Methoden bzgl deren Parameter sei jedoch auf die Lite ratur Ora06f Ora06h verwiesen 3 2 2 Java Schnittstelle Die Java Data Mining Schnittstelle DM S
174. geln und deren Aussagekraft SELECT A rule rule_id Identifikation A rule rule_support Unterst tzung durch Daten Anzahl A rule rule_confidence Glaubw rdigkeit der Regel FROM table DBMS_DATA_MINING GET_MODEL_DETAILS_KM C clus_model A table A child B WHERE B ID IS NULL RULE_ID RULE_SUPPORT RULE_CONFIDENCE 8 2886 9694 9 3051 9010 10 3767 9548 11 4481 9036 12 1399 9517 13 1935 9723 14 2078 9034 15 3169 9077 Listing 4 18 Clustering demographische Einteilung der Schauspieler Die Cluster definieren in diesem Beispiel die demographische Einteilung der Schauspieler in re pr sentative Gruppen und werden durch die Cluster Regeln definiert Listing 4 19 veranschaulicht beispielhaft die Ausgabe einer Cluster Regel f r den Cluster mit der ID 10 Dieser Cluster fasst alle Schauspieler zu einer Gruppe zusammen die m nnlich sind kein Pseud onym benutzen deren Gr e zwischen 0 4 und 1 und deren Alter zwischen 0 5 und 1 liegt Dabei ist zu beachten dass die Werte f r Gr e und Alter normiert sind und entsprechend zur ck gerechnet werden m ssen SELECT A rule rule_id as id A rule rule_lconfidence 100 B attribute_name B conditional_operator nvl B attribute_str_value B attribute_num_value as ANTE C attribute_name C conditional_operator nvl C attribute_str_value C attribute_num_value as CONS FROM table DBMS_DATA_MINING GET_MODEL_DETAILS_KM clus_model A
175. gen ist siehe Ka _ 0 pitel 2 6 2 Density based clusters Clustering of polygons Die Art der Verallgemeinerung umfasst da Abbildung 5 5 Spatial Clustering SEKX98 bei die Definition der Dichte und der Nach barschaft Im DBSCAN Algorithmus ist die Dichte durch eine Mindest Anzahl an Punkten und die Nachbarschaft durch eine e Umgebung um einen Punkt gegeben Die Angaben sind f r das Clus tering von Punkten nach der Density based Methode essentiell Um das Clustering von beliebigen geometrischen Objekten speziell von Polygonen zu erm gli chen ist eine Neudefinition der Begriffe Dichte und Nachbarschaft notwendig In Abb 5 5 sind zum einen drei Cluster zu identifizieren und zum anderen Ausrei er graue Polygone die keinem Cluster zugeordnet sind Die Nachbarschaft wird dabei ber die topologische Beziehung schneidet und die Dichte ber die Gr e der Schnittfl che definiert D h erf llen zwei Polygone die topolo gische Beziehung schneidet und ist au erdem die Schnittmenge gr er als ein vorgegebener Wert so sind diese zueinander hnlich und formen somit einen Cluster Der Algorithmus und die Implementierung des GDBSCAN Algorithmus sind in SEKX98 beschrie ben Au erdem wird die Anwendung des Algorithmus anhand realer Beispiele demonstriert z B Geographie 2D Polygone Astronomie 2D Punkte Biologie 3D Punkte und Geo Wissenschaften 5D Punkte L sungsmethoden zur R umlichen Klassifikation und Regr
176. ght is not null and sex is not null and birth_date is not null and mentioned actor and to_number to_char birth_date YYYY gt 1950 Listing 4 14 Datenvorbereitung f r das Clustering 2 Preprocessing und Transformation In diesem Schritt werden die Daten f r das Clustering vor bereitet Beim Preprocessing werden Ausrei er behandelt wodurch extreme Werte speziell bei den Attributen Height und Age eingegrenzt werden sollen Eine Behandlung von fehlenden Werten ist nicht notwendig da die Daten durch die Zusammenstellung keine fehlenden Werte besitzen Lis ting 4 15 zeigt die Behandlung der Ausrei er im Preprocessing Schritt wobei 2 5 der Daten als Ausrei er betrachtet werden sollen BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_CLIPC conf_clus_sample_8_1 DBMS_DATA_MINING_TRANSFORM INSERT_CLIP_WINSOR_TAIL gt conf_clus_sample_8_1 Konfiguration clus_data_sample_8 0 025 prozentualer Anteil DBMS_DATA_MINING_TRANSFORM COLUMN_LIST 34 Ausnahmen gt pseudo DBMS_DATA_MINING_TRANSFORM XFORM_CLIP conf_clus_sample_8_1 clus_data_sample_8 clus_temp_1 Ergebnis I END Listing 4 15 Preprocessing Behandlung der Ausrei er Anschlie end erfolgt die Transformation der Daten die notwendig ist da sowohl numerische als auch nicht numerische Attribute enthalten sind Da nicht numerische Attribute intern mit 0 nicht vorhanden und 1 vorhanden kodiert werd
177. gleich mit externen Referenzen oder unter Ber cksichtigung von Integrit tsbedingungen identifiziert und entgegengewirkt werden Eine automatisierte Behandlung von bestehenden In konsistenzen ist aus den genannten Aspekten nicht durchf hrbar 2 5 Transformation Im Transformationsschritt werden die vorverarbeiteten Daten aus dem Preprocessing Schritt in ei ne Form transformiert oder zusammengefasst die f r die Data Mining Methoden zweckdienlich und geeignet sind Durch die Transformation soll eine Abstraktion der Daten und Struktur und Formatvereinheitlichung der Daten erreicht werden so dass eine weitere Verarbeitung im Hinblick auf das eigentliche Data Mining sichergestellt werden kann Eine Transformation der Daten kann mit den nachfolgenden Methoden erzielt werden HK00 2 5 1 Normierung Bei der Normierung wird der Wertebereich durch eine Normierungsfunktion auf einen definier ten Bereich abgebildet Dadurch wird eine Vergleichbarkeit von Werten erreicht die zuvor nicht m glich war aufgrund unterschiedlicher Wertebereiche z B Einkommen von Angestellten in ver schiedenen Branchen Die Normierung beschr nkt sich auf numerische Werte Folgende Normie rungstechniken mit Normierungsfunktion werden eingesetzt ats new_max 4 new_min new_min g mit v dom A und v new_min new_max Dabei handelt es sich bei v um den Wert des At tributs der normalisiert werden soll min und max sind das Minimum und das Maximu
178. gleich vier Algorithmen bereitgestellt die im Folgenden be schrieben sind Klassifikationsbaum In ODM ist der Klassifikationsbaum als Algorithmus zur Klassifikation implementiert und unter st tzt die Vorhersage Klassifikation von bin ren und mehrwertigen Attributen Dabei werden je doch nur bin re Aufteilungen engl splits anhand eines Aufteilungskriteriums Gini Index und 61 3 Oracle Knowledge Discovery und Data Mining Entropy siehe Kapitel 2 6 4 unterst tzt Die Wahl des Aufteilungskriteriums wird hierbei ber den Parameter tree_impurity_metric festgelegt Diese Variante der Konstruktion hat den Vorteil dass der Klassifikationsbaum nicht so stark in die Breite w chst und somit bersichtlich bleibt Es hat jedoch auch den Nachteil dass beim Aufteilen Attribut Wiederholungen Attribut wird mehr als einmal zur Aufteilung einer Menge benutzt vorkommen k nnen Die H he des Klassifikations baums wird auf der anderen Seite durch den Parameter tree_term_max_length gesteuert damit dieser nicht unn tig hoch wird und schnelle Klassifizierungen m glich sind Die Konstruktion des Klassifikationsbaums erfolgt in ODM automatisch ohne Benutzer Interak tionen Der automatische Ablauf des Konstruktionsprozesses wird wie bereits beschrieben durch mehrere Parameter beeinflusst die versuchen einen optimalen Klassifikationsbaum zu erstellen der weder an over fitting noch an under fitting der Daten leidet Weitere Parameter wie t
179. gsans tze f r das Spatial Data Mining Im Folgenden werden Ideen und L sungsans tze pr sentiert die in der Literatur vorgeschlagen werden um Spatial Data Mining in r umlichen Datenbanken zu verwirklichen Zun chst werden 99 5 Data Mining in r umlichen Datenbanken Ideen vorgestellt die jeweils f r eine einzelne Methode gedacht sind Anschlie end werden kom plette L sungsans tze sogenannte Frameworks vorgestellt mit denen m glichst viele klassische Da ta Mining Methoden f r die Verwendung zum Spatial Data Mining angepasst und erweitert werden sollen Au erdem sollen Ideen zur L sung der Methoden die ausschlie lich in r umlichen Daten banken Anwendung finden d h R umliche Trend Analyse und Co Location Analyse vorgestellt werden L sungsmethoden zum Spatial Clustering Da die bisher vorgestellten Clustering Methoden siehe Kapitel 2 6 2 lediglich Standard Datentypen umgehen k nnen sind Methoden entwickelt worden die auch komplexere Datentypen z B Poly gone umgehen k nnen Eine L sung f r das Clustering von beliebigen geometrischen Objekten z B Polygonen wird von SEKX98 beschrieben q v Ww x v Ye Oo g v B v In SEKX98 wird der GDBSCAN Algorith i mus Generalized Density Based Spatial Clus a tering of Application with Noise vorgestellt Se one e Much der auf der Density based Methode basiert ge 2 und eine Verallgemeinerung des DBSCAN i u Algorithmus f r Punktmen
180. h keine detaillierten Information zur Klassifizierung gegeben werden kann F r die einzelnen Algorithmen der Klassifikation stehen die folgenden Funktionen zur Verf gung um detaillierte Informationen zum Prozess der Klassifikation und somit zum Klassifikator zu er mitteln e Klassifikationsbaum GET_MODEL_DETAILS_XML e Naive Bayes Klassifikation GET_MODEL_DETAILS_NB e Adaptive Bayesian Network Klassifikation GET_MODEL_DETAILS_ABN e Support Vector Machine Klassifikation GET_MODEL_DETAILS_SVM Es soll im Folgenden eine kurze Beschreibung der GET_MODEL_DETAILS Funktionen und der zur Verf gung stehenden Information bez glich jedes Klassifikationsmodells gegeben werden e GET_MODEL_DETAILS_SVM Diese Methode liefert lediglich Informationen wenn die Konstruk tion des Klassifikators mit dem lineare Kernel durchgef hrt wird Die Methode liefert ei ne Menge von Linearen Koeffizienten repr sentiert durch Attribut Koeffizient Paare die die n dimensionale Hyper Ebenen beschreiben Durch die Attribut Koeffizient Paare lassen sich die einzelnen Klassifikationsbereiche unterteilen und die Klassifikation wird nachvollziehbar Unter der Verwendung des Gauss Kernel bei der Konstruktion des Klassifikators stehen hingegen keine Details zur Verf gung Die Klassifizierung erfolgt in diesem Fall nach dem Black Box Prinzip e GET_MODEL_DETAILS_XML Diese Methode liefert den Klassifikationsbaum in Form einer XML Struktur Die Spezifik
181. hanced k Means Clustering Der Enhanced k Means Algorithmus geht bei der Konstruktion der Cluster hierarchisch nach dem divisiven Prinzip vor Es wird dabei eine bin re Cluster Hierarchie d h bin rer Baum aufgebaut bei der in jedem Schritt nur jeweils ein Cluster der Hierarchie in zwei neue Cluster aufgeteilt wird Diese Aufteilung der Cluster bzw Konstruktion der Cluster Hierarchie wird solange durchgef hrt bis die angegebene Anzahl an Clustern erreicht ist Das Aufteilungskriterium bestimmt dabei welcher Cluster der Hierarchie im n chsten Schritt in zwei neue Cluster aufgeteilt werden soll so dass die Cluster m glichst homogen sind Bei der Auf teilung eines Clusters kommt der partitionierende Charakter des Algorithmus zum Tragen in dem die Daten auf hnlichkeit bewertet werden F r die hnlichkeit von zwei Daten s tzen Objekten wird eine Abstandsfunktion im k Means Algorithmus verwendet ODM stellt daf r drei Abstandsfunktionen 1 Euklidischer Abstand 2 Cosinus Abstand und 3 Schneller Cosinus Abstand siehe Kapitel 2 6 2 bereit die alle lediglich numerische Attribute zur Berechnung akzeptieren Da das Clustering mittels Enhanced k Means jedoch auch f r nicht numerische Attribute funktionieren soll werden die nicht numerischen At tribute intern durch eine Menge von bin ren Attributen A 0 1 ersetzt Diese Behandlung von nicht numerischen Attributen erkl rt auch die fehlende Unterst tzung von hnlichkeitsmatri
182. hashi Shekhar Yan Huang S Gopal Categorization of Spatial Data Mining Techniques Scientific Data Mining working chapter 2001 F S uberlich KDD und Data Mining als Hilfsmittel zur Entscheidungsunterst tzung Peter Lang Verlag Frankfurt am Main 2000 M Tiedge Entwicklung und Implementierung einer topologischen Erweiterung f r objektbasierte r umliche Datenbanken Institut f r Informationssysteme Universit t Hannover Hannover 2003 W R Tobler CELLULAR GEOGRAPHY In Philosophy in Geography D Reidel Publis hing Company Dordrecht Holland 1979 379 386 M L T Zhang R Ramakrishnan BIRCH An efficient data clustering method for very large databases In In Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data Montreal Canada 1996 103 114 V N Vapnik The nature of statistical learning theory Springer Verlag New York Inc New York NY USA 1995 L O A Vania Bogorny Paulo Martins Engel A Reuse based Spatial Data Preparation Framework for Data Mining IEEE Computer Graphics 24 5 2005 16 19 L O A Vania Bogorny Paulo Martins Engel Spatial Data Preparation for Knowledge Discovery IEEE Computer Graphics 24 5 2005 16 19 A T Vania Bogorny Extending the WEKA Data Mining Toolkit to Support Geographic Data Preprocessing Technical Report RP354 2006 P M E L O A Vania Bogorny Andrey Tietbohl Palma WEKA GDPM Integrating Classical Data Mining Toolkit to
183. he Assoziationsanalyse b R umliche Trend Analyse 5 2 1 Problemstellungen des Spatial Data Mining In diesem Abschnitt sollen die Problemstellungen des Spatial Data Mining herausgestellt werden Dabei werden die besonderen Merkmale und die damit verbundene Integration der impliziten r umlichen Beziehungen d h topologisch metrisch und gerichtet und die Eigenschaft der Au tokorrelation unter den r umlichen Daten beschrieben Spatial Clustering Das Spatial Clustering entspricht dem Clustering das in Kapitel 2 beschrieben worden ist in r um lichen Datenbanken SC03 HK00 Der Grund liegt darin dass sich hnliche r umliche Objekte aufgrund der Autokorrelation im Raum eher zu Cluster gruppieren anstatt sich zuf llig anzuord nen 96 5 2 Spatial Data Mining Das Clustering der r umlichen Objekte wird anhand einer Qualit tsfunktion siehe Kapitel 2 die auf einer Abstandsfunktion basiert durchgef hrt und fasst die Objekte zu Cluster zusammen Da her ist der r umliche Aspekt essentiell beim Clustering Die Methoden zum Clustering d h Partitioning based Hierarchical based Density based und Grid based siehe Kapitel 2 6 2 k nnen zum Clustering in r umlichen Datenbanken verwendet werden Jedoch kann es notwendig sein die geometrischen Datentypen z B den Punkt in Standardwerte umzuwandeln d h in die Koordinaten x und y Komplexere r umliche Datentypen z B Linien oder Polygone lassen sich hingegen nicht ohne we
184. hem Genre der Film zuzuordnen ist Dabei kann ein Film auch mehreren Genres angeh ren z B Film X geh rt zum Genre Crime und Thriller e Person enth lt eine Vielzahl an Informationen ber eine Person die in Filmen oder Serien mitgewirkt hat e Part repr sentiert dabei das Bindeglied zwischen dem Film und den Personen die darin mitgewirkt haben z B die Person X war Regisseur Attribut mentioned in Film Y oder war Schauspieler Attribut mentioned in Film Z Weitere Tabellen die jedoch nicht n her erl utert werden sollen enthalten beispielsweise Infor mationen ber das Budget eines Films Keywords Schlagwort zur Beschreibung eines Films oder Angaben ber die Ver ffentlichungen eines Films in verschiedenen L ndern In den folgenden Abschnitten werden die einzelnen Schritte des Knowledge Discovery vom Pre processing ber die Transformation und das Data Mining bis zur einer einfachen Bewertung der Er gebnisse anhand der Movie Datenbank demonstriert Dazu wird es jeweils eine Fragestellung bzgl der Movie Datenbank f r jede Data Mining Methode siehe Kapitel 2 geben Unter Ber cksichti gung der Erkenntnisse und unter Anwendung der Werkzeuge aus Kapitel 3 soll versucht werden die gestellten Fragestellungen zu beantworten Neben der Vorgehensweise werden auch Probleme und Erfahrungen die sich bei der Knowledge Discovery ergeben haben dokumentiert Die Beispie le sind vollst ndig in Anhang B zu finden 73 4 Da
185. hichten ge hen z B eine Schicht mit Gew ssern wird unterteilt in 1 Schicht mit Fl ssen 2 Schicht mit Seen und 3 Schicht mit k nstlichen Gew ssern Weiterhin werden bei der topologischen metrischen und gerichteten Beziehung jeweils immer nur zwei Objekte bei der Materialisierung betrachtet Eine Erweiterung dahinge 137 7 Ausblick hend das mehrere Objekte bei einer Materialisierung beteiligt sind w re ebenfalls w n schenswert Ein anderer Aspekt betrifft die Aussagekraft der Materialisierung beispielsweise wird bei der Materialisierung einer topologischen Beziehung lediglich ein TRUE oder FALSE markiert Eine Erweiterung k nnte beispielsweise die in Kapitel 5 2 3 vorgestellte Mate rialisierung nach dem feature instance Prinzip sein Die Selektion der relevanten Daten die in dieser Arbeit jedoch nicht weiter behandelt wurde stellt aufgrund der Autokorrelation von r umlichen Daten ein weiteres Problem f r das Spatial Data Mining und entsprechend einer Materialisierung dar das beachtet werden muss Durch geeignete Methoden und Algorithmen sollte es daher m glich sein die Signifikanz der Korrelation zu bewerten um eine entsprechende Selektion f r das Data Mining und dadurch eine Selektion von relevanten Materialisierungen bereitstellen zu k nnen e Spatial Data Mining ohne Materialisierung Die Materialisierung von geometrischen Informationen ist ein guter Ansatz um mit den Be sonderheiten von r umlichen
186. ht dem der Klassifizierung in Abb 3 10 Lediglich das Ergebnis der Regression unterscheidet sich von der Klas sifikation Die Tabelle die die Vorhersage speichert hat folgendes um die Wahrscheinlichkeit redu ziertes Schema Spaltenname Datentyp Bedeutung case_id VARCHAR2 NUMBER Identifier prediction NUMBER Vorhersage In Listing 3 26 ist die Vorhersage von Daten unter Verwendung des Regressionsmodells dargestellt Die anschlie ende Ausgabe des Ergebnisses beschr nkt sich auf die id des Objektes und den dazu geh rigen Wert dbms_data_mining apply model_name gt regression_model data_table_name gt apply_data case_id_column_name gt object_id result_table_name gt apply_result END Ausgabe des Ergebnisses SELECT case_id prediction FROM apply_result ID PREDICTION Sollwert 2 19 67 20 3 39 76 40 4 59 86 60 5 79 95 80 6 100 05 100 Listing 3 26 Klassifizierung unter Verwendung von APPLY Anmerkung zur Regression Die mangelnde Unterst tzung der Regression in der Oracle Data Mining Cartridge ist dadurch zu begr nden dass die Regression im weitesten Sinne einer Klassifikation mit einer entsprechenden Diskretisierung des Klassifikationsattributs entspricht Aus diesem Grund ist ebenfalls der Umfang zur Beschreibung der Regression auf diese knappe Erl uterung beschr nkt 72 4 Data Mining Ein Beispiel In diese
187. hter Brandgefahr oder Kriminalit tsrate Bei der geometrischen Betrachtung m ssen bei der Transformation der geometrischer Objekte die Beziehungen zwischen den Objekten abgespeichert werden Die Speicherung dieser Informationen z B X schneidet Y kann entweder durch eine externe Tabelle erfolgen die die einzelnen Bezie hungen speichert oder durch die Erweiterung der Tabelle um eine Menge von Attributen wobei sich die Anzahl der Attribute nach der Anzahl der geometrischen Objekte richtet Jedoch sind beide L sungen zur Transformation von geometrischen Objekten nach der geometri schen Betrachtungsweise unzureichend da zum einen die Data Mining Methoden jeweils nur eine einzelne Objekt Tabelle verarbeiten und deshalb die externe Tabelle mit den gespeicherten Bezie hungen nicht ber cksichtigen k nnen Und zum anderen f hrt die Erweiterung der Tabelle um eine Menge Attribute zu gro en Tabellen die evtl nicht mehr verarbeitet werden k nnen Bei der thematischen Betrachtung sind die geometrischen Beziehungen zwischen Objekten unterge ordnet Die relevanten Information sind die thematischen Attribute bzgl dieser Objekte Demnach ist lediglich entscheidend dass durch die Transformation die geometrischen Objekte hinreichend genau repr sentiert werden Daher wird im Folgenden eine Transformation vorgeschlagen die eine thematischen Betrachtungsweise der geometrischen Objekte verfolgt Die Transformation von beliebigen geometrischen Objekt
188. i ziert Dazu wird zun chst ein Verst ndnis f r das Arbeitsgebiet Wissensgebiet entwickelt wobei ebenfalls existierendes und vorhandenes Wissen mit einbezogen wird Durch die Zielsetzung des Anwenders wird bereits eine Vorselektion der anwendbaren Data Mining Verfahren vorgenommen 2 3 Selektion In diesem Schritt wird eine Datenmenge definiert auf der die Knowledge Discovery durchgef hrt werden soll Im Fokus des Interesses stehen Untermengen von verf gbaren Attributen oder Aus schnitte aus der Datenmenge die genauer betrachtet werden sollen Es werden Daten die nicht in 2 Knowledge Discovery und Data Mining den weiteren Prozess mit einbezogen werden sollen in diesem Schritt eliminiert Dies ist hnlich zum Data Warehousing wo ebenfalls eine Auswahl der Daten vorgenommen wird die zu Data Cubes zusammengefasst werden und auch nur eine eingeschr nkte Sicht auf die gesamten Infor mationen bieten Der Zugriff auf diese Data Cubes erfolgt ber OLAP Methoden Bei der Auswahl der Daten die f r das Data Mining verwendet werden sollen spielt die Dateninte gration eine wichtige Rolle Len02 Wenn beispielsweise aus verschiedenen Quellen Informationen ben tigt werden m ssen diese zu einer einzigen zusammengefasst werden Probleme die bei der Datenintegration auftreten k nnen sind im Folgenden aufgef hrt HK00 e Schema Integration und das damit verbundene Entity Identification Problem Lip04 e Redundanz in den Daten
189. iel wird die Min Max Normierung Methode INSERT_NORM_LIN_MINMAX zur Normierung der numerischen Wert benutzt BEGIN Definition der Tabelle zur Normierung von Werten Tabelle speichert die Werte shift und scale der Attribute die im zweiten Schritt ermittelt werden DBMS_DATA_MINING_TRANSFORM CREATE_NORM_LINC norm_def_table Werte f r die Attribute d h shift und scale werden ermittelt Min Max Normierung Ausgenommen von der Normierung sind die Attribute id und column_a DBMS_DATA_MINING_TRANSFORM INSERT_NORM_LIN_MINMAX norm_def_table Normierungstabelle data_table Datentabelle DBMS_DATA_MINING_TRANSFORM Column_List id column_a 33 Erstellt eine Sicht auf Basis der Datentabelle in der die Werte normiert wurden 47 3 Oracle Knowledge Discovery und Data Mining DBMS_DATA_MINING_TRANSFORM XFORM_NORM_LIN norm_def_table Werte f r Shift und Scale data_table Datentabelle norm_view Ergebnis Sicht END Listing 3 7 Normierung numerischer Werte b Diskretisierung Im ersten Schritt der Diskretisierung wird eine Tabelle Diskretisierungstabelle angelegt die die Werte f r die eigentliche Diskretisierung der Attribute speichern soll Die Diskretisierungstabelle wird wiederum zur R cktransformation der diskretisierten Werte wenn auch nicht verlustfrei be nutzt Diese Tabelle hat das folgende Schema
190. ien bzw Linienz ge dargestellt wodurch ein Clustering ohne Transformation der komplexen Daten struktur nicht m glich ist e Transformation der Stra en F r die komplexe Datenstruktur der Linie bzw des Linienz ges wird keine Transformation durch das Datenbanksystem bereitgestellt Durch eine ad quate Transformation der Stra en allgemein geometrischer Objekte in eine Punkt darstellung Abb 5 13 b k nnten diese von den klassischen Clustering Methoden verarbeitet wer den Der Cluster in Abb 5 13 b roter Kreis k nnte auf diese Weise identifiziert werden Die Materialisierung der r umlichen Daten d h Autokorrelation und der impliziten r umlichen Beziehungen ergeben sich aus den vorgestellten Methoden in der Literatur Folgende L sungsvorschl ge und Methoden aus der Literatur werden f r das Konzept zur Mate rialisierung von r umlichen Informationen adaptiert e Oracle Spatial Analysis and Mining SAM Package Ora06g f r die Materialisierung von Nachbarschaftsbeziehungen und der Integration der Autokorrelation von numerischen Attri buten e Schichten Modell nach RT05 f r die Materialisierung von impliziten topologischen metri schen und gerichteten Beziehungen e Materialisierung von topologischen und metrischen Beziehungen nach dem Prinzip feature type und feature instance VBO6b VBO05b e Materialisierung von r umlichen Daten nach dem reference feature centric und data partitioning Prinzip SC03 u
191. igkeit einer Punkt Darstellung zu einem Geometrie Objekt im urspr nglichen Attri but ID Identifikation der Daten gespeichert und eine neue Identifikation durch das Attribut SID angef gt ID Geometrie Attribute SID ID X Y Attribute ll A m Transformation 1 1 x y geometrischer Objekte 2 e eee 2 1 x y 3 2 Bes y Abbildung 6 5 Transformation der Geometrie Objekte in eine Punkt Darstellung 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining Nachdem m gliche Transformationen f r implizite r umliche Beziehungen und Transformationen f r geometrische Objekte vorgestellt worden sind stellt sich im Folgenden die Frage bei welchen Data Mining Methoden welche Transformationen eingesetzt werden k nnen Um diese Frage zu 129 6 Implementierung kl ren sollen Beispiel Anwendungen aus dem Bereich GIS Geographische Informationssysteme analysiert werden Bemerkung In den folgenden Beispielen wird davon ausgegangen dass das PL SQL Package dbms_sdm_transform f r die Materialisierungen von geometrischen Objekten und r umlichen Beziehungen zur Verf gung steht Weiterhin wird angenommen dass entsprechende Metada ten und r umliche Index f r die Tabellen vorhanden sind 6 2 1 Fallbeispiel Clustering von Ballungsgebieten Das erste Fallbeispiel besch ftigt sich mit der Problemstellung der Identifizierung von Ballungsge bieten Die erforderlichen Bev lkerungs
192. indimensionalen Assoziationsregeln ist besonders interessant da hierbei die Verwendung von geschachtelten Tabellen notwendig ist Bei der eindimensionalen As soziationsanalyse geht es darum einem Datensatz mehrere Werte zuzuweisen so dass diese als Ganzes von der Data Mining Methode betrachtet werden Um den Voraussetzungen von ODM zu gen gen muss also die eine mengenwertige Darstellung in eine andere mengenwertige Darstellung berf hrt werden wodurch die Datens tze als Ganzes eindeutig identifizierbar werden und nach eindimensionalen Assoziationsregeln d h nach Assoziationen innerhalb der Werte eines Attribu tes gesucht werden kann In Abb 3 7 wird als Beispiel die Warenkorbanalyse dargestellt bei der ein Kunde mehrere Waren bei einem Einkauf erwirbt Die linke Darstellung entspricht der Repr sentation der n m Beziehung wodurch jedoch keine ein deutige Identifikation der Datens tze durch ein Attribut gegeben ist d h der Kunde und die von ihm gekauften Waren bilden keine geschlossene Einheit Die rechte Darstellung verwendet eine ge schachtelte Tabelle wodurch der Kunde zur Identifikation aller seiner gekauften Waren wird also der Einkauf durch den Kunden als Transaktion dargestellt wird Der Algorithmus in ODM verar beitet dabei die Werte des Attributs bei der Verwendung von geschachtelten Tabellen als eigenst n dige Attribute Bei der Transformation der Tabelle werden die Werte des Attributs als Attribut Wert Paare gespeiche
193. ine Referenz Schicht eine Menge von relevanten thematischen Karten und eine r umliche Beziehung sowie d Minimum Support und Minimum Confidence 1 Im ersten Schritt werden frequent itemsets bei einem hohen Abstraktionsgrad hohes Level in der Konzept Hierarchie gesucht Dabei beschreibt bei dieser Methode ein frequent itemset eine Menge von items die wiederum r umlichen Pr dikaten siehe Abschnitt 5 2 1 entsprechen In diesem Schritt werden potentielle Kandidaten die die spezifizierte r umliche Beziehung erf llen k nnten identifiziert wobei effiziente r umliche Algorithmen und Datenstrukturen wie z B R B ume und Plane Sweep Techniken verwendet werden 2 Anschlie end werden die frequent itemsets im zweiten Schritt einer feineren Analyse durch An wendung rechenintensiver r umlicher Algorithmen wie z B Spatial Joins oder Operationen f r topologische Beziehungen unterzogen Au erdem wird in diesem Schritt der Abstrak tionsgrad sukzessive reduziert niedriges Level in der Konzept Hierarchie z B in_der_ N he_von geht ber zu schneidet und nahe oder Stra e geht ber zu Autobahn und Bundes stra e Der Prozess wird solange durchgef hrt bis entweder das unterste Level der Konzept Hierarchie erreicht ist oder nur noch einelementige frequent itemsets gefunden werden Beispiel einer R umlichen Assoziationsanalyse nach KH95 Gesucht sind Assoziationen in Form von R umlichen Assoziationsregeln zwischen St dten in Briti
194. inen Minimal Support von 30 auf Iteration Kandidaten Support Frequent Itemsets 1 Bier 33 Brot 66 Bier Brot Marmelade 16 Milch 50 Milch Erdnuss Butter 66 Erdnuss Butter 2 Bier Brot 16 Bier Milch 16 Brot Milch 33 Brot Milch Brot Erdnuss Butter 66 Brot Erdnuss Butter Bier Erdnuss Butter 0 Erdnuss Butter Milch 33 Erdnuss Butter Milch 3 Brot Erdnuss Butter Milch 33 Brot Erdnuss Butter Milch Aus den frequent itemsets mit mind zwei Elementen lassen sich anschlie end die Assoziationsregeln ableiten Die gefundene Beziehung zwischen Brot und Erdnuss Butter beispielsweise l sst sich also wie folgt als Assoziationsregeln ausdr cken Regeln Brot Erdnuss Butter Brot gt Erdnuss Butter s 66 c 75 Erdnuss Butter Brot s 66 c 100 Obwohl die Assoziationsanalyse eine probate Technik zum Data Mining darstellt weist diese auch Schw chen auf Assoziationsregeln gelten nach der Definition als interessant wenn die Regel einen 25 2 Knowledge Discovery und Data Mining Minimal Support und eine Minimal Confidence aufweist es sich also um eine starke Assoziati onsregel handelt Die Regel wird dann vom Data Mining System an den Benutzer weitergereicht Jedoch besteht h ufig das Problem dass viele derart gefundene Regeln relativ uninteressant f r den Benutzer sind und demzufolge
195. ing 1000 bersteigt Ora06e Dadurch werden mehrere Attribute zu einem einzigen Attribut zusam mengefasst und somit die Anzahl der Attribute reduziert Zusammenfassend l sst sich sagen dass die folgenden Voraussetzungen mindestens erf llt sein m ssen damit die Funktionen und Algorithmen in der Data Mining Cartridge die Daten berhaupt verarbeiten k nnen e Die Daten m ssen sich alle in einer einzigen Tabelle oder Sicht befinden e Jedes Objekt Datensatz in der Tabelle oder Sicht muss durch einen eindeutigen Prim r bzw Unique Schl ssel identifizierbar sein e Die Spalten der Tabelle bzw Sicht m ssen einen der folgenden Datentypen besitzen INTEGER NUMBER FLOAT VARCHAR2 CHAR DM_NESTED_NUMERICALS DM_NESTED_CATEGORICAL geschachtelte Tabellen Anmerkung zu den Datentypen Obwohl ODM auch unstrukturierte Datentypen z B Attribute vom Typ TEXT als Eingabe akzeptiert und verarbeiten kann wird eine Verarbeitung von Datentypen mit Bezug zu Spatial nicht unterst tzt Ora06d 3 4 Management Prinzip von Oracle Data Mining Das zentrale Objekt in ODM stellt ein sogenanntes Modell Modell Objekt dar Das Modell Objekt ist dabei vergleichbar mit einer Datenstruktur worin die kompletten Informationen bez glich einer Data Mining Aufgabe gespeichert sind Im Modell Objekt sind z B Informationen wie die verwen dete Data Mining Methode der verwendete Data Mining Algorithmus die benutzten Einstellun gen f r den Algorithm
196. ingsdaten und Testdaten zusammen wesentlich h her liegt als nur f r die Testdaten Daraus ist erkennbar dass der Klassifikator schlecht mit unbekannten Daten umgehen kann und somit unter Overfitting leidet Berechnung der Confusion Matrix SELECT target PREDICTION classificator USING AS prediction COUNT AS Anzahl FROM data_table respektive data_table_test GROUP BY target PREDICTION classificator USING Bei Anzahl sind die Werte fiir Complete links und Test rechts TARGET PREDICTION ANZAHL TARGET PREDICTION ANZAHL Susi Massen alien ee ES sees niedrig niedrig 207 niedrig niedrig 0 niedrig mittel 33 niedrig mittel 1 niedrig hoch 7 niedrig hoch 1 mittel niedrig 1 mittel niedrig 1 mittel mittel 3251 mittel mittel 115 mittel hoch 48 mittel hoch 30 hoch niedrig 1 hoch niedrig 1 hoch mittel 78 hoch mittel 27 hoch hoch 1957 hoch hoch 48 Berechnung der Genauigkeit SELECT SUM DECODE target PREDICTION classificator USING 1 0 count X 100 as Accuracy FROM data_table respektive data_table_test ACCURACY Complete ACCURACY Test Meee Te a EN ee eee eee 97 72 Listing 4 24 Klassifikation Transformation der Daten 5 Klassifikation neuer Filme Nachdem der Klassifikator definiert ist und die Genauigkeit f r die gestellte Aufgabe akzeptabel ist k nnen in diesem Schritt neue noch nicht klassifizierte Daten klas sifiziert werden Dabei ist jedoch aufgru
197. ion Matrix Lift und die ROC Receiver Operating Characteristics siehe Kapitel 2 6 4 als Metriken implementiert Da ausschlie lich die Confusion Matrix sowohl f r die bin re als auch die mehrwertige Klassifikation eingesetzt werden kann beschr nkt sich die Beschreibung der Metriken lediglich auf die Confusion Matrix F r die Verwendung von Lift und ROC zur Bewertung von Klassifikationsmodellen sei auf die Li teratur verwiesen siehe Kapitel 2 6 4 Confusion Matrix In Listing 3 21 ist eine SQL Anfrage enthalten die eine Confusion Matrix f r ein Klassifikations modell unter Verwendung der SQL Funktion PREDICTION generiert In diesem Beispiel erfolgt die Klassifizierung in drei Gruppen die durch die Werte Attribut_Wert_1 Attribut_Wert_2 und Attribut_Wert_3 repr sentiert sind Die Genauigkeit des Modells l sst sich anschlie end aus der Confusion Matrix berechnen Die SQL Anfrage im Anschluss an die Confusion Matrix demons triert diese Berechnung SELECT target_attribute AS actual_target_value PREDICTION class_model USING AS predicted_target_value COUNT AS Anzahl FROM test_data_table 68 3 5 Oracle Knowledge Discovery ACTUAL_TARGET_VALUE PREDICTED_TARGET_VALUE ANZAHL Attribut_Wert_1 Attribut_Wert_1 14 Attribut_Wert_1 Attribut_Wert_3 2 Attribut_Wert_2 Attribut_Wert_2 18 Attribut_Wert_3 Attribut_Wert_1 4 Attribut_Wert_3 Attribut_Wert_3 13 SELECT SUM DECODE class PREDICTION class_model USING 1 0
198. isation_1 aggr_population NUM_AC_REL DBMS_SDM_TRANSFORM insertNumACRelMaterialisation def_materialisation_1 demo_raster id geometry data_cities sdo_location SUM population NULL 139 A Spatial Data Mining Beispiele DBMS_SDM_TRANSFORM xformRelMaterialisation def_materialisation_1 demo_raster id demo_agglo_1 END Dichte berechnen CREATE TABLE demo_gaz_clus AS SELECT A SDO_GEOM SDO_AREA A geometry 0 000005 as area A aggr_pop SDO_GEOM SDO_AREA A geometry 0 000005 as density FROM demo_raster A CREATE INDEX demo_raster_sidx ON demo_raster GEOMETRY indextype is MDSYS SPATIAL_INDEX CREATE INDEX demo_gaz_clus_sidx ON demo_gaz_clus GEOMETRY indextype is MDSYS SPATIAL_INDEX Ersetzung mit Funktionen aus dem SDM_TRANSFORM Package BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation gt def_materialisation_2 aggr_pop_neighbors NUM_AC_REL DBMS_SDM_TRANSFORM insertNumACRelMaterialisation def_materialisation_2 demo_raster id geometry demo_agglo_1 geometry SUM aggr_population sdo_num_res 8 DBMS_SDM_TRANSFORM xformRelMaterialisation def_materialisation_2 demo_agglo_1 id demo_agglo_2 END Selektion der Daten die der Definition gen gen CREATE VIEW demo_clus_selection AS SELECT from demo_agglo_2 where aggr_pop_n
199. iteres mit den klassischen Clustering Methoden verarbeiten da eine geeignete Repr sentation durch Standard Datentypen nicht gegeben ist R umliche Klassifikation und Regression Die Klassifikation die in Kapitel 2 vorgestellt worden ist beschreibt den Prozess der Klassifizierung eines Objektes Datensatz einer Tabelle zu einer Klasse aus einer vorgegebenen Menge von Klassen anhand der Attribute des Objektes Bei der R umlichen Klassifikation werden dar ber hinaus die Attribute der r umlich benachbarten Objekte z B die nicht r umlichen Attribute Bev lkerungs dichte und Kriminalit tsrate und r umliche Beziehungen zwischen den Objekten z B in der Um gebung befindet sich ein See oder eine Schnellstra e in den Prozess der Klassifizierung einbezogen Bei den Objekten in der R umlichen Klassifikation handelt es sich demnach um Objekte die in ihre Umgebung eingebettet und folglich als komplexe Objekte zu verstehen sind Diese erweiterte Auffassung des Objektes ist besonders bei der R umlichen Klassifikation von Bedeutung Beispiel Klassifizierung einer Region nach wohlhabend oder arm In Abb 5 2 ist ein Ausschnitt ei ner Karte und die dazugeh rige Repr sentation in Form einer Ta belle zu sehen Die Aufgabe der R umlichen Klassifikation besteht darin die unbekannte Region 5 nach wohlhabend oder arm zu klas sifizieren Region durchschn Einkommen Status 50000 wohlhabend 4 10000 arm 1 2
200. izit angegeben Alle weiteren Parameter sollen durch den Algorithmus be stimmt werden da dadurch ein m glichst optimales Ergebnis erreicht wird In Listing 4 10 wird die Regressionsanalyse demonstriert wobei die Vorgabe des linearen Kernel nur f r die zweite Regres sionsanalyse gelten soll Vorgabe des linearen Kernel zur Konstruktion BEGIN INSERT INTO regression_settings VALUES DBMS_DATA_MINING svms_kernel_function DBMS_DATA_MINING svms_linear END BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt regression_model mining_function gt DBMS_DATA_MINING REGRESSION data_table_name gt build_data Training case_id_column_name gt id target_column_name gt target settings_table_name gt regression_settings END Listing 4 10 Regressionsanalyse 4 Testen des Regressionsmodells Nachdem die Regressionsfunktion Modell konstruiert worden ist kann deren Genauigkeit mit den in Kapitel 3 5 3 vorgestellten Methoden gemessen werden In Listing 4 11 wird die Genauigkeit mit den Root Mean Square Error und Mean Absolute Error gemessen wobei zun chst die Werte f r die Testdaten unter Anwendung des Modells also der Re gressionsfunktion berechnet werden Als Ergebnis ergeben sich f r den Root Mean Square Error eine Abweichung von 926 Filmen und f r den Mean Absolute Error eine Abweichung von 778 Filmen Das ist in Anbetracht der Dimension von Anzahl der Filme eine gute Ann h
201. ker Wert rcut NUMBER obere rechte Grenze rval NUMBER oberer rechter Wert Im zweiten Schritt zur Behandlung von Ausrei ern werden die entsprechenden Werte f r lcut lval rcut und rval f r numerische Attribute ermittelt In ODM wird Clipping durch die zwei Ans tze Winsorizing und Trimming realisiert siehe Kapitel 2 4 e Winsorizing Behandlung der Ausrei er durch Setzen der Werte lval lcut und rval rcut 43 3 Oracle Knowledge Discovery und Data Mining e Trimming Behandlung der Ausrei er durch Setzen der Werte 1val NULL und rval NULL Im dritten Schritt wird die Behandlung von Ausrei ern abgeschlossen indem wiederum eine Sicht auf der Datentabelle erstellt wird und die ermittelten Werte zur Beseitigung der Ausrei er in der Datentabelle benutzt werden Die Behandlung von Ausrei ern erfolgt dabei nach dem Prinzip der Behandlung von fehlenden Werten siehe Punkt a Behandlung von fehlenden Werten Die Unterscheidung liegt lediglich in der Bezeichnung der Funktionen und die damit verbundenen verschiedenen Parametern z B ist beim Clipping der Parameter der den prozentualen Anteil der Daten als Ausrei er angibt entscheidend Wird dieser Parameter z B auf 5 gesetzt dann bedeutet das dass 10 des Wertebereichs 5 oben und 5 unten Ausrei er sind Beispielhaft ist die Behandlung von Ausrei ern in Listing 3 4 mit Winsorizing dargestellt Werte f r die Attribute 5 oben und 5 unten werden
202. l che des Raster Elements geteilt wird Die erste Bedingung d h mind 1000000 Einwohner kann nicht einfach mit dem Wert der aggre gierten Bev lkerung berechnet werden Der Ursache liegt darin dass wenn die Raster Elemente zu fein sind der Wert der aggregierten Bev lkerung ausschlie lich bei Metropolen den Grenzwert berschreitet Aus diesem Grund werden zu jedem Raster Element die Nachbar Regionen nach Abb 6 7 b betrachtet und dadurch die Eigenschaft der Autokorrelation d h benachbarte Objekte beeinflussen sich gegenseitig ber cksichtigt Diese Materialisierung der Nachbarschaftsbeziehungen ist auf die n chsten 8 Nachbarn siehe Abb 6 7 b beschr nkt und mit den Funktionen aus dem dbms_sdm_transform Package in Listing 6 3 dargestellt BEGIN DBMS_SDM_TRANSFORM createRelMaterialisation gt def_materialisation_2 aggr_pop_neighbors NUM_AC_REL DBMS_SDM_TRANSFORM insertNumACRelMaterialisation def_materialisation_2 demo_raster id geometry demo_agglo_1 geometry SUM aggr_population sdo_num_res 8 DBMS_SDM_TRANSFORM xformRelMaterialisation gt def_materialisation_2 demo_agglo_1 id demo_agglo_2 END Listing 6 3 Materialisierung der Informationen ber die Bev lkerung von 8 Nachbarn Nach der Transformation k nnen die Regionen selektiert werden die der Definition eines Ballungsgebiets gen gen d h mind 1000000 Ein
203. le Verfahren dass sie Muster engl Pattern und im weiteren Sinne Wissen in gro en Datenmengen finden sollen Dabei stehen besonders Muster im Vordergrund die zum einen f r den Benutzer interessant sind und zum anderen interessanter als triviale Muster sind Folgende Abgrenzung zwischen einem Muster und Wissen gibt FPSS96 A pattern that is interesting and certain enough is called knowledge d h ein Muster wird Wissen genannt wenn es interessant und sicher genug ist 15 2 Knowledge Discovery und Data Mining Die Data Mining Methoden lassen sich wie bereits beschrieben in zwei Gruppen aufteilen die im Folgenden aufgelistet und in den n chsten Abschnitten beschrieben werden e Deskriptiv Unsupervised e Pr diktiv Supervised o Clustering o Klassifikation o Assoziationsanalyse o Regression In weiteren Abschnitt werden einige der bekanntesten Data Mining Methoden vorgestellt und an Beispielen n her erl utert 2 6 2 Clustering In Abb 2 4 sind beispielhaft einige Datenmengen illustriert Bei n herer Betrachtung dieser Daten mengen ist auff llig dass es dort Bereiche gibt in denen sich Daten konzentrieren bzw gruppieren Gruppierungen haben die Eigenschaft dass die darin enthaltenen Daten in irgendeiner weise hn lich zueinander sind Das Data Mining unter Verwendung des Clustering versucht solche Gruppie rungen zu identifizieren z B die Einteilung von Kunden nach Interessensgebieten so dass aus den Gruppie
204. lizite Beziehungen und die Autokorrelation zu l sen versuchen und somit ein Spatial Data Mining zu erm glichen Die Herangehensweisen lassen sich unabh n gig von der Art der Problemstellung d h Clustering Assoziationsanalyse etc in zwei Strategien unterteilen 1 Materialisierung der r umlichen Daten und impliziten Beziehungen 2 Modifikation Anpassung der Data Mining Methoden In Abb 5 12 sind die Strategien des Data Mining in r umlichen Datenbanken anschaulich zusam mengefasst a Data Mining mit Transformation der Spatial Attribute b Spatial Data Mining Spatial und Non Spatial c Data Mining Non Spatial Attribute Daten Daten Daten Standard R umlich Standard R umlich Standard R umlich Materialisierung Transformation Erweiterte Tabelle Data Mining Spatial Data Mining Data Mining T Ergebnis im r umlichen Kontext Ergebnis im Standard Kontext Ergebnis im Standard Kontext Abbildung 5 12 Vorgehensweisen beim Spatial Data Mining 109 5 Data Mining in r umlichen Datenbanken Die Materialisierung der r umlichen Daten und impliziten Beziehungen Abb 5 12 a beschr nkt sich berwiegend auf die Transformation von topologischen und metrischen Beziehungen in Pr di kate z B schneidet X Fluss true oder in_der_N he_von X Meer die dann wieder um in Attrib
205. llungen die f r den Enhanced k Means Algorithmus vorgenommen wer den k nnen werden im Folgenden beschrieben und in der nachfolgenden Tabelle zusammenfas send aufgelistet Die Parameter kmns_iterations und kmns_conv_tolerance haben einen Einfluss auf die Abbruch bedingung und somit auf die Qualit t und die Laufzeit des Algorithmus Der Parameter kmns_ distance bestimmt nach welcher Methode die hnlichkeit zwischen Daten gemessen werden soll 52 3 5 Oracle Knowledge Discovery Und der Parameter kmns_split_criterion gibt das Kriterium an welcher Cluster als n chstes aufgeteilt wird F r die meisten Clustering Aufgaben liefern die Voreinstellungen Standardwerte recht gute Ergebnisse Im Allgemeinen ist lediglich der Parameter clus_num_clusters zu spezifi zieren da dieser die Anzahl der zu erzeugenden Cluster angibt Die Parameter kmns_num_bins und kmns_min_pct_attr_support haben keinen Einfluss auf die Konstruktion der Cluster Diese sind bei der Analyse und zur Beschreibung der Cluster von Be deutung Nach dem Konstruktionsprozess steht f r jeden Cluster und jedes Attribut eine Statistik in Form von einem Histogramm zur Verf gung Der Parameter kmns_num_bins spezifiziert dabei die max Anzahl an diskreten Werten im Histogramm Dieser Wert gilt ausschlie lich f r nume rische Attribute bei nicht numerischen Attributen ist die Anzahl an diskreten Werten durch die verschiedenen Werte des Attributs bestimmt Au erdem wird jeder C
206. lm identifiziert werden und somit eine Assoziationsanalyse nach der vorgegebenen Fragestellung also welche Schauspieler gemeinsam in Filmen mitgespielt haben nicht beantwortet werden kann Aus diesem Grund ist es bei diesem Beispiel notwendig die Analo gie zur Warenkorbanalyse anzuwenden Dabei entspricht der Film dem Warenkorb und die Schau spieler den Produkten Die daf r erforderliche Transformation der Tabelle wird dabei nach dem in Kapitel 3 vorgestellten Prinzip durchgef hrt 74 4 1 Assoziationsanalyse Die Transformation bewirkt dass die Schauspieler als Attribute betrachtet werden wobei ein Attri but jeweils mit dem Wert 1 markiert wird wenn der Schauspieler in einem Film mitgespielt Eine Markierung ist dabei obligatorisch da die geschachtelte Tabelle wiederum ein Attribut Wert Paar darstellt und einen Wert erwartet jedoch spielt sie bei der Assoziationsanalyse und den Assoziati onsregeln sp ter keine Rolle Nach der Transformation sind die Datens tze jeweils durch den Film eindeutig identifizierbar einfache Definition der Tabelle ohne Einschr nkungen CREATE TABLE asso_pre_prepared AS SELECT movie as id name as actor FROM movie natural join part natural join person CREATE TABLE asso_prepared NESTED TABLE actor_for_movie STORE AS DM_Nested_Numericals_TABLE AS SELECT id CAST COLLECT DM_Nested_Numerical actor 1 AS DM_Nested_Numericals actor_for_movie FROM asso_pre_prepared gt Listin
207. ls verbunden sind wenn diese einen max Abstand nicht berschreiten Die Besonderheit dieser Methoden besteht darin dass selbst Co location Regeln gefunden werden deren Vorkommen nicht so h ufig ist Die erste Methode beschreibt eine Erweiterung der Assoziationsanalyse Methode aus AMS 96 wobei zun chst ein support hnliches Ma maximal participation index zur Einschr nkung des Suchraums benutzt wird und anschlie end in einem Postprocessing ein confidence hnliches Ma eingesetzt wird um die Co location Regeln zu ermitteln Diese Methode hat jedoch den Nachteil dass bei zu gro gew hltem Support nicht alle Co location Muster gefunden werden und bei ei nem zu kleinen Support zwar alle gefunden werden jedoch berdurchschnittlich viele Muster zur Analyse verarbeitet werden Die zweite Methode hingegen macht sich eine spezielle Monotonie Eigenschaft der Co Location Muster zu nutze um den Suchraum hnlich wie die Monotonie Eigenschaft beim Apriori Algorithmus AMS 96 einzuschr nken und dennoch alle auch selte nen Muster findet In Mor01 wird eine weitere Methode f r die Co Location Analyse beschrieben wobei das Ziel dieser Methode das Finden von sogenannten Neighboring Class Sets ist Ein Neighboring Class Set beschreibt dabei eine Menge von unterschiedlichen Objekten die sich r umlich betrachtet gruppie ren Semantisch betrachtet beschreibt diese Methode demnach eine Co Location Analyse da die Co Location Muster u
208. luster durch eine Regel der Form IF THEN beschrieben Und der Parameter kmns_min_pct_attr_support gibt dabei an wann ein Attribut in eine Beschreibungsregel aufgenommen werden soll d h Relevanz des Attributes zur Beschreibung des Clusters F r die Verwendung des Enhanced k Means Algorithmus gibt Oracle noch folgende Empfehlun gen um m glichst gute Resultate zu erzielen Ora06d e numerische Werte normalisieren e fehlende Werte mit Mittelwerten auff llen e numerische und nicht numerische Attribute diskretisieren e Behandlung von Ausrei er Die Parameter und Einstellungen f r den Enhanced k Means Algorithmus sind der folgenden Ta belle zu entnehmen wobei die Standardwerte fett hervorgehoben sind Parameter Werte Beschreibung algo_name algo_kmeans Spezifiziert den k Means als Clustering Algorithmus den das Modell verwenden soll clus_num_clusters x gt 1 x 10 Anzahl an Cluster die erstellt werden sollen kmns_distance kmns_euclidean Distanz bzw Abstands kmns_cosine funktion f r den k Means kmns_fast_cosine Clustering Algorithmus kmns_iterations x 0 20 x 3 Anzahl der durchzuf hrenden Iterationen kmns_conv_tolerance x 0 0 5 x 0 01 Konvergenz Toleranz kmns_split_criterion kmns_variance kmns_size Aufteilungskriterium kmns_num_bins x 0 x 10 Anzahl der Beh lter Bin im Histogramm Die Grenzen der Bins werden global auf der Trainingsmenge berechnet kmns_blo
209. m des Wertebereichs von Attribut A und new_min und new_max sind das neue Minimum und das neue Maximum des neuen Wertebereichs f r A 2 Z Score Normierung v v vA mit v dom A und A Durchschnittswert von Attribut A und g4 Standardabweichung von A Die Z Score Normierung ist sinnvoll wenn entweder das Maximum und das Minimum unbekannt sind oder Ausrei er die Min Max Normierung dominieren 1 Min Max Normierung v v 3 Dezimal Normierung v v 7 mit v dom A und j min j N max v lt 1 Die Dezimal Normierung skaliert die Werte in den Bereich 1 1 4 Skalen Normierung v v aa Guina mit v dom A Die Skalen Normierung A abs max skaliert die Werte v des Attributs A in den Bereich 1 1 wobei zur Berechnung das Maxi mum der Absolutwerte min Minimum von Attribut A und max 4 Maximum von Attribut A benutzt wird 12 2 5 Transformation 2 5 2 Diskretisierung Bei der Diskretisierung von Attributen handelt es sich um die Transformation von numerischen auf nominale oder von numerischen auf numerische Attribute wobei der Wertebereich des Attri buts reduziert wird Die numerischen Werte werden dabei in kleine Mengen von disjunkten Berei chen diskretisiert Eine Diskretisierung von Attributen ist beispielsweise notwendig wenn ein Data Mining Verfahren keine kontinuierlichen Werte verarbeiten kann HL02 SH00 Sie ist ebenfalls sinnvoll wenn die Anzahl an
210. m Kapitel soll das Data Mining das zuvor theoretisch in Kapitel 2 und konkret anhand von Oracle Data Mining in Kapitel 3 eingeleitet wurde an einer realen Datenbank untersucht wer den Die Datenbank die verwendet werden soll ist eine Film Datenbank im Folgenden Movie Datenbank genannt die in Abb 4 1 in einem vereinfachten ER Diagramm Entity Relationship Diagramm dargestellt ist Genre Movie Part F movie movie movie Person genre title person person Release type Rating mentioned hame Country year creditpos A real_name Moyle runningtime l movie pa release finog rating ve date country height Abbildung 4 1 Movie Datenbank Bei der Movie Datenbank handelt es sich um eine Sammlung von Film Informationen die so wohl Kino Filme als auch Serien beinhaltet Dabei repr sentiert der Film das zentrale Objekt Film Objekt welches zus tzlich um zahlreiche Informationen angereichert ist Diese Informationen wie derum verteilen sich auf verschiedene Tabellen wobei jede Tabelle einen semantischen Bezug zum Film Objekt hat Die folgende Auflistung soll einen berblick ber die Daten und Tabellen geben die in den n chsten Abschnitten von Bedeutung sind Die Tabelle e Rating gibt die Bewertung zu einem Film wieder Au erdem ist darin die Anzahl der Stimmen die zur Bewertung beitragen enthalten e Genre gibt Auskunft welc
211. merischen Werten oder lexikalischer Abstand bei nominalen Werte der Objekte zueinander definiert Objekt AIB C DE A 0 el ee nie eee eee 3 B 0 2 4 3 ige a eee 2 C 0 1 5 D ol 3 a oy i E 0 A B C D E a Abbildung 2 10 Beispiel f r hierarchisches Clustering mit Single Link Die Clustering Methode fasst die Cluster sukzessive graphisch verdeutlicht in Abb 2 10 b an hand der Single Link Methode zusammen bis sich alle Objekte in einem einzigen Cluster befinden Die Ebenen des Dendrogramms beschreiben die hnlichkeit zwischen den Clustern d h je niedri ger die Ebene auf der zwei Cluster zusammengefasst werden um so hnlicher die Objekte in diesen Clustern Die aus dem Algorithmus resultierende Cluster Hierarchie in Form eines Dendrogramms ist in Abb 2 10 c dargestellt c Density based Methoden Density based Verfahren produzieren Cluster beliebiger Form z B kreisf rmige gekriimmte lang liche geometrische Formen Die Idee dahinter ist Cluster solange wachsen zu lassen bis die Dichte Anzahl der Objekte in einem bestimmten Bereich einen Grenzwert erreicht hat Die Cluster stel len Gebiete dar in denen die Objekte dicht beieinander liegen und durch Gebiete getrennt sind in denen die Objekte weniger dicht liegen Dadurch ergeben sich die wichtigsten Merkmale von density based Clustern 1 Jeder Cluster wei t eine definierte Dichte von Punkten auf u
212. mining_function gt DBMS_DATA_MINING ASSOCIATION data_table_name gt sdm_asso case_id_column_name gt id settings_table_name gt demo_asso_dm_settings END Listing 6 10 R umliche Assoziationsanalyse mit Oracle Data Mining Das Ergebnis der Assoziationsanalyse sind dann R umliche Assoziationsregeln die beispielsweise die folgende Assoziation beschreibt Dabei stellt DIST_PARK 2 einen diskretisierten Wert dar und muss entsprechend zur ckgerechnet werden z B entspricht DIST_PARK 2 einer Distanz von 500 m Name Wohngebiet A DIST_PARK 2 Strasse FALSE s 20 c 80 Die Regel besagt dass 80 der Wohngebiete die in einer Entfernung von 2 diskretisierte Wert eine Gr nanlage haben keine Beziehung zu einer Stra e besitzen Weitere Regeln dieser Art k nnen mittels dieser Materialisierungen von r umlichen Beziehungen ermittelt werden jedoch ergben dabei leider vielfach Trivialit ten z B beschreibt die folgende Re gel dass Bahnh fe von Schienen ber hrt werden geometrisch betrachtet Name Bahnhof gt ber hrt_Schiene TRUE s 20 c 100 Die in diesem Abschnitt exemplarisch illustierten Beispiele zeigen bereits dass durch die Mate rialisierung von r umlichen Beziehungen und geometrischen Objekten mit dem PL SQL Package dbms_sdm_transform Spatial Data Mining betrieben werden kann Dabei gliedert sich das Packa ge dbms_sdm_transform nahezu nahtlos in die Prozess S
213. mung der Parameter erfolgt dabei auf Basis der Charakteristiken der Daten Eine kurze Beschreibung der wichtigsten Parameter wird in der folgen den Auflistung gegeben F r eine detaillierte Beschreibung und deren Berechnung wird auf BM05 verwiesen e Der Parameter svms_conv_tolerance steuert das Konvergenzverhalten des L sungsalgorith mus der intern vom Support Vector Machine Algorithmus gel st wird Kleine Werte f r die sen Parameter f hren zu l ngeren Laufzeiten des Konstruktionsprozesses aber auch zu ge naueren Ergebnissen e Der Parameter svms_complexity_factor steuert das Verhalten im Bezug auf die Anpassung des Modells an die Trainingsmenge Er beschreibt die Komplexit t der Definition der Hyper ebene Ein zu gro er Wert f r den Komplexit tsfaktor f hrt bei schlecht trennbaren Mengen zu Overfitting des Modells Ein zu kleiner Wert f r den Komplexit tsfaktor f hrt zu Underfitting e Bei der Verwendung des Gauss Kernel sind die Parameter svms_std_dev und svms_kernel_ cache_size von Bedeutung Der Parameter svms_std_dev bestimmt zusammen mit dem Kom plexit tsfaktor das Anpassungsverhalten des Algorithmus an die Trainingsmenge d h bei festem Komplexit tsfaktor f hrt ein zu hoher Wert f r svms_std_dev zu Underfitting und ein zu kleiner Wert zu Overfitting e Ein Problem der Support Vector Machines ist dass das Modell mit der Gr e der Trainings menge w chst Dies h tte zur Folge dass ein Einsatz von Support Vecto
214. mus gesetzt werden m ssen BEGIN INSERT INTO VALUES CLASS_SETTINGS setting_name DBMS_DATA_MINING algo_name DBMS_DATA_MINING algo_support_vector_machine CLASS_SETTINGS setting_name setting_value DBMS_DATA_MINING svms_active_learning DBMS_DATA_MINING svms_al_disable setting_value INSERT INTO VALUES END 66 3 5 Oracle Knowledge Discovery DBMS_DATA_MINING CREATE_MODEL model_name gt CLASSIFICATION_MODEL mining function gt DBMS_DATA_MINING classification data_table_name gt data case_id_column_name gt object_id target_column_name gt target_class setting_table_name gt CLASS_SETTINGS Listing 3 20 Klassifikation mit Support Vector Machine Informationen zum Klassifikations Modell Objekt Der Klassifikator ist in ODM im Modell Objekt gekapselt F r eine Klassifizierung muss entspre chend das Modell Objekt Klassifikator eingesetzt werden Das Modell Objekt beinhaltet neben dem Klassifikator ebenfalls Informationen die den Kon struktionsprozess betreffen z B Informationen ber Einstellungen des Algorithmus und verwen dete Attribute Pr dikatoren bei der Klassifikation Die bereitgestellten Informationen unterschei den sich jedoch erheblich so dass bei der einen Methode die Klassifizierung transparent und nach vollziehbar ist und bei einer anderen Methode die Klassifizierung im Modell Objekt gekapselt wird wodurc
215. mus versucht diese Daten die dicht an einer Entscheidungsgrenze liegen zu identifizieren so dass ein optimaler und maximaler Bereich zwischen den zu trennenden Daten entsteht und damit eine m glichst gute Verallgemeine rung f r neue unklassifizierte Daten bietet Support Vector Maschines lassen sich zur L sung von linearen einfacher Fall und nicht linearen schwieriger Fall Klassifikationsproblemen einsetzen wobei das L sen von komplexen nicht li nearen Problemen die eigentliche Herausforderung der Klassifikation darstellt da kein geeignetes mathematisches Modell zur Beschreibung existiert Um es zu beschreiben wird ein nicht lineares Problem auf ein lineares Problem abgebildet Im folgenden wird die Funktionsweise der SVMs an hand der unterschiedlichen F lle erl utert a b c Abbildung 2 19 Darstellung der drei F lle bei Support Vector Machines BC00 Linearer Fall Gegeben sei ein bin res Klassifikationsproblem z B die Identifikation von Betrugs f llen Abb 2 19 a d h eine Menge von Objekten geh rt entweder zur Klasse A Betrug oder zur Klasse B kein Betrug SVM versucht die Menge mittels einer Hyper Ebene derart zu trennen dass die Breite Margin der Hyper Ebene maximal wird Dadurch wird erreicht dass die Klassifizierung der Mengen weitestgehend verallgemeinert und ein Overfitting der Mengen verhindert wird Die 32 2 6 Data Mining Hyper Ebene die das Modell oder den Klassifikat
216. muss in mind 10 Filmen eine gekennzeichnete Position im Abspann haben 2 Der Film muss mind 1000 Bewertungen haben 3 Der Film muss ein Kinofilm sein also vom Typ cinema 2 Preprocessing und Transformation Ein Preprocessing ist in diesem Fall nicht durchzuf hren da durch die Zusammenstellung der Daten keine fehlende Werte enthalten sein k nnen Die Behand lung von Ausrei ern wird ebenfalls nicht durchgef hrt da in diesem Beispiel f r die Klassifikation keine numerischen Werte enthalten sind F r die vorgesehene Klassifikation und in Anbetracht dessen dass das Klassifikationsattribut nu merisch ist erscheint es jedoch notwendig eine Transformation in Form einer Diskretisierung des Klassifikationsattributs Rating Bewertung durchzuf hren Die Diskretisierung wird dabei in die 88 4 4 Klassifikation Klassen niedrig mittel und hoch vorgenommen wobei die folgenden Wertebereiche gelten sollen niedrig 1 4 mittel 4 7 und hoch 7 10 Bei der Fragestellung nach dem Einfluss der Schauspieler auf die Bewertung eines Films geht es nicht nur um eine direkte Beziehung d h Schauspieler X spielt in Film Y mit der Bewertung Z sondern auch um eine Kombination von Schauspieler die in einem Film mitgespielt haben d h Schauspieler U V W und X haben in Film Y mit der Bewertung Z mitgespielt Die Daten m ssen also wieder derart transformiert werden dass sie dem Charakter eines Waren korbs mit Waren sieh
217. n Beziehungen u R umlich implizite Beziehungen 4 Interne Funktionen Punkt topologische Beziehung metrische Beziehung bernahme von Parametern Linie gerichtete Beziehung Polygon Eigenschaft der Autokorrelation E Multi Punkt Multi Linie Multi Polygon Aggregierung numerischer Attribute Mehrheitsentscheid nicht numerischer Attribute Abbildung 6 1 dbms_sdm_transform Package In Abb 6 2 ist die Integration des dbms_sdm_transform Package f r die Materialisierung von r um lichen Objekten und Beziehungen in das DBMS von Oracle dargestellt Die Verbindungen zwischen den Elementen repr sentieren dabei direkte Beziehungen zwischen den Packages SDM_TRANSFORM Package Materialisierung von impliziten Beziehungen Autokorrelationseigenschaft Transformation von geomtrischen Objekten Oracle Data Mining DBMS_DATA_MINING_TRANSFORM SAM Package DBMS_DATA_MINING Abbildung 6 2 Integration des dbms_sdm_transform Package in das Oracle DBMS Weiter ist in Abb 6 3 die Integration und der Ablauf der Materialisierung von r umlichen Objekten und Beziehungen in den KDD Prozess f r das Spatial Data Mining schematisch dargestellt 124 6 1 Spatial Data Mining Transformation Transformation fo ee oe a a oak aera FS der Geometrie Objke J l i 1 i n I t Materialisierung i 1 klassisches Data Mining
218. n Klassifikationsmodellen darstellt n her erl utert F r weitere Methoden zur berpr fung der Genauigkeit des Klassifikators sei auf die Literatur verwiesen Die Confusion Matrix ist eine n x n Matrix dessen Zeilen den realen Werte und dessen Spal ten den durch den Klassifikator vorhergesagten Werte entspricht Die Zellen der n x n Matrix repr sentieren alle m glichen Kombinationen einer Klassifikation wobei n die Anzahl der m glichen Kategorien bzw Klassen ist Der Vorteil der Confusion Matrix ist die Beurteilung von bin ren und mehrwertigen Klassifikationen F r eine bin re Klassifikation d h eine Ja Nein Klassifikation ist die Confusion Matrix ei ne 2 x 2 Matrix siehe Abb 2 15 a Vorhersage Vorhersage kein positiv negativ Betrug Betrug richtig falsch positiv positiv Betrug 30 falsch richtig kein 200 negativ negativ Betrug a 2x2 Confusion Matrix b Confusion Matrix Betrug Abbildung 2 15 Confusion Matrix Die richtig vorhergesagten F lle liegen dabei auf der Hauptdiagonalen der Confusion Matrix die falsch vorhergesagten in den restlichen Zellen der Matrix In Abb 2 15 b ist eine Confusion Matrix fiir einen Klassifikator der Betrugsfalle klassifiziert abgebildet Die Genauigkeit des Klassfikators l t sich wie folgt berechnen richtige Vorhersagen 800 _ 97 4 amtzahl der Vorhersagen 385 falsche Vorhersagen _ 5 5 3 Gesamtzahl der Vorhersagen 8 Die Confusion Matrix gibt
219. n werden Bei der vorgeschlagenen Methode wird das Prinzip der Referenz Schicht benutzt wobei deren Objekte sogenannte Referenz Objekte in Bezug zu Ob jekten in anderen Schichten stehen Durch die Verschneidung der Referenz Schicht z B St dte mit jeweils einer weiteren Schicht z B Stra en Fl ssen und Parkanlagen werden unter Verwendung einer r umlichen Beziehung z B in_der_Niihe_von Assoziationsregeln ermittelt 102 5 2 Spatial Data Mining Die Methode selbst beschreibt ein zweistufiges Top Down Verfahren das in der ersten Stufe eine grobe Analyse durch in_der _N he_von f hrt und mit dem resultierenden Ergebnis in der zweiten Stu nahe schneidet fe eine feinere Analyse folgen l sst Damit die Analyse nach we der Methode in KH95 in den beschriebenen zwei Stufen durch gleich nicht gleich gef hrt werden kann wird zumindest eine Konzept Hierarchie PN f r die r umlichen Pr dikate ben tigt z B f r topologische Beziehungen Abb rechts Eine Konzept Hierarchie f r nicht r umliche Pr dikate ist optional jedoch k nnten damit Multi level Assoziationsregeln siehe Kapi tel 2 gefunden werden ber hrt berlappt enth lt Die Arbeitsweise der Methode in KH95 l sst sich wie folgt beschreiben wobei die folgenden Pa rameter spezifiziert werden m ssen a r umliche Datenbank mit r umlichen und nicht r umlichen Attributen b r umliche und nicht r umliche Konzept Hierarchien c e
220. nd 2 die Dichte innerhalb eines Clusters ist h her als die Dichte au erhalb Typische density based Algo rithmen sind DBSCAN Density Based Spatial Clustering of Applications with Noise ME96 und OPTICS Ordering Points To Identify the Clustering Structure AMJ99 der eine Verbesserung zu DBSCAN darstellt 20 2 6 Data Mining Beispiel einer Density based Methode Das Clustering mit einer density based Metho 7 de soll anhand des DBSCAN Algorithmus er ax 4 lautert werden Der Kernpunkt des Algorith j T s z mus besagt dass es f r jedes Objekt eines Clus ters innerhalb eines definierten Radius eine Min destanzahl von Objekten gibt Es bedeutet dass die Dichte im Bereich der vom Radius um das Objekt definiert wird einen zuvor definierten ae oe Schwellenwert bersteigt DBSCAN verwendet a gE Beispielen MEV intern zur Berechnung eine Abstandsfunktion z B Euklidische Norm die jedoch beliebig variiert werden kann Weiter sind f r die Erkl rung der density based Clustering Methode weitere essenti elle Definitionen notwendig Die Umgebung eines Objektes p mit dem Radius e wird als e Umgebung von p kurz Ue p bezeichnet Ein Objekt p wird als Kern Objekt bezeichnet wenn sich in der e Umgebung um das Objekt eine Mindestanzahl von Objekten kurz MinObj befinden Ein Objekt p ist directly density reachable von einem Objekt q wenn 1 p Ue q und 2 Ue q gt MinObj
221. nd der Uberlagerung nach dem Schichten Modell RT05 5 3 2 Was wird fiir das Spatial Data Mining materialisiert Im Folgenden sind die Punkte aufgelistet fiir die eine Materialisierung durchgefiihrt werden soll 1 Geometrische Objekte Diese beschreiben in den meisten F llen die Form der r umlichen In formationen z B Polygon beschreibt ein Waldgebiet oder eine Linie beschreibt eine Stra e Um die Informationen die in den geometrischen Objekten enthalten sind beizuhalten m s sen diese in eine geeignete Repr sentation durch Standard Datentypen berf hrt werden 2 Allgemeine Nachbarschaftsbeziehungen bezogen auf nicht r umliche Attribute Diese be schreiben den Aspekt der Autokorrelation im Bezug auf nicht r umliche Attribute d h die gegenseitige nachbarschaftliche Beeinflussung von r umlichen Objekten Um den Einfluss der 111 5 Data Mining in r umlichen Datenbanken Autokorrelation bei der Transformation beibehalten zu k nnen m ssen die nicht r umlichen Informationen der benachbarten Objekte im betrachteten Objekt abgebildet werden 3 Topologische Beziehungen Diese beschreiben wie bereits in Abschnitt 5 1 erl utert Bezie hungen zwischen geometrischen Objekten Um diese Informationen vollst ndig beizubehal ten sind so viele Iransformation notwendig wie es topologische Beziehungen zwischen den geometrischen Objekten gibt 4 Metrische Beziehungen Diese beschreiben wie bereits in Abschnitt 5 1 erl ut
222. nd des konstruierten Klassifikators zu beachten dass nur 90 4 4 Klassifikation dann eine glaubw rdige Klassifikation m glich ist wenn die neuen Filme deren Bewertung vor hergesagt werden soll sich aus den Schauspielern zusammensetzt die dem Klassifikator bekannt sind Die Klassifikation neuer Daten ist in Listing 4 25 beispielhaft dargestellt Das Ergebnis wird in einer Tabelle abgespeichert und kann von dort weiterverarbeitet werden z B kann ein neuer aktueller Kinofilm deren Schauspieler auch eine Teilmenge der Schauspieler ist denkbar bekannt sind be nutzt werden um eine Bewertung zu bekommen und danach zu entscheiden ob man sich den Film ansieht oder nicht Als Beispiele f r die Anwendung des Klassifikators sollen die Filme Night at the Museum 2006 und El Laberinto del Fauno 2006 dienen Zur Beurteilung der Filme werden die Hauptdarsteller der Filme verwendet die in den folgenden Auflistungen zu finden sind a Night at the Museum 2006 mit ID 1001 b El Laberinto del Fauno 2006 mit ID 1002 e Ben Stiller e Ariadna Gil e Dick Van Dyke e Sergi L pez e Mickey Rooney e Maribel Verdu e Bill Cobbs e Doug Jones e Ricky Gervais Alex Angulo Vorbereiten der Filme und der Schauspieler f r die anschlie ende Klassifikation BEGIN DBMS_DATA_MINING APPLY model_name gt classificator data_table_name gt data_table_new case_id_column_name gt id result_table_nam
223. nd die Neighboring Class Sets synonym sind Dabei verwendet Mor01 einen Apriori Algorithmus der sukzessive frequent k Neighboring Class Sets k gt 2 ausgehend von frequent 1 Neighboring Class Sets unter Ber cksichtigung eines Sup ports generiert Der Algorithmus benutzt zur Bestimmung und zur Bewertung von Nachbarschaf ten ein Voronoi Diagramm das eine Datenstruktur zur Speicherung von Nachbarschaften darstellt Das Vorgehen zur Findung von frequent k 1 Neighboring Class Sets aus frequent k Neighboring Class Sets erfolgt dabei durch Generierung von k 1 Kandidat Mengen aus jeweils zwei k Mengen wobei sich die k Mengen lediglich in einem Objekt unterscheiden d rfen Anschlie end wird unter Verwendung des Voronoi Diagramms die k 1 Kandidat Menge berechnet und gepr ft ob ein vorgegebener Maximal Abstand zwischen den Objekten nicht berschritten wird Ist diese Bedin gung und der Minimum Support f r die k 1 Kandidat Menge erf llt so handelt es sich um ein frequent k 1 Neighboring Class Sets Nachteilig bei Mor01 ist dass zum einen lediglich Punkt Darstellungen verarbeitet werden k n nen und zum anderen zu viele uninteressante frequent Neighboring Class Sets generiert und analysiert werden m ssen 5 2 3 Frameworks f r Spatial Data Mining Die nun folgenden L sungsans tze beschreiben im Gegensatz zu den L sungsans tzen im vor vergangenen Abschnitt komplette Frameworks deren Motivation es ist die gesamten e
224. nden Wahrscheinlichsten Wert zum Auff llen verwenden DLR77 ork WN 2 4 2 Behandlung von AusreiBern Outlier Bei Ausrei ern handelt es sich h ufig um Daten die vom Standard oder vom Erwarteten abweichen z B eine Person die ein Studium im Alter von 16 Jahren beginnt Haw80 beschreibt einen Aus rei er wie folgt Ein Ausrei er ist eine Beobachtung die so weit von anderen Beobachtungen ab weicht so dass der Verdacht entsteht dass er durch einen anderen Mechanismus generiert wurde Es bleibt offen ob es sich um fehlerhafte oder um korrekte Daten handelt die interessante Schluss folgerungen zulassen oder seltene Sondersituationen darstellen Zur Identifizierung und Elimi nierung von Ausrei ern stehen einige Methoden KN97 NMV92 Haw80 zur Verf gung wobei bei allen die Grundidee gleich ist Eliminierung der Ausrei er durch Anpassung der Werte an ihre Umgebung Kie06 HK00 Es folgt eine Auflistung von einigen Methoden die zur Identifikation und Eliminierung von Ausrei ern verwendet werden 1 Diskretisierung Die Daten sortieren und in Partitionen unterteilen und anschlie end die Daten durch beispielsweise Durchschnitt Median oder Grenzen der Partitionen gl tten 2 Clipping Beim Clipping werden einfach die obersten und die untersten Werte also die ex tremen Werte besonders behandelt z B 10 der Werte also 5 oberste und 5 unterste Werte Dabei werden zwei Strategien verfolgt zum einen das Winsorizin
225. ndung zwischen den beiden Cartridges von Oracle sein Die grobe Vorgehensweise ist so konzipiert dass zun chst allgemein der KDD Prozess und das Data Mining und anschlie end die Spezialisierung im Fall des r umlichen Data Mining beschrieben wird Die Arbeit ist wie nachfolgend beschrieben unterteilt Das zweite Kapitel besch ftigt sich mit der Knowledge Discovery und dem Data Mining Dabei wird auf den KDD Prozess eingegangen welche Schritte beinhaltet er und wie ordnet sich das Data Mining in den Prozess ein Au erdem sollen u a folgende Fragen gekl rt werden 1 Welche konkreten Ziele werden mit dem Data Mining verfolgt 2 Welche Data Mining Verfahren gibt es 3 Wie werden die Data Mining Verfahren eingesetzt Im dritten Kapitel soll die Knowledge Discovery und das Data Mining in Oracle untersucht werden Dabei werden die Data Mining Verfahren Methoden die im Oracle DBMS Datenbank Manage ment System integriert sind genauer analysiert und beschrieben Hierbei sollen die St rken Schw chen und Beschr nkungen des Oracle Data Mining Systems hinsichtlich der im zweiten Kapitel vorgestellten Grundlagen untersucht werden Au erdem soll das Konzept das hinter der Data Mining Cartridge steckt beleuchtet werden Anschlie end wird im vierten Kapitel die Anwendung des Data Mining unter Benutzung der in Ka pitel 3 vorgestellten Methoden beispielhaft an Problemstellungen des Data Mining durchgef hrt Im f nften Kapitel
226. ng der Aufteilung dient die folgende Berechnung wobei t der Knoten des Klassi fikationsbaums der in k Partitionen sp tere Nachfolgerknoten von t im Klassifikationsbaum aufgeteilt werden soll n die Anzahl der Daten in Knoten i und n die Gesamtzahl der Daten im Knoten t ist k ini_split x gini i gin spit Jo X emul Der Gini Index kann auf diese Weise fiir jede Aufteilung berechnet werden wobei die end g ltige Aufteilung gemacht wird wenn der Gini Index minimal ist e Entropy Die Entropy stammt aus der Informationstheorie wurde urspriinglich zur Nachrich tentibertragung verwendet Die Zeichen in den Nachrichten haben einen unterschiedlichen Informationsgehalt in Abh ngigkeit von ihrer Auftrittswahrscheinlichkeit Ein Zeichen mit 6Corrado Gini 1884 1965 ital Statistiker 29 2 Knowledge Discovery und Data Mining geringem Vorkommen hat beispielsweise einen h heren Informationsgehalt als mit einem ho hen Vorkommen Die Entropy l sst sich wie folgt berechnen Anzahl der Daten der Klasse j Anzahl der Daten der Klasse j entropy 3 Anzahl der Daten in Knoten t 08 Anzahl der Daten in Knoten t Zur Bewertung der Aufteilung dient die folgende Berechnung wobei gilt p ist Vorg nger knoten im Klassifikationsbaum und k beschreibt die Menge der Knoten die p partitionieren sollen Weiter gilt n ist die Anzahl der Daten im Knoten i und n die Gesamtzahl der Daten im Knoten p k Gain_Split entropy p
227. ng der Ausrei er ist daher das Clipping zu verstehen 3 5 2 Oracle Transformation Nach dem Preprocessing k nnen die Daten bevor diese dem Data Mining Schritt bergeben wer den transformiert werden Die Transformation ist wie bereits das Preprocessing in Oracle optional In ODM sind die Funktionen f r die Transformation im Package DBMS_DATA_MINING_TRANSFORM ent halten Weitere Methoden die ebenfalls zur Transformation der Daten verwendet werden k nnen sind im Package DBMS_DATA_MINING zu finden Anmerkung Die Methoden f r die Transformation im Package DBMS_DATA_MINING unterscheiden sich von denen im Package DBMS_DATA_MINING_TRANSFORM dahingehend dass diese die gleichen Vorbereitungen d h eigenes Preprocessing und Transformation beschr nkt auf die Funktionen aus dem Package DBMS_DATA_MINING_TRANSFORM ben tigen wie die Data Mining Methoden 46 3 5 Oracle Knowledge Discovery Von den in Kapitel 2 5 vorgestellten Techniken zur Transformation der Daten sind die folgenden Methoden in ODM umgesetzt worden a Normierung Package DBMS_DATA_MINING_TRANSFORM b Diskretisierung Package DBMS_DATA_MINING_TRANSFORM c Attribut Reduktion Package DBMS_DATA_MINING a Normierung Im ersten Schritt der Normierung wird eine Tabelle Normierungstabelle angelegt die die Werte fiir die eigentliche Normierung der Attribute speichern soll die Werte werden zur Transformation in einen neuen Wertebereich benutzt Es werd
228. ng der Schauspieler in unterschiedliche Gruppen und dar ber hinaus um eine demographische Beschreibung dieser Gruppen Das Vorgehen des Clustering und letztlich die demographische Einteilung der Schauspieler wird in die folgenden Schritte unterteilt 1 Bereitstellung der Daten 2 Preprocessing und Transformation 3 Data Mining Clustering 4 Darstellung amp Auswertung der Ergebnisse 4 3 1 Clustering Demographische Analyse der Schauspieler 1 Bereitstellung der Daten Im ersten Schritt werden alle Daten bez glich der Aufgabe gesammelt und in einer Tabelle zusammengefasst F r die demographische Einteilung der Schauspieler wer den dazu folgende personenbezogene Attribute Informationen betrachtet Dabei werden lediglich solche Personen in die demographische Analyse aufgenommen deren personenbezogene Informa tionen vollst ndig gegeben sind d h die Daten d rfen keine NULL Werte besitzen 83 4 Data Mining Ein Beispiel 1 Gr e Height 1 Ist_Pseudonym_vorhanden pseudo 2 Geschlecht Sex 2 Alter Age In Listing 4 14 ist die Datenvorbereitung dargestellt Die Auswahl der Daten ist zus tzlich einge schr nkt auf Schauspieler die nach 1950 geboren sind CREATE TABLE clus_data_sample_8 AS select a person as id sex height nvl2 realname 1 0O as pseudo to_number to_char sysdate YYYY to_number to_char birth_date YYYY as age from moviedb person a where hei
229. ng ist das Ergebnis im Modell Objekt mit dem Namen KM_MODEL gespei chert Das Modell Objekt enth lt wie bereits beschrieben eine Vielzahl an Informationen die Auf schluss tiber das Ergebnis des Clustering und die entstandenen Cluster geben 100 TE u u a u dl WE nn nn Sm DE E A ne ie I 80 F l eR I o 60F x t 4 5 oe een ees sie Ss an ack ew ca r i 40 F rt xt 20 7 l 4 I 0 l l l 0 20 40 60 80 100 X Werte Abbildung 3 5 Beispiel Punktmenge f r das Clustering 55 3 Oracle Knowledge Discovery und Data Mining Informationen im Clustering Modell Objekt Die Informationen die beim Clustering gesammelt worden sind k nnen anschlie end ber die Methode GET_MODEL_DETAILS eingesehen werden F r jeden Clustering Algorithmus wird dabei eine eigene Methode bereitgestellt e GET_MODEL_DETAILS_KM f r den Enhanced k Means Algorithmus e GET_MODEL_DETAILS_OC f r den O Cluster Algorithmus Anmerkung Obwohl in ODM eine Unterscheidung zwischen den GET_MODEL_DETAILS Methoden gemacht wird sind die Information die zum einen im Modell Objekt gespeichert sind und zum anderen ber die Methoden abgerufen werden k nnen identisch Ora06f Daher w re es logisch diese Methoden zusammenzufassen Die Zusammenfassung w rde aber gegen das Konzept der Data Mining Cartridge und der Strukturierung der Funktionen sprechen In Listing 3 14 wird die Funk
230. ngen Das erste Gesetz der Geographie also jedes gt Objekt wird durch seine Nachbar Objekte T w beeinflusst wobei der Einfluss mit zuneh mender Entfernung abnimmt soll in Form eines Attributes materialisiert werden Da durch soll der Aspekt der Autokorrelation N K beim Data Mining in r umlichen Datenban ken ber cksichtigt werden Die Integration dieser Eigenschaft sollte sich dabei ledig a Bereich um Objekt X b 5 N chsten Nachbarn lich auf die Betrachtung der nicht r umlichen Abbildung 5 23 Beschr nkung des Einflusses auf Attribute der Nachbar Objekte beschr nken eine festgelegte Nachbarschaft Au erdem sollte der nachbarschaftliche Ein fluss begrenzt werden k nnen z B sollen nur die n n chsten Nachbarn oder die Nachbarn in einer maximalen Umgebung betrachtet werden In Abb 5 23 ist die Beschr nkung der Einflussnahme graphisch veranschaulicht In Oracle werden im SAM Package ORAb Methoden bereitgestellt mit denen die nicht r umlichen beschr nkt auf numerische Attribute der Nachbar Objekte betrachtet werden k nnen Dadurch ist eine Materialisierung der Autokorrelationseigenschaft von r umlichen Objekten m glich Diese Methoden sind in der Anwendung recht flexibel da die Einflussnahme der Nachbar Objekte durch Angabe eines maximalen Bereichs oder einer festgelegten Anzahl an Nachbar Objekten reguliert werden kann Die Materialisierung kann mit den folgenden M
231. nicht als Fehler sondern als korrekte Funk tionswerte der Funktion f betrachtet Es soll demnach mit dem Support Vector Machines Algo rithmus versucht werden eine Regressionsfunktion zu er mitteln in der die Anzahl der Werte innerhalb dieser e Umgebung maximal und der Wert f r e minimal ist Zur Bestimmung werden wie bei der Klassifikation verschie dene Kernel z B Gauss Kernel und eine Trainingsmenge verwendet so dass mit der ermittelten Regressionsfunkti on neue Werte korrekt vorhergesagt werden k nnen Dabei kann der Wert f r Epsilon also die maximale Abweichung vom beobachteten Wert der Trainingsmenge und Funkti onswert von f sowohl automatisch berechnet als auch manuell vorgegeben werden BC00 Abbildung 2 22 e SVM Regression 34 2 7 Interpretation 2 7 Interpretation Damit die Suche nach implizitem Wissen das durch den KDD Prozess und dem Data Mining ge funden wurde zu einem Ergebnis kommt muss das entdeckte Wissen in irgendeiner Form dem Benutzer pr sentiert werden so dass dieser eine Interpretation vornehmen kann Dabei hat sich gezeigt dass die grafische Visualisierung von Wissen eine wirksame Methode darstellt um den Benutzer zu unterst tzen die zum Teil komplexen Muster und das damit verbundene Wissen zu meistern Eine Visualisierung wird also ben tigt um das Wissen besser verstehen und im weiteren Prozess verarbeiten zu k nnen Der Benutzer muss also in der Lage sein anhand de
232. nn m glich mit dem Bayessche Netz bedingte Wahrscheinlichkeiten der Knoten unter der Annahme das einige Werte bekannt sind zu berechnen und somit eine Klassifikation zu erm glichen Z B Unter der Annahme dass der Wert f r H ufig keit G elegentlich ist ndern sich die Wahrscheinlichkeiten der anderen Knoten des Graphen und die Wahrscheinlichkeit dass es sich um einen Betrug handelt ndert sich von Betrug true 45 auf Betrug true 90 d Klassifizierung durch Support Vector Machines Support Vector Machines SVMs ist eine Klassifikationsmethode die in den letzten Jahren vielfach in der Literatur aufgekommen ist Die Klassifikation mit dem Support Vector Machines Algorithmus gestaltet sich recht flexibel und ist in der Genauigkeit der Klassifikation den anderen Verfahren berlegen wodurch er sich gut zur L sung realer komplexer Klassifikationsprobleme eignet BM05 Neben der reinen Klassifikation eignen sich SVMs dar ber hinaus auch zur Regression SVMs ver wenden dabei das Konzept der Kernel Modell Substitution Vap95 Ein Kernel ist ein Ma das zur Messung der hnlichkeit von Daten verwendet wird und der lineare Kernel stellt dabei das einfachste Modell dar Die Grundidee von SVM besteht in der Annahme dass Daten die dicht an einer Entscheidungsgren ze f r eine Klassifikation liegen die sogenannten Support Vektoren dazu benutzt werden k nnen um diese Grenze zu definieren Abb 2 19 a Der SVM Algorith
233. on r umlichen Beziehungen sind entsprechende Prozeduren und Funktionen im PL SQL Package dbms_sdm_transform implementiert Eine Materialisierung wird mit der folgenden Prozedur eingeleitet wodurch eine Tabelle mit dem Namen definition_table konstruiert wird die die Spalten ID und Name_of_Materialisation besitzt Des Weiteren beschreibt Type_of_Materialisation die Art der Materialisierung und besitzt einen der folgenden Werte e TOPO_REL topologische Beziehung e METRIC_REL metrische Beziehung e DIRECT_REL gerichtete Beziehung e NUM_AC_REL Eigenschaft der Autokorrelation von numerischen Attributen e CAT_AC_REL Eigenschaft der Autokorrelation von nicht numerischen Attributen 125 6 Implementierung In dieser Tabelle werden entsprechend die Identifikation der Objekte aus der Objekt Tabelle und die materialisierte r umliche Beziehung zwischen diesen Objekten und weiteren geometrischen Objek ten der thematischen Karten gespeichert PROCEDURE createRelMaterialisation definition_table STRING Name_of_Materialisation STRING Type_of_Materialisation STRING F r die Materialisierung der topologischen metrischen gerichteten und Nachbarschaftsbeziehun gen werden die nachfolgenden Prozeduren verwendet Das Vorgehen dieser Prozeduren ist dabei miteinander vergleichbar Daher ist in Abb 6 4 die Materialisierung in diesem Schritt beispielsweise anhand der Materialisierung einer topologischen Beziehung mit der Bezeichnung Topo_
234. on sofort in der erweiterten Tabelle augment_table_name ab Dabei liefert die Objekt Tabelle zum einen die Geometrie Objekte object_geom und zum anderen die nicht r umlichen Attribute die in die er weiterte Tabelle zu den transformierten Punkten bernommen werden sollen unver ndert in der Liste include_columns und aufgeteilt in der Liste partial_columns vermerkt PROCEDURE insert_SDM_Transform augment_table_name STRING erweiterte Tabelle object_table STRING Objekt Tabelle object_id STRING Spalte des Prim rschl ssels object_geom STRING Spalte der Geometrie include_columns DBMS_DATA_MINING_TRANSFORM Column_List Spalten deren Werte unver ndert bernommen werden sollen partial_columns DBMS_DATA_MINING_TRANSFORM Column_List Spalten deren Werte prozentual aufgeteilt werden sollen Der Abschluss der Materialisierung der geometrischen Objekte wird mit der folgenden Prozedur durchgef hrt In diesem Schritt wird die erweiterte Tabelle um einen eindeutigen Identifikator er g nzt der durch die Transformation der Geometrien z B Linie wird durch Start und Endpunkt repr sentiert in die Punktdarstellung verloren gegangen sein k nnte PROCEDURE xform_SDM_Transform augment_table_name STRING Das Resultat der Transformation der Geometrie Objekte in eine repr sentative Punkt Darstellung ist in Abb 6 5 dargestellt Dabei ist das Attribut Geometrie in den Attributen X und Y aufgegangen die Zugeh r
235. onfidence 0 5 END 59 3 Oracle Knowledge Discovery und Data Mining Assoziationsanalyse ber alle Attribute der Tabelle DBMS_DATA_MINING CREATE_MODEL model_name gt ASSO_MODEL mining_function gt DBMS_DATA_MINING association data_table_name gt data case_id_column_name gt object_id setting_table_name gt ASSO_SETTINGS Listing 3 17 Assoziationsanalyse Im Anschluss ist das Ergebnis der Assoziationsanalyse Assoziationsregeln und frequent itemsets im Modell Objekt mit dem Namen ASSO_MODEL gespeichert Mit den Funktionen GET_ASSOCIATION_ RULES f r die Assoziationsregeln und GET_FREQUENT_ITEMSETS f r die frequent itemsets k nnen die Ergebnisse aus dem Modell Objekt abgefragt werden Listing 3 18 zeigt die SQL Anfrage die die Ausgabe der Top 10 Frequent Itemsets der Assoziations analyse bewirkt Da die Elemente der frequent itemsets geschachtelte Tabelle sind ist die Ausgabe durch die SQL Anfrage auf mehrere Zeilen verteilt so dass die Zeilen mit derselben ID als Einheit betrachtet werden m ssen Anfrage zur Ausgabe der Frequent Itemsets SELECT DISTINCT F itemset_id as id I column_value AS item F support 100 F number_of_items FROM TABLE DBMS_DATA_MINING GET_FREQUENT_ITEMSETS gt ASSO_MODEL Name des Modells 10 Top N Mengen F TABLE F items I ID ITEM SUPPORT NUMBER_OF_ITEMS 5 Attribut_A Wert_1 12 4146
236. or wenn dieser als Parameter Single Feature verwendet worden ist In diesem Fall handelt es sich wie bei der Assoziationsanalyse um Regeln Dies sind dann die sogenannten Klassifi kationsregeln die die Klassifizierung transparent machen In den anderen F llen also einem anderer Modus bei der Konstruktion des Modells werden keine Informationen ber die Klas sifizierung und den Klassifikator geliefert Die Klassifizierung erfolgt nach dem Black Box Prinzip Die zweite Phase der Klassifikation die Bewertungsphase ist in ODM optional Wenn eine Be wertung des Klassifikators durchgef hrt wird m ssen die Daten die zur Bewertung des Modells herangezogen werden auf die gleiche Weise wie in der ersten Phase vorverarbeitet werden Damit wird erreicht dass keine Abweichungen oder Verf lschungen auftreten k nnen In Abb 3 9 ist die zweite Phase detailliert illustriert J koser spenen a i F Datenvorverarbeitung Anwendung des Modells fi auf Test Daten i EPEE IA AANS PEE a Natt erie od ls nk oor a hae Meet ee ee BH te Y Berechnung von Metriken Bewertung des Modells Abbildung 3 9 Bewertung des Klassifikators Anmerkung Auf den optionalen Teilschritt Kosten spezifizieren in Abb 3 9 wird nicht weiter ein gegangen F r detaillierte Informationen zur Verwendung sei auf die Dokumentation von Oracle verwiesen Ora06f F r die Bewertung der Klassifikationsmodelle sind in ODM die Confus
237. or darstellt muss bevor es zur Klassifikation be nutzt werden kann erstellt werden Zur Erstellung des Modells dient wie bei der Klassifikation blich eine Trainingsmenge Dazu sei die folgende vereinfachte Vorgehensweise betrachtet BC00 Berechnung der konvexen H lle der betrachtenden Mengen Ermittlung derjenigen Objekte in den konvexen H llen die den k rzesten Abstand zwischen den Mengen haben Alternativ zum vorigen Punkt kann auch versucht werden die Margin siehe Abb 2 19 a der Hyper Ebene zu maximieren indem zwei unterst tzende Hyper Ebenen so lange auseinan der gedr ckt werden bis diese auf eine kleine Menge von Objekten den sogenannten Support Vectors siehe Abb 2 19 a gelb umkreiste Objekte sto en Die Hyper Ebene ist der Klassifikator und kann zur Klassifikation von weiteren Objekte ver wendet werden Anmerkung Das Problem der Ermittlung des k rzesten Abstands zwischen den konvexen H llen ist quivalent zur Maximierung der Margin zwischen den unterst tzenden Hyper Ebenen Linear nicht separierbarer Fall Gegeben sei wieder ein bin res Klassifikationsproblem z B die Identifikation von Betrugsf llen jedoch ist diesmal die Menge nicht durch eine lineare Hyper Ebene in zwei disjunkte Teile teilbar Der Grund daf r ist dass sich die konvexen H llen der Mengen schneiden und der bisherige L sungsweg somit ausgeschlossen ist F r diesen Fall m ssen Fehler bei der Erstellung der Hyper
238. r nden als Ma f r die Brandgefahr beschrieben sind ID Art der Waldes Fl che qkm Anzahl an Branden Unterteilung Anzahl an Br nden 2 Unterteilung 1 Laub 100 80 10 8 2 Misch 30 60 3 20 e 3 Nadel 10 25 1 25 Abbildung 5 22 Beispiel Behandlung von nicht raumlichen Attribute In diesem Beispiel soll eine Identifikation von gef hrdeten Regionen d h viele Br nde durch die Betrachtung des Attributs Anzahl an Br nden ermittelt werden Bei der Zerlegung der Waldgebie te in repr sentative Punkte ergeben sich zwei Alternativen zur Behandlung des Attributs Anzahl an Br nden Zum einen wird das Attribut unver ndert bernommen was der Interpretation des gesamten Waldgebiets entspricht und zum anderen wird das Attribut prozentual bezogen auf die Fl che auf die Repr sentanten aufgeteilt Im ersten Fall wird die Region 1 und im zweiten Fall die Regionen 2 und 3 als gef hrdet identifi ziert Ausgehend von der gegebenen Problematik der Identifikation von gef hrdeten Region ergibt sich dass die prozentuale Aufteilung des Attributs Anzahl an Br nden auf die Repr sentanten ei ne aussagekr ftigere Interpretation f r das Problem liefert Dies ist dadurch zu begr nden dass die Region 1 ein fl chenm ig gro es Gebiet darstellt f r welches die nicht r umlichen Attribute gelten Dadurch ergibt sich jedoch eine ungenaue Darstellung der Situation wenn die Region in
239. r nkungen jeweils kurz beschrieben und demonstriert werden 1 l I l y Preprocessing Y gt Transformation Y i Behandlung fehlender Werte Attribut Reduktion ie j l Fas l l Attribute Importance 2 P sreiss j T F ustering Behandlung von Ausreissern_ i Feature Extraction l 1 1 u 1 Diskretisierung Klassifikation 1 1 if Regression Gomienng Abbildung 3 1 Knowledge Discovery in Oracle Zun chst werden jedoch die M glichkeiten die Data Mining Cartridge zu benutzen die grundle genden Voraussetzungen f r die Benutzung und das allgemeine Prinzip Organisation und Mana gement von ODM vorgestellt 36 3 2 Programmable Interface 3 2 Programmable Interface Oracle bietet durch die Erweiterung um die Data Mining Cartridge die M glichkeit das Data Mining vollst ndig in der Datenbank ablaufen zu lassen wodurch alle Operationen auf objekt relationalen Tabellen oder Sichten durchgef hrt werden Dies hat im Vergleich zu fr heren L sun gen den Vorteil dass die Daten nicht zwischen der Datenbank und einer Client Software transferiert werden m ssen Au erdem wird eine effizientere M glichkeit der Analyse des Datenmanagements und der Datensicherheit gew hrleistet In Abb 3 2 ist der Aspekt der Integration der Data Mining Funktionalit t abgebildet Client Soft
240. r Co Location Analyse und eine Menge von items entspricht einer Menge von spatial features Jedoch unterscheiden sich die Co Location Analyse und die Assoziationsanalyse in den folgenden entscheidenden Punkten 98 5 2 Spatial Data Mining e Der Begriff der Transaktion in der Assoziationsanalyse wird bei der Co Location Analyse durch den Begriff der Umgebung ersetzt da die Daten in einem kontinuierlichen Raum d h nicht diskretisiert eingebettet sind e Der Begriff des Support bei der Assoziationsanalyse ist f r die Bewertung einer Co Location Regel nicht ausreichend da die Anzahl der spatial features im Vergleich zur Gesamtmenge der r umlichen Objekte sehr klein sein kann SC03 Obwohl die Co Location Analyse und die Assoziationsanalyse sich in einigen Aspekten unterschei den kann die Co Location Analyse in eine geeignete Assoziationsanalyse umgewandelt werden Dazu existieren zwei verschiedene Herangehensweisen SC03 HPX06 Mor01 1 reference feature centric Zun chst wird ein spatial feature als Referenz Objekt ausgew hlt und anschlie end werden weitere spatial features die sich in einer definierten Umgebung um das Referenz Objekt befinden zu einer Transaktion zusammenfasst Die Anzahl der Transaktio nen wird dabei durch die Anzahl der ausgew hlten Referenz Objekte definiert 2 data partitioning Dabei wird der Datenraum in Partitionen Grid Muster unterteilt und an schlie end die spatial features der jeweiligen Parti
241. r Daten CREATE TABLE tmp_person as select person min year as starting from moviedb movie a join moviedb part b on a movie b movie where mentioned actor group by person CREATE TABLE clus_data_sample_9 AS select a person as id sex height nvl2 realname 1 0 as pseudo nvl2 to_number to_char death_date YYYY O to_number to_char sysdate YYYY to_number to_char birth_date YYYY as age b starting to_number to_char a birth_date YYYY as start_age from moviedb person a join tmp_person b on a person b person where height is not null and sex is not null and birth_date is not null and to_number to_char birth_date YYYY gt 1950 Winsorizing der Daten Winsorizing liefert bessere Ergebnisse als Trimming BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_CLIPC conf_clus_sample_9_1 DBMS_DATA_MINING_TRANSFORM INSERT_CLIP_WINSOR_TAIL conf_clus_sample_9_1 clus_data_sample_9 0 025 DBMS_DATA_MINING_TRANSFORM COLUMN_LIST id pseudo DBMS_DATA_MINING_TRANSFORM XFORM_CLIP conf_clus_sample_9_1 clus_data_sample_9 clus_temp_1 END MinMaz Normierung BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_NORM_LINC conf_clus_sample_9_2 DBMS_DATA_MINING_TRANSFORM INSERT_NORM_LIN_MINMAX conf_clus_sample_9_2 clus_temp_1 DBMS_DATA_MINING_TRANSFORM COLUMN_LISTC id DBMS_DATA_MINING_TRANSFORM XFORM_NORM_LIN
242. r Machines f r gro e Datenmenge unpraktisch w re Aus diesem Grund ist in ODM die Funktion Aktives Lernen integriert das den Umgang mit gro en Datenmenge erm glichen soll Die Idee des Aktive Lernens ist es die Erzeugung des Modells auf die aussagekr ftigsten Trainingsdaten zu redu zieren und somit die Gr e des Modells klein zu halten Als Abbruchbedingungen dienen dem Aktiven Lernen entweder die max Anzahl an Support Vektoren oder die Messung dass keine signifikante Verbesserung der Genauigkeit des Modells erzielt werden kann Die Ge nauigkeit des Modell ist ann hernd gleich mit und ohne Aktivem Lernen Ora06d Das Aktive Lernen wird ber den Parameter svms_active_learning gesteuert Neben Support Vector Machines ist in ODM die One Class Support Vector Machine integriert die einen Spezialfall darstellt und lediglich eine einzige Kategorie Klassifikationsklasse ben tigt Um die One Class Support Vector Machine in ODM zu benutzten wird das Klassifikationsattribut target_column_name im Konstruktionsprozess des Modells auf NULL gesetzt Der One Class Sup port Vector Machine Algorithmus lernt zwischen den bekannten Daten die zur Kategorie geh ren und den restlichen Daten zu unterscheiden Das Ziel ist die Konstruktion einer Funktion die ent scheidet ob etwas zur Kategorie geh rt oder nicht Die One Class Support Vector Machine findet zum einen Anwendung bei der Identifikation von Ausrei ern siehe Preprocessing in diesem Ka pi
243. r Visualisierung der gefundenen Ergebnisse ad quate Interpretationen durchf hren zu k nnen Dabei ist zu beachten dass die Visualisierungs techniken unterschiedlich gut Wissen darstellen k nnen beispielsweise muss zur Visualisierung von Ergebnissen des Clustering eine andere Technik als f r Ergebnisse der Assoziationsanalyse herangezogen werden Neben der reinen Visualisierung der Ergebnisse stellt sich zun chst die Fra ge nach der Absicht d h welches Ziel sollte urspr nglich mit der Data Mining Methode verfolgt werden Daraus ergeben sich die in Abb 2 23 dargestellten Interpretationsrichtungen Interpretation Vorhersage f r zuk nftige Daten J Aktionen basierend auf den Ergebnissen Muster J Estinering der Ergebnisse Muster N Abbildung 2 23 Richtungen der Interpretation Als einfache Visualisierungsm glichkeiten bieten sich die nachfolgenden Techniken an e Regeln Assoziationsregeln 2 6 3 und Klassifikationsregeln 2 6 4 e Entscheidungsb ume 2 6 4 Netze Bayesian Netze und Neuronale Netze e Tabellen e Diagramm 1D 2D 3D Diagramm Kuchendiagramm Balkendiagramm n dimensionale Diagramme f r n 1 2 haben den Vorteil dass darin abgebildete Daten einfach verst ndlich sind Das Problem ist jedoch dass wichtige Zusammenh nge h ufig zwi schen Daten mit n gt 3 zu finden sind und eine komplexere Visualisierung zur Folge haben Bei h her dimensionalen Daten wird daher versucht
244. rd versucht f r die einzelnen Data Mining Methoden zweckm ige und sinnvolle Transformationen zu entwickeln um m glichst viele Infor mationen zu konservieren Die Motivation dieser Materialisierung besteht in der Wiederverwendung der Data Mining Methoden die durch die Oracle Data Mining Cartridge siehe Kapitel 3 bereitgestellt werden Eine Erweite rung oder Modifikation der Methoden f r das Spatial Data Mining ist in Oracle Data Mining nicht m glich 110 5 3 Materialisierung von geometrischen Objekten und r umlichen Beziehungen 5 3 1 Beispiel f r die Materialisierung von r umlichen Informationen In Abb 5 13 a ist ein Ausschnitt einer Karte dargestellt in der Stra en abgebil ___ Pigs ee det sind Die Data Mining Aufgabe be Fr oe steht darin Siedlungen anhand der Stra eee ee en zu identifizieren Es wird vermutet ee ee a dass eine Ansammlung von Stra enz So SORT gen ein Siedlungsgebiet impliziert F r a Liniendarstellung b Punktdarstellung die L sung des Problems soll eine Clus Abbildung 5 13 Transformation f r Spatial Clustering tering Methode angewendet werden um Ballungsgebiete und somit Siedlungen zu identifizieren Bei dieser Problemstellung ergeben sich f r das Clustering mit einer klassische Methode folgende Schwierigkeiten e Repr sentation der Stra en Stra en werden in r umlichen Datenbanken durch Lin
245. rdnete Werte vorherzusagen Die Regression lehnt sich dabei stark an Techniken aus der Statistik an Bei der Regression werden so genannte Regressionsfunktionen die allgemein die Form y f x1 haben verwendet um Beziehungen zwischen einer abh ngigen Variablen und ein oder mehreren unabh ngigen Varia blen zu bestimmen Die abh ngige Variable soll dabei bestimmt werden und die unabh ngigen Variablen st tzen die Vorhersage 8Durch Diskretisierung der kontinuierlichen und geordneten Werte kann eine Regression zu einer Klassifikation umge wandelt werden 33 2 Knowledge Discovery und Data Mining Statistische Methoden zur Regression F r die Regression gibt es drei h ufig verwendete statistische Ans tze HK00 zur L sung von Pro blemen die im Folgenden benannt sind e Lineare Regression Y a B x X e Multiple Regression Y a x X1 f2 x X2 e Nicht Lineare Regression Y a 8 x X Bo x X B3 x X Beispiel fiir eine Lineare Regression Der Turm von Pisa ist Neigung Ostet ein architektonisches Wunder Darum wurden einige Messun 295 gen durchgef hrt um die Stabilit t in den kommenden Jahren vorhersagen zu k nnen Mar05 Die erfassten Daten sind in der nachfolgenden Tabelle zusammengefasst und in Abb 2 21 ab 29m gebildet Die Neigung repr sentiert den Abstand eines auf den Boden projizierten Punktes der Spitze zur Basis der Turms Definition Neigung Jahr Aus dem Diagr
246. ree_term_ minpct_node tree_term_minpct_split tree_term_minrec_node und tree_term_minrec_split beschreiben die Eigenschaften der Knoten im Klassifikationsbaum und beeinflussen gleichzeitig das Aufteilungskriterium und das Terminierungskriterium des Algorithmus Bei der Klassifikation mit dem Klassifikationsbaum sind des weiteren folgende Punkte zu beachten e Keine Unterst tzung von geschachtelten Tabellen e Keine Beeinflussung durch fehlende Werte kein Preprocessing n tig Die Parameter f r den Klassifikationsbaum sind der folgenden Tabelle zu entnehmen wobei die Standardwerte fett hervorgehoben sind Parameter Werte Beschreibung algo_name algo_decision_tree Spezifiziert Klassifikationsbaum als Klassifikations Algorithmus tree_impurity_metric tree_impurity_entropy Metriken zur Bestimmung des tree_impurity_gini besten Splits in m glichst homo gene Mengen tree_term_max_depth x 2 20 x 7 Aufteilungskriterium be zeichnet die max H he des Klassifikationsbaums tree_term_minpct_node x 1 10 x 0 05 Kein Nachfolgerknoten soll we niger als die angegebene Anzahl an Objekten die dem Prozent satz der Trainingsmenge ent spricht haben tree_term_minpct_split x 0 20 x 0 1 Aufteilungskriterium das die minimale Anzahl an Objekten dargestellt als Prozentsatz der Trainingsmenge in einem Vor gangerknoten bezeichnet Keine Aufteilung falls die Anzahl ge ringer als der angegebene We
247. rei thematische Karten gegeben 1 St dte 2 Stra en und 3 Bef rderungsmittel Au erdem seien geeignete Konzept Hierarchien f r die nicht r umlichen Attribute der Schichten gegeben Durch die berlagerung der thematischen Karten nach dem Prinzip in Abb 5 8 und unter Verwendung der topologischen Beziehung schneidet werden die r umlichen Transaktionen kon struiert wobei die Schicht St dte die Referenz Schicht darstellt Dann werden beispielsweise fol gende Assoziationsregeln mit der R umlichen Assoziationsanalyse bestimmt wobei X eine Region oder Stadt in der Referenz Schicht St dte repr sentiert schneidet X Autobahn A Einwohner X gt 500000 enth lt X Flughafen oder schneidet X Fluss A schneidet X Landstra e Einwohner X lt 5000 Die Assoziationsregeln beschreiben Assoziationen die nicht nur auf zwei Schichten Referenz Schicht und eine weitere thematische Karte beschr nkt ist Des Weiteren sind Assoziationsregeln denkbar die die Referenz Schicht ausschlie lich zur Definition der r umlichen Transaktion ben tigen aber kein eigentlicher Bestandteil der Regel ist 104 5 2 Spatial Data Mining L sungsmethoden zur Spatial Co Location Analyse In HPX06 werden gleich zwei Methoden vorgeschlagen mit denen Co location Regeln ermittelt werden Eine Transaktion wird dabei anschaulich durch einen Nachbarschaftsgraphen beschrieben wobei zwei Objekte jewei
248. ressionsfunktion der Regressionsanalyse ist in Listing 3 24 dargestellt SELECT B attribute_name B attribute_value B coefficient FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_SVM regression_model Y JTA TABLE A attribute_set B ATTRIBUTE COEFFICIENT X 4 01894622 20 521021 Listing 3 24 Details des Regressionsmodells Die zweite Phase der Regression die Bewertungsphase dient analog zur Klassifikation zur ber pr fung der Genauigkeit des Modells Die Methoden zur Messung der Genauigkeit die f r die Klassifikationsmodelle vorgestellt worden sind k nnen f r die Regression nicht verwendet wer den Zur Messung der Genauigkeit f r ein Regressionsmodell eignen sich die folgenden Mafe e Root Mean square error Wurzel des Mittleren Quadratischen Fehlers e Mean absolute error Mittlerer Absoluter Fehler 1 Root Mean Square Error Sqrt Mean x x 2 SELECT SQRT AVG A prediction B target A prediction B target rmse FROM predicted_data A natural join test_data 71 3 Oracle Knowledge Discovery und Data Mining 2 Mean Absolute Error Mean x x SELECT AVG ABS a prediction B anz_movie mae FROM predicted_data A natural join test_data Listing 3 25 Bewertung des Regressionsmodells Die dritte Phase der Regression besch ftigt sich mit der eigentlichen Berechnung der neuen Da ten unter Verwendung des Regressionsmodells Das Vorgehen in dieser Phase entspric
249. ring o ist von Oracle nicht beabsichtigt Daher w re eine Schnittstelle f r die Erweiterung dieser Cartridge um eige ne neue Algorithmen sowohl f r das klassische als auch das Spatial Data Mining w nschens wert e Bewertung der Funktionen f r die Materialisierung von r umliche Informationen In dieser Arbeit wurden Funktionen zur Materialisierung von r umlichen Informationen d h der topologischen metrischen und gerichteten Beziehungen sowie der Autokorrelation und der geometrischen Objekte entwickelt Aufgrund von Zeitmangel konnte jedoch nicht ausrei chend gekl rt werden welche Problemstellungen des Spatial Data Mining dadurch realisiert werden k nnen In diesem Punkt besteht daher eine Notwendigkeit f r weitere Untersuchun gen in Form von Beispielen um die Grenzen des Konzepts und der Realisierung zu bestim men e Erweiterung der Materialisierung Das entwickelte und implementierte Konzept zur Materialisierung von r umlichen Beziehun gen und Informationen orientiert sich an die speziellen Eigenschaften von r umlichen Daten und die in der Literatur beschriebenen Herausforderungen beim Spatial Data Mining Den noch wurde in dieser Arbeit lediglich eine Materialisierung mit einem einfachen Funktions umfang realisiert Folgende Erweiterungen sind daher denkbar Die Integration und die Verarbeitung von Konzept Hierarchien bei der Materialisierung Die bisherige L sung muss den Umweg ber die Definition von weiteren Sc
250. rmation dargestellt wobei die Anzahl der Eintr ge in der rechten Tabelle abh ngig von der Anzahl der Punkte im Multi Punkt Objekt ist ID Koordinate X Koordinate Y Attribute ID Geometrie Attribute 11 Punkt X Punkt Y 1 Multi Punkt 1 2 Punkt X Punkt Y 1 3 Punkt X Punkt Y Abbildung 5 17 Transformation einer Menge von Punkten Multi Punkt Die Transformation der Geometrie Linie wird durch eine Abbildung der Endpunkte als Repr sen tanten der Linie durchgef hrt Da die Reduzierung der Linie auf die Endpunkte bei l ngeren Linien zu unpr zise ist ist daher ein Parameter einzuf hren der bestimmt wann die Linie durch Zwi schenpunkte angereichert werden soll In Abb 5 18 ist die Transformation einer Linie dargestellt wobei der Punkt 3 einen zus tzlichen Punkt repr sentiert der eingef gt wird wenn die Linie zu lang ist Die nicht r umlichen Attribute bleiben bei der Transformation unver ndert und werden einfach von den Punkt Darstellungen bernommen Einfache Linie ID Geometrie Attribute 1 Linie 6 ID Koordinate X Koordinate Y Attribute 1 Linien Punkt_1 X Linien Punkt_1 Y 2 Linien Punkt_2 X Linien Punkt_2 Y 6 Linien Punkt_3 X Linien Punkt_3 Y Abbildung 5 18 Transformation einer Linie zu einer Menge von Punkten Die Transformation der Geometrie Multi Linie wird dur
251. rt ist tree_term_minrec_node x 0 co x 10 Kein Nachfolgerknoten soll we niger als die angegeben Anzahl an Objekten haben tree_term_minrec_split x 0 oo x 20 Aufteilungskriterium das die minimale Anzahl an Objekten im Vorg ngerknoten ausge dr ckt als Zahl bezeichnet 62 3 5 Oracle Knowledge Discovery Naive Bayes Klassifikation Der Naive Bayes Algorithmus zur Klassifikation siehe Kapitel 2 6 4 ist ebenfalls in ODM imple mentiert und unterst tzt ebenso die Klassifikation von bin ren und mehrwertigen Attributen Die Konstruktion des Klassifikators mit dem Naive Bayes Algorithmus wird ausschlie lich ber die beiden Parameter nabs_singleton_threshold und nabs_pairwise_threshold gesteuert Diese Parameter sind sogenannte Filter die zur Filterung von kleinen Wahrscheinlichkeiten im Bezug auf die Attributwerte dienen z B beschreibt der Parameter nabs_singleton_threshold 0 03 das der Wert f r ein Attribut in mind 3 aller Datens tze vorkommen muss Sch06 Und analog dazu beschreibt der Parameter nabs_pairwise_threshold 0 03 das in diesem Fall zwei Werte von Attributen in mind 3 aller Datens tze vorkommen m ssen Bei der Verwendung des Naive Bayes Algorithmus zur Klassifikation gibt Oracle folgende Empfeh lungen um m glichst gute Resultate zu erzielen Ora06d e numerische und nicht numerische Attribute mit Equi height Binning diskretisieren e Behandlung von
252. rt so dass wiederum die obige Darstellung der Assoziationsregel m glich ist Bei der Warenkorbanalyse sind die Werte jedoch irrelevant und werden mit 1 f r vorhanden versehen 2Fine Transaktion ist eine logische Verarbeitungseinheit auf der Datenbank die als atomare Einheit bei der Bearbeitung betrachtet wird EN00 58 3 5 Oracle Knowledge Discovery m n Warenkorb Kunde Ware Kunde Waren Warenkorb Darstellung von Mengen Kl ID Wert ohne eindeutige Identifikation wil 1 g W2 2 Transformation w3 3 TO OT w4 4 Darstellung von Mengen mit geschachtelten Tabellen K2 ID Wert und eindeutiger Identifikation wi 1 durch den Kunden Abbildung 3 7 Mengenwertige Darstellung durch geschachtelte Tabellen Die Parameter und Einstellungen die f r den Apriori Algorithmus vorgenommen werden k nnen werden im Folgenden beschrieben und in der nachfolgenden Tabelle zusammenfassend aufgelistet Der Parameter asso_min_support gibt den Minimal Support einer Regeln und eines frequent item sets und der Parameter asso_min_confidence die Minimal Confidence einer Regel an Diese beiden Parameter sind entscheidend f r das Ergebnis der Assoziationsanalyse da sie die Laufzeit des Al gorithmus beeinflussen und zugleich die Menge der Assoziationsregeln regulieren Der Parameter asso_max_rule_length gibt die maximale L nge der Assoziationsregeln an d h
253. rungen Schlussfolgerungen gezogen werden k nnen Abbildung 2 4 Beispiel Datenmengen ME96 Durch das Zusammenfassen der Daten zu Gruppen auch Cluster oder Klassen genannt ergeben sich so mit charakteristische Eigenschaften die die jeweili ge Gruppe besonders auszeichnet Weiterhin k nnen Aussagen ber die erzeugten Gruppen und deren Repr sentanten gemacht werden die im Vorhinein nicht m glich gewesen sind Das Clustering wird al so zur Gruppierung von Daten eingesetzt Das Er gebnis einer solchen Gruppierung bzw Clustering ist in Abb 2 5 dargestellt wobei zwei unterschiedli Abbildung 2 5 Clustering Ergebnis ME96 che Gruppierungsmethoden die im folgenden noch erl utert werden verfolgt wurden partition ing based Methode Abb 2 5 a und density based Methode Abb 2 5 b Das Clustering stellt ein deskriptives Data Mining Verfahren dar Der Prozess des Clustering un terteilt eine Menge von Objekten derart in Klassen oder Clustern so dass ahnliche Objekte zusam mengefasst und un hnliche separiert werden Das Clustering verwendet dazu eine Ahnlichkeits bzw Abstandsfunktion die abh ngig von den betrachteten Attributen und von der betrachteten Clustering Methode ist Als Ahnlichkeits bzw Abstandsfunktion f r r umliche Daten im R k n nen z B die folgenden Funktionen verwendet werden 1 Der Euklidischer Abstand zweier Objekte ist definiert als d x Y JX xj yi 2 wo bei die Objekte durch zw
254. se deskriptiv Apriori Algorithmus o Klassifikation pr diktiv Klassifikationsbaum Naive Bayes Klassifikation Adaptives Bayessches Netzwerk Support Vector Machines One class und Multi class o Regression pr diktiv Support Vector Machines Clustering In ODM sind f r das Clustering zwei Verfahren implementiert Zum einen den Enhanced k Means Clustering Algorithmus in Anlehnung an den bekannten k Means Algorithmus der jedoch einen hybriden Ansatz zwischen partitioning based siehe Partitioning based Methods in Kapitel 2 6 2 und hierarchical based Methode siehe Partitioning based Methods in Kapitel 2 6 2 darstellt Zum anderen eine propriet re Entwicklung von Oracle mit der Bezeichnung Orthogonal Partitioning Clustering Algorithmus kurz O Cluster der einen hybriden Ansatz zwischen grid based siehe Grid based Methods in Kapitel 2 6 2 density based siehe Density based Methods in Kapitel 2 6 2 und hierarchical based siehe Partitioning based Methods in Kapitel 2 6 2 Methode darstellt In Abb 3 3 ist der schematische Ablauf des Clusterings in Oracle illustriert a ee ee en Er a Se re Datenvorverarbeitung Be les Modells 1 Informationen ber Cluster i 1 i Anwendung des Modells auf 1 f ts Se ai ungeclusterte Daten ud yon ungeclusterte Daten um diese den Clustern zuzuordnen Abbildung 3 3 Flussdiagramm Clustering 51 3 Oracle Knowledge Discovery und Data Mining En
255. sh Columbia mit Stra en Gew sser Minen oder Grenzen mit einem vorgegebenen Support von 5 und einer Confidence von 80 Dadurch k nnte beispielsweise die nachfolgende Assoziationsregel unter Einbeziehung der obigen Konzept Hierarchie entdeckt werden die beschreibt dass 80 der St dte in British Co lumbia in der N he von Wasser gelegen sind ist X Stadt gt nahe X Y A ist Y Gew sser s 40 c 80 Diese Methode ermittelt R umliche Assoziationsregeln die das Referenz Objekt und jeweils ein r umliches Objekt aus der Menge der vorgegebenen Objekte beinhaltet und durch die vorgege benen Beziehungen in der Konzept Hierarchie verbindet Ein erheblicher Nachteil dieser Methode besteht darin dass zum einen Hintergrundwissen in Form von Konzept Hierarchien verlangt wird und zum anderen vom Benutzer erwartet wird dass er genau die Art der Assoziationsregel vorgibt die gefunden werden sollen d h Referenz Objekt eine Menge von r umlichen Objekten und eine r umliche Beziehung die zwischen den Objekten gelten soll Eine weitere Methode zur R umlichen Assoziationsanalyse wird in RT05 beschrieben Diese erweitert den Ansatz von KH95 dahingehend dass nicht nur jeweils zwei Schichten miteinander 103 5 Data Mining in r umlichen Datenbanken Verschnitten werden sondern beliebig viele Schichten F r diesen Ansatz werden die Begriffe der r umlichen Transaktionen und der r umlichen Items in Analogie zur Warenkorb
256. siehe Kapitel 4 3 1 wobei im Folgenden lediglich nach den x y Koordinaten geclustert werden soll In Listing 6 5 sind die entsprechenden Schritte f r das Clustering mit dem Enhanced k Means Algorithmus zusammengefasst Ein Preprocessing und eine Transformation mit den Methoden in ODM wird nicht durchgef hrt Einstellung f r das Clustering der Ballungsgebiete 1 7 Cluster mit dem k mean Algorithmus BEGIN DBMS_DATA_MINING CREATE_MODEL model_name gt clus_model mining_function gt DBMS_DATA_MINING CLUSTERING data_table_name gt ballungsgebiete case_id_column_name gt id settings_table_name gt clus_settings END Listing 6 5 Spatial Clustering mit Oracle Data Mining Anmerkung Aufgrund der Tatsache dass mit dem Enhanced k Means Algorithmus maximal 20 Cluster bestimmt werden k nnen und der O Cluster Algorithmus nicht funktioniert siehe Kapi tel 4 wird der Bereich des Clustering auf Deutschland beschr nkt Das Clustering mit dem Enhanced k Means Algorithmus liefert die in der nebenstehenden Abbildung dargestell ten Cluster Die Centroide der Cluster sind blau einge f rbt und die Rechtecke repr sentieren die Cluster Regeln Dabei ist zu erkennen dass die wichtigsten Ballungsge biete in Deutschland durch den Enhanced k Means Al gorithmus zu Cluster zusammengefasst wurde e Rhein Ruhr e Rhein Main Gebiet e Rhein Neckar Dreieck e Berlin M nchen Hamburg
257. sierungstabelle data_table Datentabelle bin_num Anzahl diskreter Werte DBMS_DATA_MINING_TRANSFORM Column_List id column_a Listing 3 8 Diskretisierung numerischer Werte c Attribut Reduktion ODM stellt f r die Attribut Reduktion zwei Methoden Attribute Importance Attribut Wichtig keit und Feature Extraction Extraktion von Eigenschaften zur Verf gung Anmerkung Da die Methoden Attribute Importance und Feature Extraction nach dem Prinzip des Modell Objekts funktionieren kann ein vorheriges Preprocessing und eine Transformation vor genommen werden Das Ergebnis der Attribut Reduktion kann anschlie end dazu genutzt werden um die Daten um irrelevante und nur schwach relevante Attribute zu minimieren 48 3 5 Oracle Knowledge Discovery Attribute Importance Die Attribute Importance Methode auch Feature Selection genannt ermittelt die Relevanz von Attributen in Bezug auf ein anderes Attribut z B kann das Attri but Beruf gewisserma en das Attribut Einkommen beschreiben Wirkt sich ein Attribut nicht entscheidend genug auf das vorgegebene Attribut aus also tr gt es nichts zu dessen Be schreibung bei dann kann es auch weggelassen werden ohne dass ein Nachteil entsteht ODM verwendet f r die Bestimmung der Attribute Importance die Minimum Descripti on Length Ris78 In Listing 3 9 wird die Attribute Importance f r die Bewertung eines Attributs mit der Be zeichnung targe
258. sing respektive Transformation steht z B Behandlung fehlender Werte f r numeri sche Attribute Funktion CREATE_MISS_NUM mit X MISS_NUM 1 Zun chst wird eine Tabelle mit der Funktion CREATE_X erstellt die die Informationen in Form von Attribut Wert Paaren f r die durchzuf hrende Aktion Preprocessing bzw Transformati on speichern soll 2 Die Funktion INSERT_X berechnet anschlie end die Attribut Wert Paare f r die ausgew hlten Attribute und speichert diese in der Tabelle die durch die Funktion CREATE_X erstellt worden ist 3 Mit der Funktion XFORM_X wird schlie lich die eigentliche Aktion Preprocessing bzw Trans formation durchgef hrt wobei die Attribut Wert Paare aus der obigen Tabelle benutzt wer den Das Ergebnis wird durch eine Sicht bereitgestellt mit der anschlie end weitergearbeitet wird a Behandlung von fehlenden Werten Eine Behandlung der fehlenden Werte ist in Oracle Data Mining immer dann sinnvoll und ange bracht wenn der Algorithmus diese fehlinterpretieren k nnte Ora06b Im ersten Schritt zur Behandlung von fehlenden Werten wird die Tabelle angelegt die die Werte zum Auff llen der NULL Werte der verschiedenen Attribute speichern soll Es werden der Name des Attributs col und der dazugeh rige Wert val des Attributs gespeichert Diese Tabelle hat das folgende Schema Spaltenname Datentyp Bedeutung col VARCHAR2 30 Name des Attributs val VARCHAR2 4000 bzw NUMBER F
259. soll die Anwendung des Data Mining auf r umliche Datenbanken und die Un terst tzung von Oracle dahingehend untersucht werden Es soll ebenso auf Forschungsarbeiten zur Optimierung und neue Verfahren im Bereich der r umlichen Datenbanken eingegangen wer den Dabei wird au erdem untersucht welche zus tzlichen Anforderungen der r umliche Aspekt bewirkt und welche Erkenntnisse bzw Neuerungen durch das r umliche Data Mining erzielt wird Des Weiteren wird ein Konzept vorgestellt mit dem r umliches Data Mining durch die Materiali sierung r umlicher Aspekte mit der Data Mining Cartridge von Oracle durchgef hrt werden kann Im sechsten Kapitel dem praktischen Teil der Arbeit wird das in Kapitel 5 vorgestellte Konzept implementiert und in der Datenbank Management System von Oracle integriert Durch Beispiele wird der Umgang und der Nutzen der Implementierung f r das Data Mining in r umlichen Daten banken demonstriert 2 Knowledge Discovery und Data Mining In diesem Kapitel wird die Thematik der Knowledge Discovery in Databases KDD und des Data Mining das eng mit dem KDD in Beziehung steht beschrieben Die KDD ist eine Technik auch als KDD Prozess bezeichnet zur Datenanalyse die immer dann Anwendung findet wenn in den Daten unbekannte bzw verborgene Beziehungen oder Korrelationen vermutet werden Der KDD Prozess und das Data Mining werden also eingesetzt wenn die herk mmlichen Datenanalysever fahren nicht mehr praktikabel oder
260. ssifikation unterschieden Im Beispiel des Kreditkartenmi brauchs handelt es sich um eine bin re Klassifikati on mit den Klassen Ja f r Betrug und Nein f r kein Betrug Die Klassifikation unterteilt sich in zwei Abschnitte die in Abb 2 14 dargestellt sind FESTE TITELSEITE Sr Se SS Sts SS SS FI Sa Sa SS SSS Soe Sen See SSS PS SSS ae SS a PSS STS Algorithmus Modell Klassifikator Trainingsdaten Klassifikations Pps e ee en ae rg ee a a et a I ent br ee a re Ne re nee Validierung Klassifizierung Testdaten Klassifikation EN ele eek tate tat en nt a a rat eee ei Abbildung 2 14 Prozess der Klassifizierung Zu Beginn wird die komplette Datenmenge d h bereits klassifizierte Daten in eine Trainingsda tenmenge und eine Testdatenmenge h ufig im Verh ltnis 2 1 aufgeteilt Im ersten Schritt wird dann unter Verwendung der Trainingsdatenmenge ein Modell das anschlie end eine Menge von Klassifikationsbezeichnern enth lt erstellt Mit der Trainingsdatenmenge soll ein m glichst gutes Modell erstellt werden so dass die Anzahl der korrekt klassifizierten neuen Datens tze maximal ist Die Qualit t der Trainingsmenge ist dabei ma geblich verantwortlich f r die Qualit t des Modells Die Darstellung des Modells erfolgt bei der Klassifikation beispielsweise in Form von Klassifika tionregeln Entscheidungsb umen oder mathematischen Formeln Fortset
261. t gemessen Dabei wird ein Modell Objekt erstellt in dem die Informationen gespeichert werden Es sei angenommen dass ein Preprocessing und eine Transformation der Daten bereits durchgef hrt worden ist Durch die Vorverarbeitung der Daten speziell durch die Diskretisierung kann das Ergebnis der Attribut Importance verbessert werden da dadurch der Einfluss der einzelnen Attribute in Bezug auf das Attribut mit der Bezeich nung target deutlich hervorgehoben wird Ansonsten sind f r den Attribute Importance Algorithmus keine Einstellungen vorzunehmen Berechnung der Attribute Importance f r das Attribut target DBMS_DATA_MINING CREATE_MODEL model_name gt MODEL_AI mining_function gt DBMS_DATA_MINING attribute_importance data_table_name gt data case_id_column_name gt object_id target_column_name gt target Listing 3 9 Berechnung der Attribute Importance Das Ergebnis der Attribute Importance kann ber die Funktion GET_MODEL_DETAILS_AI ab gerufen werden Diese Funktion liefert eine Auflistung der Attribute und deren Einfluss auf das zuvor angegebene Attribut Dabei dr cken positive Werte eine direkten Einfluss aus und negative Werte keinen Einfluss aus Eine Auflistung ist beispielhaft in Listing 3 10 dargestellt Berechnung der Attribute Importance f r das Attribut target SELECT attribute_name importance_value rank FROM TABLE DBMS_DATA_MINING GET_MOD
262. t und das jeweilige Data Mining Verfahren m glichst gute und sinnvolle Ergebnisse in Bezug auf die angestrebten Ziele liefert wur den die Daten in den vorangegangenen Schritten 1 4 des KDD Prozesses entsprechend vorbereitet Eine Konzept Hierarchie ist eine Zuordnung von Begriffen auf niedriger Stufe zu Begriffen auf h herer Stufe 14 2 6 Data Mining Das Data Mining wird in FPSS96 folgenderma en beschrieben Data Mining is a step in the KDD process consisting of applying computational techniques that under acceptable computational efficiency limi tation produce a particular enumeration of patterns over the data d h Data Mining ist ein Schritt im KDD Prozess bei dem unter Anwendung von rechenbetonten Techniken und akzeptabler rechen betonter Begrenzung der Leitungsf higkeit eine bestimmte Aufz hlung von Mustern produziert wird die in den Daten enthalten sind Das Data Mining ist als eine Zusammensetzung aus mehreren anderen Fachbereichen zu verstehen Es ist somit ein interdisziplin rer Arbeitsbereich der die Vorz ge und Errungenschaften der ande ren Fachbereiche in einem neuen Bereich zu vereinen versucht Zu diesen Bereichen geh ren nach S u00 und HK00 Datenbanksysteme Verwaltung gro er Datenmengen Statistik Mustererken nung und Musterbeschreibung Maschinelles Lernen Algorithmen K nstliche Intelligenz Algo rithmen Mustererkennung Algorithmen Hochleistungsrechentechnik Verarbeitung gro
263. ta Bases September 12 15 1994 Santiago Chile proceedings Morgan Kaufmann Publishers Los Altos CA 94022 USA 1994 144 155 R T Ng J Han CLARANS A Method for Clustering Objects for Spatial Data Mining IEEE Transactions on Knowledge and Data Engineering 14 5 2002 1003 1016 L B J D N Matic I Guyon V Vapnik Computer Aided Cleaning of Large Databases for Character Recognition In Proceedings of the 11th Int Conf on Pattern Recognition IEEE Computer Society Press 1992 330 333 Oracle Oracle Database 10g Empowering Applications with Spatial Analysis and Mining Technical report Februar Oracle Spatial User s Guide and Reference Oracle Forum 2006 Application Developer s Guide 10g Release 2 2006 Oracle Data Mining Reference 2006 Oracle Data Mining Conecpts 10g Release 2 2006 Oracle Data Mining Conecpts Requirements 2006 Oracle Database PL SQL Packages and Types Reference 10g Release 2 2006 Spatial Analysis and Mining 2006 Oracle Database SQL Reference 10g Release 2 2006 P Perner S Trautzsch Multi interval Discretization Methods for Decision Tree Lear ning In SSPR SPR Lecture Notes in Computer Science Springer 1998 475 482 J R Quinlan C4 5 Programs for Machine Learning Morgan Kaufmann 1993 J Rissanen Modeling by the shortest data description Automatica 14 1978 465 471 ROC Receiver Operating Characteristics http www anaesthetist com mnm
264. ta Mining Ein Beispiel 4 1 Assoziationsanalyse Die Assoziationsanalyse bringt einfach ausgedr ckt Beziehungen zum Vorschein die in den Daten vorhanden sind In der Movie Datenbank werden beispielsweise Beziehungen zwischen den Schauspielern die in einem Film mitgespielt haben vermutet Daher soll im Folgenden untersucht werden ob es Schauspieler gibt die mit gewissen anderen Schauspielern bevorzugt zusammen in Filmen mitgewirkt haben Um dies letztlich herauszufinden wird die Assoziationsanalyse verwen det Das Vorgehen zur L sung dieser Fragestellung wird dabei in die folgenden Schritte unterteilt siehe Kapitel 2 Ablauf der KDD 1 Bereitstellung der Daten 2 Preprocessing und Transformation 3 Data Mining Assoziationsanalyse 4 Darstellung amp Auswertung der Ergebnisse 4 1 1 Assoziationsanalyse Schauspieler mit Schauspieler in Filmen 1 Bereitstellung der Daten Die Daten f r die Assoziationsanalyse m ssen zun chst zusammen gefasst und eingeschr nkt werden Dazu werden alle Daten die f r die Analyse von Interesse sind zu einer neuen Datenquelle Tabelle bzw Sicht zusammengefasst Danach werden die Daten derart reduziert und vorbereitet dass Assoziationen vom Algorithmus gefunden werden k nnen sofern welche enthalten sind Die bereitgestellten Daten ber Schauspieler und Filme besitzen f r diese Fragestellung folgende Einschr nkungen e Schauspieler muss in mind 20 Filmen mitgespielt haben e
265. te sollen Hinweise darauf geben warum es so schwierig ist e komplexe Datenstrukturen z B Objekte werden durch Polygone dargestellt e rechenintensive Operatoren und Funktionen f r geometrische Objekte e Existenz von impliziten Beziehungen zwischen geometrischen Objekten e Autokorrelation d h die gegenseitige Beeinflussung r umlich benachbarter Objekte 95 5 Data Mining in r umlichen Datenbanken e Feature Selection d h die Auswahl der Daten und Attribute f r das Data Mining gestaltet sich schwierig aufgrund der Eigenschaft der Autokorrelation Anmerkung Um die Unterscheidung zwischen klassischem und Spatial Data Mining zu verdeutlichen soll der Punkt der das einfachste geometrische Objekt darstellt betrachtet werden Der Punkt be zeichnet in der Mathematik einen nicht ausgedehnten Ort in einem beliebigen Raum F r den Fall dass der Raum auf die geographischen Dimensionen beschr nkt ist wird der Punkt im zwei dimensionalen Raum R durch die Koordination x y im drei dimensionalen Raum R3 zus tzlich durch z beschrieben Der Punkt stellt f r sich gesehen eine Einheit dar die einen Ort im Raum beschreibt Das klassische Data Mining welches keine komplexe Datentypen verarbeiten kann siehe Ka pitel 2 also auch keinen Punkt m sste f r die Repr sentation des Punktes seine Koordinaten benutzen d h jede Koordinate des Punktes entspricht einem Attribut Das klassische Data Mining z B Clustering w rde auch
266. tekriterium erreicht ist Das Kriterium wann zwei oder mehrere Cluster zu einem neuen Cluster zusammengefiigt werden agglomerativ bzw wann ein Cluster in zwei oder mehrere Cluster aufgespalten wird divisiv ist i d R durch eine Abstandsfunktion hnlichkeitsfunktion gegeben die den Abstand zwischen den Clustern angibt Daraus ergibt sich implizit das Clustering Kriterium Qualit tsfunktion q das die Qualit t der Cluster misst Die Qualit tsfunktion g entscheidet demnach welche Aufteilung eines Clusters in mehrere kleinere Cluster bzw welche Zusammenfassung von Clustern zu einem gr eren Cluster den gr ten Nutzen bringt in dem die Qualit t der neuen Cluster gemessen wird In der Literatur gibt es daf r zwei g ngige Ans tze 1 Single Link Methode d h kleinster Abstand zwischen einem Element in einem Cluster und einem Element in einem anderen Cluster und 2 Complete Link Methode d h gr ter Abstand zwischen einem Element in einem Cluster und einem Element in einem anderen Cluster Das Haltekriterium ist sowohl bei den agglomerativen als auch bei den divisiven Methoden h ufig eine maximale Abstandsangabe zwischen zwei Clustern oder die Anzahl der Cluster die erzeugt werden sollen Die Hierarchie der gebildeten Cluster wird durch ein sogenanntes Dendrogramm repr sentiert Ein Beispiel f r ein Dendrogramm zeigt Abb 2 9 in dem die Daten A B C D E geclustert werden Nach der Generierung des Dendrogramms durch das
267. tel und zum anderen bei Problemen bei denen die Daten von einer Kategorie einfach und die Daten von einer anderen Kategorie schwierig zu klassifizieren sind Anmerkung Der Parameter svms_outlier_rate legt bei der One Class Support Vector Machine eine sogenannte Ausrei errate fest die die Komplexit t der Funktion beeinflusst Bei der Verwendung des Support Vector Machines Algorithmus gibt Oracle folgende Empfehlun gen um m glichst gute Resultate zu erzielen e numerischen Attribute normalisieren e Attribut Reduktion durch Attribute Importance oder Feature Extraction e Behandlung von Ausrei er 65 3 Oracle Knowledge Discovery und Data Mining Die Parameter f r den Support Vector Machines Algorithmus sind der folgenden Tabelle zu ent nehmen wobei die Standardwerte fett hervorgehoben sind Parameter Werte Beschreibung algo_name algo_support_vector_machines Spezifiziert den Support Vector Machines Algorithmus den das Modell verwenden soll svms_active_learning svms_al_disable svms_al_enable Gibt an ob aktives Lernen akti viert ist Aktives Lernen erzeugt ein reduziertes Model sonst ein Standard Model svms_kernel_function svms_linear svms_gaussian Kernel f r die Support Vector Machine svms_kernel_cache_size x 0 00 x 50000000 Bytes Cache Gr e f r den Kernel Nur svms_gaussian svms_conv_tolerance x 0 00 x 0 001 Konvergenz Toleranz
268. ten f r die gilt 1 Vp q Wenn p C und q ist density reachable von P dann ist q C und 2 Vp q C p ist density connected mit q F r den Ablauf des Algorithmus werden als Parameter 1 die Definition der e Umgebung und 2 die Angabe der Dichte also der MinPts in einer e Umgebung angegeben Die Qualit tsfunkti on q zur Bewertung der Cluster basiert auf diesen angegeben Parametern die entscheiden wie die Cluster konstruiert werden Zun chst werden Objekte in den Daten gesucht deren e Umgebung die vorgegebene Dichte aufweisen Diese Objekte werden als Cluster definiert Anschlie end wer den iterativ weitere Objekte zu diesen Clustern hinzugef gt falls diese directly density reachable sind Die Bewertung der entstehenden Cluster durch die Qualit tsfunktion q erfolgt also stetig mit der Erweiterung der Cluster um neue Objekte Der Algorithmus endet falls keine Objekte mehr irgendeinem Cluster hinzugef gt werden k nnen 21 2 Knowledge Discovery und Data Mining d Grid based Methoden Grid based Verfahren quantisieren den Datenraum in eine endliche Menge von Zellen die einer Rasterform Gitter entspricht Alle Operationen werden auf dem Raster durchgef hrt was einen Vorteil bei der Verarbeitung durch Parallelisierung bringt da es nicht von der Anzahl der zu ver arbeiteten Objekt abh ngig ist sondern von der Anzahl der Zellen Ein typischer grid based Algo rithmus ist STING STatistical INformation Grid
269. teren werden f r die Transformation lediglich die Geometrien betrachtet die in ORAb und Tie03 beschrieben sind Es ergeben sich daraus folgende Geometrie Transformation die in Abb 5 15 anschaulich dargestellt sind Anmerkung Andere geometrische Objekte z B Kreisbogen String Collections werden ignoriert Multi Polygon Polygon Multi Linie Linie B gt gt Multi Punkt gt Punkt gt x y Koordinaten Abbildung 5 15 Transformation der geometrischen Objekte zu Punkten Koordinaten Die Transformation von Punkten ist trivial Es werden lediglich die Koordinaten des Punktes auf zwei neue Attribute abgebildet In Abb 5 16 ist diese Transformation zu sehen in der die Punkt Geometrie in X und Y aufgeteilt wird Die nicht r umlichen Attribute bleiben bei der Transforma tion unver ndert ID Geometrie Attribute ID Koordinate X Koordinate Y Attribute 1 Punkt es 1 Punkt X Punkt Y Abbildung 5 16 Transformation von Punkten Die Transformation der Geometrie Multi Punkt wird durch mehrfache Anwendung der Transfor mation der Punkt Geometrie durchgef hrt Durch die Abbildung wird aus einem Geometrie Objekt Multi Punkt mehrere Geometrie Objekte Punkte Die nicht r umlichen Attribute bleiben bei der Transformation unver ndert und werden einfach von den Punkt Darstellungen bernommen In 113 5 Data Mining in r umlichen Datenbanken Abb 5 17 ist diese Transfo
270. tion GET_MODEL_DETAILS_KM benutzt um die Cluster Hierarchie des Modells anzuzeigen In dieser Cluster Hierarchie sind die Cluster mit id 3 id 4 id 5 die gesuchten Cluster da sie die Blattknoten der Cluster Hierarchie bilden ja SELECT id parent tree_level record_count FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_KMC model_namae id parent tree_level record_count 1 1 20 2 1 2 12 3 1 2 8 4 2 3 6 5 2 3 6 Listing 3 14 Cluster Hierarchie In ODM werden Cluster durch die folgenden Punkte beschrieben die ebenfalls ber die oben ge nannten Funktionen abgerufen werden k nnen e Centroid e Statistiken in Form von Histogrammen f r die Attribute e Position in der Cluster Hierarchie Level in der Hierarchie und Vorg ngerknoten Au erdem wird f r jeden Cluster eine Cluster Regel eine Art von Klassifikationsregel erstellt die diesen beschreibt z B IF age gt 25 AND sex M THEN Cluster 5 In Listing 3 15 ist eine SQL Anfrage dargestellt die die Centroide f r die Cluster ermittelt In Abb 3 5 sind diese Centroide mit gr nen Punkten gekennzeichnet Objekte im zwei dimensionalen Raum drei Cluster Formatierung der Ergebnisse f r eine bersichtliche Darstellung SELECT a id b attribute_name b mean as centroid FROM TABLE DBMS_DATA_MINING GET_MODEL_DETAILS_KMC model_name a TABLE a centroid b TABLE a child c WHERE c id IS NULL id centroid 56
271. tion zugeordnet Eine Transaktion entspricht hierbei einer Partition Die Anzahl der Transaktionen wird durch die Partitionierung vorge geben R umliche Trend Analyse Die R umliche Trend Analyse ist eine Data Mining Methode die ausschlie lich in r umlichen Da tenbanken Anwendung findet und untersucht nderungen und Tendenzen in den Daten entlang einer r umlichen Dimension siehe Abb 5 4 rechts Bei der Analyse wird nach Tendenzen sowohl in nicht r umlichen als auch r umlichen Attribute gesucht Ein Beispiel f r einen Trend wird durch folgende Aussage Regel beschrieben Wenn man sich in nordwestlicher Richtung vom Zentrum einer Metropole wegbewegt dann steigt das durchschnittliche Einkommen der Bev lkerung Con fidence 80 In Abb 5 4 links ist das Ergebnis der R umlichen Trend Analyse anschaulich anhand von zwei Beispielen graphisch dargestellt Im ersten Beispiel handelt es sich um einen sogenannten globalen Trend d h es ist eine hnliche nderung in nicht r umlichen oder r umlichen Attributen ausge hend von einem Startpunkt in jede beliebige Richtung zu beobachten z B Analogie zum Berg gipfel Im zweiten Beispiel handelt es sich um einen sogenannten lokalen Trend d h die Art der nderung in nicht r umlichen oder r umlichen Attributen verh lt sich unterschiedlich im Bezug auf die betrachtete Richtung Abbildung 5 4 Beispiel R umliche Trend Analyse und Definition der Suchpfade EFKS98 5 2 2 L sun
272. tributwerte ausgewertet werden d h beginnend beim Wurzelknoten werden die Attributwerte des Datensatzes solange sukzessive ausge wertet bis ein Blattknoten erreicht ist also eine Klassifi Abbildung 2 16 Modell f r Betrug zierung stattgefunden hat Die Klassifizierung kann da bei nicht nur bin re Klassifikationswerte annehmen hoch mittel gering Bei der Konstruktion des Klassifikationsbaums ist die Aufteilung der Trainingsmenge und die da mit verbundene Aufteilungsfunktion Aufteilungskriterium von besonderer Bedeutung Die Trai ningsmenge wird solange in Untermengen aufgeteilt bis eine Abbruchbedingung im Konstrukti onsprozess erreicht ist oder bis die Untermengen homogen sind d h die Daten zu genau einem 28 2 6 Data Mining Klassifikationswert zugeordnet sind Das Aufteilungskriterium entscheidet wie eine Menge auf geteilt wird so dass die Homogenit t in den entstehenden Untermengen maximal ist In der Li teratur existieren eine Menge Aufteilungskriterien die f r die Konstruktion eines Klassifikations baumes verwendet werden k nnen Im Folgenden wird auf zwei bekannte Aufteilungskriterien Gini Index und die Entropy eingegangen Der Gini Index und die Entropy sind Aufteilungskriterien die die beste Aufteilung einer Men ge anhand der Homogenit t der entstehenden Untermengen misst Die Homogenit t einer Menge definiert sich als die Gleichheit einer Eigenschaft bzw die Gleichartigkeit der enthaltenen Objek
273. trischen Beziehungen erm glicht die Einbeziehung der Entfernung Die to pologischen Beziehungen repr sentieren durch die Materialisierung lediglich ein Vorkommen in 121 5 Data Mining in r umlichen Datenbanken der Umgebung indem die Beziehung zwischen zwei geometrischen Objekten entweder TRUE oder FALSE ist Die metrische Beziehung ist in diesem Punkt aussagekr ftiger z B die Universitat ist 1 km vom Stadtzentrum entfernt Im Vergleich dr ckt die topologische Beziehung bestenfalls Universit t ber hrt Stadtzentrum aus Im Folgende wird ein Algorithmus angegeben der die Transformation von metrischen Beziehungen bewirkt Die Vorgehensweise ist analog zur Transformation der topologischen Beziehung siehe Abb 5 25 d h es wird wiederum eine Referenz Schicht ausgew hlt und die Schichten thematische Karten werden entsprechend der Referenz Schicht in Form eines Attributes materialisiert Beispiel Es seien wiederum die Referenz Schicht St dte und die zwei thematischen Karten Stra en und Fl sse Abb 5 25 gegeben Die Materialisierung der metrischen Beziehungen erfolgt da durch dass eine Geometrie in der Referenz Schicht ausgew hlt wird und anschlie end dasjenige Objekt mit dem Minimal Abstand in der thematischen Karte identifiziert wird Dieser Abstand wird als metrische Beziehung zwischen dem Referenz Objekt und dem thematischen Objekt gespeichert EINGABE 1 Referenz Schicht Tabelle 2 Schicht Tabelle thematische K
274. truktur des KDD Prozesses in Form eines weiteren Preprocessing ein 136 7 Ausblick Mit dieser Arbeit wurde ein berblick ber das Data Mining und den Knowledge Discovery Prozess in klassischen relationalen Datenbanken gegeben Diesbez glich wurde eine konkrete Im plementierung eines Data Mining Systems die Oracle Data Mining Cartridge vorgestellt und der darin bereitgestellte Funktionsumfang umfassend analysiert Dar ber hinaus wurde die Anwen dung anhand von unterschiedlichen Beispielen demonstriert Darauf aufbauend wurde ein Kon zept entwickelt das das Spatial Data Mining in r umlichen Datenbanken unter Verwendung dieser Methoden und Mechanismen erm glichen soll Daraus ergeben sich weitere M glichkeiten in der Erweiterung sowie der Anwendung des Data Mining in r umlichen Datenbanken e Erweiterung der Oracle Data Mining Cartridge Die Integration von Data Mining Techniken in ein Datenbanksystem stellt einen wichtigen Schritt dar die unterschiedlichen Disziplinen des Data Mining zu verbinden und somit eine komfortable M glichkeit zur allt glichen Benutzung von Data Mining Verfahren f r die Daten analyse bereitzustellen Aus diesem Grund steht bei der Oracle Data Mining Cartridge steht prim r der Aspekt der reinen Anwendung der vorhandenen Methoden f r das klassische Da ta Mining im Vordergrund Eine Erweiterung der implementierten Mechanismen zum Data Mining z B die Integration einer hnlichkeitsmatrix f r das Cluste
275. ues The Morgan Kaufmann Series in Data Management Systems Morgan Kaufmann 2000 G J Hwang F Li A Dynamic Method for Discretization of Continuous Attributes In Intelligent Data Engineering and Automated Learning IDEAL 2002 Third International Conference Manchester UK August 12 14 Proceedings volume 2412 of Lecture Notes in Computer Science Springer 2002 506 511 Y Huang J Pei H Xiong Mining Co Location Patterns with Rare Events from Spatial Data Sets Geoinformatica 10 3 2006 239 260 R Hanson J Stutz P Cheeseman Bayesian classification theory Technical report 1991 A K Jain M N Murty P J Flynn Data clustering a review ACM Computing Sur veys 31 3 1999 264 323 K M S W T Joachims Maschinelles Lernen und Data Mining G Gorz J Schneeberger und C R Rollinger im Oldenbourg Verlag K Koperski J Adhikary J Han Knowledge Discovery in Spatial Databases Progress and Challenges In ACM SIGMOD Workshop on Research Issues on Data Mining and Know ledge Discovery Montreal Canada 1996 55 70 149 Literaturverzeichnis KH95 KHN99 KHS Kie06 KK96 KN97 KR87 KR90 Len02 Lew98 Lip04 Los06 Mac67 Mar05 MC02 ME96 Mit97 Mor01 K Koperski J Han Discovery of Spatial Association Rules in Geographic Information Databases In M J Egenhofer J R Herring eds Proc 4th Int Symp Advances in Spatial Dat
276. und r umlichen Attributen definiert wobei der Algorithmus derart modifiziert ist dass die r um lichen Attribute d h die Pr dikate verarbeitet werden k nnen In EFKS98 wird ein anderer Ansatz zur R umlichen Klassifikation verfolgt Dieser basiert zwar ebenfalls auf der Erweiterung des ID3 Klassifikations Algorithmus f r relationale Datenbanken jedoch werden keine Puffer und keine r umlichen Pr dikate wie in KHS benutzt sondern es wird ein sogenannter Nachbarschafts Index Abb 5 6 eingef hrt der zu jedem Objekt die topologischen metrischen gerichteten Nachbarschaftsbeziehungen speichert Weitere Informationen zum Nach barschafts Index sind in Abschnitt 5 2 3 Primitive f r Spatial Data Mining zu finden Object ID Neighbour Distance Topology 0 05 2 7 southwest disjoint northwest overlap Abbildung 5 6 Nachbarschafts Index in EFKS98 zur Abbildung der Nachbarschaft Der Algorithmus zur Konstruktion des Klassifikationsbaums wird demzufolge um die M glich keit des Zugriffs und der Auswertung der Nachbarschaft erweitert Dadurch k nnen bei der Kon struktion des Klassifikationsbaums sowohl die nicht r umlichen Attribute die das r umliche Ob jekt beschreiben sondern auch die nicht r umlichen Attribute der Nachbar Objekte die ber eine Nachbarschaftsbeziehung miteinander verbunden sind in den Prozess integriert werden Der vorgeschlagene Algorithmus in EFKS98 besitzt jedoch einige Beschr nk
277. ung wird in einer Tabelle dessen Name ebenfalls als Parameter ber geben wird gespeichert Das Schema dieser Tabelle ist f r die Klassifikation folgenderma en Spaltenname Datentyp Bedeutung id VARCHAR2 NUMBER Identifier prediction VARCHAR2 NUMBER Vorhersage Klassifizierung probability NUMBER Wahrscheinlichkeit der Vorhersage In Listing 3 22 ist der Prozess der Klassifizierung unter Verwendung der Methode APPLY darge stellt Die SQL Anfrage im Anschluss gibt das Ergebnis der Klassifizierung aus Die Ausgabe des Ergebnisses ist derart aufgebaut dass f r jede m gliche Klassifizierung im Beispiel in drei Grup pen die Wahrscheinlichkeit ausgegeben wird In diesem Beispiel ist der Klassifikator sich seiner 69 3 Oracle Knowledge Discovery und Data Mining Vorhersagen sehr sicher weshalb lediglich 0 oder 1 als Wahrscheinlichkeitswerte auftreten bei Unsicherheiten sind die Wahrscheinlichkeiten unterschiedlich verteilt DBMS_DATA_MINING APPLY model_name gt class_model data_table_name gt apply_data case_id_column_name gt object_id result_table_name gt apply_result END Ausgabe des Ergebnisses SELECT id prediction probability FROM apply_result ID PREDICTION PROBABILITY Attribut_Wert_1 Attribut_Wert_2 Attribut_Wert_3 Attribut_Wert_1 Attribut_Wert_2 Attribut_Wert_3 O D ND oo RFR FB Listing 3 22 Klassifizi
278. ungen Zum einen werden keine Konzept Hierarchien unterst tzt die f r nicht r umliche Attribute definiert sein k nn ten Und zum anderen werden aggregierte Werte f r nicht r umliche Attribute ignoriert z B be sitzt eine Stadt in deren Nachbarschaft sich drei Regionen mit einer mittleren Bev lkerungszahl befinden die gleichen Eigenschaften wie eine Stadt in deren Nachbarschaft sich nur eine einzelne Region mit einer hohen Bev lkerungszahl befindet KHS In RT04 wird eine weitere Methode zur Klassifikation von r umlichen Daten mit einem Klas sifikationsbaum Algorithmus vorgestellt der ebenfalls auf dem klassischen ID3 Algorithmus ba siert Im Gegensatz zu KHS und den vorgeschlagenen Puffern und r umlichen Pr dikaten und zu EFKS98 mit der Abbildung der Nachbarschaftsbeziehungen ber den Nachbarschafts Index zur Realisierung der R umlichen Klassifikation wird in diesem Ansatz das Prinzip des Schichten Modells siehe Abb 5 8 bei der R umlichen Assoziationsanalyse verwendet Dabei wird in RT04 versucht die Begrifflichkeiten und das Vorgehen des klassischen ID3 Algorithmus in relationalen 101 5 Data Mining in r umlichen Datenbanken Datenbanken d h der Datensatz das Klassifikationsattribut und die Attribute Pr dikatoren f r die Klassifizierung f r die R umlichen Klassifikation in r umlichen Datenbanken abzubilden Der Datensatz entspricht einer Karte die sich aus mehreren Schichten zusammensetzt Und die
279. ungsgebiet kann sich dabei aus einer oder mehreren St dten und ih ren Vorstadtgemeinden zusammensetzen WIK06 Weiterhin muss die Bev lkerungs zahl von 1000000 Einwohnern und eine Bev lkerungsdichte von mind 1000 Einwohnern pro km gegeben sein F r die Selektion der relevanten Daten sind demnach die Bev lkerungsdichte und die Bev lke rungszahl von einer Region und seinen Nachbarn von Interesse Aufgrund der gegebenen Daten stehen jedoch lediglich die Bev lkerungszahlen von Siedlungen Siedlungsgebiete und St dte zur Verf gung Um die Bev lkerungsdichte und Bev lkerungszahl zu ermitteln sind die folgenden Schritte durch zuf hren Zun chst wird ein feines Raster demo_raster definiert und ber die Karte mit den Sied lungen gelegt Dadurch werden Regionen beschrieben deren Bev lkerung sich aus der Summation der darin befindlichen Siedlungen ergibt In Abb 6 7 a ist beispielhaft ein Raster dargestellt Legende Sb Rs Region X Nachbar Regionen von X a Raster b Nachbarschaft Einflussbereich Abbildung 6 7 Definition Raster und Nachbarschaft In Listing 6 1 ist die Definition eines Rasters nach Abb 6 7 a mittels einer Funktion aus dem SAM Package abgebildet Ora06g Die Parameter f r diese Funktion sind die Gr e des Bereichs x Ausdehnung 5 865 15 033 und y Ausdehnung 47 274 55 056 sowie der Grad der Zerlegung des Bereichs Gr
280. us und das Ergebnis der Data Mining Aufgabe enthalten Das Prinzip des Modell Objekts in ODM bewirkt dass f r jede neue Data Mining Aufgabe entsprechend ein neues Modell Objekt angelegt wird Das Speicher Management der Modell Objekte bernimmt dabei das Datenbanksystem Eine ber sicht ber die vorhandenen Modell Objekte wird ber die Tabelle DM_USER_MODELS realisiert Jedes Modell Objekt wird dabei ber seinen Namen eindeutig identifiziert Des weiteren werden die Da ta Mining Methode der verwendete Algorithmus und die Gr e des Modell Objektes aufgelistet Listing 3 1 bietet eine Beispiel bersicht ber die erstellten Modell Objekte wobei jeder Benutzer seine eigenen Modell Objekte in seinem Standard Schema erstellt und nutzt Die Benutzung oder nderung von Modell Objekten in anderen Schemata ist in ODM nicht vorgesehen SQL gt select name function_name algorithm_name from dm_user_models NAME FUNCTION_NAME ALGORITHM_NAME MODEL_CLUS_KM_CARS CLUSTERING KMEANS MODEL_CLASS_DT_IRIS CLASSIFICATION DECISION_TREE MODEL_REGR_SVM_CARS REGRESSION SUPPORT_VECTOR_MACHINES MODEL_ASSO_ITEMS ASSOCIATION APRIORI Listing 3 1 berblick ber Data Mining Modelle 39 3 Oracle Knowledge Discovery und Data Mining Konstruktion von Modell Objekten Das Modell Objekt f r eine Data Mining Aufgabe wird ber die Methode CREATE_MODEL im Packa ge DBMS_DATA_MINING erstellt Durch den Aufruf dieser Methode wird gleichzeitig der
281. ute umgewandelt werden Die gerichteten Beziehungen z B X NordWest_von Y wer den hingegen kaum bei der Materialisierung ber cksichtigt VB06b Ebenso wird keine Materia lisierung von geometrischen Objekten z B Polygon Linie in Standard Datentypen durchgef hrt Ursache liegt wahrscheinlich darin dass lediglich Clustering Methoden von einer Ortsangabe La ge der geometrischen Objekten Gebrauch machen Weitere Materialisierungen befassen sich mit Abbildung der Autokorrelation durch Aggregierung von numerischen Attributen der Nachbar Objekte oder der Nachbarschaft eines Objektes Ora06g berdies besch ftigen sich andere Materialisierungen mit der Definition von r umlich motivierten Datens tzen z B r umliche Transaktionen RT05 f r die Assoziationsanalyse durch die Auffas sung der r umlichen Datenbank als eine berlagerung von thematischen Karten und der anschlie enden Zusammenf hrung der nicht r umlichen Attribute zu Datens tzen Die Modifikation der Data Mining Methoden f r das Data Mining in r umlichen Datenbanken Abb 5 12 b umfasst ein breites Spektrum Ein Vorgehen bei der Anpassung besteht in der Neude finition von Begrifflichkeiten in den Methoden z B Support HPX06 Dichte SEKX98 und hn lichkeit RT04 Ein weiteres Vorgehen besteht in der Integration von Nachbarschaftsbeziehungen in Form von Nachbarschaftsgraphen EKS97 Mor01 Die Nachbarschaftsgraphen werden dann von den Methoden zum Spatial Data
282. von Ausrei ern Outlier 2 2 2222 nennen 2 4 3 Behandlung von Redundanzen a p lt 202220 88282 a 2 4 4 Behandlung von Inkonsistenzen aoaaa ee 2 5 lransformatlon 2 vn use ence AE eee er ae ae ne 2 2 1 Normierung s war a en DET MER BEN 2 392 Diskrellsiertung ware BE En eae hae SRR 20 9 ZRBELESIEINE 106 ee Beer Bene ed N eaten 2 34 Generalisierung fo 2 4 oe ae rn ae a Dede ee 2 5 5 Attribut Konstruktion 2 2 2222 Co on n nn 2 5 6 Attribut Red ktion 4 0 0 2 2 ea a aaa een DO Data Ming sen a Er he Sale ee Be oe re 2 6 1 bersicht zum Data Mine van eyes nern era Der Se 2 6 2 Clustering s 34 24 eae a us aa Br RE BS Eder du 2 6 3 Assoziationsanalyse er Kara u a Er DENE EIG 2 6 4 Klassifikation 2 22 2 oo Coon 2 6 URSPIESSION AN wi a Be re re Wie pe a BO 2 7 Interpretation tera 223 2 ae REINER Di BES A RER Fae 3 Oracle Knowledge Discovery und Data Mining 3 1 WIELD CR wots ia Sele we AL Dee ee re Bi CE een 3 2 Programmable Interface 4 2 200u0 2 04 Sharkey San a 321 PE SOL Schnittstelle 4 4 2 2 een 222 Ras a ea nen 3 2 2 Java Schnittstelle 2 222222 2 oo oo onen 9 9 Voraussetzungen as Sa Hu Ehen ER A a A OSE Eee 3 4 Management Prinzip von Oracle Data Mining 2 00000 3 5 Oracle Knowledge Discovery sos an NEE LEE IE DRG 3 5 1 Oracle Preprocessing 42 n 25 I EEE 3 5 2 Oracle Transformation 2 222 2 Common ren 3 2 3 Oracle Data Mining i e ie nn Haar u a re dm aa Da 4 Data
283. ware Client Software Oracle DBMS Data Mining Client Software Data Mining e DBMS e Transfer Client Daten gt Datenstruktur Client Software a Data Mining ohne DBMS Unterstuetzung b Oracle Data Mining Abbildung 3 2 Data Mining mit und ohne DBMS Unterst tzung Dementgegen besteht ein Nachteil zu den L sungen in denen die Data Mining Funktionalit t in der Client Software integriert ist darin dass die Erweiterbarkeit der Data Mining Methoden be schr nkt ist Durch den propriet ren Charakter der Data Mining Cartridge von Oracle wird eine Erweiterung um neue Funktionalit ten oder Algorithmen nicht unterst tzt ORA06a Der Zugriff auf die Data Mining Funktionalit t erfolgt entweder ber eine PL SQL Schnittstelle oder ber eine Java Schnittstelle Programmable Interface Dabei ist zu bemerken dass die Java Schnittstelle auf der PL SQL Schnittstelle basiert wodurch die PL SOL Schnittstelle mindestens so viel Funktionalit t wie die Java Schnittstelle bietet Das Data Mining wird somit vollst ndig aus der Client Software entfernt und nur noch die Eingabe und die Ausgabe d h das Starten des KDD Prozesses und die Visualisierung der Ergebnisse obliegt dem Client Die beiden Programmable Interfaces sind dabei derart konzipiert dass diese vollst ndig kompa tibel zueinander sind Die Interoperabilit t zwischen den beiden Programmable Interfaces ist da durch gew hrleistet Es kann also beispielsweise das Preprocessin
284. wohner und mind 1000 Ein wohner pro 1km Die SQL Anfrage zur Selektion der Daten wird hier nicht aufgef hrt In der nebenstehenden Abbildung ist Karte von Deutsch land dargestellt wobei ausschlie lich die Regionen abge bildet sind die die Kriterien erf llen Durch die zweidi mensionale Darstellung ist bereits jetzt schon erkennbar dass sich Regionen zu Cluster zusammenschlie en Auf schluss ber die Cluster wird letztlich erst ein Clustering mit Oracle Data Mining geben Zum Abschluss der Transformation werden die zu Beginn definierten Regionen in x y Koordinaten materialisiert Diese Materialisierung wird anhand der folgenden Befehle siehe Listing 6 4 durch gef hrt Nach der Abarbeitung der Befehle kann die erweiterte Tabelle ballungsgebiete mit den Mechanismen in der Oracle Data Mining Cartridge verarbeitet werden 132 6 2 Nutzen von Materialisierungen f r das Spatial Data Mining BEGIN DBMS_SDM_TRANSFORM create_SDM_Transform ballungsgebiete demo_agglo_2 DBMS_SDM_TRANSFORM insert_SDM_Transform ballungsgebiete demo_agglo_2 geometry DBMS_SDM_TRANSFORM xform_SDM_Transform ballungsgebiete END Listing 6 4 Materialisierung mit dem SDM_TRANSFORM Package Im n chsten Schritt wird das Clustering mit dem klassischen Data Mining durchgef hrt
285. xistierenden Problemstellungen des Spatial Data Mining durch universelle Konzepte zu begegnen Primitive f r Spatial Data Mining In EKS97 wird eine allgemeine Erweiterung der Data Mining Methoden vorgeschlagen die ei ne Integration von Nachbarschaftsbeziehungen in Form von Nachbarschaftsgraphen und entspre chenden Operationen f r den Graphen anstreben um damit Knowledge Discovery in r umlichen 105 5 Data Mining in r umlichen Datenbanken Datenbanken durchf hren zu k nnen Das Ziel ist die Verarbeitung von impliziten r umlichen Be ziehungen und r umlichen Nachbarschaften durch das DBMS Die Basis Operationen Primitives basieren auf den impliziten r umlichen Beziehungen d h to pologisch metrisch gerichtet und der Annahme dass die Data Mining Algorithmen f r r umli che Datenbanken diese nutzen Des Weiteren wird die Abbildung der impliziten Nachbarschafts beziehungen durch das Konzept des Nachbarschaftsgraphen und der Nachbarschaftspfade reali siert Die Konstruktion des Nachbarschaftsgraphen erfolgt durch die Definition der Nachbarschaft anhand einer Nachbarschaftsbeziehung z B topologische Beziehung schneidet Ein Nachbarschaftsgraph bez glich einer r umlichen Beziehung stellt einen Graphen dar dessen Knoten Objekte in der Datenbank und dessen Kanten durch die r umliche Beziehung verbunde ne Objekte repr sentieren Und ein Nachbarschaftspfad beschreibt einen Pfad der zyklenfrei und r umlich betracht
286. year anz_movie as target from select year count a movie as anz_movie from moviedb movie a where year gt 1990 and year lt 2005 group by year f Normierung der Attribute BEGIN DBMS_DATA_MINING_TRANSFORM CREATE_NORM_LINC conf_reg_sample_3_1 DBMS_DATA_MINING_TRANSFORM INSERT_NORM_LIN_MINMAX conf_reg_sample_3_1 reg_data_sample_1 DBMS_DATA_MINING_TRANSFORM COLUMN_LISTC id DBMS_DATA_MINING_TRANSFORM XFORM_NORM_LIN conf_reg_sample_3_1 reg_data_sample_1 tmp_reg_prepared END Daten zur Konstruktion des Modells build data und zum Testen test data CREATE TABLE reg_prepared_b as 142 B 2 Regressionsanalyse select id year select id from tmp_reg_prepared where target is not null where sel lt gt 1 target from tmp_reg_prepared natural join mod rownum 3 as sel CREATE TABLE reg_prepared_t as select id year target from tmp_reg_prepared where target is not null minus select id year target from reg_prepared_b Konstruktion der Konfigurationstabelle und des Modells CREATE TABLE test_reg_settings setting_name VARCHAR2 30 setting_value VARCHAR2 30 BEGIN INSERT INTO test_reg_settings VALUES DBMS_DATA_MINING svms_kernel_function DBMS_DATA_MINING svms_linear DBMS_DATA_MINING CREATE_MODEL model_name gt test_reg_1 mining_function gt DBMS_DATA_MINING REGRESSION data_table_name reg_prepared_b case_id_
287. zen siehe Kapitel 2 6 2 vom Algorithmus Beispiel Es sei das nicht numerische Attribut Geschlecht G mit G m w gegeben Intern wird Geschlecht auf die neuen Attribute G_m f r Geschlecht m nnlich und G_w f r Geschlecht weiblich abgebildet In Abb 3 4 ist die interne Transformation anschaulich dargestellt und folgende Berech nung zur Bewertung der hnlichkeit wurde durchgef hrt Der Euklidische Abstand zwischen den Datens tzen id 5 und id 7 berechnet sich zu 7 14 und zwischen den Datens tzen id 6 und id 7 zu 12 woraus folgt dass id 5 und id 7 zueinander hnlicher sind als id 6 und id 7 Es ist zu beobachten dass trotz der Transformation nicht numerischer Attribute und die damit ver bundene Einbeziehung in die hnlichkeitsberechnung die hnlichkeit von den numerischen Attri buten dominiert wird Aus diesem Grund m ssen numerische Attribute egal ob diese in Kombina tion mit nicht numerischen Attributen betrachtet werden stets im Transformationsschritt normiert werden um eben eine Dominanz von numerischen Attributen zu verhindern Beispielsweise w r de die Normierung des Alters auf den Bereich 0 1 bewirken dass nun die Datens tze id 6 und id 7 hnlicher sind als die Datens tze id 5 und id 7 ID Alter Geschlecht G ID Alter G_m G_w 5 23 m DB 5 23 1 0 6 42 w 6 42 0 1 7 30 w 7 30 0 1 Abbildung 3 4 interne Umwandlung von Zeichenketten Die Parameter und Einste
288. zierung von co located Objekten z B Video thek in der N he von FastFood Restaurant zu beschreiben und letztendlich auf nicht r umliche Attribute die den r umlichen Einfluss weitestgehend beinhalten abzubilden Original data Spatial thematic data layers Das SAM Package in Oracle unterst tzt mit den bereitgestellten Methoden folgende Punkte die entweder zur reinen manuellen Analyse der r umlichen Daten oder zum Spatial Data Mining durch die Materialisierung von r umlichen Beziehungen f r eine Menge von thematischen Karten genutzt werden k nnen e Cluster Analyse die geometrische Objekte werden nur anhand von Ortskoordinaten und un ter Verwendung eines R Baum Indexes in n Cluster unterteilt wobei n beliebig gew hlt wer den kann Die Cluster werden mittels der Minimum Bounding Box die die geometrischen Ob jekte umschlie t dargestellt e Materialisierung der r umlichen Autokorrelation zu nicht r umlichen Attributen durch Ag gregierung der Werte der benachbarten Objekte z B Betrachtung der Bev lkerungsdichte ei 108 5 2 Spatial Data Mining nes Objektes und der Bev lkerungsdichte im Umkreis von 5km oder der Bev lkerungsdichte der benachbarten geometrischen Objekten e Co Location Mining bei der zwei thematische Karten mit ihren geometrischen Spezifikatio nen bereinander gelegt werden und anschlie end die Co Locations der geometrischen Ob jekte ermittelt werden z B Welche St dte mit einer B
289. zit eine Abh ngigkeit suggerieren z B ein Attribut A l sst sich durch eine Abbildung f in Attribut B berf hren wodurch das Attribut B redundant wird da die Attribute A und B das gleiche beschreiben 3One person s noise is another person s signal War04 11 2 Knowledge Discovery und Data Mining Fehlende Normalisierungen der Datenmodelle verursachen hnliche Probleme wie die fehlenden Namenskonventionen wobei die Ursache in der Verwendung unterschiedlicher Wertebereiche der Attribute liegt wodurch funktionale Abh ngigkeiten zwischen Attributen auftreten k nnen Zur Behandlung von Redundanzen sind daher Namenskonventionen und Normalisierungen der Da tenmodelle notwendig Die Namenskonventionen m ssen hierbei manuell eingef hrt werden w h rend die Normalisierungen weitestgehend automatisch durchgef hrt werden k nnen Ein Verfah ren zum Finden von Redundanzen von Attributen ist die Korrelationsanalyse 2 4 4 Behandlung von Inkonsistenzen Bei Inkonsistenzen handelt es sich um Unstimmigkeiten in den Daten z B ein Kind hat einen Job und ein geregeltes Einkommen Die Unstimmigkeiten sind i d R recht einfach zu identifizieren jedoch schwierig zu beheben da sie Hintergrundwissen voraussetzen Das Kind ist in Wirklich keit z B ein Erwachsener d h die Altersangabe ist fehlerhaft vs es handelt sich um ein Kind und die Informationen ber den Job und das Einkommen sind fehlerhaft Inkonsistenzen k nnen durch einen Ver
290. zt Ansonsten bleiben die voreingestellten Werte f r die Parameter unver ndert Listing 4 17 stellt die notwendigen Schritte f r das Clustering dar BEGIN INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING algo_name DBMS_DATA_MINING algo_kmeans INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING clus_num_clusters 8 INSERT INTO test_clus_settings VALUES DBMS_DATA_MINING kmns_iterations 5 DBMS_DATA_MINING CREATE_MODEL model_name gt clus_model mining_function gt DBMS_DATA_MINING CLUSTERING data_table_name gt clus_prepared case_id_column_name gt id settings_table_name gt test_clus_settings END Listing 4 17 Clustering K Means mit k 8 4 Darstellung amp Auswertung der Ergebnisse Die Darstellung der Ergebnisse des Clustering kann durch die Ausgabe der Cluster Hierarchie siehe Kapitel 3 und der Cluster Regeln erfolgen Aus der Cluster Hierarchie die alle erstellten Cluster enth lt werden im folgenden Listing 4 18 nur die gesuchten Cluster betrachtet demographische Einteilung in 8 Gruppen Dabei liefert die Anfrage 85 4 Data Mining Ein Beispiel in Listing 4 18 die Cluster Kennung RULE_ID sowie den Support Anzahl der Daten im jeweiligen Cluster und die Confidence Aussagekraft der Cluster Regel zur Beschreibung des Clusters z B 90 der Daten im Cluster X entsprechen der Beschreibung der Cluster Auflistung der Cluster Re
291. zung Beispiel Das Kreditinstitut benutzt zur Konstruktion des Klassifikationsmodells f r Betrugsversuche zum einen vorhandene bereits klassifizierte Kreditkartentransaktionen und zum 26 2 6 Data Mining anderen Informationen vom Kontoinhaber F r die Trainingsmenge wird eine ausgewogene Anzahl an Transaktionen gew hlt wodurch sichergestellt werden soll dass das Modell auch zuk nftig die normalen Transaktionen von den Betrugsf llen gut voneinander unterscheiden kann Im zweiten Schritt wird das generierte Modell zur Klassifikation von neuen Datens tzen die noch keine Klassifizierung besitzen verwendet Bevor das Modell jedoch zur Klassifizierung neuer Da tens tze benutzt wird sollte das Modell auf Genauigkeit berpr ft werden Eine einfache Methode zum Testen ist die Verwendung von Daten die bereits klassifiziert sind jedoch nicht zur Trainings datenmenge geh ren Methoden die nach diesem Prinzip die Genaugkeit berpr fen sind z B die Confusion Matrix Wahrheitsmatrix Ora06d WIK06 ROC Receiver Operating Characteristics ROC06 Ora06d und Lift Ora06d wobei die beiden letztgenannten den Nachteil haben dass diese lediglich f r eine bin re Klassifikation anwendbar sind Eine weitere Methode ist die Cross Validation Ora06c HK00 die zur Messung der Genauigkeit von Klassifikationsmodellen einge setzt wird Im folgenden sei die Confusion Matrix die eine einfache Methode zur berpr fung der Genauig keit vo
292. zur Behandlung oder Identifikation von Ausrei ern unterscheidet sich ein wenig von den anderen Methoden wie z B dem Clipping Das Clipping identifiziert und behandelt Ausrei er jeweils f r ein einzelnes Attribut z B werden die Attribute Alter und Einkommen separat voneinander betrachtet Der One Class Support Vector Machine Algorithmus ist eine Art Klassifikation und funktioniert auf dem gesamten Datensatz wodurch dieser als Ganzes bewertet und identifiziert wird z B werden die Attribute Alter und Einkommen zusammen betrachtet und im Anschluss entschieden ob es sich um einen Ausrei er handelt Um den One Class Support Vector Machine Algorithmus f r die Identifikation und somit f r die Behandlung von Ausrei ern nutzen zu k nnen m ssen die nachfolgenden Schritte durchgef hrt werden die zus tzlich noch in Listing 3 5 demonstriert sind 3 5 Oracle Knowledge Discovery Klassifikation als Data Mining Funktion spezifizieren Support Vector Machines als Klassifikationsalgorithmus spezifizieren Klassifikationsattribut auf NULL setzen Konstruktion des Modells zur Klassifizierung von Anomalien oF WN Neue bzw existierende Daten lassen sich unter Anwendung des Modells als Ausrei er re spektive Anomalien identifizieren Vorhersage 1 f r Normal und 0 f r Ausrei er BEGIN Algorithmus ist One Class Support Vector Machines INSERT INTO ANOMALY_DETECTION_SETTINGS setting_name setting_value VALUE

- Fachgebiet Datenbanken und Informationssysteme

Contents

Download Pdf Manuals

Related Search

Related Contents