Home

Volltext - oops/ - Oldenburger Online-Publikations

image

Contents

1. Bus Apoq Bus Apoq kel BE SWENYpUS Io omg ed SweN A odyn uolssaidxgeinuuoQ UONDSUUO9SSEII guono uuoo 0 0 wuonosuuoo gpus L L vpus UONEIIOSSY ri TEE EG e ro einquie d jJuowayzejeq JUSWIFIXEJU0OH t T Ay NN Ayo d ynuu Toumo 1 19S10e1adO sioyesodQpamoyje Joumo adiy dniloypezeys ssejgejeq die ssejopeJ ssejyjeuoisuswig fi o JOUMO I L oumo sounos L 4aumo Buiddeyy 70 amquye aynquye 0 aynquye 0 O volsuaew p jeuoisuewIp 0 0 dno a dn loysjs dwoyuoN a nqunwerea e nquywyjeuolsuawig elnquyyyoe4 uo susawig Burddeyyjeuo suauig dron K D Jueweyguondsuuog amnquye 0 Z 1 uonoauuoo ueajoog Pensqys 0 u9WIIFI IEZIIEISUS 7 ueajoog euondos kk 9 nedoud E p yo L quared sojowered ALOAOJq CUO SUBWIIGQUON Apadold BuolsuaWig kuedoud lt 70 L unsai vd uoljeziesaueb 0 0 voreziewads V OWEN eweu eyoweiedt 0 a uoneyndwoo 0 Anmppe Aedand N wey owenAnedo UOISSSIIXZEINULOZ enuo 18S 10Je1edo SioyesadQpemoyje uesjoog Aays uonezijeiousg juaweal F TWN uolyeyndwog AWAIPPY UOHJI ULODALAAOld uoneyndwoo 1 uoneindwos 0 Annmppe 1agramm MML Metaklassendi Abbildung 6 4 78 Kapitel 6 Kon
2. 5 0 Logical View Bezeichnung JahrTyf J Main D fac Verkauf ne Produkt lt lt Shared Roll Up gt gt aRoll Ups gt Si dm Jahr Edim Monat ORTES Staat heim Quartal lt lt Dimensional Class gt gt a beeen oaa Ei dim Jahr Bezeichnung QuartalsTypl Bezeichnung B dim ie a ssDimenslonal Class gt gt F lt RolkUp gt gt D mOr Vakai Woche lt lt Roll Up gt gt Staat a Er Aue Bezeichnung WochenTypl Quarta ake e V lt lt Dimensional Class gt gt dim Region e ers Manz Bezeichnung Text Sales dim Staat ebe Bezeichnung MonatsTyp Typ der Region Bundesland Kantone 0 1 dm Verkaufsbezitk Be ee un ar ich lt lt Roll Up gt gt lt lt Roll Up gt gt Bezeichnung lt lt Dimensional Class gt gt Monat Region 5 9 Artikelcode Quartal f V Be amp dim Produktgruppe Bezeichnung QuartalsTyp lt lt Dimensional Class gt gt SEET lt Roir ups gt Lei om Produktfamilie tl Stadt Verkaufsbezir E dim Produktkategorie Ly L Dezeichnung Text F dim Strassenbereich eeDimension gt PLZ PLZTyp fac Einkommen zeit lt lt Dimension gt J dm Zeit lt lt Roll Up gt gt Dose lt lt FactClas gt gt PEN EEE Stadt E G Component View Einkommen lt sFaotClass gt gt Ot ssDimensionat Class Deployment View SRetrag W hrung Verkauf Ort des Verkaufs Betrag W hrung Bezeichnung
3. Table ForeignKey UniqueKey name String isPrimary Boolean foreignKeys 0 name String x uniqueKey Table name String tableTypeMETA String constraints 0 1 columns name t tableTypeM ETA TableConstraint Column t uniqueKeys t foreignKeys body Expression name Strin R S t columns t constraints Table TableConstraint Table TableConstraint name String i body Expression tableTypeMETA String table name String t name t body t table TableConstraint UniqueKey Column identityIncrement Integer UniqueKeyRole initialValue Expression ms name String name String optional Boolean d valueExpression Expression role 0 1 1 columns ordered UniqueKey sPri isPrimary Boolean u name u isPrimary name String u table u columns u role UniqueKey table Table name String UniqueKeyRole Referential Constraint name String Zr typeMETA RefConsType Uniquekey typesPK StringSe isPrimary Boolean typesFK StringSet name String constraints 10 uniqueKey 1 UniqueKeyRole u name u multipicity deleteRule ReferentialRule T initiallyDeferred Boolean u matchT ype u deleteRule isDeferable Boolean u update Rule u de f erable matchType MatchType mule MultiplicityRange u initially De ferred u uniqueKk ey name Str
4. environments SEN name String GlobalConstraint name String expression ExpressionType 1 typeOfCost TypeOfCostType DBMS A name String GlobalSpaceConstraint version String 0 dbms trules 0 Rule name String priority CARDINAL GeneralGlobalConstraint thenPart TuningAction GlobalTimeConstraint Abbildung 10 11 Umgebung und Regeln 10 2 6 Regeln Abbildung 10 12 zeigt den Bereich Regeln F r ein DBMS k nnen ein oder mehrere Wenn Dann Regeln Klasse Rule festgelegt Die drei Typen von Regeln Klassen TaskRule SchemaRule und TaskSchemaRule unterscheiden sich in ihrem Wenn Teil In diesem d rfen nur Bezeichner verwendet werden die gem der Klasse dentifier in Abbildung 10 7 f r den entsprechenden Ausdruckstyp zul ssig sind Regeln werden zu Regelmengen Klasse RuleSet zusammengefasst wobei eine Regel auch mehreren Mengen zugeordnet sein kann Die Bildung von Regelmengen dient der Strukturierung eine Regelmenge dient als Eingabe f r den physischen Entwurfsprozess siehe Abschnitt 10 2 7 Die durch den Dann Teil von zwei Regeln R und Ra hervorgerufenen Optimierungsma nahmen Oh und Oz k nnen Beziehungen aufweisen wobei folgende Szenarien auftreten k nnen f r deren Behandlung der Entwickler in der berarbeitungsphase zust ndig ist e O kann Op berdecken z B Ou Materiali
5. Hinsichtlich der Verdichtung von Daten ist die Hierarchie der wichtigste Dimensionselementtyp Jede Stufe innerhalb der Hierarchie wird durch eine eigene Hierarchieebene dargestellt Die oberste Ebene die direkt mit dem Hierarchie Symbol verbunden ist stellt dabei die h chste Aggregations stufe dar Die unterste ber einem SQL Drill Thru Operator angeordnete Ebene entspricht der feinsten Granularit t mit der die Daten in der dargestellten Datenbank abgelegt sind Gegen ber Hierarchieebenen besitzen Kennzahlendimensionen und partitionierende Dimensionen Dimensions werte Jedes Dimensionselement kann mit Dimensionsattributen um weitere Beschreibungen erg nzt 3 3 Konzeptionelle multidimensionale Datenmodelle 31 Ka m ei 3 D a S S 10 Dimensionswert SE Dimensionsattribut SS Ausschnitt Abbildung 3 15 ADAPT Dimensionselementtypen Bei Hierarchie A Hierarchieebene gt werden Andere Sichtweisen auf Dimensionswerte bzw Hierarchiestufen oder die Betrachtung einer Teilmenge des Wertebereiches einer Dimension erm glichen Dimensionssichten und Ausschnitte Weitere Notationselemente sind Beziehungstypen die Abh ngigkeiten zwischen Dimensionen beschreiben Darin enthalten ist einerseits der aus dem E R Modell bekannte Beziehungstyp hier Dimensionsbeziehung genannt und zus tzlich drei Symbole f r die Modellierung von Unter und Teilmengenbeziehungen Der Fi
6. Column Column name Bezeichnung name ID initialValue NULL initialValue NULL valueExpression NULL valueExpression NULL identityIncrement 0 identityIncrement 1 optional FALSE optional FALSE columns columns type columnSet columnSet type ColumnType Table ColumnType 8 name Woche ii domainName Bezeichnung META_tableType DIMENSION domainName KeyType Abbildung 8 12 Abbildung der Attribute von REMUS nach LCD of SOL F r die Abbildungsvorschrift seien zun chst zwei Hilfsfunktionen definiert e IncrementV alue ermittelt in Abh ngigkeit von der Endung des Attributnamens den Wert O0 oder 1 d h IncrementValue String gt 0 1 1 falls right s 2 ID 8 13 IncrementV alue s ger i sonst e Prefix ermittelt das Pr fix des bergebenen Argumentes bis zum ersten Punkt d h Prefix String gt String def an 4 8 14 String s Teilstring von s bis zum ersten Punkt 8 3 Abbildung von REMUS nach LCD of SOL 185 Damit l sst sich das bertragen eines Attributes formulieren H Attributeoreate R Attributes gt LColumn H Attributecreate 0 ei Set attribute Name a rame NULL NULL IncrementV alue a name NULL 8 15 Jaetrastenam Prefix a name NULL a type NULL NULL Column Die im zweiten Schritt angelegten Tabellen werden entsprechend aktualisiert MAttributeypdate Table R Attributes X L
7. ForeignKeyType 5 C Filialoberkategorie Bezeichnung Text 4 C Filialoberkategorie ID KeyType 3 OC Jahr Bezeichnung Jahr Typ 4 C Jahr ID KeyType 3 Monat Bezeichnung MonatsTyp 4 C Monat ID KeyType 3 Monat Quartal ForeignID ForeignKeyType 5 C Ort des VerkaufsArtikel ID PrimaryKeyType 6 C Ort des VerkaufsArtikel Artikel ForeignID ForeignKeyType 6 C Ort des VerkaufsArtikel Ort des Verkaufs ForeignID ForeignKeyType 6 C Ort des Verkaufs Bezeichnung Text 4 C Ort des Verkaufs ID KeyType 3 Ort des Verkaufs Filialkategorie ForeignID ForeignKeyType 5 C Ort des Verkaufs Kaufhaus Fl che FlachenTyp 4 C Ort des Verkaufs Kaufhaus Gesamtfl che FlichenTyp 4 Ort des Verkaufs Filiale Filialleiter Text 4 Ort des Verkaufs Filiale Filialart Text 4 OC Ort des Verkaufs Stadt ForeignID ForeignKeyType 5 C Ort des Verkaufs Type Identifier ValueType 3 Produktfamilie Bezeichung Text 4 C Produktfamilie ID KeyType 3 Produktfamilie Produktkategorie ForeignID ForeignKeyType 5 Produktgruppe Bezeichnung Text 4 Produktgruppe ID KeyType 3 Produktgruppe Produktfamilie ForeignID Foreign
8. type lt lt Dimension gt gt Dimension Ort propertyName Ort lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp owner FactClass name Verkaufszahl isAbstract FALSE T Dimension Objekte Attribute Verkaufszahl Ort des Verkaufs ForeignID ForeignKeyType Metadaten Verkaufszahl Ort des Verkaufs ForeignID Reference Ort des Verkaufs ID Verkaufszahl PrimaryKey Verkaufszahl Ort des Verkaufs ForeignID Verkaufszahl Multiplicity Verkaufszahl Ort des Verkaufs ForeignID 0 Verkaufszahl Ort des Verkaufs Dimension Ort ALL_TYPES ALL_TYPES Verkaufszahl Ort des Verkaufs ForeignID Ort des Verkaufs ID Abbildung 7 22 Aufl sen von Dimensions angelegt Die Transformation einer Dimension bez einer Faktklasse ist in 7 50 definiert TDimension M Dimension X M FactClass X R gt R TDimension d f R 0 AU 4 f name m d name ForeignI D ForeignKeyType MU vb f name n d name Reference y r d name ID U f name PimaryKey Yy f name m d name ForeignID U f name Multiplicity Y f name m d name ForeignID 0 x U f name n d type name Dimension d propertyN ame d f d d type b a d type name ForeignI D b r d type name ID 7 50 F r das Aufl sen ein
9. with respect to m dimension name m allowedOperators 8 75 J et Aan giga wann m Fact Attribute name w Referential constraint between table Jdetraniename r Fact Relation name and faetrablename T dimensionalRelation name AdditivityMETA Aktualisiert werden m ssen die entsprechenden Column und ReferentialConstraint Objekte was durch die beiden folgenden Funktionen geschieht H Additivityy pdate Column META additivity X LColumn EColumn def H Additivityy pdate Column m c Ze AddColumn Additivity e b Valid operators for det srtributename M Fact Attribute name with respect to m dimension name falls name a factAttribute name c sonst det AttributeName 8 76 202 Kapitel 8 Relationaler Entwurf H Additivityypdate ReferentialConstraint META Agaitivity x L ReferentialConstraint gt L ReferentialConstraint def H AdditivityUpdate ReferentialConstraint m r AddRef erentialConstraint Additivity r Valid operators for det Asa ann M Fact Attribute name 8 77 with respect to Jdetrasiename dimensional Relation name falls r name y Referential constraint between table detrasiename r Fact Relation name and faetrablename r dimensionalRelation name c sonst Die Erweiterung dieser beiden Aktualisierungsfunktionen auf Mengen ergibt H AdditivityupdateSet Column META Additivity X Pot Lcotumn
10. 0 Ort des Verkaufs Artikel Association Gef hrter Artikel wird gef hrt f hrt ALL_TYPES ALL_TYPES Ort des Verkaufs ID Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Artikel ID Ort des VerkaufsArtikel Artikel ForeignID Abbildung 7 12 Transformation von Association Instanzen zwischen DimensionalClasses Wie in Abbildung 7 12 dargestellt setzt sich der Name der Verbindungsrelation aus den Namen der beiden beteiligten DimensionalClass Instanzen zusammen Die Verbindungsrelation erh lt einen k nstlichen Prim rschl ssel sowie die Prim rschl ssel der beiden an der Assoziation beteiligten Klas sen als Fremdschl sseleintr ge In Form von Metadaten werden die Prim rschl sseleigenschaft die beiden Fremdschl sseleintr ge als Konzeptioneller Schl ssel die Referenzen sowie die Multiplizi t ten der Association Instanz festgehalten Das Association Metadatum fasst diese Informationen nochmals zusammen Die Transformationsvorschrift ist in 7 27 formuliert 7 2 Transformationsalgorithmus 139 TAssociation M Association X R gt R T Association a R i OU 1 a endA name n a endB name AU 4 r a endA name r a endB name ID PrimaryKeyType Y r a endA name n a endB name n a endB name ForeignID ForeignKeyType d r a endA name n a endB name n a endA name ForeignID ForeignKeyType M U ib r
11. Kriterium Umsetzbarkeit Beschreibung Ist das vorliegende Schema implementierbar bzw auf die logische Entwurf sebene tranformierbar Grund Das Kriterium ist wichtig denn nur ein konzeptionelles Schema das sich auch umsetzen l sst hat einen Nutzen Ansonsten w rde es der reinen Doku mentation dienen Die Umsetzbarkeit kann dennoch nicht durch ein Review berpr ft werden sondern muss durch einen Transformationsalgorithmus ge w hrleistet werden der zur Methode geh rt Fortsetzung auf der folgenden Seite 104 Kapitel 6 Konzeptioneller Entwurf Fortsetzung von der letzten Seite Kriterium Normalisierung Beschreibung Ist das Schema normalisiert Grund In der Welt relationaler Datenbanken eines der Hauptentwurfsziele im mul tidimensionalen Kontext jedoch nicht kaum relevant weil keine allgemein akzeptierten multidimensionalen Normalformen existieren Tabelle 6 4 F r Reviews ungeeignete Qualit tskriterien 6 4 4 Exkurs Normalformen Die Nicht Relevanz der Normalisierung als Qualit tskriterium f r Konzeptionelle multdimensionale Schemata ist sicherlich ein berraschendes Resultat insbesondere vor dem Hintergrund der Bedeu tung dieses Kriteriums in der relationalen Welt Aus diesem Grunde soll in diesem Exkurs eine wei tergehende Betrachtung erfolgen Dabei wird zun chst als Grundlage die einzige in der Literatur existierend
12. META lt gt sei die Menge aller REMUS Metadaten des Typs t 8 3 Abbildung von REMUS nach LCD of SOL 175 So bezeichnet z B META Dimension die Menge aller Dimension Metadaten An manchen Stellen wird innerhalb eines Schemas der Zugriff nur auf bestimmte Metadaten typen notwendig sein Daher werden in 8 2 Einschr nkungen definiert Sei R O A M ein REMUS Schema Sei t Wertebereich type Dann sei die Einschr nkung Mi mn definiert als M a 1 6 gef m M type m t A m a a A m b b 8 2 a und b k nnen durch das Symbol als Platzhalter f r alle Eintr ge dieser Komponente ersetzt werden Beispielsweise bezeichnet M verkaufszahlen PrimaryKey die Prim rschl sselattribute der Relation Verkaufszahlen und Mu PrimaryKey alle PrimaryKey Metadaten eines Schemas Zur besseren Lesbarkeit der Transformationsabbildungen im folgenden Abschnitt wird die im letz ten Kapitel in den Tabellen 7 1 und 7 2 festgelegte Tupelnotation in den Tabelle 8 5 und 8 6 auf sprechende Bezeichner abgebildet REMUS Kategorie A Metadaten Langform Aggregated Attribute R AggregatedAttribute A M relation name AggregatedAttribute attribute name multiplicity Computation C Computation P Pn F RY computation Computation parameters formula result ConceptualKey R ConceptualkKey A relation name Conc
13. TA05 TableConstraint TCO2 Integrity rule for table Ort_des_Verkaufs 7 Gesamtflaeche IS NULL OR Type Kaufhaus TA05 TableConstraint TC03 Integrity rule for table Ort_des_Verkaufs 7 Filialart IS NULL OR Type Filiale TA05 TableConstraint TC04 Integrity rule for table Ort_des_Verkaufs 7 Filialleiter IS NULL OR Type Filiale TA05 TableConstraint TCOS Table constraint for table Ort_des_Verkaufs Filialkategorie_FK 10 IS NULL OR Type Filiale TAOS TableConstraint UniqueKey UKO1 Primary key of table Artikel TRUE TA01 CO31 URO1 UniqueKey 4 UK02 Primary key of table Jahr TRUE TA02 CO32 URO2 UniqueKey 4 UK03 Primary key of table Einkommen TRUE TA03 CO58 CO65 URO3 4 UniqueKey UK04 Primary key of table Monat TRUE TA04 C033 URO4 UniqueKey 4 UK05 OC Primary key of table Ort_des_Verkaufs TRUE TA05 CO34 UROS 4 UniqueKey UK06 Primary key of table MTMOrt_des_VerkaufsArtikel TRUE TA06 4 C035 UR06 UniqueKey UK07 Primary key of table Produktfamilie TRUE TA07 CO36 URO7 4 UniqueKey UK08 Primary key of table Produktgruppe TRUE TA08 CO37 URO8 4 UniqueKey UK09 Primary key of table Produktkategorie TRUE TA09 CO38 URO9 4 Uniqu
14. U MRollUpupaateset Tabie e OTable M My Association U HROU pu pdateset Column M OColumn m M Association U HRolWU pu pdateset Unique Key Role m OuvniqueKeyRole ME M Association 8 96 Analoge Abbildungsvorschriften m ssen f r die B Seite der Assoziation definiert werden 8 3 17 Schritt 15 Komposition markieren Jedes Composition Metadatum wird als CompositionMETA Objekt festgehalten Es hat somit im Schema keine unmittelbaren Auswirkungen aber das Beibehalten dieser Informationen kann even tuell sp ter f r Lade oder Analysewerkzeuge n tzlich sein Abbildung 8 25 zeigt exemplarisch die Abbildung Die Abbildungsvorschrift zum Anlegen des CompositionMETA Objektes UCompositioncreate META Composition T LComposition META def UCompositiongreate m 8 97 c name c multiplicity c detail c aggregated CompositionMETA Eine Aktualisierungsfunktion ist in diesem Schritt nicht notwendig weil die Beziehung von einer Tabelle zum Metadatum nicht relevant ist Somit kann das bertragen aller Composition Metadaten durch folgende Abbildung erreicht werden M Composition RXL gt L def 8 98 M Composition R L LU U Compositionoreate m me M Composition x 8 3 Abbildung von REMUS nach LCD of SOL 209 Verkauf Verkauftes Produkt Composition Verkauf 0 Me Verkauf Verkauf H composition Mor Na
15. 10 TA08 CO55 FRO7 ForeignKey FK08 Foreign key of table Quartal from table Jahr TA10 C047 10 FRO08 ForeignKey FK09 Foreign key of table Region from table Staat TA11 C062 10 FRO9 ForeignKey FK10 Foreign key of table Stadt from table Region TA13 CO60 10 FR 10 ForeignKey FK11 Foreign key of table Stadt from table Verkaufsbezirk TA13 CO11 10 FR11 ForeignKey FK12 Foreign key of table Strassenbereich from table Stadt TA14 CO64 10 FR12 ForeignKey FK13 Foreign key of table Tag from table Monat TA15 C049 10 FR13 ForeignKey FK14 Foreign key of table Tag from table Woche TA15 C072 10 FR14 ForeignKey FK15 Foreign key of table Verkaufsbezirk from table Region TA17 CO61 10 FR15 ForeignKey FK16 Foreign key of table Einkommen from table Quartal TA03 CO58 10 FR16 ForeignKey FK17 Foreign key of table Einkommen from table Strassenbereich 10 TA03 C065 FR17 ForeignKey FK18 Foreign key of table Verkauf from table Ort_des_Verkaufs 10 TA16 CO51 FR18 ForeignKey FK19 Foreign key of table Verkauf from table Tag TA16 CO66 10 FR19 ForeignKey FK20 Foreign key of table Verkaufszahl from table Artikel TA18 CO05 10 FR20 ForeignKey FK21 F
16. Abbildung 12 7 Resultat der Schemaverfeinerung Sternschema f r Fall 12 3 Das realisierte System ODAWA EKN Dieser Unterabschnitt skizziert das realisierte System ODAWA EKN Dabei wird zun chst in Ab schnitt 12 3 1 die Implementierung des DWH als Produkt der Entwurfsmethodik beschrieben sowie die Bef llung des DWH mit Daten Abschnitt 12 3 2 nennt einige auf dem DWH prototypisch reali sierte Applikationen 12 3 1 Data Warehouse Das als Resultat von Abschnitt 12 2 erzielte Schema wurde sowohl auf einer MS SQL Server 2000 wie auch Oracle 8 Datenbank implementiert um die Zielsystemunabh ngigkeit zu zeigen Die Di mensionen wurde mit Daten aus der bestehenden EKN Datenbank gef llt wobei sich die in Tabelle 12 7 angegebenen Mengenger ste ergeben haben 12 3 Das realisierte System ODAWA EKN 277 Dimension Anzahl Tupel Alter 150 Ausbreitung 6 Autopsie 3 Beruf 2193 C Faktor 6 Diagnose 20696 Diagnoseanlass 8 Diagnosesicherung 7 Differenzierungsgrad 13 Dignit t 6 Fernmetastasen 3 Geschlecht 3 Grundleiden siehe Diagnose Histologie 3189 L ngste T tigkeit siehe Beruf Letzte T tigkeit siehe Beruf Lokalisation 1759 Lymphknoten 4 Mehrling 5 Ort 1314 Ort des Aufwachsens siehe Ort Ort der Geburt siehe Ort Ort des l ngsten Aufenthalts siehe Ort Qualit t 3 Rauchen be
17. Verkauf ALL 10 Verkaufszahl Anzahl Artikel Additivity Produkt Verkaufszahl ALL 10 Verkaufszahl Anzahl Ort des Verkaufs Additivity Ort Verkaufszahl ALL 10 Verkaufszahl Anzahl Tag Additivity Zeit Verkaufszahl ALL 10 Verkauftes Produkt Anzahl D Artikel Additivity 10 Artikel Verkauftes Produkt ALL Verkauftes Produkt Anzahl Ort des Verkaufs Additivity 10 Ort Verkauf Verkauftes Produkt SUM MIN MAX AVG Verkauftes Produkt Anzahl Tag Additivity 10 Zeit Verkauf Verkauftes Produkt ALL Fortsetzung auf der folgenden Seite 300 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite Verkauftes Produkt Einzelpreis Artikel Additivity 10 Artikel Verkauftes Produkt ALL Verkauftes Produkt Einzelpreis Ort des Verkaufs Additivity 10 Ort Verkauf Verkauftes Produkt SUM MIN MAX AVG Verkauftes Produkt Einzelpreis Tag Additivity 10 Zeit Verkauf Verkauftes Produkt ALL Verkauftes Produkt Gesamtpreis Artikel Additivity 10 Artikel Verk
18. Zwischen den beiden Relationen R und Rez ist eine Assoziation definiert die mittels der Zwi schenrelation Rg aufgel st worden ist L und La beschreiben die Rollen der beiden Relatio nen R und R innerhalb der Assoziation die Mengen T und 73 z hlen die zul ssigen Typen auf Pr und FR sind Prim r und Fremdschl ssel von Relation R zur Zwischenrelation Pr und Fr entsprechend f r Ra Composition R R2 Composition C M Zwischen den Relationen R und R besteht eine Komposition C mit der Multiplizit t M Ra ist die Detailrelation dieser Komposition Dimension R Re Dimension D T T2 F P Zwischen der Faktrelation R und der dimensionalen Relation Ra existiert eine Dimension D Die Mengen Ty und 73 z hlen die zul ssigen Typen der Relationen R bzw Ra auf F und P sind Prim r und Fremdschliissel ber die die Beziehung definiert ist DimensionalMapping R Ra DimensionalMapping D Ti To C Zwischen den beiden dimensionalen Relationen R und Ra ist ein DimensionalMapping mit dem Namen D definiert Die Mengen T und T3 z hlen die zul ssigen Typen der Relationen R bzw Ra auf C gibt die Berechnungsvorschrift an RollUp Ri Ra RollUp R Th T F P S Zwischen den dimensionalen Relationen R und Re ist ein Verdichtungspfad mit dem Namen R definiert Die Mengen T und 73 z hlen die zul ssigen Typen der Relationen R b
19. lt lt DimensionalClass gt gt Stadt Bezeichnung Text PLZ PLZTyp al lt lt RollUp gt gt Stadt lt lt RollUp gt gt Filialoberkategorie lt lt NonCompleteRollUp gt gt Verkaufsbezirk lt lt DimensionalClass gt gt Filialoberkategorie Bezeichnung Text lt lt DimensionalClass gt gt Ort des Verkaufs Bezeichnung Text Sn lt lt DimensionalClass gt gt Kaufhaus Flache FlachenTyp Gesamtflache FlachenTyp lt lt DimensionalClass gt gt Filialkategorie Bezeichnung Text lt lt RollUp gt gt Filialkategorie lt lt DimensionalClass gt gt Filiale Beschreibung FilialTyp Abbildung A 4 Ergebnis Konzeptionelle Modellierung Subschema Dimension Ort 296 Anhang A Das Beispiel Handelswelt ALS Subschema Einkommenszahlen Die Faktklasse Einkommen beschreibt die extern bezogenen Daten ber das Einkommen von Per sonen im Einzugsgebiet Uber das Dimensionskonstrukt Zeit wird die zeitliche Komponente dieser extern bezogenen Einkommenszahlen beschrieben Weil diese viertelj hrlich geliefert werden bilden Quartale die Ebene der feinsten Granularit t Ansonsten k nnen die in Abschnitt A 1 2 beschriebenen Hierarchieebenen genutzt werden Die Dimension Ort beschreibt die Verdichtungsstufen der Orte f r die extern bezogenen Einkommenszahlen Feingranularste Ebene sind die Strassenbereiche welche St dten zugeordnet werden k nnen w
20. sale a T SO Schlie lich werden in den Ausdr cken zul ssige Bezeichner durch die Klasse dentifier mit ih ren Attributen ValidFor lt X gt festgelegt siehe Abbildung 10 7 Ist bei einer Instanz dieser Klasse z B das Attribut validForCondition wahr so kann der Bezeichner in Bedingungen verwendet werden Identifier name String validForExpression BOOLEAN validForMethodCall BOOLEAN validForCondition BOOLEAN Abbildung 10 7 G ltige Bezeichner 10 2 2 Annotiertes Schema W hrend bisher ein Schema als Sammlung von Tabellen betrachtet wurde die sich wiederum aus Spalten zusammensetzen siehe LCD of SOL Metamodell auf Seite 164 ff soll in diesem Kapitel von einem annotierten Schema ausgegangen werden Ein annotiertes Schema Klasse Annotated Schema setzt sich aus mehreren annotierten Faktattributen Klasse AnnotatedFactAttribute und 10 2 Metamodell f r den physischen Datenbankentwurf 235 Dimensionen Klasse AnnotatedDimension zusammen die untereinander entsprechend in Bezie hung stehen Jeder Dimension sind mehrere Hierarchieebenen Klasse AnnotatedLevel zugeordnet Die rekursive Assoziation der Klasse AnnotatedLevel modelliert die Hierarchien innerhalb einer Dimension Durch diese Betrachtungsweise lassen sich zum einen unterschiedliche Schematypen wie Stern und Schneeflockenschemata mit dem Framework einheitlich behandeln und zum anderen ist eine klarere Darstellung m glich weil ko
21. 3 4 NULL NULL Column CO39 ID NULL NULL TRUE FALSE TA10 UK10 Autolncrement 3 4 NULL NULL Column CO40 ID NULL NULL TRUE FALSE TAll UK11 AutoIncrement 3 4 NULL NULL Column CO41 ID NULL NULL TRUE FALSE TA12 UK12 Autolncrement 3 4 NULL NULL Column C042 ID NULL NULL TRUE FALSE TA13 UK13 Autolncrement 3 4 NULL NULL Column C043 ID NULL NULL TRUE FALSE TA14 UK14 Autolncrement 3 4 NULL NULL Column CO44 ID NULL NULL TRUE FALSE TA15 UK15 AutoIncrement 3 4 NULL NULL Column CO45 ID NULL NULL TRUE FALSE TA17 UK17 Autolncrement 3 4 NULL NULL Column CO46 ID NULL NULL TRUE FALSE TA20 UK20 Autolncrement 3 4 NULL NULL Column C047 Jahr_FK NULL NULL FALSE FALSE TA10 FK08 QuadInt 3 10 NULL NULL Column Fortsetzung auf der folgenden Seite 310 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite C049 Monat_FK NULL NULL FALSE FALSE TA15 FK13 QuadInt 3 10 NULL NULL Column CO50 Ort_des_Verkaufs_FK NULL NULL FALSE FALSE TA06 UK24 3 5 14 FK27 QuadInt NULL NULL Column COS51 Ort_des_Verkaufs_FK NULL NULL FALSE FALSE TA16 UK16 3 4 10 FK18 QuadInt NULL NULL Column CO52 Ort_des_Verkaufs_FK
22. 9 10 Solche Methoden sind f r alle im LCD of SOL Metamodell festgelegten Objekt Attribut Kombinationen definiert 9 1 3 Referenzen lesen und ver ndern Analog zu den Operationen auf Attributen im letzten Abschnitt sind auch auf den Referenzen von Objekten Lese und Manipulationsoperatoren definiert Der lesende Zugriff wird durch den in 9 11 definierten get Operator festgelegt get lt reference name gt lt set of object names gt lt condition gt 9 11 Als Argument dient dabei eine Menge von Objekten Dadurch ist es m glich mehrere get lt reference name gt Operatoren zu verkn pfen und auf diese Weise die Beziehungen im Metaklassendiagramm entlang zu navigieren Als optionales Argument haben get lt reference name gt Anweisungen eine Be dingung in Form eines Booleschen Ausdrucks ber die Variablen der zur ckgelieferten Metaklasse Resultat ist bei Angabe einer Bedingung nur die Teilmenge die der Bedingung gen gt get lt reference name gt Operatoren sind f r alle im LCD of SOL Metamodell definierten Referenzen festgelegt Im Unterschied zu der gleichlautenden Operation auf Attributen ist hier jedoch das Resultat mengenwer tig so liefert das erste Beispiel in 9 12 die Menge der Tabellen des Schemas S Bei Beziehungen im Metamodell mit der Multiplizit t 1 oder O 1 wird das Ergebnis als 1 elementige Menge auf gefasst Das zweite Beispiel in 9 12 liefert den Datentyp der Spalte B der
23. 93 zu k nnen Das name Attribut dient hingegen als interner Bezeichner und besitzt keine UML Darstellung F r die dimensionalen Eigenschaften Dimension RollUp sowie NonCompleteRollUp sind Multiplizi t tsangaben und Rollenbezeichnungen nicht vorgesehen weil auf der owner Seite implizit von einer 1 zu Viele bzw 0 1 zu Viele Multiplizit t ausgegangen wird F r die type Seite bei der immer genau ein DimensionalClass Objekt referenziert werden muss gilt folglich die Multiplizit t 1 1 Anders verh lt es sich hingegen bei den Metaklassen SharedRollUp und DimensionalMapping die jeweils ein multiplicity Attribut f r die Aufnahme einer durch den Modellierer spezifizierbaren Multiplizit tsangabe f r die type Seite besitzen Diese sollte nur explizit angegeben werden wenn sie nicht O ist die Angabe dieses Standardwertes stellt aber keinen Versto gegen die UML Notation dar Da Dimension und RollUp Verbindungen auch die Schl sseleigenschaft besitzen wird die f r die Attribute definierte Elementeigenschaft isKey bernommen Zur Verdeutlichung der dimensionalen Eigenschaften von DimensionalClass und FactClass Objekten zeigt Abbildung 6 20 die FactClass Klasse Verkauf und die zugeordneten Dimensionen Zeit und Produkt die jeweils einen einfachen Hierarchiepfad aufweisen lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Woche Produktgruppe lt lt DimensionalClass gt gt lt lt RollUp gt
24. AddTableConstraint t b Integrity rule aggregated attribute for table Jdetrastenam M relation name falls t name m relation name t sonst JdetravieName 8 61 Die Erweiterung auf eine Menge von Table Objekten H AggregatedAttributerpdateSet META Aggregated Attribute x Pot Lrabie gt Pot Lrabie de i 8 62 H AggregatedAttributey pdateSet m U H AggregatedAttributey pdate m tet 8 3 Abbildung von REMUS nach LCD of SOL 197 Schlie lich wird die Abbildung aller AggregatedAttribute Metadaten eines Schemas durchgef hrt M AggregatedAttribute RXL gt L def M Aggregated Attribute R L gt L Orable U U AggregatedAttributecreate m me M x AggregatedAttribute U U AggregatedAttributey pdateset m OTabie me M x AggregatedAttribute 8 63 8 3 12 Schritt 10 Dimensionspfade anlegen F r jedes Dimension NonCompleteRollUp bzw RollUp Objekt wird die Referenz des entspre chenden UniqueKeyRole Objektes aktualisiert Weiterhin werden jeweils ein ForeignKey und ein ForeignKeyRole Objekt angelegt und in die entsprechenden Table bzw Column Objekte eingetra gen Schlie lich wird ein ReferentialConstraint Objekt erzeugt Ist die Dimension bzw NonComplete RollUp Beziehung an bestimmte Typen gekn pft so ist zus tzlich ein TableConstraint Objekt notwendig Im Beispiel aus Abbildung 8 20 ist das RollUp nur dann zul ssig wenn ein Datensatz in Tabelle Ort_d
25. Jahr ALL_TYPES ALL_TYPES 5b Berechnung Jahr SUM Valid OC Ort des Verkaufs Kaufhaus Fl che Valid Ort des Verkaufs Type Kaufhaus 4 Ort des Verkaufs Kaufhaus Gesamtfl che Valid Ort des Verkaufs Type 4 Kaufhaus Ort des Verkaufs Filiale Filialleiter Valid Ort des Verkaufs Type Filiale 4 Ort des Verkaufs Filiale Filialart Valid Ort des Verkaufs Type Filiale 4 Tabelle A 1 Alle REMUS Objekte des Beispiels Handelswelt A 3 LCD of SOL Schema 305 A 3 LCD of SQL Schema In diesem Abschnitt wird die Abbildung des Beispielschemas von REMUS nach LCD of SQL dokumentiert indem zun chst die deterministischen Funktionen definiert und anschlie end alle erzeugten Schemaobjekte aufgelistet werden A 3 1 Die deterministischen Funktionen Schritt 1 EE Tabelle A 2 zeigt die in Schritt 1 von fdetpatarype gelieferten Werte REMUS Objekt Datentyp in LCD of SOL ArtikelcodeTyp String Bundesland Kanton String range Bundesland Kanton Fl chenTyp LongInt JahrTyp Date timePrecision YEARS MonatsTyp Date timePrecision MONTHS PLZTyp String columnSize 5 QuartalsTyp Date timePrecision QUARTERS St ckzahlTyp LongInt TagTyp Date timePrecision DAYS Text String W hrung Decimal WochenTyp Date timePrecision WEEKS KeyType AutoIn
26. Kapitel 11 ODAWA Eine Implementierung der Entwurfsmethodik In diesem Kapitel wird ODAWA die Implementierung der in Teil II vorgestellten Entwurfsmetho dik beschrieben Zun chst werden in Abschnitt 11 1 einige Aspekte zur Konzeption des Werkzeugs vorgenommen Die aus diesen berlegungen resultierende Architektur wird in Abschnitt 11 2 vor gestellt Abschnitt 11 3 nennt eingesetzte Sprachen sowie Werkzeuge und skizziert die Realisierung Abschnitt 11 4 vermittelt anhand einiger Bildschirmfotografien einen Eindruck von der Benutzungs schnittstelle Das Kapitel endet mit einer Zusammenfassung in Abschnitt 11 5 11 1 Konzeption Abbildung 11 1 skizziert die Konzeption des Werkzeugs ODAWA das die in den Kapiteln 6 bis 10 vorgestellte Methodik implementiert Project Information 1 Project name String information name String date Datetime date Datetime remark String remark String Ko copy create delete document open projectProcess Schema Dia Oe Step K input input step N 0 output step 1 copy 0 1 o delete Lost Se inactivate Protocol File documentate Ko path String MML Schema REMUS Schema LCD of SQL Schema Annotated Schema ee m nn nn check transform annotate annotate create implement implement model
27. String IdentifierValueType String Inzidenzfall Sterbefall String range Inzidenzfall Sterbefall KeyType LongInt L ndercodeTyp String columnSize 4 LandkreisTyp String Positive ganze Zahl LongInt numericPrecision 10 isUnsignedAttribute TRUE Text String Text 2 stellig String isFixedLength TRUE ColumnSize 2 Text 3 stellig String isFixedLength TRUE ColumnSize 3 Text 4 stellig String isFixedLength TRUE ColumnSize 4 Text 5 stellig String isFixedLength TRUE ColumnSize 5 Fortsetzung auf der folgenden Seite 274 Kapitel 12 Evaluation Fortsetzung von der letzten Seite Text 6 stellig String isFixedLength TRUE ColumnSize 6 Text 8 stellig String isFixedLength TRUE ColumnSize 8 UrbanisierungdsgradTyp String range St dtisch L ndlich Gemischt Zahl 4 stellig ShortInt range 0 9999 numericPrecision 5 isUnsignedAttribute TRUE Tabelle 12 5 Abbildung der Datentypen von REMUS nach LCD of SQL Um einen Eindruck des Schemaumfangs zu geben sind in Tabelle 12 6 die verschiedenen LCD of SQL Schemaelementtypen und die von ihnen erzeugte Anzahl aufgelistet Schemaelementtyp Anzahl Additivity META 268 Column 300 ColumnConstraint 0 ColumnType 22 DatabaseConstraint 0
28. und einem dieses K rzel beschreibenden Langtext besteht Verwendung findet diese in Abbildung B 2 dargestellte Datenklasse in diversen Dimensionen in den Unterabschnitten B 4 bis B 38 lt lt DataClass gt gt Aufzahlungstyp K rzel Abk rzungsTyp Beschreibung Text Abbildung B 2 Konzeptionelle Modellierung Datenklasse Aufz hlungstyp B 3 Dimension Alter Die Dimension Alter besitzt als Ebene der feinsten Granularit t eine Altersangabe diese wird f r verschiedene Auswertungszwecke zu den Hierarchieebenen Altersgruppen f r standardisierte Mortalit t zur Berechnung der standardisierten Mortalit t Werte sind 35 64 sowie 65 Kumulative Altersgruppen zur Berechnung der kumulativen Inzidenzrate Werte sind hier 0 64 und O 74 und zu F nfjahresaltersgruppen Werte sind hier 0 4 5 9 80 84 sowie o verdichtet lt lt DimensionalClass gt gt Altersgruppe f r lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt standardisierte Mortalitat Kumulative Altersgruppe F nfjahresaltersgruppe Bezeichnung Text 5 stelig Bezeichnung Text 5 stellig Bezeichnung Text 5 stellig ne lt lt RollUp gt gt ____ lt lt RollUp gt gt Kumulative Altersgruppen Funfjahresaltersgruppen standardisierte Mortalitat lt lt DimensionalClass gt gt Alter Alter Positive ganze Zahl T
29. 1 Beschreibung einer bestimmten Eigenschaft der Objekte einer Klasse 2 Beschreibung einer bestimmten Eigenschaft der Entit ten eines Entitatstyps Back End Bereich Teil des Data Warehouse Systems Der umfasst die zwischen den Datenquellen und dem Data Warehouse angesiedelten Komponenten Basisklasse Synonym f r Oberklasse Berichtswerkzeug Werkzeugtyp aus dem Front End Bereich eines Data Warehouse Systems e erzeugen mittels vordefinierter eventuell parametrisierter Abfragen Auswertungen der Da ten reichern diese eventuell um einfache arithmetische Operationen an und repr sentieren sie in Form von Berichten Diese k nnen tabellarisch oder in Form von Diagrammen dargestellt sein Beschreibungsebene Zustand im tEntwurfsprozess Beschreibungsformalismus Darstellungsform f r fEntwurfsdokumente Beziehung Abh ngigkeit zwischen zwei Modellelementen Bidirektionale Assoziation Beidseitig direkt navigierbare FAssoziation d h eine Assoziation bei der von beiden beteiligten Assoziationsrollen zur jeweils anderen direkt navigiert werden kann Constraint Semantische Bedingung bzw Restriktion Cursor Erm glicht die satzweise Verarbeitung einer Menge von Datens tzen mit Hilfe eines Zei gers Glossar 341 Data Mart Kleines Data Warehouse das sich auf einzelne abteilungsspezifische oder ge sch ftsprozessorientierte Unternehmensausschnitte beschr nkt Data Migration Transformation die dem Zwec
30. 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL gt 00000 AND lt 99999 TRUE NULL ColumnType CT07 Date QuartalsTyp NULL NULL NULL FALSE TRUE FALSE 1 FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE TIMEPRECISION_QUARTERS ColumnType CT08 LongInt St ckzahlTyp NULL NULL NULL FALSE TRUE FALSE 1 FALSE FALSE FALSE TRUE NULL NULL 0 NULL 10 NULL gt 0 TRUE NULL ColumnType CT09 Date TagTyp NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE TIMEPRECISION_DAYS ColumnType CT10 CString Text DOUBLE_BYTE NULL NULL FALSE TRUE FAL 1 SE FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE NULL ColumnType CT11 Double W hrung NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE TRUE NULL NULL 0 NULL 10 NULL gt 0 TRUE NULL ColumnType CT12 Date WochenTyp NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE TIMEPRECISION_WEEKS ColumnType CT13 Autolncrement PKTyp NULL NULL NULL TRUE TRUE FAL 1 SE FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE NULL ColumnType CT14 QuadInt FKTyp
31. 17 18 19 20 21 22 23 oN e em em em em em N procedure createStarWithID S TRoot getTables S tableTypeMETA DIMENSION A getConstraints getRole getRole getUniqueKeys t isPrimary TRUE typeMETA DIMENSION forall t in Toot T getTable getUniqueKey getUniqueKeyRole getConstraint getRole getForeignKey t forall u in T C getColumns u nameZ ID forall c in C setName c fdet AttributeName oli setColumnSet c t if Eingeschraenktes RollUp von t nach u then setTableConstraint t fdetrapteconstraint 3 end if Mind ein nicht vollst RollUp von t nach u then setOptional c TRUE end endfor endfor deleteTable u endfor end Algorithmus 9 2 Algorithmus createStarWithID 9 3 Verfeinerungsalgorithmen 223 Algorithmus 9 2 arbeitet wie folgt In den Zeilen 2 bis 4 werden alle dimensionalen Tabel len ermittelt die mit Fakttabellen verbunden sind d h die feingranularste Hierarchieebene darstellen In der for Schleife von Zeile 5 bis 22 werden diese Tabellen abgearbeitet indem zun chst in den Zeilen 6 und 7 alle Tabellen der Dimension ermittelt werden Dann wird zu jeder Tabelle die Attributmenge ermittelt Zeile 9 und in der innersten for Schleife die Wurzeltabelle der Dimension um alle Attribute bis auf das Surrogat erweitert Den Attributnamen bestimmt die deterministische Funktion faetagrisutename Fine M glichkeit ihrer Definition w re jedem Attribut als Pr f
32. ALL 11 C007 RC17 AdditivityMETA AD16 Valid operators for Betrag with respect to Zeit_Einkommen ALL 11 C007 RC16 AdditivityMETA Column CO01 Anzahl NULL NULL FALSE FALSE TA18 St ckzahlTyp 3 11 NULL AD03 AD04 ADO5 Column CO02 Anzahl NULL NULL FALSE FALSE TA19 St ckzahlTyp 3 11 NULL AD06 AD07 ADO8 AD09 AD10 AD11 AD12 AD13 AD14 Column COU Artikelcode NULL NULL FALSE FALSE TA01 UK21 3 5 ArtikelcodeTyp NULL NULL Column CO04 Artikel_FK NULL NULL FALSE FALSE TA06 UK24 FK26 3 5 14 QuadInt NULL NULL Column C005 Artikel FK NULL NULL FALSE FALSE TAl8 UK18 FK20 3 4 10 QuadInt NULL NULL Column CO06 Artikel FK NULL NULL FALSE FALSE TA19 UK19 FK23 3 4 10 QuadInt NULL NULL Column C007 Betrag NULL NULL FALSE FALSE TA03 W hrung NULL 3 11 AD15 AD16 Column CO08 Betrag NULL NULL FALSE FALSE TA16 W hrung NULL 3 11 AD01 AD02 Column C009 Bezeichnung NULL NULL FALSE TRUE TAO1 String NULL 3 8 NULL Column CO10 Bezeichnung NULL NULL FALSE FALSE TA02 UK22 JahrTyp 3 5 NULL NULL Column CO11 Bezeichnung NULL NULL FALSE FALSE TA04 UK23 3 5 MonatsTyp NULL NULL Column CO12 Beze
33. Basierend auf den Datenmodellanforderungen aus Abschnitt 3 2 werden die in Abschnitt 3 3 vorge stellten Modelle MERM Multidimensional E R Modell starER Modell ADAPT Application Design for Analytical Processing Technologies DFM Dimensional Fact Model MD Modell Multidimensional Data Model und MAC Modell Multidimensional Aggregation Cube in den Tabellen 3 1 und 3 2 bez der Kriterien formale Modellgrundlage m glicherweise existierender Werkzeugunterst tzung innere Struktur von Fakten Beziehungen zwischen Fakten Eigenschaften von Kennzahlen dimensionale Eigenschaften auf Schemaebene und dimensionale Eigenschaften auf Instanzebene vergleichend gegen bergestellt Neben den bei den einzelnen Modellen in den Abschnitten 3 3 1 bis 3 3 6 genannten Kritikpunkten lassen sich folgende modell bergreifende Aspekte nennen Kein Modell erm glicht es Beziehungen zwischen Fakten auszudr cken Die anteilige Verrechnung wird in den meisten Modellen vernachl ssigt Kein Modell basiert auf einer objektorientierten Grundlage Modelling Analyses of Data in Epidemiological InteRActive studies 38 Kapitel 3 Multidimensionale Datenmodelle Konzeptionelle Datenmodelle Mulidimensional ER Modell EE 8 starER Mode EE Technologies ADAPT Modellgrundlage E R Modell E R Modell Keine propriet rer Ansatz Notationse
34. Logischer Entwurf 160 MML Schema lt lt DimensionalClass gt gt Jahr Bezeichnung JahrTyp un De bg lt lt RollUp gt gt Jahr lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Woche Quartal Staat Bezeichnung WochenTyp Bezeichnung QuartalsTyp Bezeichnung Text T lt lt RollUp gt gt lt lt RollUp gt gt Quartal Staat 7 i i lt lt RollUp gt gt lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Regon Monat Region lt lt PollUp gt gt Bezeichnung Text Woche Bezeichnung MonatsTyp Typ der Region Bundesland Kanton lt lt DimenslonalGlasess G Verkaufsbezirk lt lt RollUp gt gt Monat Bezeichnung Text 7 lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt lt lt RollUp gt gt Tag Stadt Verkaufsbezirk Bezeichnung TagTyp Bezeichnung Text PLZ PLZTyp lt lt Dimension gt gt lt lt RollUp gt gt Zeit Stadt l lt lt FactClass gt gt EDOS lt lt DimensionalClass gt gt lt lt Dimension gt gt Verkauf On Ort des Verkaufs Produkt Betrag W hrung lt lt DimensionalClass gt gt Artikel Bezeichnung Text Artikelcode Artikelcode Typ T lt lt RollUp gt gt Produktgruppe lt lt DimensionalClass gt gt Pr
35. ObjectType DataType 1 Monat ObjectType Relation Dimension 3 MonatsTyp ObjectType DataType A Ort des Verkaufs ObjectType Relation Dimension 3 PLZTyp ObjectType DataType 1 Produktfamilie ObjectType Relation Dimension 3 OC Produktgruppe ObjectType Relation Dimension 3 Produktkategorie ObjectType Relation Dimension 1 3 Quartal ObjectType Relation Dimension 3 QuartalsTyp ObjectType DataType 1 Region ObjectType Relation Dimension 3 Staat ObjectType Relation Dimension 3 Stadt ObjectType Relation Dimension 3 Strassenbereich ObjectType Relation Dimension 3 St ckzahlTyp ObjectType DataType 1 Tag ObjectType Relation Dimension 3 TagTyp ObjectType DataType 1 Text ObjectType DataType 1 Verkauf ObjectType Relation Fact 8 Verkaufsbezirk ObjectType Relation Dimension 3 Verkaufszahl ObjectType Relation Fact 8 Verkauftes Produkt ObjectType Relation Fac
36. Ort Einkommen ALL_TYPES 9 ALL_TYPES Einkommen Strassenbereich ForeignID Strassenbereich ID Fortsetzung auf der folgenden Seite A 2 REMUS Schema 301 Fortsetzung von der letzten Seite Verkauf Ort des Verkaufs Dimension Ort Verkauf ALL_TYPES ALL_TYPES 9 Verkauf Ort des Verkaufs ForeignID Ort des Verkaufs ID Verkauf Tag Dimension Zeit Verkauf ALL_TYPES ALL_TYPES 9 Verkauf Tag ForeignID Tag ID Verkaufszahl Artikel Dimension Produkt ALL_TYPES ALL_TYPES 9 Verkaufszahl Artikel ForeignID Artikel ID Verkaufszahl Tag Dimension Zeit ALL_TYPES ALL_TYPES 9 C Verkaufszahl Tag ForeignID Tag ID Verkaufszahl Ort des Verkaufs Dimension Ort ALL_TYPES ALL_TYPES 9 Verkaufszahl Ort des Verkaufs ForeignID Ort des Verkaufs ID Verkauftes Produkt Artikel Dimension Artikel ALL_TYPES ALL_TYPES 9 Verkauftes Produkt Artikel ForeignID LC Artikel ID Verkauftes Produkt Ort des Verkaufs Dimension Ort Verkauf ALL_TYPES 9 ALL_TYPES Verkauftes Produkt Ort des Verkaufs ForeignID Ort des Verkaufs ID Verkauftes Produkt Tag Dimension Zeit V
37. Stadt ID 3 Strassenbereich PrimaryKey Strassenbereich ID 3 Tag PrimaryKey Tag ID 3 Verkauf PrimaryKey Verkauf Ort des Verkaufs ForeignID 9 Verkauf PrimaryKey Verkauf Tag ForeignID 9 Verkaufsbezirk PrimaryKey Verkaufsbezirk ID 3 Verkaufszahl PrimaryKey Verkaufszahl Artikel ForeignID 9 Verkaufszahl PrimaryKey Verkaufszahl Tag ForeignID 9 Verkaufszahl PrimaryKey Verkaufszahl Ort des Verkaufs ForeignID 9 Verkauftes Produkt PrimaryKey Verkauftes Produkt Artikel ForeignID 9 Verkauftes Produkt PrimaryKey Verkauftes Produkt Ort des Verkaufs ForeignID 9 Verkauftes Produkt PrimaryKey Verkauftes Produkt Tag ForeignID 9 C Woche PrimaryKey Woche ID 3 Reference Artikel Produktgruppe ForeignID Reference Produktgruppe ID 5 Einkommen Quartal ForeignID Reference Quartal ID 9 Einkommen Strassenbereich ForeignID Reference Strassenbereich ID 9 Filialkategorie Filialoberkategorie ForeignID Reference Filialoberkategorie ID 5 Monat Quartal ForeignID Reference Quartal ID 5 Ort des Verkaufs Filialkategorie ForeignID Reference Filialkategorie ID 5 Ort des Verkaufs S
38. TDataType d R a O U d name A M U d name ObjectType DataType 7 8 7 2 Transformationsalgorithmus 127 DataType Name Text type property DimensionalAttribute Name Bezeichnung lt lt DimensionalClass gt gt Produktgruppe Bezeichnung Text attribute owner DimensionalClass Name Produktgruppe T DataType Objekte Text Attribute Metadaten Text ObjectType DataType Abbildung 7 5 Transformation von DataType Instanzen Die Transformation aller Datentypen eines Schemas geschieht mittels der Vorschrift in 7 9 TDataT ype M x R gt R d TDataT ype M R def U TDataT ype d R de MDataType U KeyT ype ForeignKeyT ype IdentifierV alueT ype 0 KeyT ype ObjectType DataType ForeignK eyT ype ObjectType DataType IdentifierV alueT ype ObjectType DataT ype 7 9 7 2 3 Schritt 2 Transformation von DataClass Schemaelementen DataClass Instanzen stellen komplexe Datentypen in Form geschachtelter Verbunde zur Verf gung Um die erste Normalform zu erf llen m ssen diese Strukturen aufgel st werden so dass als Resultat dieses Transformationsschrittes einem komplexen Datentyp eine Menge von Attributen mit zugeh rigem elementarem Datentyp zugeordnet wird Di
39. and Quartal 0 10 MATCHTYPE_FULL_MATCH FK03 RC03 ForeignKeyRole FRO4 Role of foreign key between tables Ort_des_Verkaufs and Filialkategorie 10 0 MATCHTYPE_FULL_MATCH FK04 RC04 ForeignKeyRole FROS Role of foreign key between tables Ort_des_Verkaufs and Stadt 0 10 MATCHTYPE_FULL_MATCH FK05 RC05 ForeignKeyRole FRO6 Role of foreign key between tables Produktfamilie and Produktkategorie 10 0 MATCHTYPE_FULL_MATCH FK06 RC06 ForeignKeyRole FRO7 Role of foreign key between tables Produktgruppe and Produktfamilie 10 0 MATCHTYPE_FULL_MATCH FK07 RC07 ForeignKeyRole FRO8 Role of foreign key between tables Quartal and Jahr 0 MATCH 10 TYPE_FULL_MATCH FK08 RC08 ForeignKeyRole FRO9 Role of foreign key between tables Region and Staat 0 MATCH 10 TYPE_FULL_MATCH FK09 RC09 ForeignKeyRole FR10 Role of foreign key between tables Stadt and Region 0 MATCH 10 TYPE_FULL_MATCH FK10 RC10 ForeignKeyRole FR11 Role of foreign key between tables Stadt and Verkaufsbezirk 0 10 MATCHTYPE_FULL_MATCH FK11 RC11 ForeignKeyRole FR12 Role of foreign key between tables Strassenbereich and Stadt 0 10 MATCHTYPE_FULL_MATCH FK12 RC12 ForeignKeyRole FR13 Role of foreign key between ta
40. hnlicher Test durchgef hrt werden wenn man sagen kann B enth lt As oder B besteht aus As oder A ist Teil von B so liegt meistens eine Komposition vor Fortsetzung auf der folgenden Seite 6 3 Leitfaden zum Erstellen eines Schemas 97 Fortsetzung von der letzten Seite Phase II Dimensionen finden Schritt 5 Finde zu jeder Faktklasse Dimensionen Zu jeder Faktklasse sind Dimensionen zu bestimmen die die Werte der Attribute quali fizieren Um alle Dimensionen einer Faktklasse vollst ndig zu erfassen hilft es die W Fragew rter zu beantworten Wo wann was wie treten die Faktattribute auf Schritt 6 Bestimme f r jede Dimension die Ebene der feinsten Granularit t F r jede Dimension ist zu berpr fen welche Anforderungen die potenziellen Analysen und Auswertungen an die Ebene der feinsten Granularit t haben Diese Ebene der fein sten Granularit t ist entsprechend als DimensionalClass an der Dimension Beziehung zur entsprechenden FactClass einzutragen Schritt 7 Bestimme f r jede Kombination Faktattribut Dimension zul ssige Operatoren F r jedes Attribut jeder Faktklasse ist bez glich jeder Dimension zu berpr fen welche Verdichtungsfunktionen f r diese Kombination zugelassen sein sollen Standardm ig sind alle Operatoren zugelassen dies kann jedoch in Abh ngigkeit der Daten Probleme geben Phase III Hierarc
41. lt lt DimensionalClass gt gt Stadt Abbildung 6 31 UML Beispiel Ergebnis Schritt 8 Dimensionale Klassen Schritt 9 Finde innerhalb dieser dimensionalen Klassen Vererbungshierarchien Offenbar sind Filiale und Kaufhaus auf der untersten Ebene der Ortsdimension angesiedelte Klassen Unter der Annahme dass sich die beiden Klassen in ihren beschreibenden Attributen unterscheiden kann hier Vererbung mit einer abstrakten Oberklasse zum Einsatz kommen siehe Abbildung 6 32 Kapitel 6 Konzeptioneller Entwurf lt lt DimensionalClass gt gt Ort des Verkaufs lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Filiale Kaufhaus Abbildung 6 32 UML Beispiel Ergebnis Schritt 9 Vererbung zwischen dimensionalen Klassen Schritt 10 Finde innerhalb dieser dimensionalen Klassen Hierarchie Beziehungen Die Hierarchie der Produktdimension ist aufgrund der Vorgaben relativ einfach zu finden in der Zeitdimension spielt die Woche eine Sonderrolle denn sie l sst sich nicht eindeutig auf eine Klasse gr berer Granularit t abbilden so dass hier der SharedRollUp Operator zum Einsatz kommt In der Ortsdimension schlie lich tritt der Fall einer unbalancierten Hierarchie auf weil aufgrund der Problembeschreibung in Abschnitt 6 5 1 in der Schweiz die Ebene der Verkaufsregion nicht existiert Eine wesentliche Entwurfsentscheidung an dieser Stelle ist die Frag
42. 26 27 32 38 39 74 79 80 G343 attribut 19 G343 ForeignKey LCD of SQL 179 197 199 200 205 206 ForeignKeyRole LCD of SQL 169 180 197 199 200 205 206 Front End Bereich G343 Galaxieschema 46 GeneralGlobalConstraint 237 Generalisierung 24 117 GeneralizableElement MML 76 79 Generalization MML 82 Gepackter R Baum 47 GlobalConstraint 237 GlobalSpaceConstraint 237 GlobalTimeConstraint 237 Granularitat 21 G343 Gruppierung 20 G343 sfunktion 20 Hashpartitionierung 48 Hierarchie 20 26 27 30 32 G343 ebene 20 24 26 30 32 34 35 38 39 45 79 117 G343 pfad 35 74 Mehrfach 20 G345 Multiple 20 G346 Unbalancierte 21 25 117 G349 HOLAP 42 119 Identifier 234 237 Identifier REMUS 121 132 176 191 Identifier Value REMUS 121 132 176 191 Implementierung Architektur 255 Bibliothek 257 Deterministische Funktion 263 Fremdbibliothek 257 GUI 259 Konzeption 253 Metadatenhaltung 256 Projekt 254 Projektablauf 254 Projektstartseite 261 Protokolldatei 254 Index 47 G343 B Baum 47 B Baum 47 Bitmap 47 Gepackter R Baum 47 R Baum 47 R Baum 47 R Baum 47 UB Baum 47 X Baum 47 Kategorie A Metadaten 120 121 G344 Kategorie B Metadaten 122 G344 Kennzahl 19 35 38 39 45 85 G344 ForeignKey LCD of SQL 168 Key LCD of SQL 168 UniqueKey LCD of SQL 168 Kollabierte Sternschema 46 Kompromissphase 240 Kosten
43. AD12 AD13 AD14 ReferentialConstraint RC26 Referential constraint between tables MTMOrt_des_VerkaufsArtikel and 14 Artikel ASSOCIATION ALL_TYPES ALL_TYPES UROI FR26 NULL ReferentialConstraint RC27 Referential constraint between tables MTMOrt_des_VerkaufsArtikel and 14 Ort_des_Verkaufs ASSOCIATION ALL_TYPES ALL_TYPES UROS FR27 NULL ReferentialConstraint Table TAOL Artikel DIMENSION CO03 CO09 CO31 CO56 UKO1 2 3 4 5 UK21 FK01 Table 10 TA02 Jahr DIMENSION CO10 CO32 UK02 UK22 Table 2 3 5 TAO3 Einkommen FACT CO07 CO58 C065 UK03 FK16 2 3 4 FK17 Table 10 TA04 Monat DIMENSION CO11 C033 C059 UK04 2 3 4 5 UK23 FK03 Table 10 TAOS Ort_des_Verkaufs DIMENSION CO12 C034 C028 C029 C027 2 3 4 7 C026 C063 C069 CO77 UK05 FK04 FK05 TCO1 TC02 TC03 10 TC04 TC05 Table TA06 MTMOrt_des_VerkaufsArtikel ASSOCIATION CO04 CO35 2 3 4 5 CO50 UK06 UK24 FK26 FK27 Table 14 TA07 Produktfamilie DIMENSION CO 13 C036 C057 UK07 2 3 4 5 UK25 FK06 Table 10 Fortsetzung auf der folgenden Seite 316 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite TAOS Produktgruppe DIMENSION CO14 C037 C055 UK08 2 3 4 5 UK26 FK07 Table 10 TAOS Produktkategorie DIMENS
44. ALL_TYPES UR14 FR17 AD15 ReferentialConstraint RC18 Referential constraint between tables Verkauf and Ort_des_Verkaufs 10 11 DIMENSION ALL_TYPES ALL_TYPES URO5 FRI18 ADO1 ReferentialConstraint RC19 Referential constraint between tables Verkauf and Tag DIMENSION 10 11 ALL_TYPES ALL_TYPES UR15 FR19 AD02 ReferentialConstraint RC20 Referential constraint between tables Verkaufszahl and Artikel 10 11 DIMENSION ALL_TYPES ALL_TYPES UROI FR20 AD03 ReferentialConstraint RC21 Referential constraint between tables Verkaufszahl and Tag DI 10 11 MENSION ALL_TYPES ALL_TYPES URI5 R21 AD05 ReferentialConstraint RC22 Referential constraint between tables Verkaufszahl and Ort_des_Verkaufs 10 11 DIMENSION ALL_TYPES ALL_TYPES UROS FR22 AD04 ReferentialConstraint RC23 Referential constraint between tables Verkauftes_Produkt and Artikel 10 11 DIMENSION ALL_TYPES ALL_TYPES UROI FR23 AD06 AD07 AD08 ReferentialConstraint RC24 Referential constraint between tables Verkauftes_Produkt and 10 11 Ort_des_Verkaufs DIMENSION ALL_TYPES ALL_TYPES URO05 FR24 AD09 AD10 AD11 ReferentialConstraint RC25 Referential constraint between tables Verkauftes_Produkt and Tag DI 10 11 MENSION ALL_TYPES ALL_TYPES URI15 FR25
45. Boolean literalPrefix String literalSuffix String maximumScale Integer 1 columns minimumScale Integer name String columnSet Column RER x numericPrecision Integer identityIncrement Integer ts numericPrecisionBinary Integer optional Boolean 0 range RangeType valueExpression Expression searchable Searchable timePrecision TimePrecisionType 1 type Attribute initialValue Expression name String Abbildung 8 3 LCD of SQL Metamodell Bereich Relational Basics Mit Hilfe von Instanzen der Metaklasse ColumnType werden die Datentypen detailliert beschrieben Tabelle 8 2 gibt an welche Bedeutung und zul ssigen Werte die einzelnen Attribute besitzen Attribute der Metaklasse ColumnType characterType Charac Dieses Attribut spezifiziert den verwendeten Zeichensatz terType columnSize Long Die L nge eines nicht numerischen Typs die entweder das Maximum oder die festgelegte L nge dieses Typs beschreibt F r Zeichenketten ist dieser Wert das Maximum oder die este L nge in Zeichen F r Zeitdatentypen ist es die L nge der Zeichenkettenrepr sentation unter Annahme der maximal erlaubten Pr zision wie sie im Attribut timePrecision angegeben wird Ist der Datentyp numerisch so gibt ColumnSize die Obergrenze der maximalen Genauigkeit an Fortsetzung auf der folgenden Seite 8 2 Das relat
46. Der neue Prim rschl ssel erh lt die Rolle des alten alle Fremdschl sseleintr ge werden aktualisiert Die alten Fremdschl ssel spalten werden gel scht Der Effekt des Operators ChangePrimaryKey ist in Abbildung 9 2 zu sehen seine algorithmische Definition in Algorithmus 9 1 angegeben 218 Kapitel 9 Verfeinerung des Schemas 1 2 3 4 5 6 7 8 oN em em EN em em em e 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 D1 ID CounterType D2 A String type UD CounterType B String ROLL_UP A String D2 ID Long N eee A D1 ID CounterType D2 A String ype NA String B String ROLL_UP D2 A String N Abbildung 9 2 Funktionsweise des komplexen Operators changePrimaryKey procedure changePrimaryKey t a 5 An oldPrimaryKey GetUniqueKey t isPrimary TRUE oldRole GetRole oldPrimaryKey newPrimaryKey createUniquekey ib Primary key of table t name TRUE t a Ay 01dRole for i 1 ton addKeys a newPrimaryKey endfor F getForeignKey getForeignKeyRole getReferentialConstraint getUniqueKeyRole oldPrimaryKey forall in F table getTable f C getColumns f forall c in C deleteColumn c endfor for i 1 ton newFKColumn createColumn 7 t name a NULL NULL 0 FALSE table a type NULL NULL addForeignKey newFKColumn newPrima
47. Ebenfalls in Anhang A ist eine vervollst ndigte Dokumentation zu finden Schritt 18 Iteration Zus tzliche Iterationen sind nicht notwendig weil die in Abschnitt 6 5 1 definierten Anforderungen bereits alle im Schema erf llt sind 116 Kapitel 6 Konzeptioneller Entwurf 6 6 Zusammenfassung Kapitel 6 hat die konzeptionelle Entwurfsebene behandelt Dazu wurde in Abschnitt 6 1 mit der MML eine Sprache eingef hrt die sowohl multidimensionale wie auch objektorientierte Konstrukte enth lt In die Konzeption der MML sind die in Abschnitt 3 2 herausgearbeiteten Datenmodellan forderungen eingeflossen Inwiefern die einzelnen Aspekte ber cksichtigt worden sind ist in den Tabellen 6 5 und 6 6 wiedergegeben Anforderungen an Fakten Anforderung Realisierung in der MML Ein Daten W rfel bzw ein Schema sollte beliebig viele Fakten enthalten d rfen Ein UML Diagramm darf beliebig viele Faktklassen enthalten Ein Daten W rfel bzw ein Fakt sollte be liebig viele Kennzahlen enthalten d rfen Jede Faktklasse darf in der MML beleibig vie le Attribute umfassen Beziehungen zwischen Fakten wie z B Spe zialisierungen oder Aggregationen sollten explizit dargestellt werden k nnen Zwischen Faktklassen ist die Definition von Vererbungen und Aggregationen m glich Ein Fakt sollte eine innere Struktur besitzen denn Fakten bestehen nur in Ausnahmef l len aus einer einzigen numerischen
48. ID PKTyp Abbildung 9 4 Handelswelt Additivitat Die urspr nglich als SharedRollUp modellierte Verdichtung von Woche zu Jahr ist im Schema durch das in Abbildung 9 5 dargestellte Metadatum dokumentiert Jahr Bezeichnung JahrTyp MappingMETA ID PKTyp type SHARED_ROLL_UP allowedOperators SUM computation ISO Wochenberechnung typesSource ALL_TYPES Woche typesDestination ALL_TYPES Bezeichnung WochenTyp ID PKTyp Abbildung 9 5 Handelswelt SharedRollUp Die Tabelle Ort_des_Verkaufs hat durch Vererbungsaufl sung und die bedingte Hierarchiebildung zur Filialkategorie nur Datens tze vom Typ Filiale k nnen hieran teilnehmen eine Reihe von Spalten und Tabellenconstraints die in Abbildung 9 6 dargestellt sind Ebenso ist das Referential Constraint RCO4 siehe Anhang A 3 das die bedingte Hierarchiebildung dokumentiert in dieser Abbildung zu sehen Filialkategorie Ort des_Verkaufs Filialoberkategorie_FK FKTyp A Bezeichnung Text 1 N ID PKTyp Filialkategorie_FK FKTyp Bezeichnung Text Ref Constraint ValidTypes Filiale Filialart Text Filialleiter Text Filialart IS NULL OR Type Filiale Filialleiter IS NULL OR Type Filiale Flaeche FlaechenTyp Flaeche IS NULL OR Type Kaufhaus Gesamtflaeche FlaechenTyp Gesamtflaeche IS NULL OR Type Kaufhaus Type Text T
49. T lt lt RollUp gt gt Bundesland lt lt DimensionalClass gt gt lt lt DimensionalMapping gt gt Vergleichspopulation auf Regierungsbezirk lt lt DimensionalClass gt gt Vergleichspopulation Ort Bezeichnung Text lt lt DimensionalMapping gt gt Vergleichspopulation auf Landkreis Regierungsbezirk Regierungsbezirkkennziffer Text 3 stellig Regierungsbezirkname Text lt lt RollUp gt gt Regierungsbezirk lt lt DimensionalClass gt gt Landkreis Landkreiskennziffer Text 5 stellig Landkreisname Text Urbanisierungsgrad UrbanisierungsgradTyp lt lt DimensionalMapping gt gt Gg Vergleichspopulation auf Gebiet Abbildung B 39 Konzeptionelle Modellierung a Typ LandkreisTyp Gg lt lt RollUp gt gt Landkreis lt lt DimensionalClass gt gt Gebiet Gemeindekennziffer Text 8 stellig Name Text Typ GebietTyp Zwischendimensionale der Ortshierarchien 338 AnhangB Evaluation Glossar Dieses Glossar f hrt alle im Rahmen der Arbeit verwendeten wichtigen Termini auf Diese ent stammen vor allem den Bereichen Data Warehousing und multidimensionale Datenmodelle ebenso wurden elementare Begriffe aus den Gebieten Datenbanken und Objektorientierung in das Glossar aufgenommen erg nzt um im Zuge der Arbeit definierter Ausdr cke Abfragewerkzeuge Werkzeugklasse aus dem tFront
50. Text Jahr JahrTyp PLZ PLZTyp Quartal QuartalsTyp Stadt Text Monat MonatsTyp Verkaufsbezirk Text Woche WochenTyp Region Text Tag TagTyp F Typ_der_Region Aufzahlungstyp Region ID PKTyp Staat Text 1 1 5 ID PKTyp 1 1 1 ID PKTyp Artikelcode ArtikelcodeTyp Bezeichnung Text Produktgruppe Text Produktfamilie Text Produktkategorie Text IN MTMOrt_des_VerkaufsArtikel ID PKTyp Ort_des_Verkaufs_FK FKTyp Artikel_FK FKTyp Abbildung 9 8 Handelswelt Sternschema mit Surrogaten 9 3 3 Sternschema ohne Surrogate Das Sternschema ohne Surrogate ist dadurch gekennzeichnet dass fiir jede Dimension eine Tabelle existiert die referentielle Integrit t zwischen Fakttabellen und dimensionalen Tabellen jedoch ber den konzeptionellen Schl ssel der dimensionalen Tabellen realisiert ist Algorithmus 9 3 definiert die Transformation in ein solches Schema 9 3 Verfeinerungsalgorithmen 2 procedure createStarWithoutID S 2 call createStarWithID S 3 T getTables S tableTypeMETA DIMENSION 4 forall t in T 5 call changePrimaryKey t fet ssmibuteser t 3 6 endfor N end Algorithmus 9 3 Algorithmus createStarWithoutID Der Algorithmus nutzt zun chst die Prozedur createStarWithID aus dem letzten Abschnitt zur Denormalisierung der Dimensionen so dass nach Zeile 2 das Resultat des letzten Abschnittes vorliegt Nun m
51. UConceptual Ken pdate Column METAC onceptualK eycrouped x Lcolumn Lcolumn def LUConceptual Key pdate Column M c AddColumnwU niqueK ey c p Conceptual key of table 8 33 Jdetrastenam M relation name falls c name M attribute name C sonst SPEER Die Erweiterung der Aktualisierungsfunktionen auf Mengen geschieht in den beiden folgenden Ab bildungsvorschriften H ConceptualK eyupdateSet Table METAConceptual Keycrouped x Pot Lrabie gt Pot Lrabie def KConceptualK eyy pdate Set Table M T U HConceptualKeyupdate Table M t tET 8 34 190 Kapitel 8 Relationaler Entwurf KConceptualK eyvupdateSet Column METAC onceptualK eycrouped x Pot Lcolumn gt Pot Lcolumn def HConceptualK eyupdateset Column M C T U HConceptual K eyupdate Column M c cEC 8 35 Damit ergibt sich f r das Anlegen aller konzeptionellen Schl ssel eines Schemas M Conceptual K ey RXLX META Conceptual K eycrouped gt L def M conceptual Key R L M L U UConceptualKeycreate UniqueKey M 8 36 OuniqueK ey OTable Ocotumn U UConceptualKeyy paateset Table M Orabie U UConceptualKeyy paateset Column M Ocolumn 8 3 8 Schritt 6 Berechnete Attribute markieren In diesem Schritt wird die Teilmenge der Computation Metadaten bertragen die ein berechnetes At tribut ermitteln Die restlichen Computation Metadaten werden in den Schritten 12 siehe Seite 202 und 13 sieh
52. Verkauftes Produkt Verkauftes_ Produkt Table Table name Verkauf name Verkauftes_Produkt aggregated detail CompositionMETA name Verkauf multiplicity 0 Abbildung 8 25 Abbildung des REMUS Metadatums Composition auf das LCD of SOL Schema 8 3 18 Transformation eines Schemas Unter Anwendung der einzelnen in den Abschnitten 8 3 3 bis 8 3 16 definierten Schritte l sst sich ein ganzes REMUS Schema in ein LCD of SOL Schema abbilden Dazu werden in 8 99 die einzelnen Transformationsschritte in der vorgestellten Reihenfolge aufgerufen Sei R R Limpty ein leeres LCD of SOL Schema M Primary Keygrouped die in 8 19 definierte Zerlegung der PrimaryKey Metadaten von R Mconceptual Keygrouped die in 8 30 definierte Zerlegung der ConceptualKey Metadaten von R Dann ist die Abbildung M schema Rvalid gt LValia wie folgt definiert d M Schema R def M Composition R M Association R M DimensionalMapping R M sharedRollup R M additivity R Mrottup R M Dimension R M Aggregated Attribute R M multiplicity R M optional R MvaialR M Identifier R M Derived Attribute R MConceptualK ey R M PrimaryKey R M Attribute R M Relation R M DataType R LEmpty H MPrimaryKeycroupea H MconceptualK eycrouped D 8 99 210 Kapitel 8 Relationaler Entwurf 8 4 Zusammenfassung In diesem Kapitel wurde die Abbildung vom logi
53. Woche Jahr ForeignID 1 2 f Multiplicity SELECT COUNT FROM Woche GROUP BY Jahr ForeignID IN 1 2 Table name Woche tableTypeMETA DIMENSION table constraint TableConstraint name Integrity rule multiplicity for table Woche body SELECT COUNT FROM Woche GROUP BY Jahr ForeignID IN 1 2 Abbildung 8 19 Abbildung von Multiplicity von REMUS nach LCD of SQL F r die Abbildungsvorschrift sei zun chst in die Hilfsabbildung fdetyruttiptici tyRute definiert MultiplicityRule META x Multiplicity gt ZzpressionT ype 8 54 Multiplicity Rule m af Verdichtungsanweisung Unter Ausnutzung dieser Hilfsabbildung lassen sich die Funktionen definieren die ein TableCons traint Objekt anlegen 8 55 bzw in einer bestehenden Tabelle die Referenz auf dieses Objekt aktua lisieren 8 56 LUMultiplicitycreate META Multiplicity gt LT ableConstraint HMultiplieityoreate M ast y Integrity rule multiplicity for table detrasiename M relation name 8 55 ste Sud Rate m faetrablename M relation name TableConstraint 196 Kapitel 8 Relationaler Entwurf UMultiplicityy paate META Multiplicity X LTable gt KTable def H Multiplicityu paate E AddTableConstraint t b Integrity rule multiplicity for table Jdetraniename M relation name falls t name fdetrasiename M relation name
54. ber lappender Bereiche die Suche im Baum beschleunigt und der sich durch ge nderte Einf ge und Split Operationen auszeichnende R Baum BKSS90 Diese letzte Variante wurde in BKK96 zum X Baum erweitert der durch variable Knotengr en berlappungen im Inneren des Baumes weitge hend vermeidet Speziell im DWH Kontext entstand der UB Baum RMF 00 der die Indexierung mittels eindimensionaler Einbettung multidimensionaler Punktobjekte realisiert Als weitere Indexform besitzen im DWH Bereich Bitmap Indizes CI98 gro e Bedeutung Bitmap Indizes sind eindimensionale Indexstrukturen die sich insbesondere f r Attribute mit geringer Kar dinalit t eignen F r jede m gliche Auspr gung des Attributes wird eine Bitliste angelegt auf der effizient boolesche Verkn pfungen zur Auswertung von mehrdimensionalen Suchausdr cken reali siert werden k nnen Neben dieser Form des einfachen Bitmap Index existieren eine Reihe von sog kodierten Bitmap Indizes WB98 in denen das Setzen eines Bits in der Liste statt des konkreten Wertes die Zugeh rigkeit zu einem Intervall oder Bereich angibt Interessant sind vergleichende Ans tze mit Untersuchungen welche Indexierungstechnik unter be stimmten Bedingungen bessere Resultate erwarten l sst JL99 R Baum Rectangle tree UB Baum Universal B Baum 48 Kapitel 4 Realisierung von DWH 4 3 2 Partitionierung Partitionierung hat ihren Ursprung im Bereich verteilter und paralleler
55. bertragen eine verdichtete Version aggregierter Extrakt dieser Daten wird im DWH abgelegt 2 4 Front End Werkzeuge Front End Werkzeuge sind auf dem DWH basierende Applikationen einschlie lich ihrer Benut zerschnittstellen Je nach Funktionalit tsumfang lassen sich verschiedene Klassen von Front End Werkzeugen identifizieren Berichts und Abfragewerkzeuge Berichtswerkzeuge erzeugen mittels vordefinierter eventuell parametrisierter Abfragen Auswertun gen der Daten reichern diese eventuell um einfache arithmetische Operationen an und repr sentieren sie in Form von Berichten Diese k nnen tabellarisch oder in Form von Diagrammen dargestellt sein Berichtswerkzeuge k nnen entweder f r die Generierung periodisch wiederkehrender Berichte im Batch Betrieb eingesetzt werden oder als Endbenutzeranwendungen f r unregelm ige Auswertun gen zur Verf gung stehen Ebenfalls in diese Kategorie eingeordnet werden k nnen Abfragewerkzeuge bei denen zwischen DB und Benutzer eine Zwischenschicht verwendet wird die es durch Point and Click Bedienung erm glicht Anfragen zu formulieren und so dem Endbenutzer das Formulieren komplexer SQL Anfragen abnimmt OLAP Werkzeuge OLAP Werkzeuge On Line Analytical Processing bieten die M glichkeit der interaktiven Daten analyse Die Sicht auf die Daten erfolgt meistens multidimensional siehe Abschnitt 3 1 Dem An wender wird die M glichkeit geboten in Abh ngigkeit von der aktuellen Fr
56. chte Die Diskussionen und der Ideenaustausch mit beiden haben wesentlich zum Fortschritt dieser Arbeit beigetragen F r die Implementierungsarbeiten und Zusammenarbeit im ODAWA Projekt bedanke ich mich bei J rgen Meister und Jens Happe f r die Unterst tzung bei der Evaluation bei den EKN Mitarbeitern Kirsten Panienski Joachim Kieschke und Martin Rohde Eine besonders harte Aufgabe im Rahmen einer solchen Arbeit ist das Korrekturlesen wof r ich Heiko Tapken Thorsten Teschke und Arne Harren f r ihren akribischen Einsatz und so manch kon struktiven Hinweis danken m chte Weiterhin sage ich danke all den unbekannten Gutachtern von Workshops und Konferenzen wie auch den vielen namentlich hier nicht alle zu nennenden Teilnehmern dieser Veranstaltungen die durch ihre Reviews bzw Diskussionsbeitr ge den einen oder anderen Impuls gegeben haben Insbesondere m chte ich hier die regelm igen Teilnehmer des GI Arbeitskreises Grundlagen des Data Warehou sing nennen Nicht zuletzt m chte ich meinen Eltern f r ihre Unterst tzung und ihr Verst ndnis w hrend meiner Studien und Promotionszeit herzlich danken Ihnen widme ich diese Arbeit Oldenburg im Oktober 2001 Olaf Herden Zusammenfassung Seit Jahren finden Data Warehouses DWHs als Kern entscheidungsunterst tzender Informationssy steme ein starkes Interesse in Forschung und Praxis Unter einem DWH wird dabei eine typischerwei se separat von den operativen Systemen
57. cksichtigt einen gemeinsamen Kern des SQL Standards und von bedeutenden kommerziellen Systemen implementierte Konzepte Bei der Spezifikation des LCD of SOL Metamodells erfolgte eine enge Orientierung am Informationsmodell Database and Warehousing Database Schema des Open Information Model OIM der Meta Data Coalition sie he Abschnitt 4 4 1 Abschnitt 8 3 beschreibt die einzelnen Abbildungsschritte im Detail illustriert anhand des Beispiels Handelswelt Lowest Common Denominator Kleinster gemeinsamer Nenner Nach Dat00 sind dies Oracle IBM DB 2 Microsoft SQL Server Informix und Sybase 164 Kapitel 8 Relationaler Entwurf 8 2 Das relationale Metamodell LCD of SQL 8 2 1 berblick LCD of SQL Das relationale Metamodell LCD of SQL ist eng an das Teilmodell Database and Warehousing Database Schema des OIM angelehnt einige der in REMUS vorhandenen Informationen haben kein direktes Gegenst ck im OIM so dass in diesem Falle entsprechende Erg nzungen notwendig sind Zur Unterscheidung bernommener und erg nzter Elemente sei als Konvention vereinbart dass zus tzliche Klassen und Attribute durch das Zeichen gekennzeichnet sind sofern es sich um beschreibende Attribute handelt Handelt es sich um Metadaten dann wird die Endung META verwendet Das LCD of SOL Metaklassendiagramm ist in Abbildung 8 2 dargestellt Das zentrale Element Schema besitzt organisierenden Charakter indem es mehrere and
58. d h VCED EeD mitifj C gt E M3 Die Menge der Dimensionsschemata D Dm ist minimal d h D1 Dm gt F ND E D1 Dm D1 Dm D AF Insbesondere Das Fakt ist durch die Gesamtheit der Wurzelelemente bestimmt 6 7 Eine Erweiterung auf die in ALW98 dargestellte generalisierte multidimensionale Normalform macht in der MML Terminologie keinen Sinn denn die dort als G ltigkeitskontext geforderte Be schreibung f r das Auftreten optionaler Attribute ist in der MML durch die Zugeh rigkeit eines At tributes zu einer DimensionalClass gegeben d h die Klasse ist der G ltigkeitskontext des Attributes Kritische Einsch tzung Die Forderung nach Eindeutigkeit des Wurzelelementes innerhalb einer Dimension DNF1 und Vollst ndigkeit des Wertebereiches DNF2 sind nachvollziehbar In der MML wird ersteres durch die Eindeutigkeit der Kante vom Typ Dimension bez einer FactClass im Metaklassendiagramm sichergestellt F r die Vollst ndigkeit des Wertebereiches ist der Modellierer verantwortlich insbe sondere muss er in Schritt 13 des in Abschnitt 6 3 vorgestellten Leitfadens darauf achten korrekte Datentypen auszuw hlen d h solche die es erm glichen jedes auftretende Objekt der Realwelt zu beschreiben Die dritte Bedingung DNF3 ist dagegen von zweifelhaftem Wert Beispielsweise verst t die in Abbildung 6 25 dargestellte Situation gegen DNF3 aber die Aufsummierung zum Schlussverkauf soll gerade nur die
59. der operativen Datenquelle n betrachten Diese Vorgehensweise bringt aber drei wesentliche Pro bleme mit sich Zum einen wird nur eine andere n mlich analyseorientierte Betrachtungsweise der Daten aus den operativen Systemen vorgenommen Stattdessen sollte die konzeptionelle Modellie rung unabh ngig von jeglichen Restriktionen zu denen insbesondere auch die Datenquellen z hlen durchgef hrt werden Ein zweites Problem sind fehlende Konzepte bei bzw die Ausklammerung von sich berlappenden Quelldaten Als drittes und letztes Manko verlangen die meisten der konstruie renden Ans tze bei der Ableitung eines analyseorientierten Schemas ein E R Schema als Vorgabe Es kann in der Praxis jedoch nicht davon ausgegangen werden dass von allen Datenquellen insbe sondere den externen ein Schema in E R Notation vorliegt Dar ber hinaus kann den bestehenden Ans tzen bescheinigt werden dass sie zwischen logischem und physischem Entwurf nicht exakt tren nen bzw den physischen Entwurf gar nicht betrachten obwohl dieser gerade in einem DWH gro e Bedeutung besitzt Ein berblick ber kommerzielle Werkzeuge kam schlie lich zu dem Urteil dass diese sich durch Verwendung der E R Notation schon fr hzeitig auf ein Datenmodell festlegen bzw 68 Kapitel 5 Entwurf von Informationssystemen dass die DBMS Hersteller spezifischen Werkzeuge lediglich auf ihr eigenes System ausgelegt sind Abschnitt 5 3 besch ftigte sich mit weiteren Aspekten des S
60. en zu lesen Soll z B der Datentyp Integer verwendet werden so ist f r das ColumnType Objekt das Attribut maximumScale auf O und numericPrecision auf die ge w nschte Genauigkeit zu setzen w hrend isUnsignedAttribute bestimmt ob es sich um einen Typen mit oder ohne Vorzeichen handelt 8 3 Abbildung von REMUS nach LCD of SOL 8 3 1 Vorgehensweise Die prinzipielle Vorgehensweise bei der berf hrung eines REMUS in ein LCD of SOL Schema ist in Abbildung 8 9 dargestellt Der dreiphasige Entwurfsschritt beginnt mit dem bertragen der Objekte Schritte 1 und 2 und Attribute Schritt 3 des REMUS Schemas In den beiden weiteren Phasen Abarbeitung der Kategorie A bzw Kategorie B Metadaten schlie t sich eine Metadaten orientierte Vorgehensweise an In der zweiten Phase die die Schritte 4 bis 9 umfasst werden zun chst die Kategorie A Metadaten bertragen wobei referentielle Integrit ten und Constraints auf Tabellen abgebildet bzw Spalten angelegt werden Die letzte Phase die die Schritte 10 bis 15 umfasst sorgt f r die bertragung der Kategorie B Metadaten Hierbei werden neben dem Anlegen von DBConstraint Objekten auch weitere Metadaten erzeugt 174 Kapitel 8 Relationaler Entwurf REMUS Schema Schritt 1 Datentypen anlegen 8 3 3 Schritt 2 Tabellen anlegen 8 3 4 Schritt 3 Attribute anlegen 8 3 5 Schritt 4 Prim rschl ssel anlegen 8 3 6 Schritt 5 Konzeptionelle Schl ssel anlegen 8 3 7 Schri
61. lt lt Dimension gt gt Therapiestatus Ou Familienanamnesen Anzahl 0 oder 1 lt lt Dimension gt gt Therapieziel lt lt FactClass gt gt T tigkeit gr Anzahl 0 oder 1 lt lt FactClass gt gt H lt lt Dimension gt gt Verwandtschaftsgrad Dauer Ganze Zahl zwischen Familienanamnese lt lt Dimension gt gt Familienanamnese Geschlecht gt L ngste T tigkeit 0 una 9939 falsch Anzahl 0 oder 1 lt lt Dimension gt gt Familienanamnese Diagnose gt Letzte T tigkeit Wahr oder falsch lt lt Dimension gt gt Beruf lt lt Dimension gt gt lt lt _ Vergleichspopulation Ges lt lt Dimension gt gt lt Vergleichspopulation Zeit lt lt Dimension gt gt lt Vergleichspopulation Ort lt lt Dimension gt gt lt lt FactClass gt gt Altersgruppe Population Wert Positive ganze Zahl oe Ne So chlecht lt lt FactClass gt gt Standardpopulation lt lt FactClass gt gt Vergleichspopulation o gt _ gt _ gt gt I lt lt Dimension gt gt Populationstyp 4 Abbildung B 1 Konzeptionelle Modellierung Faktklassen B 2 DataClass Aufz hlungstyp 323 B 2 DataClass Aufz hlungstyp Die Datenklasse Aufz hlungstyp stellt einen diskreten Wertebereich zur Verf gung wobei jeder m gliche Wert aus einem ein Zeichen langen K rzel Datentyp Abk rzungsTyp
62. r die Transformation in eine objektorientierte Zielwelt verfolgt werden Da neben kann als Zwischenweg eine Kombination der beiden Ans tze gew hlt werden wozu die ein zelnen objektrelationalen Konzepte auf ihre Verwendung bez der Realisierung eines DWH Schemas zu bewerten sind Bei Verwenden von Objektidentit ten OID wird jedem erzeugten Tupel oder Objekt beim Anle gen ein eindeutiger Identifikator zugewiesen mit dessen Hilfe Referenzen realisiert werden k nnen Im wesentlichen entspricht dieses dem Eintragen von Fremdschl sseln allerdings sind Referenzen ber OIDen eine nat rlichere Form zur Darstellung der Beziehung indem sie z B das direkte Navigieren zwischen verschiedenen Objekten bzw Tupeln erm glicht Somit werden komplexe An fragen u U einfacher weil komplexe Verbundanfragen leichter formuliert werden k nnen Aus die sem Grunde sollten in den Transformationsschritten in denen Fremdschl sselattribute eingetragen werden stattdessen die Navigierbarkeit anzeigende Referenzen erzeugt werden Das Verwenden von benutzerdefinierten Typen k nnte genutzt werden um die als Datenklassen modellierten komple xen Datentypen direkt abzubilden d h das Ermitteln von Attributmengen in Transformation 7 11 in Schritt 2 und in Transformation 7 45 in Schritt 8 k nnte dann entfallen Ebenso k nnten Be rechnungsvorschriften wie im Abschnitt 7 3 2 beschrieben als benutzerdefinierte Methode realisiert werden Kapitel 7
63. ssel 188 MappingMETA 202 205 Multiplicity 195 197 200 NonCompleteRollUp 197 200 ObjectType 182 183 Optional 194 Otional 194 Optionale Attribute 194 PrimaryKey 185 ReferentialConstraint 197 199 202 205 207 RollUp 197 200 SharedRollUp 202 203 Tabellen 183 Table 183 185 189 193 195 197 200 205 207 TableConstraint 193 195 197 UniqueKey 185 189 UniqueKeyRole 189 197 200 205 207 Valid 191 193 Vorgehensweise 173 Abfragewerkzeuge 15 G339 Abstraktionsebene 56 G339 Ad Hoc Anfrage G339 ADAPT 29 37 38 Additivity MML 83 156 Additivity REMUS 122 157 176 201 AdditivityMETA LCD of SQL 170 178 201 Additivit t 22 29 33 38 39 83 G339 nderungsanomalie 45 G339 AggregatedAttribute REMUS 151 AggregatedAttribute REMUS 175 Aggregation 20 G339 sebene 20 G339 sfunktion 20 G339 Aggregationsoperator G339 Aggregierbarkeit 22 siehe Additivitat Alternativer Verdichtungpfad G339 Alternativer Verdichtungspfad 20 25 AnnotatedDimension 235 AnnotatedFactAttribute 234 235 AnnotatedLevel 235 AnnotatedSchema 234 Annotiertes Schema 228 231 234 238 239 G340 Anteilige Verrechnung 21 25 38 39 86 117 122 G340 Archiv Datenbank 14 G340 ArchivingTask 236 Association mUML 91 Association MML 81 82 87 138 Association REMUS 122 139 176 205 207 208 B Baum 47 B Baum 47 Back End Bereich 10 G340 Bereichsparti
64. tional Conference Delphi Griechenland Januar 1997 Proceedings Band 1186 der Reihe Lecture Notes in Computer Science Seiten 98 112 Springer 1997 Guttman Antonin R Trees A Dynamic Index Structure for Spatial Searching In Yor mark Beatrice Herausgeber SIGMOD 84 Proceedings of Annual Meeting Juni 1984 Boston Massachusetts USA Seiten 47 57 ACM Press 1984 Hinrichs Holger und Thomas Aden An ISO 9001 2000 Compliant Quality Manage ment System for Data Integration in Data Warehouse Systems In Theodoratos Dimitri Joachim Hammer Manfred A Jeusfeld und Martin Staudt Herausgeber Proceedings of International Workshop DMDW OI Design and Management of Data Warehouses Juni 2001 Interlaken Schweiz 2001 Harren Arne UML Einsatz der Unified Modeling Language f r das konzeptionelle Design von Data Warehouse Datenbanken In Gesellschaft f r Informatik Heraus geber Proceedings Informatik Tage 99 November 1998 Bad Schussenried Deutsch land Seiten 99 101 1999 Harren Arne Konzeptionelles Data Warehouse Design Diplomarbeit Universitat Ol denburg Fachbereich Informatik 1999 Herden Olaf ISMUS An Integration Strategy for Multidimensional Schemas In Rich ta Karel Herausgeber Proceedings of 19th Annual Conference on the Current Trends in Databases and Information Systems Datasem99 Oktober 1999 Brno Tschechien 1999 Herden Olaf Measuring Quality of Database Schema by Revi
65. 2 Transformationsalgorithmus 143 Wie anhand der Abbildung 7 14 zu erkennen ist kann durch das Vererben die Attributmenge einer FactClass Instanz ber die in der MML spezifizierten Attribute hinausgehende Attribute umfassen ebenso k nnen die Dimensionen Verbindungen zu mehr als einer Faktklasse besitzen und die Kom positionen auf mehr als ein FactClass Schemaelement auf Detailseite bzw aggregierter Seite ver weisen Um Manipulationsoperationen am urspr nglichen MML Schema zu vermeiden werden zur Beschreibung der Transformationsvorschrift in 7 31 Hilfsstrukturen definiert Seide M Dimension Owner d bezeichne die Menge der Faktklassen f r die Dimension d festgelegt ist Die Menge aller Owner Mengen sei mit MOwner bezeichnet Sei c M Composition Detail c bezeichne die Menge der Faktklassen die Komposition c auf der Detailseite besitzt Die Menge aller Derail Mengen sei mit M Detail bezeichnet Seic Mcomposition Aggregated c bezeichne die Menge der Faktklassen die Komposition c auf der aggregierten Seite besitzt Die Menge aller Aggregated Mengen sei mit M Aggregated bezeichnet Sei f E M FactClass FactClassAttributes f bezeichne die Menge der Attribute die Faktklasse f besitzt Jedes a FactClass Attributes ist ein Quintupel n t o m a wobei n der Name des Attributs ist den Datentyp o die Optionalit t m die Multiplizit t angibt und a beschreibt ob es sich um ein aggregiertes Attribut h
66. 2000 Studie Meta Group 2000 360 Literaturverzeichnis MHHO01 Mic91 Mic95 Mic99 MK98 MQM97 MS94 MWM99 OAE00 Obj01 Ora01 OV99 Ovu98 PJ99 Meister J rgen Olaf Herden und Jens Happe ODAWA Dokumentation der Im plementierung Technischer Bericht OFFIS Verf gbar unter http odawa offis uni oldenburg de Oldenburg Deutschland Erscheint Ende 2001 Michalewicz Zbigniew Herausgeber Statistical and Scientific Datatbases Ellis Hor wood Series in Computers and Their Applications 1991 Microstrategy Inc The Case for Relational OLAP White Paper 1995 MicroStrategy Inc Microstrategy Handbuch 1999 Muto Seigo und Masaru Kitsuregawa Improving Main Memory Utilization for Array Based DataCube Computation In DOLAP 98 ACM First International Workshop on Data Warehousing and OLAP November 1998 Bethesda Maryland USA Procee dings Seiten 28 33 ACM Press 1998 Mumick Inderpal Singh Dallan Quass und Barinderpal Singh Mumick Maintenance of Data Cubes and Summary Tables in a Warehouse In Joan Peckham Herausgeber SIGMOD 1997 Proceedings ACM SIGMOD International Conference on Management of Data Mai 1997 Tucson Arizona USA Seiten 100 111 ACM Press 1997 Moody Daniel L und Graeme G Shanks What Makes a Good Data Model Evaluating the Quality of Entity Relationship Models In Pericles Loucopoulos Herausgeber Proceeding
67. 278 279 281 283 283 284 286 291 INHALTSVERZEICHNIS B Evaluation 321 RI Faktklassen v n 2 008 Aal weh aueh lat y 321 B 2 DataClass Aufz hlungstyp 323 B3 Dimension Alter kh bos aan sen ee Bd Ae 323 B 4 Dimension Ausbreitung 2 2 a 323 B 5 Dimension Autopsie e 324 E Dimension Beruf E Pal were au ale y 324 B 7 Dimension C Faktor e 325 B 8 Dimension Diagnose 325 BO Dimension Diagnoseanlass 325 B 10 Dimension Diagnosesicherung 326 B 11 Dimension Differenzierungsgrad 2 a 326 B 12 Dimension Dignit t 2 2 2 0 000 000 0000000002200 G 326 B 13 Dimension Fernmetastasen 327 B 14 Dimension Geschlecht 327 B 15 Dimension Histologie e 327 B 16 Dimension Lokalisation 2 2 2 2 328 B 17 Dimension Lymphknoten 328 B 18 Dimension Mehrling e 328 B 19 Dimension Ort a oan 2 on nak aran od a a en 329 B 20 Dimension Populationstyp 20 2 0 000 eee ee ee 330 B 21 Dimension Qualit t 330 B 22 Dimension Rauchen Beendet 2 000000 004 ee eae 330 B 23 Dimension Raucherstatus 330 B 24 Dimension Seite 2 a moy n od a aN a a A a e e a E a a e o E 331 B 25 Dimension Staatsangeh rigkeit 331 B 26 Dimension Therapieart 2 2 331 B 27 Dimension Therapiestatus e 332 B 28 Dimension Therapieziel 2 2 a 332 B 29 Dimension Todeszeit e 332 B 30 Dimension Tumorausbreitung 332 B 31 Dimension Tumorbedingter Tod e 333 B 32 Dimensi
68. Anfrageverarbeitung denn gerade bei Hierarchien mit vielen Ebenen fallen viele Verbundoperationen an die in relationalen DBMS typischerweise sehr teuer sind Bei einer Auswertung nach Land Jahr und Hersteller m sste beispielsweise ein Verbund ber 12 Tabellen gebildet werden 4 2 3 Sternschema Das Sternschema KRRT98 ist eine relationale Realisierung die bei Anfragen das Bilden teurer Verbundoperationen vermeidet indem die zu einer Dimension geh renden Tabellen zu einer einzigen Tabelle denormalisiert werden So ist bei n Dimensionen f r eine beliebige Anfrage unabh ngig von der Anzahl der Hierarchieebenen ein Verbund ber n 1 Tabellen zu realisieren Abbildung 4 5 zeigt das bekannte Beispiel die sternf rmige Platzierung der dimensionalen Tabellen um die zentrale Faktentabelle gibt dem Schematyp seinen Namen Zeit Ort Tag Filiale Woche Stadt Monat Region Quartal Land Jahr 1 1 Verkaufszahl Anzahl N Filiale N Artikel Tag N 1 Produkt Produkt Marke Hersteller Produktgruppe Abbildung 4 5 Sternschema Der Preis f r die bessere Anfrageperformanz durch Senkung der an Verbunden beteiligten Tabellen sind Redundanzen in den dimensionalen Tabellen die bei der Denormalisierung entstehen Beispiels weise steht eine Stadt als Objekt der zweituntersten Hierarchieebene so oft in der Tabelle wie es zu ihr geh rige Tupel der untersten Ebene d h Fili
69. Annahmen dass in einem Datenw rfel e die Kardinalit t eines Fakts wesentlich gr er als die Kardinalit t einer jeden Dimension ist und e der Lesezugriff auf die Festplatte erheblich teurer ist als Rechen und Selektionsoperationen im Hauptspeicher k nnen die Kosten eines ReadingTask als die Lesekosten vom Festspeichermedium festgelegt werden Die Einheit soll die Anzahl der Tupel sein Im schlimmsten Falle wenn keine Materialisierungen 10 4 Beispiel 243 vorliegen m ssen alle Datens tze aus der Fakttabelle ausgelesen werden Ansonsten ist es die Anzahl Datens tze der n chst niedrigeren materialisierten Sicht Um diesen Begriff zu formalisieren wird das in HRU96 vorgestellte Gittermodell eingef hrt Das Gittermodell Anfragen an ein annotiertes Schema k nnen in einer Beziehung stehen Liegen zwei Anfragen A und Ag vor dann gelte A lt Aa genau dann wenn A ausschlie lich aus dem Ergebnis von Ag berechnet werden kann Wir sagen in diesem Falle auch A ist abh ngig von Aa Der Operator lt f hrt auf der Menge aller Anfragen eine partielle Ordnung ein die Anfragen an ein multidimensionales Datenobjekt bilden ein Gitter TM75 Lei97 Als Notation f r ein Gitter gelte L lt wobei L die Menge der Anfragen und lt die Abh ngiskeitsrelation ist Weiterhin werden folgende Begriffe zu Beziehungen von Elementen im Gitter definiert e Zwei Elemente a b L seien stark voneinander abh ngig Notation a lt
70. Artikel werden jeweils zwei v llig symmetrische Prim r Fremdschl sselbeziehungen angelegt Das nderungs und L schverhalten des Prim rschl ssels wird auf den Wert CASCADE f r Weitergabe gesetzt d h das ndern oder L schen von Daten in einer der beiden dimensionalen Tabellen wird an die Zwischen tabelle propagiert Gilt die Assoziation auf der einen wie auf der anderen Seite nur f r bestimmte Typen so wird diese Einschr nkung in Form eines Datenbankconstraint festgehalten Im Beispiel muss ein Datensatz in der Tabelle Ort_des_Verkaufs vom Typ Filiale oder Kaufhaus sein da mit er an der Assoziation teilhaben kann Dieses wird durch das entsprechende DBConstraint Objekt sichergestellt Ort des Verkaufs Artikel Association MTMOrt des Verkaufs Artikel wird gef hrt f hrt Filiale Kaufhaus ALL_TYPES Ort des Verkaufs ID MTMOrt des VerkaufsArtikel Ort des Verkaufs ForeignID Artikel ID Ort des VerkaufsArtikel Artikel ForeignID fact Ort des Verkaufs Ort_des_Verkaufs TableName Daten gl SAATE H Association Ort des Verkaufs Artikel f det TableName MTMOrt_des_VerkaufsArtikel ReferentialConstraint name Referential constraint between table Ort des Verkaufs and MTMOrt_des_VerkaufsArtikel typeMETA ASSOCIATION constraints constraints uniqueKeyRole foreignKeyRole UniqueKeyRole Fo
71. Attribut zus tzlich eine Berechnungs vorschrift und die Parameter was zum Resultat in Abbildung 6 27 f hrt lt lt FactClass gt gt Verkauftes Produkt Anzahl St ckzahlTyp Einzelpreis W hrung Gesamtpreis W hrung formula Anzahl Einzelpreis parameter Anzahl Einzelpreis TE Tr a Te SECO lt lt FactClass gt gt lt lt FactClass gt gt Verkaufszahl Verkauf Anzahl St ckzahlTyp Betrag W hrung lt lt FactClass gt gt Einkommen Betrag W hrung Abbildung 6 27 UML Beispiel Ergebnis Schritt 3 Faktattribute mit Datentyp Schritt 4 Finde Beziehungen zwischen Faktklassen Ein Verkauf setzt sich aus mehreren verkauften Artikeln zusammen was sich in einer Komposition zwischen den beiden Klassen widerspiegelt Das Resultat ist in Abbildung 6 28 zu sehen lt lt FactClass gt gt Verkauf Betrag Wahrung lt lt FactClass gt gt Verkaufszahl lt lt Compostion gt gt Anzahl St ckzahlTyp Verkauftes Produkt 0 lt lt FactClass gt gt Verkauftes Produkt Anzahl St ckzahlTyp Einzelpreis W hrung Gesamtpreis W hrung formula Anzahl Einzelpreis parameter Anzahl Einzelpreis lt lt FactClass gt gt Einkommen Betrag W hrung Abbildung 6 28 UML Beispiel Ergebnis Schritt 4 Beziehungen zwischen Faktklassen 6 5 Beispiel Handels
72. Bei SharedRollUp Verbindungen wird in der MML keine Differenzierung der Operatoren bzgl der Anwendbarkeit f r bestimmte Attribute vorgenommen so dass in diesem Fall als Attributname ein Stern einzutragen ist der als Platzhalter f r alle Attribute steht Soll beispielsweise bei einer anteili gen Verrechnung nur der sum Operator erlaubt sein ist bei der Beziehung f r die allowedOperators Eigenschaft der Wert sum einzutragen In Abbildung 6 21 ist dies der Text verkauftes Produkt die Bezeichnung der Komposition fehlt in der Darstellung 6 3 Leitfaden zum Erstellen eines Schemas 95 6 3 Leitfaden zum Erstellen eines Schemas Nachdem die MML als Metasprache das Datenmodell zur Verf gung stellt und mit der UML eine darauf aufbauende graphische Notation eingef hrt worden sind soll in diesem Abschnitt die Frage Wie komme ich mit diesen Beschreibungsmitteln zu einem Schema beantwortet werden Dabei sollte der Leitfaden als Kann Bestimmung aufgefasst werden und keinesfalls in jedem Projekt bzw Kontext kategorisch eingesetzt werden Zu empfehlen ist der Leitfaden vor allem solchen Modellierern die in der multidimensionalen Modellierung weniger ge bt sind Schritt 1 Finde Kennzahlen Schritt 2 Finde Faktklassen Schritt 3 Bestimme f r jedes Faktattribut den Datentyp Schritt 4 Finde Beziehungen zwischen Faktklassen Schritt 5 Finde zu jeder Faktklasse Dimensionen Schritt 6 Bestimme f r jede
73. C198 Chan Chee Yong und Yannis E Ioannidis Bitmap Index Design and Evaluation In Haas Laura M und Ashutosh Tiwary Herausgeber SIGMOD 1998 Proceedings ACM SIGMOD International Conference on Management of Data Juni 1998 Seattle Wa shington USA Seiten 355 366 ACM Press 1998 CLF99 Chan Goretti K Y Qing Li und Ling Feng Design and Selection of Materialized Views in a Data Warehousing Environment A Case Study In DOLAP 99 ACM Second International Workshop on Data Warehousing and OLAP November 1999 Kansas City Missouri USA Proceedings Seiten 42 47 ACM Press 1999 CM00 Claxton John C und Peter A McDougall Measuring the Quality of Models TDAN www tdan com 3 14 2000 Com01 Computer Associates Inc Homepage Firma Computer Associates http www ca com 2001 Con97 Conrad Stefan F derierte Datenbanksysteme Konzepte der Datenintegration Springer Verlag 1997 CT98a Cabibbo Luca und Riccardo Torlone A Logical Approach to Multidimensional Data bases In Hans J rg Schek and Felix Saltor and Isidro Ramos and Gustovo Alonso Herausgeber Advances in Database Technology EDBT 98 6th International Confe rence on Extending Database Technology Valencia Spanien M rz 1998 Proceedings Band 1377 der Reihe LNCS Seiten 183 197 Springer M rz 1998 354 Literaturverzeichnis CT98b Dat99 Dat00 Dat01 DG98 DHP 99 DNRT97 Dor99 DRO0 E
74. CBS98 Im Kontext von Entwurfsprozessen werden im Folgenden einige Begriffe eingef hrt die in Abbildung 5 1 zusammenfasst sind Entwurfsmethodik Entwurfsschritt Beschreibungsebene Entwurfsdokument in Beschreibungsformalismus Entwurfsschritt Beschreibungsebene Entwurfsdokument in Beschreibungsformalismus Entwurfsschritt Beschreibungsebene Entwurfsdokument in Beschreibungsformalismus Abbildung 5 1 Begriffsbildung Datenbankentwurf 56 Kapitel 5 Entwurf von Informationssystemen In Analogie zum Phasenmodell PS94 Bal98 Som00 als klassischem Entwurfsvorgehen im Soft ware Engineering wird der Entwurfsprozess als Abfolge von Entwurfsdokumenten auch als Model lierungen bezeichnet beschrieben Jedes Entwurfsdokument wird mit den Mitteln eines Beschrei bungsformalismus verfasst und geh rt zu einer Beschreibungsebene auch als Abstraktionsebene be zeichnet Beginnend mit einer abstrakten anwendungsnahen Beschreibungsebene und f hrt der Ent wurfsprozess bis zur konkreten Realisierung der DB Zwischen zwei Beschreibungsebenen erfolgt ein Entwurfsschritt der ein Entwurfsdokument auf ein anderes abbildet wobei der Beschreibungs formalismus beibehalten wird oder was die Regel ist wechseln kann Einzelne Entwurfsschritte k nnen manuell durchgef hrt werden oder in verschiedenem Grad automatisiert sein An jeden Entwurfsschritt sind zwei Bedingungen zu richten Vollst ndigkeit in HS00 als Informati
75. Conceptual key of table Monat FALSE TA04 CO11 NULL 5 UniqueKey UK24 Conceptual key of table MTMOrt_des_VerkaufsArtikel FALSE TA06 5 C004 C050 NULL UniqueKey UK25 Conceptual key of table Produktfamilie FALSE TA07 CO13 NULL 5 UniqueKey UK26 Conceptual key of table Produktgruppe FALSE TA08 CO14 NULL 5 UniqueKey UK27 Conceptual key of table Produktkategorie FALSE TA09 CO15 5 NULL UniqueKey UK28 Conceptual key of table Quartal FALSE TA10 CO16 NULL 5 UniqueKey UK29 Conceptual key of table Ort_des_Verkaufs FALSE TA05 CO12 5 NULL UniqueKey UK30 Conceptual key of table Soa FALSE TA12 CO19 NULL 5 UniqueKey UK31 Conceptual key of table Stadt FALSE TA13 C054 NULL 5 UniqueKey UK32 Conceptual key of table Strassenbereich FALSE TA14 CO21 NULL 5 UniqueKey UK33 Conceptual key of table Tag FALSE TAI5 CO22 NULL 5 UniqueKey UK34 Conceptual key of table Verkaufsbezirk FALSE TA17 CO23 NULL 5 UniqueKey UK35 Conceptual key of table Woche FALSE TA20 CO24 NULL 5 UniqueKey UK36 OC Primary key of table Filialkategorie TRUE TA21 CO75 UR21 4 UniqueKey UK37 Primary key of table Filialoberkategorie TRUE TA22 CO76 UR22 4 Uniqu
76. DBS Rah94 OV99 wobei die Aufteilung einer Relation auf einzelne Rechnerknoten mit dem Ziel der Lastverteilung im Vordergrund steht Dabei werden die zwei Phasen der Fragmentierung Bestimmung der Verteilungseinheiten und der Allokation Zuordnung der Fragmente zu physischen Einheiten wie Plattenspeichern oder Rechnerknoten unterschieden Aber auch in nicht verteilten DBen k nnen durch Partitionierungen Performanzsteigerungen erreicht werden indem eine Tabelle mit umfangreicher Extension auf mehrere kleinere dann als Partitionen bezeichnete Tabellen aufgeteilt wird Aufgund ihrer Extensionsgr e bietet sich insbesondere die Faktentabelle zur Partitionierung an Im Wesentlichen wird zwischen den in Abbildung 4 6 dargestellten Varianten horizontaler und vertikaler Partitionierung unterschieden Horizontale Vertikale Partitionen Master Tabelle Partitionen Zen n SE Abbildung 4 6 Horizontale und vertikale Partitionierung Prim rschl ssel Horizontale Partitionierung kann zuf llig z B nach dem Round Robin Verfahren oder wertebasiert erfolgen KN99 Dor99 W hrend die wertebasierte Partitionierung bei DB Operationen bestimmte Partitionen ausschlie t kann zuf llige Partitionierung zur Erh hung des Parallelit tsgrades von Ope rationen genutzt werden Bei der wertebasierte
77. Das als Identifier gekennzeichnete Attribut Type darf nur die Werte Filiale oder Kaufhaus annehmen was durch das Identifier Va lue Metadatum spezifiziert wird F r die Abbildungsvorschrift sei zun chst die Hilfsabbildung 8 41 definiert die aus den dentifier und dentifierValue Metadaten den Ausdruck f r das Constraint ermittelt JdetrdentifierRule META dentifierValue gt ExpressionT ype 8 41 def yp detidentifierruie m Bilde Ausdruck 192 Kapitel 8 Relationaler Entwurf Ort des Verkaufs Identifier Ort des Verkaufs Type Ort des Verkaufs Type IdentifierValue Filiale Kaufhaus a OU des Verkaufs Ort_des_Verkaufs em ae ORTEN SES Verkaufs Type Type Column een ColumnConstraint name Type column initialValue NULL constraint name Integrity rule for attribute Type valueExpression NULL body Type IN Filiale Kaufhaus identityIncrement 0 optional FALSE column columnSet Table name Ort_des_Verkaufs tableTypeMETA DIMENSION Abbildung 8 16 Abbildung von Identifier und IdentifierValue von REMUS nach LCD of SOL Unter Verwendung dieser Hilfsfunktion lassen sich Funktionen definieren die ein ColumnCons traint Objekt anlegen 8 42 bzw ein bestehendes Column Objekt aktualisieren 8 43 LTdentifiercreate META gentifier gt LColumnConstraint def
78. Daten dieser Periode erfassen und die anderen unber cksichtigt lassen 106 Kapitel 6 Konzeptioneller Entwurf lt lt DimensionalClass gt gt Quartal Bezeichnung QuartalsTyp SS lt lt RollUp gt gt Quartal lt lt DimensionalClass gt gt Monat Bezeichnung MonatsTyp KREE EE EEN lt lt DimensionalClass gt gt Schlussverkauf Bezeichnung Text EEN lt lt RollUp gt gt Monat lt lt NonCompleteRollUp gt gt Schlussverkauf lt lt DimensionalClass gt gt Tag Bezeichnung TagTyp Abbildung 6 25 Dimension mit schwach abh ngigen Klassen Auch f r die beiden Kriterien M2 und M3 der in 6 7 definierten multidimensionalen Normalfor men lassen sich Gegenbeispiele finden die diese als zu restriktiv erscheinen lassen So kann die in M2 geforderte Orthogonalit t von Dimensionen z B in folgendem Szenario verletzt werden Ein Ge sch ft hat eine saisonabh ngige Angebotspalette W hrend im Winterhalbjahr Skiartikel und Zubeh r verkauft werden werden im Sommerhalbjahr Wanderartikel nebst Zubeh r ver u ert In diesem Falle l sst sich aus dem Datum der Artikel bestimmen und umgekehrt Die Forderung nach Minimalit t der Dimensionen M3 kann in folgendem Szenario hinderlich sein Es werden personenbezogene Fakten erhoben eine Dimension Person ist durch ein Attribut Personalkennziffer charakterisiert das auch in codierter Form das Geschlecht der Person enth lt De
79. Die konzeptionelle Entwurfsebene als zentraler Bestandteil der Methodik und Ausgangspunkt aller weiteren Transformationen lie e sich beispielsweise um Kataloge von Analysemustern erweitern In diesen Mustern k nnte das in vergangenen Projekten erlangte multidimensionale 13 2 Erweiterungen der Methodik 285 Modellierung 6 3 Konzeptionell Schema in UML Notation 6 2 Abbildung Notation Sprache 6 2 Konzeptionell Schema in MML Notation 6 1 Review 6 4 Konzeptionell Qualit tsgesichertes Schema in MML Notation Logischer Entwurf 7 2 Logisch Schema in REMUS Notation 7 1 Physischer Entwurf 8 2 Physisch DB unabh ngiges Schema in LCD of SQL Notation 8 1 Systemabh ngige Verfeinerung 9 Physisch DB abh ngiges Schema in LCD of SQL Notation Optimierung 10 Physisch DB abh ngiges optimiertes Schema in LCD of SQL Notation Abbildung 13 1 Ablauf des Entwurfsprozesses Modellierungswissen festgehalten werden Neben guten L sungen k nnen in diesen Muster katalogen auch Negativbeispiele festgehalten werden die zuk nftige Benutzer vor Wiederho lung dieser gleichen Modellierungsfehler bewahren e Die bisher nur grob skizzierten Transformationen in nicht relationale Datenmodelle siehe Ab schnitt 7 3 im Zuge des logischen Entwurfs k nnten detailliert ausgearbeitet werden Dazu sind f r die jeweilige Zielwelt Metamodelle zu spezifizieren und die Abbildung von MML Schemaobjekten auf Elem
80. Dimension die Ebene der feinsten Granularit t Schritt 7 Bestimme f r jede Kombination Faktattribut Dimension zul ssige Operatoren Schritt 8 Finde f r jede Dimension weitere Klassen Schritt 9 Finde innerhalb dieser dimensionalen Klassen Vererbungshierarchien Schritt 10 Finde innerhalb dieser dimensionalen Klassen Hierarchie Beziehungen Schritt 11 Finde f r die dimensionalen Klassen weitere Attribute Schritt 12 Bestimme Abh ngigkeiten zwischen Attributen in dimensionalen Klassen Schritt 13 Bestimme f r die Attribute der dimensionalen Klassen den Datentyp Schritt 14 Finde Assoziationen zwischen dimensionalen Klassen Schritt 15 Finde gleiche und hnliche Dimensionen Schritt 16 Bestimme Subschemata Schritt 17 berpr fe die Dokumentation Schritt 18 Iteriere Abbildung 6 22 Leitfaden zum Erstellen eines MML Schemas Die Ursache hierf r liegt in der aus der objektorientierten Modellierung bekannten Tatsache dass es in vielen Situationen konkurrierende Modellierungsm glichkeiten gibt es existiert nicht oder nur 96 Kapitel 6 Konzeptioneller Entwurf in seltenen Ausnahmef llen the one best way Rum93b Die im Leitfaden vorgestellte Vorgehensweise ist im Sinne der Klassifikation in ACPT99 eine Bottom Up Strategie Sie umfasst die 18 in Abbildung 6 22 skizzierten Schritte die sich in f nf Phasen unterteilen lassen In der Phase I Schritte 1 4 werden die Fakten identifiziert un
81. Faktrelationen angelegt Zus tzlich entscheidet die deterministische Funktion fdetoomposition 10 Abh ngigkeit vom modellierten Kontext ber das bertragen von Dimensionen und oder Attributen wobei die vier im Folgenden erl uterten M glich keiten existieren Unabh ngig von der Auswahl wird eine Komposition mit komplexer Multiplizit t durch ein Metada tum im REMUS Schema dokumentiert das in 7 38 f r eine Komposition erzeugt wird TFactClassComposition M Composition XR gt R def TFactClassComposition c R O A M U g d Composition g endAName c endAMultiplicity g CalcAggregated c d CalcDetail c 7 38 7 39 erweitert dies f r alle komplexen Kompositionen des Schemas Sei M M d Mcomposition Complex gef Je Mcomposition Complex c TRUE TractClassComposition M x R gt R 7 39 def TFactClassComposition M R U TFactClassComposition c R cE MComposition Complex 148 Kapitel 7 Logischer Entwurf M glichkeit I Vernachl ssigung der Komposition Im Falle der Vernachl ssigung der Komposition bleiben die Attributes und Owner Mengen unver ndert die modellierte Composition Instanz wird lediglich in Form eines Metadatums festgehalten Dies kann sinnvoll sein wenn die Komposition auf der konzeptionellen Ebene zur besseren Verst nd lichkeit beigetragen hat die Beziehung der Fakten untereinander aber f r potenzielle Auswertungen nicht relevant ist Durch
82. ForeignKey 117 MappingMETA 4 ReferentialRole 117 Table 46 TableConstraint 0 UniqueKey 46 Tabelle 12 6 Anzahl der erzeugten LCD of SOL Schemaelemente Das resultierende Schema ist nach der Klassifikation in Abschnitt 4 2 2 ein Schneeflockenschema mit Surrogaten In der in Abschnitt 4 2 1 eingef hrten Notation ist in Abbildung 12 6 der Ausschnitt mit der Fakttabelle Fall zu sehen 12 2 Anwenden der Entwurfsmethodik 275 Fuenfjahresaltersgruppe Fuenfjahresaltersgruppe_ID Bezeichnung 1 Kumulative_Altersgruppe 1 Kumulative_Altersgruppe_ID Bezeichnung Altersgruppe_Standardisierte_Mortalitaet Altersgruppe_Standardisierte_Mortalitaet_ID Bezeichnung Bundesland Bundesland_ID Bundeslandkennziffer Bundeslandname 1 N Regierungsbezirk Regierungsbezirk_ID Regierungsbezirkkennziffer Regierungsbezirkname Bundesland_ID 1 Diagnosezehnergruppe Alter Diagnosezehnergruppe_ID Alter_ID Zehnergruppe N r Alter 1 Landkreis N Altersgruppe_Standardisierte_Mortalitaet_ID Landkreis_ID Kumulative_Altersgruppe_ID N Landkreiskennziffer Fuenfjahresaltersgruppe Diagnose Landkreisname Urbanisierungsgrad Diagnose_ID Typ Diagnose Regierungsbezirk_ID Typ 1 Monat Bezeichnung Monat_ID N Monat i z Jel Gebiet Jahr_ID Gebiet_ID N N
83. Gemeindekennziffer Name i Fall 1 Typ Anzahl Landkreis ID Jahr_ID Alter ID Jahr Diagnose_ID Dreijahresgruppe_ID Gebiet_ID N Monat_ID 1 Geschlecht_ID Fr lt lt 27 weitere IDs gt gt Dreijahresgruppe m Dreijahresgruppe_ID Bezeichnung 1 lt lt 27 weitere Tabellen hnlich Geschlecht gt gt Geschlecht Geschlecht_ID Bezeichnung Abbildung 12 6 Resultat des physischen Entwurfs Schneeflockenschema f r Fall 276 Kapitel 12 Evaluation 12 2 6 Schemaverfeinerung Zur Verfeinerung des Schemas wurde w hrend der Evaluation der in Abschnitt 9 3 3 angegebene Algorithmus angewendet der das Schneeflockenschema mit Surrogaten ber die Zwischenstufe eines Schneeflockenschemas ohne Surrogate in ein Sternschema berf hrt Das Resultat ist in Abbildung 12 7 dargestellt Alter Alter Altersgruppe_Standardisierte_Mortalitaet Kumulative_Altersgruppe Fuenfjahresaltersgruppe Diagnose Monat Diagnose Monat 1 Typ Jahr N Bezeichnung Dreijahresgruppe Fall Zehnergruppe Anzahl Alter Diagnose N Gemeindekennziffer Monat I Jahr Geschlecht Gebiet lt lt 27 weitere Tabellen lt lt 27 weitere PK Attribute gt gt une eee N ahnlich Geschlecht gt gt N Gebietstyp Landkreiskennziffer Landkreisname Urbanisierungsgrad 3l Landkreistyp Geschlecht Regierungsbezirkkennziffer ji Regierungsbezirkname Bundeslandkennziffer Bundeslandname
84. Geographische Abbildung Strassenbereich Bezeichnung Ort des Verkaufs Strassenbereich DimensionalMapping Abbildung Ort des Verkaufs nach Strassenbereich ALL_TYPES ALL_TYPES Berechnung von Geographische Abbildung Abbildung 7 13 Transformation von DimensionalMapping Instanzen zwischen dimensionalen Klas sen Die Berechnungsvorschrift f r diesen Schritt wird in 7 29 festgelegt TDimensionalMapping M DimensionalMapping XR gt R def TDimensionalMapping d R O A M U d computation name Computation dr d source name d computation parameter name 7 29 d computation formula d computation result n d source name m d type name DimensionalMapping d property Name d source name d d type name d computation name Zur Transformation aller DimensionalMappings dient Transformationsvorschrift 7 30 TDimensionalM apping MxR R def TDimensionalMapping M R U TDimensional Mapping d R g de MDimensionalMapping 7 30 7 2 Transformationsalgorithmus 141 7 2 9 Schritt 8 Transformation von FactClass und FactAttribute Schemaelementen Die Transformation von FactClass Instanzen wird mehrstufig durchgef hrt Zun chst werden in Schritt 8a Vererbungsbeziehungen mittels Weiterreichen von Attributen Dimensionen und Komposi tionsbeziehungen an ihre Unterklassen aufgel st Anschlie end werden in Schritt 8b die Kompositio nen aufgel st Kompositionen mit einf
85. Instanz die Attributmenge der Klasse selbst und all ihrer Oberklassen berechnet wird TDataClass M DataClass M DataClass Attributes def l 7 12 TDatallass d CalcAttributesClass d Um alle DataClass Instanzen eines Schemas aufzul sen muss die in 7 12 definierte Abbildung f r jedes DataClass Schemaelement aufgerufen werden was in 7 13 geschieht Diese Transformati onsvorschrift ben tigt das REMUS Schema nicht als Eingabe weil sie im Zuge der Gesamttrans formation in Abschnitt 7 2 12 nicht in der normalen Reihenfolge aufgerufen wird sondern in den Transformationen der Schritte 4 und 8 verwendet wird TDatallass M gt M DataClass Attributes def 7 1 TDataClass M U TDataClass d oy d M pataClass 7 2 4 Schritt 3 Transformation von DimensionalClass Schemaelementen Zur Transformation der DimensionalClass Instanzen wird die Menge aller dimensionalen Klassen eines Schemas zun chst nach dem Kriterium der Vererbungshierarchien zerlegt d h zwei Dimensio nalClass Instanzen sind in derselben Teilmenge einer Zerlegung g d w sie in einer m glicherweise mehrstufigen Generalisierungsbeziehung zueinander stehen Aufgrund der in Abschnitt 6 1 8 auf Seite 87 definierten Wohlgeformtheitseigenschaft WF ZF3 die die Zyklenfreiheit von Vererbungs strukturen fordert ist eine solche Zerlegung eindeutig Jedes Element der Zerlegung entspricht anschaulich einer Hierarchieebene die einzelnen Klassen eines Zerlegun
86. Jahr SharedRollUp Jahr ALL_TYPES ALL_TYPES Berechnung Jahr SUM Abbildung 7 11 Transformation von SharedRollUp Instanzen Die zugeh rige Transformationsvorschrift ist in 7 25 festgelegt TSharedRollUp MsharedRollUp X R gt R def TSharedRoltUp r R O A M U r r owner name m r type name SharedRollUp r propertyName d r owner name d r type name r computation name r allowedOperators U r computation name Computation r computation parameters r computation formula r computation result 7 25 Die Transformationsvorschrift f r alle SharedRollUp Elemente eines Schemas ist in 7 26 festgelegt TsharedRollUp MXR gt R d TSharedRollUp M R def U TSharedRollUp T R 7 26 r MsharedRollUp 138 Kapitel 7 Logischer Entwurf 7 2 7 Schritt 6 Transformation von Inter Hierarchiebeziehungen Association Schemaelementen Ist zwischen zwei DimensionalClass Instanzen eine Assoziation definiert so wirddiese grunds tzlich in eine separate Relation abgebildet Bei einfachen Multiplizit ten k nnte auch ein Fremdschl s seleintrag vorgenommen werden aber diese Vorgehensweise wurde an dieser Stelle nicht gew hlt weil Assoziationen zwischen DimensionalClass Schemaelementen die Konsistenz sichern indem Definitionsl cken im Datenw rfel festgelegt werden Dieser Sachverhalt ist inhaltlich von den multidimensionalen Daten zu trennen was durch die separate Relation zum Aus
87. Kennzahl Ein Fakt kann einerseits sowohl mehrere At tribute besitzen die beispielsweise in Form einer Verbundstruktur angeordnet sind und zum anderen k nnen auch textuelle Kenn zahlen oder Eigenschaften deren Dom ne ein Aufz hlungstyp ist existieren Der Datentyp von Faktattributen muss nicht unbedingt numerisch sein ebenso k n nen hier mit Hilfe der Klasse DataClass Objekten komplexe Datentypen verwendet werden Die Markierung abgeleiteter Attribute und die Angabe der Berechnungsvorschrift sollten im Datenschema m glich sein Die mUML nutzt hier die M glichkeit der UML berechnete Attribute mit einem Schr gstrich zu Kennzeichen und die Be rechnungsvorschrift in Form einer Annotation vorzunehmen Die Additivit t von Kennzahlen sollte im Schema explizit angegeben werden k nnen Hierzu existiert in der MML die Meta klasse Additivity die es erm glicht je der Faktattribut Dimension Kombination ei ne Menge von Verdichtungsoperatoren zuzu weisen Auch Kennzahlen sollten eine innere Struktur besitzen k nnen Hierzu k nnen Faktattribute einen komplexen Datentyp besitzen Tabelle 6 5 Datenmodellanforderungen an Fakten und ihre Erf l lung in der MML 6 6 Zusammenfassung 117 Anforderungen an Dimensionen Anforderung Realisierung in der MML Die Modellierung von Hierarchieebenen soll te m glich sein In der MML werden Hierarchieebenen
88. Knoten des Baumes sind die Hierarchieebenen Sie werden durch einen Kreis dargestellt und beschreiben ein Attribut mit dem ein Element auf der entsprechenden Hierarchieebene charakterisiert werden kann Au er der Angabe des Attributnamens erfolgt keine n here Aufgliederung der einzelnen identifizierenden Eigenschaften so dass es nicht m glich ist durch Kombinationen von Attributen einen konzeptionellen Schl ssel festzulegen Besteht eine modellierte Beziehung zwischen zwei Attributen nicht bei jeder Kombination von Attributauspr gungen so kann dies f r sp tere Entwurfs phasen im Fakt Schema vermerkt werden Diese optionale Beziehung wird durch einen Querstrich auf der zugeh rigen Kante dargestellt Neben kreisf rmigen Knoten existiert ein zweiter Typ zur Darstellung nicht dimensionaler Attribute Diese als Strich darzustellenden Attribute k nnen nur als Bl tter im Dimensionsbaum auftreten und beschreiben Zusatzinformationen die nicht f r eine Hierarchiebildung geeignet sind Abbildung 3 17 fasst die Notationselemente zusammen Name Attribut O x Attribut Attribut Fakt Hierarchie Verdichtungs Optionale Nicht dimensionales ebene pfad Beziehung Attribut Abbildung 3 17 DFM Notationselemente 6In anderen konzeptionellen Modellen werden diese nicht dimensionalen Attribute als Dimensionsattribute bezeichnet 3 3 Konzeptionelle multidimensionale Datenmodelle 33 Das Beispiel der Verkaufszahlen ist in Abbi
89. Kriterien wird eine Entwurfsmethodik vorgeschlagen die von der Anforderungsanalyse bis zum logischen Entwurf einer relationalen Implementierung reicht Neben dem klassischen Vorgehen in der Analysephase das die Sichtung der Daten und Benutzeranfor derungen umfasst werden in dieser Phase auch die Schemata von operativen DBen untersucht die als potenzielle Datenquellen in Frage kommen In der Phase der konzeptionellen Modellierung wer den die Ergebnisse der Anforderungsanalyse zu multidimensionalen Faktschemata angeordnet wo bei das in HLVO0 beschriebene multidimensionale Modell verwendet wird Dar ber hinaus wird ein Algorithmus vorgeschlagen der die Resultate der Anforderungsanalyse automatisch in ein multi dimensionales Schema berf hrt Im Zuge des logischen Entwurfs wird eine Schematransformation vorgenommen die eine relationale Implementierung des konzeptionellen Schemas in Form von nde rungsunabh ngigen materialisierten Sichten vornimmt Weiterhin werden im resultierenden Schema NULL Werte vermieden Positiv zu erw hnen ist das Aufbauen auf dem bew hrten Drei Ebenen Ansatz ebenso interessant ist die kombinierte Betrachtungsweise von neuen Anforderungen und existierenden Schemata w h rend der Anforderungsanalyse Durch die nderungsunabh ngigkeit wird das DWH als Menge ma terialisierter Sichten der Datenquellen aufgefasst wodurch der im Back End Bereich zu etablierende Integrationsaspekt verlorengeht Das resultierende
90. MML Klassen In bezug auf die Datenmodellierung kann Im Gegensatz zur Originalarbeit der MML in Har99b ist in der hier beschriebenen Version der MML die M glichkeit zum Modellieren von Schemaevolutionen ausgelassen weil diese ausserhalb des Rahmens der Arbeit liegen Ver ndert wurde die Funktion beim SharedRollUp Operator neu hinzugekommen ist das Konstrukt DimensionalMapping Diese beiden Modifikationen begr nden sich in einer gr sseren Flexibilit t der Modellierung In der MML wird hierf r der Begriff additivity Additivit t gew hlt der im engeren Sinne nur die Anwendbarkeit des sum Operators bezeichnet Diese Wahl erfolgte weil die Summierung in analytischen Applikationen die vorwiegend angewendete Verdichtungsoperation ist 6 1 MML Multidimensional Modeling Language 75 es sich jedoch in einem Datenschema um Klassen handeln deren Objekte sp ter die konkreten Daten sind Um dieser Begriffsvermischung entgegenzuwirken gelten im Folgenden die in Abbildung 6 2 aufgef hrten Begriffe MML Klassen werden als MML Metaklassen bezeichnet Instanzen dieser Metaklassen als Metaklassen Instanz Schemaelement oder Klasse Die konkreten Daten schlie lich werden als Schemaelement Instanz bzw Schemaelement Objekt bezeichnet Mit dieser Vereinbarung lassen sich Instanzen der Metaklassen gem der Datenmodellierungs sicht weiterhin als Klassen bezeichnen Dar ber hinaus ist zu beachten dass Instanzen einiger MML Meta
91. Metadaten die die multidimensionalen und objektorientierten Sachverhalte des konzep tionellen Entwurfs festhalten Au erdem wird in einem REMUS Schema das Konzept der Relation durch den allgemeineren Oberbegriff Objekt ersetzt Dies ist im Hinblick auf eine sp tere Erweiter barkeit der Methodik geschehen Damit ergibt sich das in Abbildung 7 2 dargestellte Metaschema Ein benanntes REMUS Schema setzt sich aus einer Menge von Objekten Attributen und Metadaten zusammen Die Metadaten wer den weiter in Kategorie A und Kategorie B Metadaten unterschieden Kategorie A Metadaten beschreiben dabei Eigenschaften jeweils einzelner Objekte oder Attribute w hrend Kategorie B Metadaten Eigenschaften beschreiben die sich auf jeweils zwei Objekte beziehen Objekte werden in REMUS durch ihren Namen beschrieben Attribute durch Angabe von Namen und Datentyp REMUSSchema L schema name Name schema schema 0 item 0 item 0 item Object Attribute MetaData name Name name Name dataType Name ZN CategoryAMetaData CategoryBMetaData RES Abbildung 7 2 REMUS Metaschema 7 1 2 Metadatentypen Zur Darstellung der Metadaten wird an dieser Stelle eine Tupelnotation verwendet Die unterschied lichen Typen von Kategorie A Metadaten sind in Tabelle 7 1 mit Erl uterungen aufgef hrt Eine ausf hrliche Spezifikation mit Metaklassendiagramm und K
92. Multidimensional Aggregates In Peckham Joan Herausgeber SIG MOD 1997 Proceedings ACM SIGMOD International Conference on Management of Data Mai 1997 Tucson Arizona USA Seiten 159 170 ACM Press 1997 Zhuge Yue Hector Garcia Molina Joachim Hammer und Jennifer Widom View Main tenance in a Warehousing Environment In Carey Michael J und Donovan A Schnei der Herausgeber Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data Mai 1995 San Jose Kalifornien USA Seiten 316 327 ACM Press 1995 Zurek Thomas und Markus Sinnwell Data Warehousing Has More Colours Than Just Black amp White In Proceedings of the Industrial Session of VLDB 99 September 1999 Edinburgh Schottland 1999 Abbildungsverzeichnis 1 1 1 2 2 1 2 2 3 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 3 10 3 11 3 12 3 13 3 14 3 15 3 16 3 17 3 18 3 19 3 20 3 21 Architektur ohne Data Warehouse e 4 Architektur mit Data Warehouse 2222 20mm nn eee eee 5 Referenzarchitektur DWS 2 2 Como on 9 Abh ngige und unabh ngige Data Mats 14 Paen I Wine eg 0 4 2 3 820 EN e AE d AE te eae ed x 20 Einfache und Mehrfachhierarchien oaa 20 Unbalancierte Hierarchie ooa aaa nen 21 Anteilige Verrechnung und nicht vollst ndige Verdichtung 21 Roll Up und Drill Down Operator 2 2 Cm men 22 Pivoting bzw Rotation Operator 2 2 2 2 23 Slice and Dice Operator e 23 Gr
93. Multidimensional Databases In Kambayashi Yahiko Mukesh K Mohania und A Min Tjoa Herausgeber Data Warehousing and Knowled ge Discovery Second International Conference DaWaK 2000 September 2000 London England Proceedings Seiten 11 23 London England 2000 Gupta Ashish Inderpal Singh Mumick Jun Rao und Kenneth A Ross Adapting Ma terialized Views after Redefinitions Techniques and a Performance Study Information Systems 26 5 323 362 2001 356 Literaturverzeichnis GMS93 Giin00 GR98 Gup97 Gut84 HAO1 Har99a Har99b Her99 HerOla Her01b HerOlc Gupta Ashish Inderpal Singh Mumick und V S Subrahmanian Maintaining Views Incrementally In Buneman Peter und Sushil Jajodia Herausgeber Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data Mai 1993 Washington D C USA Seiten 157 166 ACM Press 1993 G nzel Holger Data Warehouse Eine Basis f r Data Mining Datenbank Rundbrief 1 25 6 10 April 2000 Golfarelli Matteo und Stefano Rizzi Methodological Framework for Data Warehou se Design In DOLAP 98 ACM First International Workshop on Data Warehousing and OLAP November 1998 Bethesda Maryland USA Proceedings Seiten 3 9 ACM Press 1998 Gupta Himanshu Selection of Views to Materialize in a Data Warehouse In Afrati Foto N und Phokion Kolaitis Herausgeber Database Theory ICDT 94 6th Interna
94. NULL NULL FALSE FALSE TA18 UK18 3 4 10 FK22 QuadInt NULL NULL Column COS53 Ort_des_Verkaufs_FK NULL NULL FALSE FALSE TA19 UK19 3 4 10 FK24 QuadInt NULL NULL Column CO54 PLZ NULL NULL FALSE FALSE TA13 UK31 PLZTyp NULL 3 5 NULL Column CO55 Produktfamilie_FK NULL NULL FALSE FALSE TA08 FK07 3 10 QuadInt NULL NULL Column CO56 Produktgruppe_FK NULL NULL FALSE FALSE TA01 FKO1 3 10 QuadInt NULL NULL Column COS7 Produktkategorie_FK NULL NULL FALSE FALSE TA07 FK06 3 10 QuadInt NULL NULL Column CO58 Quartal_FK NULL NULL FALSE FALSE TA03 UK03 FK16 3 4 10 QuadInt NULL NULL Column CO59 Quartal_FK NULL NULL FALSE FALSE TA04 FK03 QuadInt 3 10 NULL NULL Column CO60 Region_FK NULL NULL FALSE FALSE TA13 FK10 QuadInt 3 10 NULL NULL Column CO61 Region_FK NULL NULL FALSE FALSE TA17 FK15 QuadInt 3 10 NULL NULL Column CO62 Staat_FK NULL NULL FALSE FALSE TAll FK09 QuadInt 3 10 NULL NULL Column C063 Stadt_FK NULL NULL FALSE FALSE TA05 FK05 QuadInt 3 10 NULL NULL Column CO64 Stadt_FK NULL NULL FALSE FALSE TA14 FK12 QuadInt 3 10 NULL NULL Colum
95. NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE NULL ColumnType CT15 String IdentifierValueType DOUBLE_BYTE NULL NULL FAL 1 SE TRUE FALSE FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE NULL ColumnType Fortsetzung auf der folgenden Seite 312 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite CompositionMETA CMOL Verkauftes_Produkt 0 TA16 TA19 CompositionME TA 15 ForeignKey FKO1 Foreign key of table Artikel from table Produktgruppe TAO1 CO56 10 FRO1 ForeignKey FK02 Foreign key of table Filialkategorie from table Filialoberkategorie 10 TA21 CO78 FRO2 ForeignKey FK03 Foreign key of table Monat from table Quartal TA04 CO59 10 FRO3 ForeignKey FK04 Foreign key of table Ort_des_Verkaufs from table Filialkategorie 10 TA05 C077 FRO4 ForeignKey FK05 Foreign key of table Ort_des_Verkaufs from table Stadt TA05 CO63 10 FRO5 ForeignKey FK06 Foreign key of table Produktfamilie from table Produktkategorie 10 TA07 CO57 FR06 ForeignKey FK07 Foreign key of table Produktgruppe from table Produktfamilie
96. Referenziert werden die beiden Tabellen auf die die Faktklasse der aggregierten Seite bzw die Faktklasse der Detailseite abgebil det wurden MappingMETA h lt Eigenschaften von Berechnungsvorschriften fest die sich bei der Aufl sung der Beziehungstypen SharedRollUps und DimensionalMappings zwischen Dimensionen ergeben Dabei wird ber die Referenz parameters auf die Spalten verwiesen die in die Berech nung als Parameter eingehen und ber die Referenz result die Spalte die das Ergebnis der Berech nung enth lt Eine solche Berechnung ist dar ber hinaus durch die Attribute name Bezeichnung der Abbildungsbeziehung type gibt die Herkunft f r der Beziehung an zul ssige Werte sind SHA RED_ROLL_UP und DIMENSIONAL_MAPPING allowedOperators gibt die zul ssigen Ver dichtungsoperatoren an die mit dieser Abbildungsbeziehung vertr glich sind computation gibt die Berechnungsvorschrift an sowie typesSource und typesDestination die g ltigen Typen f r die die Parameter bzw das Resultat enthaltenden Tabelle angeben 8 2 7 Datentypen W hrend in einem REMUS Schema als Datentypen die aus dem MML Schema bernommenen sprechenden Bezeichner verwendet wurden siehe Transformationsschritt 1 auf Seite 126 sollen in einem LCD of SOL Schema die Common Data Types des OIM Teilmodells Analysis and Design Common Data Types Anwendung finden Diese sind in Abbildung 8 8 dargestellt 172 Kapitel 8 Relationaler Entwurf Obje
97. Rozen und Shasha In RS91 wird ein zweiphasiger Algorithmus f r den physischen DB Entwurf vorgestellt Im ersten als Auswahlphase bezeichneten Schritt wird f r eine Menge von Anfragen an die DB aufgrund von vorher definierten Regeln eine Menge von Entwurfsentscheidungen wie z B Indizes bestimmt die sich als vorteilhaft f r die Ausf hrung der Anfragen erweisen Daran schlie t sich als zweiter Schritt die sog Kompromissphase an in der eine Teilmenge der im ersten Schritt ermittelten physischen Ent wurfsentscheidungen selektiert wird wobei die Kosten der Menge gewichteter Anfragen minimiert werden soll Performance Engineering In den letzten Jahren hat sich innerhalb des Software Engineering mit dem sog Performance Enginee ring RS99 SS00 eine neue Teildisziplin entwickelt deren Kernidee darin besteht die Performanz eines Anwendungssystems bereits in den fr hen Phasen der Softwareentwicklung zu ber cksichti gen Damit soll die Entwicklung von Softwaresystemen erm glicht werden die unter Angabe eines definierten Ressourcenverbrauchs und eines Lastmodells geforderte Leistungsattribute k nftiger An wender erf llen k nnen 5 3 4 Erweiterungsmechanismen der UML Bei Vorstellung der Entwurfsmethodik in Teil II der Arbeit kommt die UML Unified Modeling Lan guage als Beschreibungsmittel zum Einsatz Zum Verst ndnis notwendige grundlegende Kenntnisse der UML werden beim Leser vorausgesetzt die eventuell nicht so weit verbreit
98. St ckzahlTyp Metadaten Abbildung 7 20 Transformation von FactAttribute Schemaelementen 154 Kapitel 7 Logischer Entwurf Anmerkung zu den neuen Additiviry Metadaten Bei den Transformationsalternativen II bis IV entstehen neue Kombinationen von Faktattributen und Dimensionen f r die entsprechende Additivity Metadaten angelegt werden m ssen W hrend Fall II meistens nicht kritisch ist K nnen in den in Abbildung 7 21 dargestellten Szenarien die dem gleichen Resultat entsprechenden Probleme auftreten e Bei M glichkeit III k nnen sowohl aggregierte Klasse als auch Detailseite eine Dimension zur selben DimensionalClass Instanz besitzen Abbildung 7 21 a e Bei M glichkeit IV k nnen sowohl aggregiertes Attribut als auch eine Dimension auf die De tailseite bertragen werden Abbildung 7 21 b Die von der aggregierten Seite bertragenen Faktattribute d rfen in der Regel nur die Operatoren MAX und MIN zur Verdichtung besitzen denn nur diese sind unabh ngig davon wie oft der gleiche Wert in die Berechnung eingeht Bei der Summierung beispielsweise w rden falsche Ergebnisse erzielt werden weil das aggregierte Attribut so oft in die Berechnung eingehen w rde wie es die in der Komposition modellierte Multiplizit t beschreibt lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Tag Tag lt lt Dimension gt gt lt lt Dimension gt gt lt lt Dimension gt gt z b Z
99. Text lt lt Dimension gt gt Ort Mi SES eae lt lt Dimensional Class gt gt Ee Gliaisenbarsich Verkauftes Produkt SSS TEE lt lt Dimensional Class gt gt lt lt Dimensionakllass gt gt Kaufhaus Filiale 0 T lt lt Fact Class gt gt lt lt Roll Up gt gt Veikauftes Produkt For Help press F1 IT WNI Abbildung 11 5 Graphische konzeptionelle Modellierung mit erweitertem Rational Rose Die zus tzliche Programmfunktionalit t die ber den am Ende des letzten Abschnitts erw hnten Add In Mechanismus zur Verf gung gestellt wird wird ber erweiterte Men eintr ge aktiviert wie in Abbildung 11 6 dargestellt Rational Rose Bsp1Colour mdl Class Diagram Logical View Main E File Edit View Browse Report Query CH Add Ins Window Help Deg Jolie ai eg etter e D lt Dimensional Class gt gt Bien Lol Use Case View 5 0 Logical view Main fac Verkauf fac Verkauftes Produkt Bezeichnung JahrTyp im T oll Up gt gt lt lt Roll Up gt gt pam He Open Script Jahr dim Monat New Script E dim Quartal lt lt Dimensional Bezeichnung DDL gt Quartal dim Jahr Bezeichnung C Bezeichnung IDL dim Woche ES sde ui om Ort des Verkaufs Pe dm Kaufhaus Source Control dim Filiale dim Region dim Staat dim Verkaufsbezirk dim Artikel Bezeichnung A Arnbalnada ep qimension Mon L MN Check Model Convert Model to
100. Transformationswerkzeug Werkzeug das den Prozess der Transformation unterst tzt Tupel Abk rzung f r n Tupel also ein Element aus einem n stelligen kartesischen Produkt Es bezeichnet ein Element einer tRelation Unbalancierte Hierarchie Hierarchie in der bei Zuordnung von Elementen einer Hierarchieebene zur n chsth heren oder n chstniedrigeren Ebene nicht immer zugeh rige Elemente existieren Ungerichtete Assoziation Assoziation deren Richtung nicht festgelegt ist d h unspezifiziert ist In der FUML wird die h ufig auch mit der bidirektionalen Assoziation gleichgesetzt Unified Modeling Language UML Eine von der Object Management Group OMG standardi sierte Notation und Semantik zur Visualisierung Konstruktion und Dokumentation von Mo dellen f r die objektorientierte Softwareentwicklung Unterklasse tKlasse deren Merkmale durch Vererbung aus ein oder mehreren anderen Klassen tOberklassen bernommen werden In Abh ngigkeit von der Anzahl der Vererbungsstufen spricht man auch von den direkten und indirekten n einer Klasse Untersuchungsobjekt Gegenstand einer Messung Verbund Operator der zwei Relationen ber einen gemeinsamen Ausdruck verbindet und eine Resultatrelation erzeugt Verdichtung Zusammenfassen von Daten mittels einer Berechnungsvorschrift In tmultidimensionalen Datenmodellen werden en ber quantifizierende Attribute ent lang einer Dimension betrachtet Verdichtungsoperat
101. VerkaufsArtikel Ort des Verkaufs ForeignID 0 Produktfamilie Multiplicity Produktfamilie Produktkategorie ForeignID 0 5 Produktgruppe Multiplicity Produktgruppe Produktfamilie ForeignID 0 5 Quartal Multiplicity Quartal Jahr ForeignID 0 5 OC Region Multiplicity Region Staat ForeignID 0 5 Stadt Multiplicity Stadt Region ForeignID 0 5 Stadt Multiplicity Stadt Verkaufsbezirk ForeignID 0 5 Strassenbereich Multiplicity Strassenbereich Stadt ForeignID 0 5 Tag Multiplicity Tag Monat ForeignID 0 5 Tag Multiplicity Tag Woche ForeignID 0 5 Verkauf Multiplicity Verkauf Ort des Verkaufs ForeignID 0 9 Verkauf Multiplicity Verkauf Tag ForeignID 0 9 Verkaufsbezirk Multiplicity Verkaufsbezirk Region ForeignID 0 5 Verkaufszahl Multiplicity Verkaufszahl Artikel ForeignID 0 9 Verkaufszahl Multiplicity Verkaufszahl Ort des Verkaufs ForeignID 0 9 Fortsetzung auf der folgenden Seite 302
102. Vollst ndigkeit sondern dienen vielmehr der Vermittlung eines groben berblickes Bei Bedarf geben die referenzierten Literaturquellen weiterf hrende Informationen 4 3 1 Indexierung Indexstrukturen sind redundante Strukturen zur Optimierung von selektiven Lesezugriffen was durch eine Reduzierung der f r die Anfrage zu lesenden Datenseiten erreicht wird Als Standard Indexstruktur in OLTP DB haben sich B B ume BM72 und B B ume Wed74 herauskristalli siert Diese erm glichen den effizienten Zugriff bei sog Punktanfragen d h gezielter Zugriff auf einen Datensatz oder eine relativ kleine Datenmenge In DWH jedoch werden typischerweise viele Datens tze umfassende sog Bereichsanfragen gestellt so dass diese herk mmlichen Indexierungs techniken nur beschr nkt einzusetzen sind Auf der anderen Seite k nnen im Gegensatz zu OLTP DBen in DWH komplexere Indexstrukturen eingesetzt werden weil die Problematik der Indexpflege bei massiv konkurrierenden Daten nderungen entf llt So sind eine Reihe neuer Indextypen konzipiert worden z B mehrdimensionale Indexstrukturen Ein bekannter Vertreter ist der R Baum Gut84 der das Indexieren von Bereichen in Form von Rechtecken des multidimensionalen Datenraumes erm glicht Auf dem R Baum basierend sind ei ne Reihe von Varianten entstanden z B derGepackte R Baum RL85 der den freien Speicherplatz in der Indexstruktur zu minimieren versucht der R Baum SRF87 der durch Vermeidung
103. a columnSet name JdetAttrituteNarie falls t name t sonst Jdet AtsributeName Um eine Menge von Table Objekten zu erg nzen sei definiert UValidypaateser METAVatia X Pot Lravie gt Pot Lravie def 8 49 LV alidy paateses M T U UV alidy paate s one tet 194 Kapitel 8 Relationaler Entwurf Schlie lich wird die Abbildung aller Valid Metadaten durchgef hrt Mvatia RXL gt L d Mvyatia R L M S L Orabie U UValidorcare M m Mvaiia U HValidypdateset 1 OTable Mm Mvatid 8 50 8 3 10 Schritt 8 Optionale Attribute markieren Die durch das Oprional Metadatum markierte Optionalit tseigenschaft eines Attributes wird durch Setzen des optional Attributes der Klasse Column festgehalten Abbildung 8 18 zeigt dies f r das Attribut Bezeichnung der Tabelle Artikel Artikel Optional Artikel Bezeichnung f Artikel Artikel det TableName Hoptional Artikel Bezeichnung Bezeichnung f det a ttibuteName Column name Bezeichnung initialValue NULL valueExpression NULL identityIncrement 0 optional TRUE Abbildung 8 18 Abbildung von Optional von REMUS nach LCD of SQL Eine einzelne Spalte wird mittels Abbildung 8 51 aktualisiert HOptionaly paate META optional x Lcolumn gt LColumn def HOptionaly pdate m c SetColumnOptional faetazrimtenam M attribute name TRUE falls cname faetsstribut
104. als 7 7 R U Ro dr Oi U O2 An U Aa M U M Transformation Zur bersichtlicheren Darstellung der im folgenden Abschnitt beschriebenen Transformation seien folgende Funktionen definiert Eine deterministische Funktion Ju die einigen Entwurfsentscheidungen wie z B der Auf l sung von Namenskonflikten dient an dieser Stelle aber noch nicht weiter spezifiziert wird und sp ter in der Implementierung durch Benutzerinteraktion realisiert werden soll Eine Funktion r die zu einer Klasse aus dem MML Schema die Relation des REMUS Schemas angibt auf die sie abgebildet worden ist Eine Funktion amp die zu einer Klasse innerhalb der Vererbungshierarchie die Menge ihrer Nach folger einschlie lich der Klasse selbst ermittelt Eine Funktion 4 die die Konkatenation von Zeichenketten beschreibt Bei der Beschreibung der Transformationen werden Zeichenketten durch eine Schreibweise in Anf hrungszeichen hervorgehoben 7 2 2 Schritt 1 Transformation von DataType Schemaelementen Zu jeder DataType Instanz wird ein Objekt und ein Metadatum angelegt wie exemplarisch f r den elementaren Datentyp Text in Abbildung 7 5 gezeigt Au erdem werden einmalig die speziellen Datentypen KeyType und ForeignKeyType f r Prim r und Fremdschl sseleintr ge sowie der Typ dentifierValueType zur Verwendung siehe Schritt 3 in Ab schnitt 7 2 4 definiert Die Abbildungsvorschrift wird in 7 8 definiert TDataT ype M DataType EK KO
105. b genau dann wenn a lt bunda b e F r ein Element a L sei die Menge seiner Vorg nger definiert als d ancestor a a bla lt b e F r ein Element a L sei die Menge seiner Nachfolger definiert als descendant a bjb lt a Der Zusammenhang zwischen Gittern und multidimensionalen Datenobjekten ist wie folgt Die Hierarchieebenen einer jeden Dimension bilden ein Gitter z B l sst sich die Zeitdimension mit Hilfe der Abh ngigkeitsrelation Jahr lt Monat lt Tag darstellen Anschaulich gespro chen hei t dies die Ergebnisse f r ein Jahr k nnen auf die Resultate der Monatsebene und diese wiederum auf die Resultate der Tagesebene zur ckgef hrt werden Um auch Anfragen die sich auf mehr als eine Dimension beziehen als Gitter modellieren zu k nnen seien solche Anfragen als Vektor dargestellt wobei jede Komponente die Hierarchieebene einer Dimension darstellt z B Filiale Produktgruppe Quartal Das Gitter des gesamten Datenw rfels wird durch Berech nung des direkten Produkts der Gitter der einzelnen Dimensionen gebildet Bildlich gesprochen berechnet sich das direkte Produkt indem jeder mit jedem kombiniert wird formaler gilt m d Tdi 31 amp L 3 mit LEE a gel ai Li 10 15 und Ya b E L a lt b b a lt bi Die lt Relation l sst sich folgenderma en kanonisch auf Vektoren bertragen a1 B25 55 Gn lt bi ba DI bn eh Vi aj lt bj 10 16 Damit sind Anf
106. britanni en 1995 Som00 Sommerville Ian Software Engineering Addison Wesley 2000 SRF87 Sellis Timos K Nick Roussopoulos und Christos Faloutsos The R Tree A Dynamic Index for Multi Dimensional Objects In Stocker Peter M William Kent und Peter Hammersley Herausgeber VLDB 87 Proceedings of 13th International Conference on Very Large Data Bases September 1987 Brighton England Seiten 507 518 Mor gan Kaufmann 1987 SS00 Scholz Andre und Andreas Schmietendorf Aspekte des Performance Engineering Aufgaben und Inhalte In Dumke Rainer Claus Rautenstrauch Andreas Schmieten dorf und Andre Scholz Herausgeber Tagungsband des 1 Workshops Performance En gineering in der Softwareentwicklung PE2000 Mai 2000 Darmstadt Deutschland Seiten 33 40 2000 SSLO1 Seemann Achim Bernd Schmalzridt und Peter Lehmann Herausgeber SAP Business Information Warehouse Galileo Press Bonn Deutschland 2001 Ste00 Stewart Nancy Data Warehousing and Business Intelligence Market Forecast 2001 2005 Studie Firma Survey com 2000 TB88 Tompa Frank Wm und Jose A Blakeley Maintaining Materialized Views Without Ac cessing Base Data Information Systems 13 4 393 406 1988 TBC99 Tryfona Nectaria Frank Busborg und Jens G Borch Christiansen starER A Concep tual Model for Data Warehouse Design In DOLAP 99 ACM Second International Workshop on Data Warehousing and OLAP November 1999 Kan
107. dargestellt das an der Beziehungskante platziert ist Ebenso werden Constraints in farbig nicht hin terlegten Rechtecken mit abgerundeten Ecken dargestellt Auch diese sind nahe ihrem Bezugsobjekt positioniert Beispiele dieser Notation sind in Abbildung 4 3 zu sehen Die Beziehung zwischen den Tabellen E und D2 wird als DIMENSION gekennzeichnet und der Wertebereich des Attributs C der Tabelle D1 wird auf Werte gr er oder gleich 5 eingeschr nkt Um die bersichtlichkeit zu wahren soll das Darstellen dieser Zusatzinformationen sparsam verwendet werden D1 ID CounterType A String B String c gt 5 IG INTEGER n A INTEGER D1 ForeignID D2 ForeignID type 1 N DIMENSION ID CounterType D2 A String Abbildung 4 3 Darstellung von Prim rschl sselrollen und Constraints 4 2 2 Schneeflockenschema Das Schneeflockenschema ist eine direkte M glichkeit Dimensionshierarchien darzustellen indem f r jede Hierarchieebene eine eigene Tabelle angelegt wird Abbildung 4 4 Schneeflockenschema Land Land_ID Bezeichnung Jahr 1 N Jahr_ID PN Region Bezeichnung Quartal an Quartal_ID ezeichnung Bezeichnun Land_ID Woche Jahr_ID S N Woche_ID 1 Stadt Bezeichnung N Jahr
108. dass sie hier nicht nochmals aufgelistet werden Es gelten entsprechend die Formeln 8 65 bis 8 74 nur mit dem Unterschied dass jedes Vorkommen von RollUp durch Dimension zu ersetzen ist 8 3 Abbildung von REMUS nach LCD of SOL 201 8 3 13 Schritt 11 Additivit t festlegen Die in einem Additivity Metadatum festgehaltenen zul ssigen Operatoren f r eine Faktattribut Dimension Kombination werden wie in Abbildung 8 21 zu sehen weiterhin als Metainformationen festgehalten Verkauftes Produkt Anzahl Ort des Verkaufs Additivity Ort Verkauf Verkauftes Produkt SUM MIN MAX AVG D Verkauftes Produkt Verkauftes Produkt E additivity TableName Ort des Verkaufs Ort_des_Verkaufs f act TableName Column name Anzahl ReferentialConstraint name Referential constraint between table Ort_des_Verkaufs and Verkauftes_ Produkt referential Constraint additivity additivity AdditivityMETA name Valid operators for Anzahl with respect to Ort_Verkauf allowedOperators SUM MIN MAX AVG Abbildung 8 21 Abbildung des REMUS Metadatums Additivity auf das LCD of SOL Schema Das neue Schemaelement wird durch folgende Abbildungsvorschrift angelegt U Additivityoreate META Additivity gt L AdditivityM ETA SS 7 Valid operators for det stiributeName m Fact Attribute name HAdditivityoreate m
109. dem folgendes Optimierungsproblem zu l sen ist Aus der Teilmenge sinnvoller Optimierungsma nahmen muss eine Teilmenge bestimmt werden die gem einem Optimierungsziel einem vorge gebenen Kostenmodell f r die Aufgaben und einigen Nebenbedingungen optimal ist Ein typisches Optimierungsziel ist z B die Minimierung der Lesekosten von Aufgaben aus dem Workload typische Nebenbedingungen sind der zur Verf gung stehende Speicherplatz oder die zur Verf gung stehende Zeit zur Durchf hrung der Optimierungsma nahmen An das Ende der Optimierungsphase deren Resultat neben dem anfangs definierten Schema eine Menge von zu realisierenden Optimierungs ma nahmen ist schlie t sich eine weitere Benutzerinteraktion an Der Entwickler kann die endg ltig ausgew hlte Menge an Optimierungsma nahmen bewerten und wenn das Resultat in seinen Augen zufriedenstellend ist kann in die Implementierungsphase bergegangen werden in der vom Ziel system abh ngige Datenbankskripte generiert oder ber eine Programmierschnittstelle DB Objekte angelegt werden Ist das Resultat jedoch nicht befriedigend ist ein weiterer Durchlauf des gesam ten Optimierungsprozesses mit ge nderten Eingabewerten m glich Abbildung 10 2 zeigt schlie lich auch die Betriebsphase in der das DWH mit dem Schema und den Optimierungsma nahmen im Einsatz ist In dieser Zeit ensteht durch Log Informationen des Systems neues Wissen z B ob die im urspr nglichen Workload festgelegten
110. den W hrend Composition Schemaelemente einfacher Multiplizit t 0 1 oder 1 stets durch Einbettung aufgel st werden sind bei Vorliegen komplexer Multiplizit t in Abh ngigkeit von den konkreten Daten Fallunterscheidungen notwendig Zur Differenzierung wird in 7 35 die boolesche Funktion Complex definiert die einer Komposition den Wert TRUE bzw FALSE in Abh ngikeit von der festgelegten Multiplizit t zuordnet Complex Mcomposition gt BOOLEAN def FALSE falls c end AMultiplieity 0 1 1 7 35 Complex c TRUE sonst SS W hrend des Vorgangs der Kompositionsaufl sung werden die Owner und FactClassAttributes Mengen entsprechend erweitert sowie eventuell weitere Metadaten angelegt In diese Aktualisie rungsberechnungen flie en die Detail und Aggregated Mengen ein Kompositionsbeziehungen mit einfacher Multiplizit t Als Beispiel soll die in Abbildung 7 16 dargestellte Variante aus dem Beispiel Handelswelt dienen in der die Multiplizit t der Komposition ver ndert wurde i i lt lt FactClass gt gt ae seDimension gt lt lt FactClass gt gt lt lt Dimension gt gt Herkunftsland Verkauftes Produkt pat Verkauf R 5 a Ort Verkauf lt lt Dimension gt gt Einzelp
111. der letzten sowie der am l ngsten ausge bten T tigkeit Ebenso wird die Dimension von der Faktklasse T tigkeit zur Angabe des Berufes genutzt lt lt DimensionalClass gt gt Berufsgruppe Code Text 4 stellig Beschreibung Text lt lt RollUp gt gt Berufsgruppe lt lt DimensionalClass gt gt Beruf Berufscode Text 4 stellig Beschreibung Text r d lt Dimension lt lt Dimension gt gt lt lt Dimension gt gt lt SC ae De Beruf 9 T tigkeit T tigkeit Abbildung B 6 Konzeptionelle Modellierung Dimension Beruf B 7 Dimension C Faktor 325 B 7 Dimension C Faktor Die Dimension C Faktor gibt Auskunft ber den die Tumorausbreitung beschreibenden C Faktor Zul ssige Wertepaare sind 1 Klinisch 2 Spezielle Diagnostik evtl auch Biopsie Zytologie 3 Chirurgische Exploration mit Biopsie Zytologie 4 Tumorresektion mit pathologischer Untersu chung 5 Autoptisch und 9 Fehlende Angabe Unbekannt lt lt DimensionalClass gt gt lt lt Dimension gt gt C Faktor C Faktor Bezeichnung Aufzahlungstyp Abbildung B 7 Konzeptionelle Modellierung Dimension C Faktor B 8 Dimension Diagnose Die Dimension Diagnose beschreibt die Diagnose in Form eines ICD Codes sowie des Langtextes Attribut Bezeichnung und der Angabe des Typs der Diagnoseklassifikation F r berblicksauswer
112. der logischen Entwurfsebene wurde der verallgemeinerte Relationen schematyp REMUS definiert der ein herk mmliches Relationenschema um verschiedene Me tadatentypen erg nzt Diese Metadaten halten Informationen ber die objektorientierten und multidimensionalen Konstrukte des konzeptionellen Modells fest die sich nicht direkt mit den Beschreibungsmitteln des Relationenmodells ausdr cken lassen F r die Transformation eines MML in ein REMUS Schema wurde ein Algorithmus entwor fen der gr tenteils automatisch abl uft an verschiedenen Stellen jedoch dem Benutzer Ein flussnahme auf einige Entwurfsentscheidungen erlaubt Diese Kombination von maschineller Transformation und menschlichem Kontextwissen gew hrleistet einen optimalen Transforma tionsprozess Als Beschreibungsmittel der physischen Entwurfsebene wurde das Metamodell LCD of SOL eingef hrt Dieses Modell bietet elementaren Umfang wie er vom SQL Standard und kom merziellen Systemen mit gro er Marktverbreitung unterst tzt wird Auch die Abbildung f r Schemata von REMUS nach LCD of SOL besitzt einige interaktive Schritte in denen der Benutzer projekt bzw organisationsspezifische Aspekte einflie en las sen kann Als n chster Schritt erfolgt eine Verfeinerung des LCD of SOL Schemas um spezielle Anfor derungen des verwendeten DBMS oder OLAP Servers zu erf llen Dazu wurden auf LCD of SOL Schemata Verfeinerungsoperatoren definiert die sich mit Hilfe algorithmischer Elem
113. des Kriteriums im Kontext von MML Schema Reviews gt e Messung lt Vorschlag eines Messverfahrens f r das Kriterium gt e Metrik lt Ma8 f r das Kriterium gt e Automatisierbarkeit lt Aussage zur Automatisierbarkeit des Messens gt e Objektivit t lt Aussage zur Objektivit t Subjektivit t des Kriteriums bzw Verfahrens gt 6 4 Qualit tssicherung von MML Schemata 101 Die in Tabelle 6 3 aufgef hrten Kriterien k nnen als Criterion Objekte im Metaschema aus Abbil dung 6 23 eingetragen werden Dabei wird f r jedes Kriterium nur ein Messverfahren genannt im Metamodell in Abbildung 6 23 war eine flexible Eins zu Viele Beziehung zwischen Kriterien und Messverfahren definiert worden um sp ter eventuell weitere Messverfahren f r ein Kriterium defi nieren zu k nnen M gliche Qualit tskriterien f r Reviews von MML Schemata Kriterium Fachliche Korrektheit Beschreibung Sind die Schemaaussagen korrekt in Bezug auf fachliche Anforderun gen Begriffe bzw Sachverhalte im Anwendungsbereich Relevanz Kriterium ist essentiell f r die Bedeutung eines Schemas Messung Durch Review eines Fachvertreters berpr fung jedes Sachverhaltes Fakt Dimension Hierarchiebildung freigegebene Operatoren etc auf fachliche Korrektheit Metrik Quote fachlich nicht korrekter Sachverhalte Automatisierbarkeit Nein
114. des Metaklassendiagramms 8 6 plus Nebenbedingungen Lvalia sei die Menge aller g ltigen LCD of SOL Schemata Der Zugriff auf Attribute und Referenzen von Objekten erfolgt wieder in der Punktnotation z B table name zum Zugriff auf den Tabellennamen oder column type zum Zugriff auf den Datentyp 178 Kapitel 8 Relationaler Entwurf einer Spalte Wie im vorangegangenen Kapitel f r die REMUS Objekte sei auch f r die LCD of SOL Objekte eine Tupelschreibweise definiert was in Tabelle 8 7 geschieht Tupelschreibweise LCD of SOL Objekte AdditivityMETA Referential Constraint Column typeMETA RefConsType identityIncrement Integer typesPK StringSet optional Boolean typesFK StringSet valueExpression Expression a name constraint 1 1 column a allowedOperator s Se a column Additivity META d a constraint name String allowedOperators OperatorSet AdditivityM ETA Column ColumnConstraint Table body Expression La name String name String constraints columnSet Column identityIncrement Integer initialValue Expression name String optional Boolean valueExpression Expression c name c initialV alue additivity 0 c valueExpression AdditivityMETA c identityInerement name String a allowedOperators OperatorSet c optional c columnSet c keys c type
115. des Verkaufs Bezeichnung Text 5 Kaufhaus Fl che Fl chenTyp Gesamtfl che Fl chenTyp Bezeichnung Text Zielsystem ekorientiertes j b 10N 1N ein O Transformati Abbildung 7 25 7 4 Zusammenfassung 161 7 4 Zusammenfassung In diesem Kapitel wurde die Abbildung von der konzeptionellen auf die logische Entwurfsebene behandelt Dabei wurde zun chst in Abschnitt 7 1 das logische relationale Metamodell REMUS definiert Der eigentliche Transformationsalgorithmus wurde in Abschnitt 7 2 vorgestellt seine Wir kungsweise wurde anhand des Beispiels Handelswelt demonstriert eine Auflistung aller erzeugten REMUS Objekte f r das Beispiel befindet sich in Anhang A 2 Der Algorithmus handelt die einzel nen MML Konstrukte sukzessive ab und transformiert sie in entsprechende REMUS Objekte wobei an einigen Stellen eine deterministische Funktion fdet x gewisse Transformationsentscheidungen bernimmt Diese sollte im Hinblick auf eine Implementierung als Benutzerinteraktion realisiert werden Als kompliziertester Teilschritt der Transformation hat sich das Aufl sen von Generalisierungen und Kompositionen zwischen Faktklassen erwiesen siehe Abschnitt 7 2 9 Weil hierbei sowohl das bertragen von Dimensionen wie auch Attributen von der aggregierten Faktklasse zur Faktklasse auf der Detailseite sinnvoll sein kann ist eine Reihe von Fallunterscheidungen vorz
116. diesem Grunde sei f r den MML Datentyp Name o B d A der Punkt als Zeichen nicht erlaubt F r einen speziellen Schemaelementtyp sind genau die Attribute und Referenzen definiert wie sie im MML Metaschema auf den Seiten 73 bis 86 spezifiziert sind REMUS Entsprechend den Definitionen f r MML Schemata werden in 7 5 REMUS Schemata definiert Ein REMUS Schema ist ein Tripel R O A M mit i O ist eine endliche nichtleere Menge von Objekten ii A ist eine endliche nichtleere Menge von Attributen In der Form von Paaren a b wobei a der Name des Attributs 7 5 und b der des zugeh rigen Datentyps ist iii M ist eine endliche nichtleere Menge von Metadaten In der in Abschnitt 7 1 2 eingef hrten Tupelnotation R sei die Menge aller REMUS Schemata 126 Kapitel 7 Logischer Entwurf Auch die Menge der f r die Transformation relevanten REMUS Schemata wird auf g ltige be schr nkt was in 7 6 geschieht Sei R O A M ein REMUS Schema R hei t g ltig 24 i Ym M m bezieht sich nur auf Objekte o O U A 7 6 ii Ym M m erf llt eine der Tupelnotationen aus den Tabellen 7 1 bzw 7 2 Ryatid sei die Menge aller g ltigen REMUS Schemata Das leere REMUS Schema R 0 0 0 soll mit Rampty bezeichnet werden In 7 7 wird die Vereinigung zweier REMUS Schemata als komponentenweise Vereinigung definiert Seien Ry O1 Ai M R Os As Ms ER Die Vereinigung von R und Ra ist definiert
117. dimensionalen Relationen im REMUS Schema durch zwei Metadaten dokumentiert Das SharedRollUp Metadatum enth lt neben den beiden dimensionalen Relationen auch die zul ssigen Typen verweist auf die Berechnungsvorschrift und erh lt dar ber hinaus als zus tzlichen Eintrag die Menge von Verdichtungsoperatoren die mit der Berechnungsvorschrift vertr glich sind d h die beim Navigieren entlang dieses Verdichtungsfades angewendnet werden d rfen ohne dass fehlerhafte Berechnungen auftreten 7 2 Transformationsalgorithmus 137 DimensionalClass name Jahr attribute DimensionalAttribute EnBeifant gt FALSE une propertyName Bezeichnung lt lt DimensionalClass gt gt type result Jahr property ep Bezeichnung JahrTyp SharedRollU computation l Computation lt lt SharedRollUp gt gt propertyName Jahr Sr Jahr allowedOperators SUM __ computation name Berechnung Jahr multiplicity 1 2 formula ISO Wochenberechnung parameter lt lt DimensionalClass gt gt rollUp Woche parameter Bezeichnung WochenTyp 7 i R DimensionalClass attribute p ropertyName Bezeichnung owner name Woche isAbstract FALSE Te Objekte Attribute Metadaten Berechnung Jahr Computation Woche Bezeichnung wow ISO Wochenberechnung Jahr Bezeichnung Woche
118. domainName 1 D type c constraints ColumnType a c additivity domainName String Column name String ColumnConstraint ColumnConstraint body Expression name String 1 column c name c body Column e column identityIncrement Integer A initialValue Expression ColumnConstraint name String optional Boolean valueExpression Expression EE Fortsetzung auf der folgenden Seite 8 3 Abbildung von REMUS nach LCD of SOL 179 Fortsetzung von der letzten Seite ColumnType ColumnType characterType CharacterType c name e domain Name columnSize Long cieateParams Sting c characterT ype c columnSize demaln Name String c create Params c is AutoU niqueV alue isAutoUniqueValue Boolean isCaseSensitive Boolean c isCaseSensitive c isFiredLength isFixedLength Boolean 5 i FR P isFixedPrecisionScale Boolean c isFixedPrecisionScale c isLong isLong Boolean j 2 isNullable Boolean c isNullable c isUnsigned Attribute isUnsignedAttribute Boolean s gt z literalPrefix String c literalPre fiz c literalSuf fix literalSuffix String c maximumsScale c minimumScale maximumScale Integer g Ba minimumScale Integer c numericPrecision name String PN numericPrecision Integer e numericPrecisionBinary numericPrecisionBinary Integer range RangeType c range c searchable searchab
119. ei ner Datenbank Datenbankmanagementsystem DBMS Aus einer Speicherungs und einer Verwaltungskompo nente bestehendes Programm Die Speicherungskomponente erlaubt Daten und ihre Beziehun gen abzulegen die Verwaltungskompenente stellt Funktionen und Sprachmittel zur Pflege und Verwaltung der Daten zur Verf gung Datendefinitionssprache Sprache zum Erstellen und Ver ndern eines tSchemas Datenintegration Prozess der Transformation Bereinigung und Konsolidierung von aus heteroge nen tDatenquellen extrahierten Daten Integrierte Daten werden im Operational Data Store abgelegt Datenmodell Formale Sprache zur strukturierten Beschreibung von Daten und ihren Beziehun gen sowie von Operationen auf diesen Daten Besondere Bedeutung kommt dem tEntity Relationship Modell dem tobjektrelationalen und dem tobjektorientierten zu Datenquelle Organisationsinterne oder externe Datenbank oder andere Daten speichernde Kom ponente z B Flat Files WWW Seiten etc aus der Daten f r das Data Warehousing ent nommen werden Datenschema Langform f r Schema Datentyp Gegen ber tObjekten besitzen Auspr gungen eines s keine Identit t sondern nur eine Wertgleichheit 342 Glossar Datenw rfel Kern Metapher des multidimensionalen Datenmodells das zur Auswertung relevan te tFakten mit den Beschreibungsdaten in einem mehrdimensionalen Datenraum Wiirfel anordnet Jede Art der Beschreibungsdaten wird im Sinne des s a
120. eine Beschreibung Zul ssige Werte f r T sind Relation und DataType Im ersten Fall sind als Werte f r D Fact Dimension und Data m glich im zweiten Fall bleibt D ohne Bedeutung Optional R Optional A Das Attribut A in der Relation R ist optional PrimaryKey R PrimaryKey A Das Attribut A ist Prim rschl sselattribut in der Relation R Der gesamte Prim rschl ssel von R setzt sich aus allen PrimaryKey Metadaten zusammen die R referenzieren Reference A Reference A2 Das Attribut A wird als Fremdschl sselattribut von Aa referenziert Aa muss durch ein ent sprechendes Metadatum als Prim rschl sselattribut gekennzeichnet sein Vali id A Valid Z Jh Vn Das Attribut A ist nur g ltig wenn das diskriminierende Attribut J einen der Werte V bis Vp besitzt Tabelle 7 1 REMUS Kategorie A Metadaten 122 Kapitel 7 Logischer Entwurf Analog werden in Tabelle 7 2 die Kategorie B Metadaten in einer Tupelnotation eingef hrt REMUS Kategorie B Metadaten Additivity A R Additivity D E Ou Das Faktattribut A der Faktrelation F hat bez glich der dimensionalen Relation R mit der F mittels der Dimension D in Beziehung steht die Menge O als zul ssige Verdichtungsoperato ren Association Ri Re Association Rs Ih Lo Ti To Pr E Fr Pra Fra
121. einer Hierarchieebene k nnen Datenobjekte mit unterschiedlichen Dimensionsattri buten existieren was insbesondere bei Hierarchiebildungen Probleme nach sich ziehen kann LRT96 so dass die Modellierung unterschiedlicher Datenobjekttypen unterst tzten sollte Insbesondere sollten auch optionale Dimensionsattribute definiert werden k nnen Das klassische ERM Entity Relationship Modell Che76 ist f r die konzeptionelle Modellierung von OLTP Datenbanken weit verbreitet Seine Vorteile liegen in der geringen Anzahl von Konstruk ten und der damit verbundenen einfachen Anwendbarkeit Die Hauptkonstrukte sind Entit tstypen die Objekte der Diskurswelt beschreiben Beziehungstypen die Abh ngigkeiten zwischen diesen Ob jekten festhalten und Artribute die die Eigenschaften der Entit ten und Beziehungen darstellen Es ist jedoch offensichtlich dass das klassische ERM den oben genannten Anforderungen nicht gewachsen ist insbesondere aufgrund der Existenz nur eines einzigen Beziehungstyps Zwar sind durch Erg n zungen wie z B Spezialisierungen oder Kompositionen diverse erweiterte E R Modelle entstanden f r einen berblick siehe Teo90 Tha00 welche auch die Anforderungen komplexer Objekte er f llen aber die Darstellung von Konzepten wie Dimensionen und Hierarchien nur unzureichend zu lassen Aus den Anforderungen in der Literatur lassen sich noch zwei Punkte nennen die im Rahmen dieser Arbeit nicht als Anforderung f r konzeptionel
122. eines jeden MML Konstrukts ist die abstrakte MMLElement Metaklasse siehe Abbildung 6 3 die jeder Klasse eine eindeutige Bezeichnung zuordnet Das MMLElement bildet somit auch den Ursprung f r die drei Bereiche Allgemeine Verbindungen Multidimensionaler Kontext und Daten Elemente mit ihren Hauptmetaklassen ConnectionElement ContextElement und DataElement Der Bereich Daten Elemente beschreibt allgemein datenaufnehmende Komponenten eines MML Schemas und entspricht damit einem Datentyp wobei es sich um elementare Metaklasse DataType oder komple xe Typen Metaklasse DataClass handeln kann Mit den im Bereich Hilfsmetaklassen aufgef hrten Elementen wird der Begriff der Klasse Metaklasse ClassElement mit seiner Eigenschaft der Vererb barkeit Metaklasse GeneralizableElement in die MML eingef hrt 77 MML Multidimensional Modeling Language 6 1 Bus Apoq Joyesdo Jo ajujpsyuwiun 4eddn Je elu emo sBueyAnsudunyy ebueit
123. explizit modelliert sondern sie ergeben sich aus den in Attributen referenzierten Typen Jeder Datentyp der in einem Attribut genutzt wird und nicht einer im Diagramm enthaltenen Klasse entspricht ist per Definition eine Instanz der DataType Metaklasse Die Attributsichtbarkeit g ltige Werte sind u a f r ffentlich f r gesch tzt und f r privat wird in der UML Notation nicht benutzt da in der MML keine entsprechende Kennzeichnung f r Attribute vorgesehen ist Als Sichtbarkeit f r UML Attribute wird daher immer der Wert angenommen so dass im objektorientierten Sinn der Zugriff auf die Attribute nicht eingeschr nkt ist F r Standardwerte von Attributen wird wie in der UML der Abschnitt Standardwert einer Attributdefinition verwendet Der Wert der Eigenschaft isKey der PropertyConnection Metaklasse und somit die Angabe ob ein Attribut eine Schl sseleigenschaft der Klasse darstellt erfolgt mittels des Erweiterungsmechanismus f r Elementeigenschaften F r Attribute einer UML Klasse wird die neue Eigenschaft isKey mit dem Standardwert false eingef hrt der in Form einer Eigenschaftsspezifikation ein Wert zugewiesen werden kann F r die Beschreibung von Eigenschaftsspezifikationen existiert in der UML eine verk rzte Schreibweise die Anwendung finden kann falls eine Eigenschaft einen booleschen Wert besitzt Die Eigenschaftsspezifikation kann in diesem Fall auf den Namen der Eigenschaft
124. g Datenbank Mail Handy Applikation x Front End Reporting Werkzeuge Aktiver Applikationen Info Agent eee Operational Data Store gt 0 ea fy ol fs os Back End Datenbereinigung Werkzeuge Transformation Extraktion EE Ces Datenguellen Om A u Externe Systeme Operative Systeme Abbildung 2 1 Referenzarchitektur DWS 2 1 Datenquellen Datenquellen sind der Ausgangspunkt einer datenflussorientierten Betrachtung der Architektur Die typischerweise stark heterogenen Datenquellen k nnen internen Ursprungs operative Systeme der eigenen Organisation oder aber extern sein wobei insbesondere das Internet als Quelle in Frage 10 Kapitel 2 Data Warehouse Systeme kommt Der Auswahl geeigneter Quellen zum Aufbau eines DWS kommt erhebliche Bedeutung zu Bei dieser Auswahl spielen insbesondere die Faktoren Qualit t der Daten technische wie organisato rische Verf gbarkeit und der Preis f r den Erwerb der Quelldaten eine Rolle 2 2 Back End Bereich Der Back End Bereich wird von einer Reihe von Werkzeugen gebildet die zwischen den Datenquel len und dem DWH angesiedelt sind Neben Monitoren siehe Abschnitt 2 2 1 sind dies vor allem Werkzeuge zur Extraktion siehe Abschnitt 2 2 2 Transformation siehe Abschnitt 2 2 3 und zum Laden siehe Abschnitt 2 2 4 Aufgrund der Anfangsbuchstaben der Werkzeugtypen wird der Back E
125. glicht es eine Folge von Reviews festzulegen Untersuchungsobjekt eines Reviews ist ein MML Schema was durch die Klasse MMLSchema modelliert ist 100 Kapitel 6 Konzeptioneller Entwurf 6 4 2 Konfigurieren und Durchf hren von Reviews Die praktische Handhabung des Metaschemas ist in Abbildung 6 24 dokumentiert Zun chst werden im ersten Schritt Kriterien vor dem Hintergrund des konkreten Projektes bzw der konkreten Dom ne zu einem ReviewType zusammengefasst In diese Auswahl flie en konkrete Projektziele ein Soll z B nur ein Prototyp realisiert werden so ist Vollst ndigkeit sicherlich kein Kriterium eines Reviews Der im ersten Schritt bestimmte Review Typ wird dann im zweiten Schritt f r ein MML Schema ausgef hrt bevor im dritten Schritt das Schema verbessert werden kann Die Schritte 2 und 3 k nnen dabei mehrfach iterieren bis das Resultat des Review das gew nschte Ergebnis d h das MML Schema die geforderte Qualit t besitzt Projekt und Dom nenwissen Schritt 1 Konfiguriere Reviewtyp Reviewtyp Cmn schema gt Schritt 2 F hre Review durch Schritt 3 Verbessere MML Schema Abbildung 6 24 Vorgehen Konfiguration und Durchf hrung von Reviews 6 4 3 Qualit tskriterien f r MML Schemata In diesem Abschnitt werden Qualit tskriterien f r MML Schemata anhand folgender Merkmale be schrieben e Kriterium lt Name des Kriteriums gt e Beschreibung lt Kurze Erl uterung gt e Relevanz Bedeutung
126. gt lt lt RollUp gt gt Schlussverkauf Woche Produktgruppe T lt lt DimensionalClass gt gt Produkt N lt lt DimensionalClass gt gt lt lt NonCompleteRollUp gt gt Tag Schlussverkauf lt lt Dimension gt gt Zeit 3 lt lt Dimension gt gt lt lt FactClass gt gt Produkt Verkauf FE YVT Abbildung 6 20 UML Dimension und Roll Up Beziehungen SharedRollUp DimensionalMapping Verbindungen besitzen Berechnungsvorschriften Diese wer den analog zu den Berechnungsvorschriften abgeleiteter Attribute als Elementeigenschaft dargestellt Kompositionen Die UML sieht verschiedene Formen f r die graphische Darstellung von Kompositionen Rat97a vor Eine davon ist die attributbasierte Darstellung die die Komposition anhand der dem Attri butnamen folgenden Multiplizit tsangabe kennzeichnet In der UML wird die Repr sentation einer Kompositionsbeziehung durch eine Linie zwischen dem besitzenden und dem abh ngigen Modellelement bevorzugt wobei auf der Seite des besitzenden Elementes eine schwarz gef llte Raute gezeichnet wird Aufgrund der Vorgaben durch die MML gilt f r Kompositionen dass diese nur zwischen Klassen erlaubt sind die denselben Stereotyp tragen Abbildung 6 21 verdeutlicht die graphische Darstellung einer FactClass Klasse Verkauf bei der jedem Objekt Eins bis Viele Objekte der Klas
127. gt gt Produktkategorie lt lt DimensionalClass gt gt Staat lt lt RollUp gt gt Staat lt lt RollUp gt gt Region lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Verkaufsbezirk lt lt RollUp gt gt Region lt lt DimensionalClass gt gt Stadt lt lt NonCompleteRollUp gt gt Verkaufsbezirk lt lt DimensionalClass gt gt Filialoberkatagorie lt lt RollUp gt gt Stadt lt lt RollUp gt gt lt lt DimensionalClass gt gt Filialoberkategorie Ort des Verkaufs lt lt DimensionalClass gt gt Filialkatagorie lt lt RollUp gt gt Filialkategorie lt lt DimensionalClass gt gt Filiale lt lt DimensionalClass gt gt Kaufhaus lt lt DimensionalClass gt gt Quartal eee a lt lt Dimension gt gt Zeit Einkommen lt lt FactClass gt gt Einkommen Betrag W hrung lt lt Dimension gt gt Ort Einkommen lt lt DimensionalClass gt gt Strassenbereich lt lt RollUp gt gt Stadt lt lt DimensionalClass gt gt Stadt Abbildung 6 34 UML Beispiel Ergebnis Schritt 10 Hierarchiepfade 114 Kapitel 6 Konzeptioneller Entwurf Schritt 11 Finde f r die dimensionalen Klassen weitere Attribute Jedes DimensionalClass Schemaelement bekommt ein Attribut Bezeichnung vom Typ Text das auch jeweils die S
128. im Folgenden Abschnitt 9 3 1 zun chst das Resultat der bisherigen Transformation pr sentiert bevor das Schema in Abschnitt 9 3 2 zun chst in ein Stern schema mit Surrogaten und dann in Abschnitt 9 3 3 in ein Sternschema ohne Surrogate berf hrt wird 9 3 1 Resultat der bisherigen Transformation Das durch die bisherige Transformation erzielte Resultat ist das in Abbildung 9 3 dargestellte Schnee flockenschema mit Surrogaten Die dunkleren Tabellen sind die Fakttabellen die helleren die dimen sionalen Tabellen von denen jede eine Hierarchieebene repr sentiert Die weisse Tabelle realisiert die aufgel ste Assoziation zwischen Ort des Verkaufs und Artikel Zur besseren bersicht sind die eine Dimensionshierarchie bildenden dimensionalen Tabellen jeweils mit einer gestrichelten Linie umrandet An verschiedenen Stellen im Schema erkennt man folgende multidimensionale Sachverhalte Von Artikel ber Produktgruppe und Produktfamilie zur Produktkategorie ist ein nor maler Verdichtungspfad zu sehen Die mit der dimensionalen Tabelle Tag beginnende Zeithierarchie ist eine multiple Hierar chie denn von Tag aus kann man sowohl zu Woche als auch zu Monat verdichten Weiterhin ist in dieser Hierarchie zu erkennen dass zwischen Woche und Jahr keine Beziehung besteht was dem nicht nicht direkten Abbilden des SharedRollUp entspricht Ausgehend vom Ort des Verkaufs beginnt di
129. konzipierte Entwurfsprozess wird auf das EKN bezogen ausgef hrt 12 2 1 Anforderungsanalyse Zum Feststellen der Anforderungen dienten Interviews mit Fachexperten dies waren drei der in der Registerstelle t tigen Mitarbeiter und die Analyse des aktuellen Datenschemas RW99 sowie fol gender Publikationen e Krebs in Deutschland H ufigkeiten und Trends Arb99 e Krebs in Niedersachsen Jahresbericht mit den Daten von 1996 EKN96 und e Morbidit t und Mortalit t an b sartigen Neubildungen im Saarland Saa96 Dabei wurde ein Anforderungskatalog in Form von nat rlichsprachlichen Aussagen entwickelt Ein Beispiel f r die Ableitung solcher Aussagen aus den Dokumenten ist in Abbildung 12 2 zu sehen Die korrespondierenden Aussagen sind in Tabelle 12 1 dargestellt H Allgemeine Angaben zur Inzidenz und Mortalit t ICD xxx en ml aoe Leen xxx XXX XXX XXX XXX XXX xxx xx gt x Ass Quotient 7 9 der std Raten l ir BRD xxx KS Quotient c 2 der std Raten M BRD xxx in situ F lle ICD Pos xxx of xxx wx Ertesats ateraapezifiuche insiders Wese Era Anursaparifische Moraihit Niedersachsen Direkt sandarcistere Motet Niedersachsen on am lt Zams woe on M J on vA A f Pr Ee ve lt m a Abbildung 12 2 Beispiel f r die Ermittlung von Aussagen Die erste Version des Anforderungskataloges ent
130. lt 8 3 Abbildung von REMUS nach LCD of SOL 203 Woche Jahr SharedRollUp Jahr ALL_TYPES ALL_TYPES Berechnung Jahr SUM Berechnung Jahr Computation Woche Bezeichnung ISO Wochenberechnung Jahr Bezeichnung Hannen Woche Woche KsharedRollUp dE nl Jahr Table Table name Woche name Jahr columnSet columnSet columns columns Column Column name Bezeichnung name Bezeichnung parameters result MappingMETA name SharedRollUp from table Woche to Jahr type SHARED_ROLL_UP allowedOperators SUM computation ISO Wochenberechnung typesSource ALL_TYPES typesDestination ALL_TYPES Abbildung 8 22 Abbildung des REMUS Metadatums SharedRollUp auf das LCD of SOL Schema Die Abbildungsvorschrift zum Anlegen des MappingMETA Objektes ist in 8 81 definiert UsSharedRollUporeate META SharedRollUp LMappingMETA def HSharedRollUpcreate m 4b SharedRollUp from table Jdetrastenam m dimensional RelationLower name to Jdetrasten m dimensional RelationHigher name SHARED_ROLL_UP m allowedOperators m computation computation 8 81 d m validT ypes Lower Level name d m validT ypes Higher Level name m computation parameter s m computation result MappingMETA Eine Aktualisierungsfunktion wird f r diesen Schritt nicht definiert weil die Fragestellun
131. modelliert Dieser Ansatz erm glicht die Modellierung von alternativen Pfaden Mehrfachhierarchien sowie die gemeinsame Nutzung derselben Dimensi onsebenen in verschiedenen Hierarchien Die individuelle Gestaltung von Dimensionshierarchien ist nur durch eine geforderte Zyklenfreiheit eingeschr nkt durch die unendliche Roll Up Pfade vermieden werden Die Fakt Beziehung stellt den zentralen Punkt eines Datenschemas dar und dient der Aufnahme mehrerer Kennzahlen in Form von Attributen Durch die Anbindung verschiedener Dimensionsebenen wird der gew nschte mehrdimensionale Zusammenhang hergestellt Ein MERM Schema ist nicht auf eine Fakt Beziehung beschr nkt so dass auch komplexere Abh ngigkeiten zwischen Fakt Beziehungen modelliert werden k nnen Abbildung 3 9 zeigt das Beispiel mit den Verkaufszahlen in MERM Notation 3 3 Konzeptionelle multidimensionale Datenmodelle 27 Filiale Stadt bp Region gt Land a Produkt gt Marke bp gt Hersteller Produktgruppe Tag Quartal D gt Jahr Woche Abbildung 3 9 MERM Beispielschema Bereits in der hier vorgestellten Form erm glicht das MERM eine weitreichende Modellierung des betrachteten Weltausschnitts wobei Art und Aufbau der einzelnen Kennzahlen bzw Dimensionsat tribute durch die Ausdrucksm chtigkeit des zugrunde liegenden E R Mo
132. multidimensionalen Modell Das Vor gehen kann dabei hnlich wie in der relationalen Transformation in Abschnitt 7 2 geschehen Vererbungen zwischen DimensionalClass Instanzen k nnen durch Nestung aufgel st werden Schritt 3 Abschnitt 7 2 4 f r Faktklassen kann das Aufl sen der Vererbungen und Kom positionen durch Weiterreichen bzw bertragen von Attributen und Dimensionen geschehen Schritt 8 Abschnitt 7 2 9 Die multidimensionalen Aspekte des MML Schemas k nnen relativ kanonisch auf ihre ent sprechenden Gegenst cke im logischen multidimensionalen Modell abgebildet werden Fakt klassen mit ihren Faktattributen werden zu Kennzahlen die Dimension Instanzen kennzeich nen Dimensionen die dimensionalen Klassen beschreiben die Hierarchieebenen und die Rol IUp NonCompleteRollUp bzw SharedRollUp Schemaelemente geben den Dimensionen Struktur in Form von Verdichtungspfaden Schlie lich fallen eine Reihe von Metadaten an die f r den sp teren Ladeprozess und die Aufbereitung siehe Abschnitt 4 1 des Datenw rfels genutzt werden k nnen Diese sind im logischen Modell ebenfalls festzuhalten Zu diesen Metadaten z hlen z B durch das MML Konstrukt Computation anfallende Berechnungsvorschriften oder w hrend der Aufl sung der objektorientierten Konstrukte im ersten Punkt entstandene Zusatzinformationen wie G ltig keitsregeln f r Attribute Als wichtiger Unterschied zur Transformation in ein relationales oder auch objektrelation
133. name String expression String MethodCallType TaskConditionType SchemaConditionType TaskSchemaConditionType Abbildung 10 6 Ausdr cke und Bedingungen Die Syntax der Ausdr cke wird nicht im UML Diagramm festgehalten sondern durch folgende Grammatik definiert Bedingungen Condition Expression RelationalOperator Expression Condition Condition BooleanOperator Condition NOT Condition BooleanOperator AND OR XOR 234 Kapitel 10 Physische Datenbankoptimierung Ausdr cke Expression Expression P Expression Expression Operator Expression Integer Real String MethodCall Identifier Methodenaufrufe MethodCall MethodName Parameter List Parameter List ParameterName ParameterT ype ParameterName ParameterType ParameterT ype INTEGER REAL BOOLEAN STRING Bezeichner und vordefinierte Namen Parameter Name Identifier MethodN ame Identifier String Letter Digit Letter Digit Identifier Letter Letter Digit Integer P Digit Digit Real Digit Digit Digit Digit Letter H ai ER Zr A B 722 Digit 0 P 1 9 RelationalOperator c aie Ee Si gt ZE E SI lt ar lt gl Operator H
134. reduziert werden Es wird dann bei Angabe der Eigenschaft automatisch der Wert true angenommen Fehlt die Angabe der Eigenschaft in den Eigenschaftsspezifikationen eines Modellelementes so wird sie auf false gesetzt Wird das Modellelement textuell in einem UML Diagramm dargestellt so K nnen die in geschweiften Klammern geschriebenen Eigenschaftsspezifikationen der textuellen Darstellung angeh ngt werden Rat97b Ein als Schl sselattribut gekennzeichnetes UML Attribut namens Produkt Nr und dem Datentyp Zahl wird somit als Produkt Nr Zahl isKey notiert wie in Abbildung 6 17 dargestellt Das Fehlen von Multiplizit tsangaben bei Attributen ist in der Modellierbarkeit dieser Attributbeziehungen durch die Composition Metaklasse begr ndet 6 2 UML Graphische Notation 91 lt lt DimensionalClass gt gt Produkt Produkt Nr Zahl isKey Produktbezeichnung Text Abbildung 6 17 UML Darstellung von Schl sseln Zur Darstellung abgeleiteter Attribute werden in einem UML Diagramm die beiden Elementei genschaften formula und parameter definiert Die formula Eigenschaft nimmt direkt die in der MML Metaklasse Computation vorgesehene Berechnungsvorschrift auf Die f r die Durchf hrung der Berechnung als Parameter zugeordneten Attribute werden mit ihrem Namen in der Eigenschaft parameter in einer durch Kommata getrennten Auflistung gespeichert Die UML bietet f r abgeleitete Mod
135. refine optimize review transform Configuration Information name String remark String o input Refinement Environment Rule Set Optimization Algorithm Algorithm Test Data ReviewType DJ EE Abbildung 11 1 Konzeption des Werkzeugs ODAWA 254 Kapitel 11 Implementierung Zentraler Einstiegspunkt ist hierbei ein Projekt Klasse Project das eine Menge von Projektin formationen Metaklasse Project Informationen umfasst Diese setzen sich aus Schemata Klasse Schema und Prozessschritten Klasse Step zusammen wobei jede Projektinformation durch eine Bezeichnung ein Datum und eine Bemerkung gekennzeichnet ist Neben den durch ihren Namen selbsterkl renden Methoden copy create delete document und open ist f r ein Projekt auch die Methode projectProcess definiert die als Resultat den Ablauf des Projek tes durch Darstellen der einzelner Schemata und der Prozessschritte zwischen diesen dokumentiert Ein Beispiel zeigt Abbildung 11 2 Nach Projektstart wurde zun chst das konzeptionelle Schema K erzeugt auf diesem zwei Reviews durchgef hrt welche ber das Schema Ka zum Schema K3 gef hrt haben Dieses ist dann zum Schema K3 dupliziert worden Dadurch wurden zwei alternative Entwicklungspfade verfolgt wobei der obere nach der Transformation in das logische REMUS Schema Li und das physische LC
136. se interessiert Man ist an der Auswertung abgesetzter Produkte nach verschiedenen r umlichen und 6 5 Beispiel Handelswelt 107 zeitlichen Kriterien interessiert Es ist bekannt dass unterschiedliche Abteilungen Verkaufszahlen nach unterschiedlichen zeitlichen Perioden ben tigen Produkte bilden immer Produktgruppen diese Produktfamilien diese wiederum Produktkategorien Auf der r umlichen Ebene ist jede Filiale bzw jedes Kaufhaus einer Stadt zugeordnet diese wieder um einem Bundesland in Deutschland bzw einem Kanton in der Schweiz und diese schlie lich einem Staat Parallel dazu gibt es f r die deutschen Niederlassungen Zusammenfassungen zu Ver kaufsbezirken welche ihrerseits wiederum einem Bundesland zugeordnet sind Die Niederlassungen in der Schweiz kennen keine vergleichbare Struktur Die Filialen werden f r interne Auswertungen zu Filialkategorien und Filialoberkategorien zusammengefasst Weiterhin interessiert sich die Marketingabteilung f r die Kombination von Verk ufen sog Basket Analysis und es soll ein Vergleich zwischen dem Absatz einer Filiale und der Kaufkraft ihres Ein zugbereiches hergestellt werden Hierf r liegen von einer Konsumforschungsgesellschaft Daten auf der Ebene von Stra enbereichen vor die viertelj hrlich geliefert werden 6 5 2 Modellierung Auf das Szenario Handelswelt soll nun der Leitfaden aus Abschnitt 6 3 angewendet werden Schritt 1 Finde Kennzahlen Als Kennzahlen l
137. sind nach Metadatentyp und innerhalb dieser Gruppen nach den betreffenden Objekten bzw Attributen alphabetisch sortiert Hinter jedem REMUS Objekt steht in Klammern der Transformationsschritt in dem dieses Objekt angelegt worden ist Zur Erreichung des Resultats seien f r die deterministische Funktion get folgende Annahmen getrof fen e In Schritt 3 bernimmt fdetoiassName f r jedes einelementige Zerlegungselement den Namen der dimensionalen Klasse F r die dreielementige Teilmenge mit der Vererbungshierarchie soll Jdetoiassname 1 Filiale Kaufhaus Ort des Verkaufs def Ort des Verkaufs gelten e In Schritt 8 bestimmt fdetcomposition die Aufl sung der Komposition zwischen Verkauf und Verkauftes Produkt Dabei soll das in Abschnitt 7 2 9 als M glichkeit II dargestellte ber tragen der Dimensionen gew hlt werden e Die Funktion fet 4 ey bernimmt schlie lich in Schritt 10 die bereits modellierten Addi tivit ten und gibt f r die neu entstandenen Faktattribut Dimension Kombinationen alle Ver dichtungsoperatoren frei REMUS Objekte des Beipiels Handelswelt Objekte Artikel 3 ArtikelcodeTyp 1 Bundesland Kanton 1 Einkommen 8 Filialkategorie 3 Filialoberkategorie 3 FlachenTyp 1 ForeignKeyType 1 Identifier Va
138. ssen die Prim r Fremdschl ssel Beziehungen zu den Fakttabellen abge ndert werden was in der for Schleife in den Zeilen 4 bis 6 unter Benutzung der in 9 16 definierten und in Algorithmus 9 1 spezifizierten Funktion changePrimaryKey geschieht fdetAttriputeses St dabei eine deterministische Funktion die f r eine Tabelle die Attribute des konzeptionellen Schl ssels ermittelt Aus dem Schema in Abbildung 9 8 wird durch Entfernen der k nstlichen Prim rschl ssel das Schema in Abbildung 9 9 erreicht Strassenbereich Bezeichnung Text PLZ PLZTyp Stadt Text Verkaufsbezirk Text Region Text Typ_der_Region Staat Text Aufzahlungstyp Region Ort des_Verkaufs Quartal Jahr JahrTyp Quartal QuartalsTyp Filialkategorie Text Filialoberkategorie Text Filialart Text Filialleiter Text Flaeche FlaechenTyp Gesamtflaeche FlaechenTyp Type Text PLZ PLZTyp Stadt Text Verkaufsbezirk Text Region Text Staat Text Bezeichnung Text Typ_der_Region Aufzahlungstyp Region Filialkategorie IS NULL OR Type Filiale Filialoberkategorie IS NULL OR Type Filiale Tag Jahr JahrTyp Quartal QuartalsTyp Monat MonatsTyp Woche WochenTyp Tag TagTyp Artikel MTMOrt_des_VerkaufsArtikel ID PKTyp Ort_des_Verkaufs_FK Text N Artikel_FK Ar
139. t sonst 8 56 Eine Menge von Table Objekten wird erg nzt durch UMultiplicityy paatesee METAMuttiplicity X Pot Lrabie Pot Lrabie d 8 57 HMultiplicityupaatese M T ei U eneuttipticityr paate Ts t Onn teT Schlie lich wird die Abbildung aller Multiplicity Metadaten realisiert M Multiplicity R xX L gt L d M Multiplieity R L S L Orable 8 58 U KMultiplieityoreage M m My muttiplicity U UMultiplicityy pdateset m OTabie me M Muttiplicity f Die AggregatedAttribute Metadaten werden in analoger Weise behandelt Die Abbildungsvor schriften 8 59 bis 8 63 sind dementsprechende Modifikationen von 8 54 bis 8 58 AggregatedAttributeRule META AggregatedAttribute EzpressionT ype 8 59 AggregatedAttributeRule m ern Verdichtungsanweisung Unter Zuhilfenahme dieser Abbildung lassen sich die beiden folgenden Funktionen definieren die ein TableConstraint Objekt anlegen bzw in einer bestehenden Tabelle die Referenz auf dieses Table Constraint aktualisieren H AggregatedAttributecreate META Aggregated Attribute gt LTableConstraint d d U AggregatedAttributeoreate M def y Integrity rule aggregated attribute for table fdetravte name m relation name 8 60 SEEN m Jdetrastenam m relation name TableConstraint H AggregatedAttributerpdate META AggregatedAttribute x LTable LTable def H Aggregated Attributey pdate m t
140. ufig nur ein Besetzungsgrad von 20 zu erwarten ist was den ROLAP Systemen Vorteile verspricht MOLAP Systeme versuchen diesen Nachteil durch verschiedene Formen der Komprimierung zu kompensieren ZDN97 MK98 Weiterhin werden in einem MOLAP System alle m glichen Verdichtungen ber die Dimensio nen im Voraus berechnet so dass sich eine lange Zeit f r das sog Aufbereiten oder Vorberech nen der Daten ergibt Diese Zeit entf llt bei ROLAP Systemen vollst ndig Beim Nachladen von Daten in das DWH sind in einem ROLAP System lediglich neue Tupel hinzuzuf gen w hrend ein MOLAP System den kompletten W rfel neu berechnen muss Analoges gilt nach dem L schen von Daten im DWH bei der Archivierung Anfragen an die Speicherstruktur sind bei einer MOLAP Realisierung einfach formulierbar w hrend bei ROLAP Systemen vom Server immer erst eine bersetzung in relationale Stru Kuren vorgenommen werden muss was h ufig zu komplexen SQL Anweisungen f hrt Weiterhin sind die Anfragen in MOLAP Realisierungen aufgrund der direkten Speicherung i d R sehr effizient ausf hrbar w hrend in einer ROLAP Umgebung das DBMS zur Laufzeit eine hohe Verarbeitungsleistung erbringen muss so dass Anfragen nicht immer performant beantwortet werden k nnen Unter Abw gung der verschiedenen Aspekte hat sich in den letzten Jahren zunehmend eine als HOLAP Hybrides OLAP bezeichnete Mischform etabliert die die Detaildaten in relationaler Form speichert und gewi
141. und e die Menge der als Nebenbedingungen zu ber cksichtigenden Kostenarten Toons toccons tocc E F r jede zu optimierende Kostenart toc Top sei eine partielle Kostenfunktion Cottoc T x A Integer definiert die einem Paar toc A die Kosten der Aufgabe toc bei Realisierung der Optimierungsma nahmen der Menge A zuordnet W nschenwertes Ziel der Kompromiss und somit der gesamten Optimierungsphase w re die Minimierung der Kosten f r den Workload f r jede Kostenart d h die Ausdr cke m d Costtoc W A of 3 de 3 CObtoc ti 10 9 i 1 m ssten f r jedes 7 unter Einhaltung der globalen Nebenbedingungen d h jedes ge GC ist wahr minimiert werden Da jedoch nicht immer bez aller Kostenarten optimiert werden kann z B Vor liegen eines Time Space Tradeoff muss ein alternativer Weg gew hlt werden wobei verschiedene Strategien denkbar sind e Hierarchisierung der Kostenarten Die Optimierung nach einer Kostenart wird als Ziel festgelegt f r die anderen werden Obergrenzen gesetzt d h sie werden ebenfalls zu Nebenbedingungen Sei K l k der Index der zu optimierenden Kostenart dann gibt es nun toc type of cost 3cot cost of task 10 4 Beispiel 241 GC TOC 1 globale Nebenbedingungen n mlich GC und zus tzlich costtoc W A lt C f r j 1 k WUK wobei die C die vom Benutzer geeignet zu w hlenden Obergrenzen sind Die Optimierungs aufgabe laut
142. und psychologisch orientierten Ma nahmen zusammen durch die Qualit tsmerkmale erzwungen oder wahrscheinlich und Quali t tsmessungen erm glicht werden e Analytische QS zielt auf Ma nahmen zur Bewertung und Pr fung von Software und Softwa redokumentationen die ggf zu einer Verbesserung f hren Dabei wird zwischen statischen Pr fungen d h ohne Programmausf hrung und dynamischen Pr fungen mit Programmaus f hrungen unterschieden e Psychologisch orientierte QS fasst schlie lich alle Ma nahmen zur Verbesserung der Teamar beit Kommunikation Motivation usw zusammen gt In Bal98 werden die statischen Pr fungen als analysierende Verfahren und die dynamischen Pr fungen als testende Verfahren bezeichnet Kapitel 5 Entwurf von Informationssystemen Im Bereich der statischen Methoden der analytischen QS werden folgende drei wesentliche Verfahren unterschieden e Inspektion als formale Evaluationstechnik in der Anforderungen an Software Entwurfsent scheidungen oder Quelltext von einer Person oder einer Gruppe von Personen die nicht Urhe ber des zu untersuchenden Objektes sind detailliert gepr ft werden um Fehler Verletzungen von Entwicklungsstandards oder andere Problemfelder zu entdecken IEE83 Review als m glichst formalisierter Prozess zur berpr fung von schriftlichen Dokumenten durch Gutachter um St rken und Schw chen des Dokuments festzustellen Bal98 Walkthrough als abgeschw chte Form
143. und unabh ngige Data Marts Bei der Konzeption von Data Marts ist die wichtigste Frage welche Daten der Extrakt enthalten soll Prinzipiell gibt es drei verschiedene Arten die allerdings h ufig in Kombination angewendet werden e Struktureller Extrakt Nur ein Teil des DWH Schemas wird in den Data Mart repliziert und somit wird nur eine bestimmte Gruppe von Analysen erm glicht e Inhaltlicher Extrakt Es wird zwar das gesamte Schema aber nur ein Teil der Extension im Data Mart vorgehalten z B nur die Daten einer bestimmten Periode oder einer bestimmten Organisationseinheit e Aggregierter Extrakt In den Data Mart werden die Daten mit einem geringeren Detaillierungs grad d h auf einer h heren Abstraktionsebene gespeichert so dass sich das Datenvolumen verringert 2 3 3 Archiv Datenbank In einem DWS muss f r eine definierte Entsorgung der Daten aus dem DWH gesorgt werden Gr n de hierf r k nnen mangelndes Interesse an veralteten Daten oder aber Platz und Performanzproble me sein Bei dieser Entsorgung stellt sich die Frage nach endg ltigem L schen oder der bernahme in eine Archiv Datenbank In dieser werden die Daten an einem separaten Ort langfristig gehalten 2 4 Front End Werkzeuge um sie im Bedarfsfall wieder im DWH zur Verf gung stellen zu k nnen H ufig wird der Archi vierungsvorgang auch mit einem erneuten Schreibvorgang in das DWH kombiniert Die detaillierten Daten werden in die Archiv Datenbank
144. verzichtet 76 Kapitel 6 Konzeptioneller Entwurf 6 1 2 Das MML Metaklassendiagramm Bevor ab Abschnitt 6 1 3 eine detaillierte Beschreibung der einzelnen MML Metaklassen erfolgt soll an dieser Stelle ein berblick ber das gesamte MML Metaklassendiagramm und seine wichtigsten Bereiche gegeben werden Zur Verdeutlichung sind dazu zwei Darstellungen gew hlt w hrend in Abbildung 6 4 das gesamte Metaklassendiagramm mit allen Verbindungen und Attri buten dargestellt ist zeigt Abbildung 6 3 die Vererbungshierarchie wobei zur besseren bersicht auf die Darstellung von Attributen und nicht generalisierenden Beziehungen verzichtet wurde Die Metaklassen sind zu Bereichen zusammengefasst wobei in der Abbildung jeder Bereich hinterlegt ist MM Element Allgemeine Verbindungen Multidimensionaler Daten Elemente Kontext ConnectionElement ContextElement Additivity E DimensionalClass d Computation FactClass ClassConnection DataElement DataType DataClass Hilfs ee ClassElement at GeneralizableElement DimensionalProperty Properties PropertyConnection NonDimensionalProperty DimensionalAttribute DataAttribute FactAttribute Abbildung 6 3 Vererbungshierarchie des MML Metaklassendiagramms Hauptcharakteristikum der MML ist die Differenzierung zwischen Daten dem zugeh rigen multidi mensionalen Kontext und Elementen f r die Beschreibung von Struktureigenschaften Ursprung
145. von DWHs ber cksichtigt F r die konzeptionelle Ebene wurde dabei mit der MML Multidimensional Modeling Language eine Spra che entworfen die sowohl multidimensionale als auch objektorientierte Aspekte aufweist Als zuge h rige graphische Notation wurde mit der UML eine multidimensionale Erweiterung der UML vor genommen Die Abbildung auf die logische Ebene wurde f r das relationale Datenmodell realisiert wobei eine abbildungsorientierte Vorgehensweise verfolgt wird die neben Relationen und Attributen vor allem reichhaltige Metadaten erzeugt Der Prozess des physischen Datenbankentwurfs schlie lich l uft in drei Teilschritten ab Nach einer eher technisch motivierten Erzeugung eines initialen Sche mas wird dieses im zweiten Schritt durch z B Denormalisierungen den besonderen Bed rfnissen des Zielsystems angepasst F r den letzten Teilschritt des physischen Datenbankentwurfs schlie lich wird ein Framework vorgeschlagen mit dem aufgrund von zus tzlichen Informationen ber ein Schema wie z B Extensionsgr e oder Verteilung von Attributwerten und einer Menge definierter Aufgaben die auf dem DWH auszuf hren sind ein koordiniertes Durchf hren verschiedener Opti mierungsma nahmen erm glicht wird Abstract Recently data warehouses DWHs as a decision support system s core caused a lively interest in research as well as in practice Typically aDWH is a database that is separated from the operational systems of an organis
146. wird Glossar 347 OLAP Werkzeug Werkzeug das FOLAP erm glicht OLTP Datenbank Datenbank die das FOLTP unterst tzt Operational Data Store ODS Physische tDatenbank die konsolidierte feingranulare Daten speichert Daten k nnen nicht nur hinzugef gt sondern auch modifiziert werden Im Mittel punkt steht die Bereitstellung konsolidierter Daten f r ein Data Warehouse Das Schema des ist im Gegensatz zum Data Warehouse nicht vorrangig analyseorientiert Manchmal greifen auch Analysesysteme auf das durch fReach Through um die Auswer tung von Daten auf feingranularer Ebene zu erm glichen Operative Datenbank Synonym f r FOLTP Datenbank Optionales Attribut tAttribut das nicht immer einen konkreten Wert besitzen muss sondern statt dessen auch undefiniert sein kann Pivotisierung Synonym f r FRotation Prim rschl ssel Attribut oder Attributkombination das die eindeutig ein Tupel einer Relation kennzeichnet Projekt Menge von Projektinformationen Projektinformationen Menge von Schemata und tProzessschritten Prozessschritt Synonym f r tEntwurfsschritt Qualifizierende Eigenschaft Eigenschaft z B ein tAttribut oder eine Assoziation die ein Dimensionselement oder tFakt beschreibt Qualit tssicherung Gesamtheit aller planbaren Ma nahmen und Hilfsmittel die bewusst dazu ein gesetzt werden um die Anforderungen an den Entwicklungs und Wartungsprozess und an ein Softwareprodukt zu er
147. xer Multiplizit t an welche der vier dargestellten M glichkeiten gew hlt werden soll UpdateOwner M Composition x Mowner gt Mowner UpdateOwner c O 2 UpdateOwner comp Simple c O falls Complex c FALSE 7 41 Ss UpdateOwnercomp Complex O falls factcomposition E H IV O sonst UpdateAttributes M Composition x M FactClass Attributes M FactClass Attributes UpdateAttributes c A i Update Attributecomposition c A falls Complex c FALSE 7 42 Vida c IIT IV A sonst Abarbeitungsreihenfolge Bei Berechnung der Owner und Attributes Mengen k nnen die Funktionen in 7 42 und 7 41 f r die Kompositionen eines Schemas nicht in beliebiger Reihenfolge aufgerufen werden Die Behandlung bei mehrstufigen Kompositionen ist immer mit einer Composition Instanz zu beginnen deren aggregierte Klasse nicht Detailklasse einer weiteren Komposition ist Dazu muss eine auf der Menge der Kompositionen des MML Schemas vorliegende Halbordnung definiert werden Abbildung 7 17 zeigt ein Beispiel einer solchen Halbordnung lt lt FactClass gt gt lt lt FactClass gt gt lt lt FactClass gt gt A B C lt lt FactClass gt gt E lt lt FactClass gt gt F lt lt FactClass gt gt D Abbildung 7 17 Abarbeitungsreihenfolge von Composition Aufgrund der in Abschnitt 6 1 8 auf Seite 88 definierten Wohlgeformtheitseigenschaft WF ZF2 die die Zyklenfreiheit von Kompositio
148. z B vorliegen wenn ein B rsenindex eine bestimmte Marke ber oder un terschreitet Strenggenommen sind auch periodische und anfragegesteuerte Extraktionen ereig nisgesteuert da sie einem speziellen Zeitereignis bzw einem durch den Anwender ausgel sten Ereignis entsprechen Sofort Bei besonders hohen Anforderungen an die Aktualit t von Daten z B bei B rsenkur sen kann es erforderlich sein nderungen in den operativen Quellen unmittelbar in den ODS eines DWS zu propagieren Die Daten im ODS sind damit praktisch immer genauso aktuell wie die Daten in den operativen Systemen Die technische Realisierung der Extraktion erfolgt typischerweise mit Hilfe von Gateways Schnitt stellen zwischen Netzwerken und Standard Datenbankschnittstellen z B ODBC oder OLE DB W0099 12 Kapitel 2 Data Warehouse Systeme 2 2 3 Transformationskomponente Ein DWS wird i Allg von mehreren heterogenen Datenquellen versorgt die Daten mit disjunkten oder sich berschneidenden Inhalten in unterschiedlichen Repr sentationsformen liefern Bevor die aus den Quellen extrahierten Daten in ein DWH geladen werden k nnen m ssen sie in einen Zu stand einheitlicher Repr sentation gebracht werden Transformationen die dem Zweck der Verein heitlichung dienen werden unter dem Begriff Data Migration zusammengefasst Die transformierten Daten werden schlie lich im ODS abgelegt Dabei ist ggf eine Historisierung inkrementeller Aktua lisierungen v
149. 0 1 def 1 falls Calculate r COMPLETE Calculate Multiplicity r E ASit RollUpType 7 22 Dieses f hrt zur Transformationsvorschrift 7 23 TRollUp M Rottup U MNonCompleteRollup X R gt R TRollUp T R af O AU 4 r r owner name n r type name ForeignI D ForeignKeyT ype M U vb r r owner name ID Reference w r type name 1D U a r owner name Multiplicity d r r owner name n r type name ForeignID Calculate yruttipticity T U a r owner name 1 r type name RollUp r propertyName d r owner name d r type name d r r owner name n r type name ForeignID b a r type name ID CaleulaterouupType r 7 23 Die Transformation aller RollUp Elemente eines Schemas ist in 7 24 defininert Troup Mx RAR def Trolivp M R U TRoUUp r R SC TEMRoliupMNonCompleteRollUp Beim Transformieren einer SharedRollUp Instanz siehe Abbildung 7 11 kann der Prim rschl ssel der h heren Hierarchieebene nicht als Fremdschl ssel in die dimensionale Relation der niedri geren Hierarchieebene eingetragen werden Es handelt sich um ein Viele zu Viele Beziehung deren nat rliche Darstellung im relationalen Modell durch eine Verbindungsrelation ausgedr ckt wird Dieses w rde jedoch die sp tere Navigierbarkeit des Schemas erschweren Folglich wird die vorhandene Beziehung zwischen den beiden
150. 35 3 5 WochenTyp NULL NULL Column CO25 Einzelpreis NULL NULL FALSE FALSE TA19 W hrung 3 11 NULL NULL Column CO26 Filialart NULL NULL FALSE FALSE TA05 String NULL 3 NULL Column CO27 Filialleiter NULL NULL FALSE FALSE TAOS String NULL 3 NULL Column CO28 Flaeche NULL NULL FALSE FALSE TA05 LonglInt NULL 3 NULL Column CO29 Gesamtflaeche NULL NULL FALSE FALSE TA05 Longlnt 3 NULL NULL Column CO30 Gesamtpreis NULL Einzelpreis Anzahl FALSE FALSE TA19 3 6 11 W hrung NULL NULL Column CO31 ID NULL NULL TRUE FALSE TA01 UKO1 AutoIncrement 3 4 NULL NULL Column C032 ID NULL NULL TRUE FALSE TA02 UK02 Autolncrement 3 4 NULL NULL Column C033 ID NULL NULL TRUE FALSE TA04 UK04 Autolncrement 3 4 NULL NULL Column CO34 ID NULL NULL TRUE FALSE TA05 UK05 Autolncrement 3 4 NULL NULL Column CO35 ID NULL NULL TRUE FALSE TA06 UK06 Autolncrement 3 4 NULL NULL Column CO36 ID NULL NULL TRUE FALSE TA07 UK07 Autolncrement 3 4 NULL NULL Column C037 ID NULL NULL TRUE FALSE TA08 UK08 Autolncrement 3 4 NULL NULL Column CO38 ID NULL NULL TRUE FALSE TA09 UK09 Autolncrement
151. 4 Dimension Vergleichspopulation Zeit 335 Dimension Verstorben 335 Dimension Verwandtschaft 335 Dimension Zeit 336 Zwischendimensionale der Ortshierarchien 337 Tabellenverzeichnis 2 1 2 2 3 1 3 2 5 1 6 1 6 2 6 3 6 4 6 5 6 6 7 1 7 2 7 3 8 2 8 4 8 5 8 6 8 7 8 8 8 9 9 1 Vergleich operative Datenbanken und DWH 13 Vergleich herk mmlicher Front End Werkzeugklassen 2 2 22 2 2200 16 Eigenschaften der konzeptionellen Datenmodelle i e 38 Eigenschaften der konzeptionellen Datenmodelle ID 39 Vergleich einiger Arbeiten zur Qualit t von Schemata 65 MML Erlaubte Verbindungstypen 87 Leitfaden zum Erstellen eines Schemas e 98 Qualit tskriterien f r MML Schemata 103 F r Reviews ungeeignete Qualit tskriterien 104 Datenmodellanforderungen an Fakten und ihre Erf llung in der MML 116 Datenmodellanforderungen an Dimensionen und ihre Erf llung inder MML 118 REMUS Kategorie A Metadaten oaoa aa 121 REMUS Kategorie B Metadaten 122 Transformationsschritte und erzeugte REMUS Objekte 162 LCD of SQL Attribute der Metaklasse ColumnType 167 Abbildung der Datentypen 173 REMUS Langform Kategorie A Metadaten e 176 REMUS Langform Kategorie B Metadaten e 177 Tupelschreibweise der LCD of SOL Objekte e 181 Transformationsschritte und genutzte REMUS Objekte 211 Transformationsschritte un
152. 5 Autoptisch 6 Sonstiges und 9 Fehlende Angabe Unbekannt N S lt lt DimensionalClass gt gt lt lt Dimension gt gt Di ich Diagnosesicherung lagnosesicnerung Bezeichnung Aufzahlungstyp Abbildung B 10 Konzeptionelle Modellierung Dimension Diagnosesicherung B 11 Dimension Differenzierungsgrad Die Dimension Differenzierungsgrad beschreibt den Differenzierungsgrad der die Detaillierungs ebene der Unterscheidbarkeit angibt Zul ssige Werte sind 1 Gut differenziert G1 2 M ig differenziert G2 3 Schlecht differenziert G3 4 Undifferenziert G4 5 T Zell Lymphom 6 B Zell Lymphom 7 Null Zell Lymphom 8 NK Zell Lymphom 9 Fehlende Angabe Nicht bestimmbar Nicht zutreffend 16 Low Grade G1 oder G2 17 Medium Grade G2 oder G3 18 High Grade G3 oder G4 und 19 Grenzfall bzw Borderline nur bei Ovar lt lt DimensionalClass gt gt lt lt Dimension gt gt 3 f Differenzierungsgrad Differenzierungsgrad Bezeichnung Aufzahlungstyp Abbildung B 11 Konzeptionelle Modellierung Dimension Differenzierungsgrad B 12 Dimension Dignitat Die Dimension Dignit t beschreibt den Malignit tsgrad Grad der B sartgkeit aus dem ICD 0 Morphologie Schl ssel Zul ssige Wertepaare sind 0 Gutartig 1 Unbestimmter Charakter Unsicher ob b s oder gutart
153. 63 LCD ofSQL Metamodell e 165 LCD of SQL Metamodell Bereich Relational Basics 166 LCD of SQL Metamodell Bereich Kee 168 LCD of SQL Metamodell Bereich Referential Integrity 2 2 2 169 LCD of SQL Metamodell Bereich Constraint 2 2 22 222er 170 LCD of SQL Metamodell Bereich Meta Data 2 2 222222 171 Common Data Types des OIM 1 1 aaa e 172 Vorgehensweise der Abbildung von REMUS nach LCD of SQL 174 Abbildung der Datentypen von REMUS nach LCD of SQL 200 182 Abbildung der Relationen von REMUS nach LCD ofSOL 2 2 2020 183 Abbildung der Attribute von REMUS nach LCD of SQL 2 2 ee 184 Abbildung des Prim rschl ssels einer dimensionalen Tabelle von REMUS nach LCD Of SQLs oii BAe aed Le ee bd ely A eS Aes 186 Abbildung des Prim rschl ssels einer Fakttabelle von REMUS nach LCD of SQL 187 Abbildung abgeleiteter Attribute von REMUS nach LCD of SQL 190 Abbildung von Identifier und Identifier Value von REMUS nach LCD of SQL 192 Abbildungsverzeichnis 371 8 17 8 18 8 19 8 20 8 21 8 22 Abbildung von Valid von REMUS nach LCD of SQL 2 22 193 Abbildung von Optional von REMUS nach LCD of SQL 2 2 20 194 Abbildung von Multiplicity von REMUS nach LCD of SQL 2 2 2 195 Abbildung des REMUS Metadatums RollUp auf das LCD of SQL Schema 198 Abbildung des REMUS Metadatums Additivity auf das LCD of SOL Schema 201
154. 7a AM97b Arb99 Bal98 BBCT99 BCJJ98 Agarwal Sameet Rakesh Agrawal Prasad Deshpande Ashish Gupta Jeffrey F Naughton Raghu Ramakrishnan und Sunita Sarawagi On the Computation of Multi dimensional Aggregates In Vijayaraman T M Alejandro P Buchmann C Mohan und Nandlal L Sarda Herausgeber VLDB 96 Proceedings of 22th International Con ference on Very Large Data Bases September 1996 Mumbai Bombay Indien Seiten 506 521 Morgan Kaufmann 1996 Appelrath Hans Jiirgen Marit Beyer Holger Hinrichs Joachim Kieschke Kirsten Pa nienski Martin Rohde Alexander Scharnofske Wilfried Thoben Ina Wellmann Frank Wietek und Ludger Zachewitz CARLOS T tigkeitsbericht f r den Zeitraum 1 1 1998 31 12 1998 OFFIS Oldenburg Deutschland Dezember 1998 Atzeni Paolo Stefano Ceri Stefano Paraboschi und Riccardo Torlone Database Sy stems Concepts Languages and Architectures McGraw Hill 1999 Appelrath Hans J rgen J rg Friebe Elke Hinrichs Holger Hinrichs Ina Hoting Joa chim Kieschke Kirsten Panienski Jens Rettig Alexander Scharnofske Wilfried Thoben und Frank Wietek CARLOS T tigkeitsbericht f r den Zeitraum 1 1 1997 31 12 1997 OFFIS Oldenburg Deutschland Dezember 1997 Alhir Sinan Si UML in a Nutshell O Reilly Verlag London England 1998 Albrecht Jens Wolfgang Lehner und Hartmut Wedekind Normal Forms for Multidi mensional Databases 10th International Con
155. 8 135 SharedRollUp 86 88 136 DimensionalClass 79 Abgeleitete Attribute 82 Abstrakte Schemaelemente 79 Aggregation 82 Anteilige Verrechnung 86 Attribute 79 Begriffsbildung 74 Index 383 Eigenschaften 74 Einfache Datentypen 80 Fakt 80 Generalisierung 79 Hierarchieebene 79 Kennzahl 85 Klasse 76 79 Komplexe Datentypen 80 Metadatentyp 78 Metaklassen 75 Multidimensionalit t 79 Multiplizit t 82 Namenskonventionen 74 75 Nicht dimensionale Eigenschaft 84 Polymorphie 79 Review 99 Automatisierbarkeit 99 Criterion 99 K O Kriterium 99 Kriterium 99 MeasuringMethod 99 Messverfahren 99 Objektivit t 99 ReviewType 99 Schema 124 Formales 124 G ltiges 125 Spezialisierung 79 82 Verdichtungspfad 79 85 Vererbung 76 79 82 Wohlgeformtheitseigenschaften 87 88 Allgeine 87 Mehrfachvererbung 87 Verbindungstypen 87 Zyklenfreiheit 87 berblick 76 MML Schema 123 MMLElement MML 76 79 MOLAP 41 42 Monitor 10 Log basiert 10 Replikationsbasiert basiert 10 Schnappschussbasiert 10 Trigger basiert 10 Zeitstempelbasiert 10 Multi Fakttabellen Schema 46 Multidimensionales Datenmodell 38 39 G345 ADAPT 29 DFM 32 MAC Modell 35 MD Modell 34 MERM 26 starER Modell 27 Multidimensionales E R Modell 26 Multiple Hierarchie 20 G346 Multiplicity REMUS 121 136 139 155 176 195 197 mUML 88 94 Abgeleitetes Attribut 91 Abstrakte Klasse 89 Association 91 A
156. 81 187 197 200 205 207 UniqueKeyRole LCD of SQL 189 Valid REMUS 121 134 176 191 193 Verdichtung 20 26 G349 sebene 20 sfunktion 20 soperator 33 35 74 83 94 G349 spfad 20 24 34 38 39 85 117 122 G349 Alternativer 25 26 38 39 117 G339 spfad Alternativer 20 Nicht vollst ndige 25 117 122 Verrechnung Anteilige 21 25 117 WeightOfTask 236 Wohlgeformtheitseigenschaften 87 Workload 228 231 238 239 G349 Workload 236 W rfel 19 34 38 39 G349 X Baum 47 Lebenslauf Pers nliche Daten Name Geburtsdatum Geburtsort Wohnort Familienstand Staatsangeh rigkeit Schulbesuch 1975 1979 1979 1981 1981 1988 Wehrdienst 1988 1989 Studium 1989 1996 Berufst tigkeit seit 1996 Dezember 2001 Oldenburg den 16 2 2002 Olaf Herden 20 09 1968 Nordenham Beowulfsweg 3 26131 Oldenburg ledig deutsch Besuch der Grundschule S d in Nordenham Besuch der Orientierungsstufe S d in Nordenham Besuch des Gymnasiums in Nordenham Abschluss Allgemeine Hochschulreife Wehrdienst in Oldenburg Studium der Informatik mit Nebenfach Betriebswirtschaftslehre an der Carl von Ossietzky Universit t Oldenburg Vertiefungsfach Praktische Informatik Abschluss Diplom Informatiker Wissenschaftlicher Mitarbeiter im FuE Bereich Betriebliches Informations und Wissensmanagement am Oldenburger Forschungs und Entwicklungsinstitut f r Informatik
157. Abbildung 7 23 Transformation der Additivit t Die Funktion faetagasivi 4 Sollte bereits im MML Schema definierte Verdichtungsoperatoren als Er gebnis liefern Davon soll auch in unserem Beispiel ausgegangen werden Bedeutung bekommt die Funktion vor allem f r die in Schritt 8 neu entstandenen Faktattribut Dimension Kombinationen F r das Beispiel sollen Jdet Additivity Verkauftes Produkt Ort Verkauf SUM MIN MAX AVG und fdetAdditivity Verkauftes Produkt Zeit Verkauf ALL 7 2 Transformationsalgorithmus 157 gelten Formal ist das Anlegen eines Additivity Metadatums in 7 53 definiert T Additivity M Dimension X M FactAttribute X R gt R d TAdditivity d a R O A M U f name n d name Additivity d propertyName f relation name faet sus 4s OI 7 53 Erweitert auf Mengen ergibt sich Transformation 7 54 T AdditivitySet M Dimension X MXR R def TAdditivityset d M R J U TAaditivity d a R 74 fcOwner d a FactClassAttributes f Schliesslich wird durch 7 55 das Anlegen aller ben tigten Additivity Metadaten eines Schemas er reicht TAdditivity M x R R d Tadditivity M R LJ rAaaitivityset 4 R KE dEM Dimension 7 2 12 Gesamttransformation Unter Anwendung der in den Abschnitten 7 2 2 bis 7 2 11 definierten Abbildungen wird in 7 56 die Transformation eines MML Schemas in ein REMUS Schema
158. Abbildung des REMUS Metadatums SharedRollUp auf das LCD of SOL Schema 203 8 23 Abbildung des REMUS Metadatums DimensionalMapping auf das LCD of SOL Schema ne e dodde ae au a a a a Aa a aa a e A aaa anai aa 204 8 24 Abbildung des REMUS Metadatums Association auf das LCD of SOL Schema 205 8 25 Abbildung des REMUS Metadatums Composition auf das LCD of SQL Schema 209 9 1 Einordnung des Schrittes in den Entwurfsprozess 213 9 2 Funktionsweise des komplexen Operators changePrimaryKey 218 9 3 Handelswelt Schneeflockenschema mit Surrogaten 220 9 4 Handelswelt Additivit t 221 9 5 Handelswelt SharedRollUp e 221 9 6 Handelswelt Spalten und Tabellenconstraints e 221 9 7 Handelswelt Konzeptionelle Schl ssel e 222 9 8 Handelswelt Sternschema mit Surrogaten 224 9 9 Handelswelt Sternschema ohne Surrogate 225 10 1 Einordnung des Schrittes in den Entwurfsprozess 227 10 2 Ablauf der physischen Datenbankoptimierung 229 10 3 Aspekte der physischen Datenbankoptimierung 230 10 4 Metamodell f r die physische Datenbankoptimierung 232 10 5 Datenty pen e Nee EE en ante 233 10 6 Ausdr cke und Bedingungen aaa 233 10 7 G ltige Bezeichner 2 eoe ea h e a a ei a 234 10 8 Annotierle Schem ta aade un ar ne ul un 235 10 9 Optimierungsma nahmen e 236 10 10 Aufgaben und Workload 2 2 236 10 11Umgebung und Regeln 237 10 12Umgebung und Regeln 238 10 13Pr
159. Abwandlungen der beiden Grundformen sind 4 2 1 Notation F r die Abbildungen dieses Kapitels soll die in der DB Literatur siehe z B HS00 CBS98 bliche Notation gew hlt werden siehe Abbildung 4 2 Eine Tabelle wird als zweigeteiltes Recht eck dargestellt im oberen Bereich steht der Name im unteren durch einen waagerechten Strich abgegrenzten Bereich sind die Attribute per Doppelpunkt von ihrem Datentyp getrennt aufgelistet Spielt der Datentyp im aktuellen Kontext keine wesentliche Rolle so kann er in der Notation entfallen Prim rschl sselattribute werden fett geschrieben die Prim r Fremdschl sselbeziehungen durch Kanten dargestellt Die Anzahlen an der Beziehung beteiligter Tupel werden an die Enden der Kante geschrieben Zur Darstellung des multidimensionalen Sachverhaltes werden Fakttabellen dunkel und dimensionale Tabellen hell hinterlegt D1 F ID CounterType 1 D2 A awing re A INTEGER B String D1 ForeignID Kee E CounterType C INTEGER D2 ForeignID A String N Abbildung 4 2 Darstellung von Tabellen Attributen und Beziehungen 44 Kapitel 4 Realisierung von DWH Diese Notation wird sp ter in Kapitel 9 wieder aufgegriffen Dort ist die Darstellung weiterer Infor mationen z B ber den Verbindungstyp oder das Verhalten innerhalb einer referentiellen Beziehung relevant Diese wird innerhalb eines farbig nicht hinterlegten Rechteckes mit abgerundeten Ecken
160. Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite Verkaufszahl Multiplicity Verkaufszahl Tag ForeignID 0 9 Verkauftes Produkt Multiplicity 9 Verkauftes Produkt Artikel ForeignID 0 Verkauftes Produkt Multiplicity 9 Verkauftes Produkt Ort des Verkaufs ForeignID 0 Verkauftes Produkt Multiplicity Verkauftes Produkt Tag ForeignID 0 9 ObjectType OC Artikel ObjectType Relation Dimension 3 ArtikelcodeTyp ObjectType DataType 1 Bundesland Kanton ObjectType DataType 1 Einkommen ObjectType Relation Fact 8 OC Filialkategorie ObjectType Relation Dimension 3 Filialoberkategorie ObjectType Relation Dimension 3 FlichenTyp ObjectType DataType A ForeignKeyType Object Type DataType 1 Identifier ValueType ObjectType DataType 1 Jahr ObjectType Relation Dimension 3 JahrTyp ObjectType DataType 1 KeyType
161. Anzahl with respect to Artikel ALL CO02 RC23 11 AdditivityMETA AD07 Valid operators for Anzahl with respect to Ort_Verkauf PSUM 11 MIN MAN AVG CO02 RC24 AdditivityMETA ADOS Valid operators for Anzahl with respect to Zeit_Verkauf ALL CO02 11 RC25 AdditivityMETA ADO9 Valid operators for Einzelpreis with respect to Artikel ALL CO02 11 RC23 AdditivityMETA Fortsetzung auf der folgenden Seite 308 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite AD10 Valid operators for Einzelpreis with respect to Ort_Verkauf SUM 11 MIN MAX AVG CO02 RC24 AdditivityMETA AD11 Valid operators for Einzelpreis with respect to Zeit_Verkauf ALL 11 C002 RC25 Additivity META AD12 Valid operators for Gesamtpreis with respect to Artikel ALL CO02 11 RC23 Additivity META AD13 Valid operators for Gesamtpreis with respect to Ort_Verkauf SUM 11 MIN MAX AVG C002 RC24 AdditivityMETA AD14 Valid operators for Gesamtpreis with respect to Zeit_Verkauf ALL 11 C002 RC25 AdditivityMETA AD15 Valid operators for Betrag with respect to Ort_Einkommen
162. Associationcreate ForeignKey r FR 4 Foreign key of table Jet at name 2 dimensional RelationA name Jdetrariename 2 dimensional RelationA name 8 86 J et srtritutename a ForeignK ey name ab Role of foreign key in referential constraint between tables Jdetrariename 2 dimensional RelationA name and faetrablename a intermediateRelation name ForeignKey LAssociationCreate ForeignKeyRole META Association L ForeignK ey Role def HAssociation Create ForeignKey Role a Lob Role of foreign key in referential constraint between tables Jdetrasiename 2 dimensional Relation A name and faetrablename a intermediateRelation name 0 x MATCHTYPE_FULL_MATCH w Foreign key of table 8 87 Jaetrasenam a intermediateRelation name from table faetraptenam a dimensionalRelation A name w Referential constraint between table Jdetrasten m dimensional Relation A name and faetrablename r intermediateRelation name ForeignKeyRole H Associationgreate ReferentialConstraint META Association gt L ReferentialConstraint def H Associationoreate ReferentialConstraint a 4 Referential constraint between table Jet at Name 2 dimensional RelationA name and fdetrablename a intermediateRelation name ASSOCIATION a typesA a typesB Role of primary key of table 8 88 Jaetrastenam 2 dimensional R
163. Aufgaben auch tats chlich auf dem DWH ausgef hrt werden Mit diesen realistischeren als den priori vom Entwicklers gesch tzten Eingaben besteht die M glichkeit den physischen Optimierungsschritt nach einer gewissen Betriebszeit des DWH zu wiederholen 10 2 Metamodell f r den physischen Datenbankentwurf Die Spezifikation des Metamodells erfolgt analog zu den vorangegangenen Kapiteln mittels eines UML Klassendiagramms Das in Abbildung 10 4 dargestellte Metamodell l sst sich in die grau hin terlegten Bereiche unterteilen die in den folgenden Teilabschnitten detailliert vorgestellt werden Im Bereich Typen Abschnitt 10 2 1 sind Datentypen angesiedelt die von Attributen anderer Metaklassen genutzt werden Der Bereich Annotiertes Schema Abschnitt 10 2 2 beschreibt ein Schema mit seinen Kompo nenten und statistischen Informationen ber diese Der Bereich Optimierungsma nahmen Abschnitt 10 2 3 fasst Metaklassen zusammen deren Objekte Optimierungsma nahmen sowie Mengen von diesen bilden k nnen Au erdem werden aufgabenunabh ngige Kosten festgehalten Die Klassen im Bereich Aufgaben und Workload Abschnitt 10 2 4 definieren auf der Da tenbank auszuf hrende Aufgaben d h lesende oder schreibende Zugriffe Eine Menge von gewichteten Aufgaben bildet einen Workload Im Bereich Umgebung und Regeln Abschnitte 10 2 5 und 10 2 6 angesiedelte Klassen be schreiben die konkrete Umgebung bestehend aus dem DBMS und globalen Rand
164. B ADO Ob ject Linking and Embedding Database Access Data Objects W0099 Das Zusammenfassen der Objekt und Mappingschicht ist mit dem geringeren Implementierungsaufwand zu erkl ren Im aktuellen Prototypen werden lediglich die in Abschnitt 10 4 vorgestellten Elemente bez Regel Umgebung Opti mierungsalgorithmus zur Verf gung gestellt 3Der parallele Einsatz beider Techniken erkl rt sich durch den im Laufe des Projektes inkrementell entstandenen Pro totypen 258 Kapitel 11 Implementierung e Die Bibliothek GUI nutzt zur Implementierung der Dialoge die MFC Microsoft Foundation Classes Jon99 Die Abh ngigkeiten der einzelnen Bibliotheken sind in Abbildung 11 4 skizziert Ein gestrichelter Pfeil von A nach B bedeutet A nutzt B wei e Elemente bezeichnen selbsterstellte Teile grau hinterlegte verwendete Fremdbibliotheken techniken und produkte ae Rational AY Le OLE Rose GUI gt MFC FE er 7 MML2 REMUS2 LCD2 Phys REMUS LCD Annotated Framework f r 7 MML MUML fort em pen a eeey vl e pd H al LCDof Annotated MML REMUS SQL Schema NEE EEE CAE ELERESE EEEE Von diversen Bibliotheken Database genutzt CL OPES DIE DB Utility EEE zZ STL Abbildung 11 4 Abh ngigkeiten e
165. Beispiel Handelswelt lt lt Dimension gt gt lt lt DimensionalClass gt gt Zeit Tag Bezeichnung TagTyp EEE EEE lt lt Dimension gt gt Zeit Verkauf See lt lt Dimension gt gt lt lt DimensionalClass gt gt Verkauf Ort Verkauf Ort des Verkaufs Bezeichnung Text EE Betrag W hrung lt lt Composition gt gt Verkauftes Produkt 0 lt lt FactClass gt gt lt lt FactClass gt gt Verkauftes Produkt Verkaufszahl eg Einzelpreis W hrung Anzahl St ckzahlTyp Anzahl St ckzahlTyp eech Gesamtpreis W hrung lt lt Dimension gt gt Ort lt lt Dimension gt gt Artikel lt lt DimensionalClass gt gt lt lt Dimension gt gt Artikel Produkt Bezeichnung Text Artikelcode ArtikelcodeTyp Abbildung A 1 Ergebnis Konzeptionelle Modellierung Subschema Fakten Verkauf Verkauftes Pro dukt und Verkaufszahl A 1 MML Schema 293 A 1 2 Dimension Zeit Die Zeit Dimension beschreibt die Verdichtungsstufen der f r Auswertungen und Analysen der Verkaufszahlen relevanten Zeitaspekte Die detaillierteste Zeiteinheit ist dabei der Tag Der Anforde rung unterschiedliche Abteilungen ben tigen Verkaufszahlen nach unterscheidlichen zeitlichen Pe rioden wird durch dadurch Rechnung getragen dass mit Woche Monat Quartal und Jahr diverse zeitliche Aspekte abgedeckt werden Weil die Woche schief zu den anderen Zeiteinheiten liegt muss
166. Bezeichnung der Addivit t Attribut name und eine Men ge zul ssiger Verdichtungsoperatoren Attribut allowedOperators definiert Die beiden Referenzen 8 2 Das relationale Metamodell LCD of SQL 171 ReferentialConstraint typeMETA RefConsType typesPK StringSet typesFK StringSet constraint S EEE aggregated Table omposition i R pt lea sb ieTypeMETA String name String multiplicity MultiplicityRange ColumnSet AdditivityMETA estimatedRows Double name String estimatedSize Double allowedOperators OperatorSet name String projectGrowthPeriod TimePeriod projectGrowthRate Double columnSet MappingMETA name String type MappingType parameters Column allowedOperators OperatorSet EE l computation String identityIncrement Integer typesSource StringSet resuit Ptional Eaplean typesDestination StringSet q valueExpression Expression Abbildung 8 7 LCD of SQL Metamodell Bereich Meta Data dieser Metaklasse verweisen auf das Faktattribut und das die Dimension realisierende Referential Constraint Objekt Objekte der Metaklasse CompositionMETA beschreiben urspr nglich im Schema vorhandene Kompositionsbeziehungen mittels deren Bezeichnung Attribut name und der Multiplizi t t der an der Komposition beteiligten Objekte Attribut multiplicity
167. CES Ge Generalization generalization Less Filiale isAbstract FALSE Objekte T Wi h SE Objekte Ort des Verkaufs DimensionalClass Attribute Woche ID KeyType Attribute Ort des Verkaufs ID KeyType Metadaten Ort des Verkaufs Type IdentifierType Woche ObjectType Relation Dimension Woche Pri K Woche ID Woche PrimaryKey Woche ID Metadaten Ort des Verkaufs ObjectType Relation Dimension Ort des Verkaufs PrimaryKey Ort des Verkaufs ID Ort des Verkaufs Identifier Ort des Verkaufs Type Abbildung 7 8 Transformation von DimensionalClass Instanzen Ort des Verkaufs Type IdentifierValue Filiale Kaufhaus 132 Kapitel 7 Logischer Entwurf Zur Definition der Abbildungsvorschrift wird in 7 14 zun chst der Begriff des Vorg ngers definiert Sei M M ein MML Schema Seien d da MpimensionalClass d heisst Vorg nger von da def gt 3915 On MGeneralization Id tery dp MDimensionalClass g parent d A g child dh A g2 parent dh A ga child d 7 14 A Qn parent d 1 N gn child do Darauf aufbauend kann in 7 15 Zerlegung formal erfasst werden indem zwei dimensionale Klas sen eines Schemas einem Zerlegungselement zugeordnet werden falls sie einen gemeinsamen Vor g nger haben Sei M M em MML Schema P Pi 2225 Py ist eine Zerlegung von Mpim
168. Classes hei t Dimensionsschema 6 3 LL YD ED aD eD D mit D gt D V CD eD D mit Dy gt Dj Das Einstiegselement in ein Dimensionsschema wird in 6 4 als Wurzelelement definiert Sei D ein Dimensionsschema def 6 4 D D hei t Wurzelelement gt AD D D gt D 6 4 Qualit tssicherung von MML Schemata 105 Nach diesen Vorbereitungen wird in 6 5 die dimensionale Normalform f r ein Dimensionsschema definiert Sei D ein Dimensionsschema D befindet sich in dimensionaler Normalform DNF Ei DNF1 3 Wurzelelement D D DNF2 Der Wertebereich der Klasse D ist vollst ndig DNF3 VD D E D miti j und D gt D Di gt D Alle zwischen zwei DimensionalClasses bestehenden Abh ngigkeiten sind nicht schwach 6 5 Zur Erweiterung auf den multidimensionalen Fall wird in 6 6 ein multidimensionales Schema als Kombination aus Dimensionsschemata und Fakten definiert Ein multidimensionales Schema M D Dm F besteht aus einer endlichen Menge von Dimensionsschemata D Dm und einer Faktklasse F sowie der schwachen funktionalen Abh ngigkeit D1 Dm gt F 6 6 Die Ausweitung des Begriffes Normalform auf den multidimensionalen Fall geschieht in 6 7 Sei M ein multidimensionales Schema M ist in multidimensionaler Normalform MNF Zi MI VDeED D ist in dimensionaler Normalform M2 Alle Dimensionsschemata sind paarweise orthogonal zueinander
169. Constraint LCD of SQL 169 170 180 197 199 202 205 207 REMUS 120 122 Schema 173 175 Additivity 122 157 176 201 AggregatedAttribute 151 175 AggregatedAttribute 120 Association 122 139 176 205 207 208 Attribut 184 Index 385 Composition 122 147 176 208 Computation 151 Computation 121 134 137 140 175 176 190 202 204 ConceptualKey 121 134 139 176 189 Dimension 122 155 176 197 200 DimensionalClass 129 DimensionalMapping 122 140 176 204 205 Identifier 121 132 176 191 IdentifierValue 121 132 176 191 Metadatenzugriff 175 Multiplicity 121 136 139 155 176 195 197 NonCompleteRollUp 197 200 ObjectType 121 127 132 151 176 182 183 Optional 121 134 151 176 194 PimaryKey 155 PrimaryKey 121 132 139 176 185 Reference 121 136 139 155 176 RollUp 122 136 176 197 200 Schema 125 Schema G ltiges 126 SharedRollUp 122 137 176 202 203 Valid 121 134 176 191 193 REMUS Schema 123 Repository siehe Metadaten Review 64 65 99 ROLAP 41 42 119 G348 Roll Up 22 G348 RollUp UML 92 RollUp MML 85 87 88 135 RollUp REMUS 122 136 176 197 200 Rotation 22 Rule 237 RuleSet 237 SchemaConditionType 233 Schemaqualitat 64 98 104 SchemaRule 237 Schemaverfeinerung Attributwerte lesen 216 Attributwerte schreiben 216 Navigation 216 Objekte anlegen 214 Objekte kopieren 214 Objekte l schen 215 Referenzen l
170. Constraints Schema Table Table Column ForeignKey TableConstraint UniqueKey TableConstraint UniqueKey UniqueKeyRole UniqueKeyRole UniqueKey Tabelle 9 1 L schweitergabeverhalten der Objekte im LCD of SOL Schema Die in 9 8 dargestellte Operation l scht die Spalte B und l scht gleichzeitig ihre Referenz auf die zugeh rige Tabelle Implizit mitgel scht werden siehe Zeile mit Eintrag Column in Tabelle 9 1 m g licherweise vorhandene AdditiviryMETA ColumnConstraint und MappingMETA Objekte Die L schoperation w rde abgewiesen werden falls Spalte B an einer Prim r oder Fremdschl sselbil dung beteiligt w re d h entsprechende Objekte referenziert w rden deleteColumn B 9 8 216 Kapitel 9 Verfeinerung des Schemas 9 1 2 Attribute lesen und ver ndern Mit den beiden in 9 9 eingef hrten Operatoren lassen sich Attributwerte auslesen bzw ver ndern get lt attribute name gt lt object name gt 0 9 set lt attribute name gt lt object name gt lt value gt W hrend der get Operator den Attributwert des angegebenen Objektes liefert setzt der set Operator entsprechend den Wert des Attributs f r das angegebene Objekt auf den als zweiten Parameter gege benen Wert Beispiele getInitialV alue B getBody Constraint for column B setV alue B 5 setBody Constraint for column B gt 0
171. D of SOL Schema P beendet wurde Der alternative Entwicklungsweg wurde bis zur Verfeinerung in das physische Schema P3 verfolgt und dann ebenfalls beendet Das hierbei zwischenzeitlich entstandene Schema Pa wurde nach P kopiert K review N K review N K transform L transform P beendet copy transform transform K 0 L 0 h P Je P Abbildung 11 2 Resultat der Methode projectProcess der Klasse Process refine 5 P beendet Jeder Prozessschritt kann jeweils ein Schema als Ein und Ausgabe referenzieren Referenzen inpur und output auf die Metaklasse Schema sowie optional auf eine Protokolldatei verweisen Referenz file auf die Metaklasse Protocol File In der Protokolldatei werden Detailinformationen des konkreten Prozessschrittes festgehalten Schlie lich kann ein Prozessschritt mehrere Konfigurationen Objekte der Metaklasse Configuration Information als Eingabe erhalten Dabei bestehen die in Tabelle 11 1 dargelegten Abh ngigkeiten zwischen den Schematypen der Ein und Ausgabe und zul ssigen Verweisen auf Konfigurationen Referenzierter Referenzierter Zul ssige Referenzen Schematyp Eingabe Schematyp Ausgabe auf die Klasse Configuration Information MML Schema MML Schema ReviewType LCD of SOL Schema LCD of SOL Schema Refinement Algorithm Annotated Schema Annotated Schema Environment Optimization Al gorithm Rule Set Annotated Schema Test Data Ta
172. Dabei wurde zun chst ein Framework zur parallelen Betrachtung unterschiedlicher Optimierungs ma nahmen eingef hrt und dessen Ablauf erl utert Anschlie end erfolgte eine Formalisierung zun chst in Form eines Metamodells f r die statischen Aspekte in Abschnitt 10 2 danach in Abschnitt 10 3 eine formalisierte Formulierung des Optimierungsproblems Abschlie end wurde die Konfiguration des Framework durchgef hrt und zur Demonstration der Funktionsweise wur den f r einen Ausschnitt des Beispiels Handelswelt zwei Beispielrechnungen vorgenommen 248 Kapitel 10 Physische Datenbankoptimierung Tabelle 10 3 wiederholt die zu Beginn des Kapitels aufgestellten Anforderungen an den Optimie rungsschritt und erl utert wie diesen Anforderungen bei Konzeption des Framework begegnet wurde Anforderungen an die physische Optimierung Anforderung Umsetzung im Framework Unterschiedliche Optimierungsma nahmen sollten gleichzeitig betrachtet werden In den Dann Teilen der Regeln k nnen un terschiedliche Optimierungsma nahmen wie z B Materialisierungen und Partitionierun gen festgelegt werden Umweltparameter z B zeitliche Randbe dingungen sollten individuell z B pro Pro jekt oder Organisation konfigurierbar sein Im Bereich Umgebung lassen sich diese An forderungen definieren Die Auswahl der Optimierungsma nahmen sollte einem nachvollziehbaren Prozess unter liegen der idealerweise mi
173. Datenbank gespeicherten Entit ten Konventionelle Datenbank Synonym f r FOLTP Datenbank Laden Schritt innerhalb des Data Warehouse Prozesses in dem Daten aus dem tOperational Data Store in das analyseorientierte Schema des Data Warehouse bernommen werden Mit diesem Schritt ist h ufig eine Verdichtung der Daten verbunden Ladewerkzeug Werkzeug das den Prozess des Ladens unterst tzt LCD of SQL Physisches relationales Datenmodell das elementare Konstrukte des tSQL Standards und der am weitesten verbreiteten TDatenbankmanagementsysteme enth lt Glossar 345 Ma zahl Synonym f r Kennzahl Materialisierte Sicht Redundantes physisches Abspeichern einer Sicht Materialisierung Synonym f r Materialisierte Sicht Mehrfachhierarchien Synoym f r Multiple Hierarchie Mehrfachvererbung Form der tVererbung bei der eine Klasse mehrere direkte tOberklassen be sitzt Eine Klasse die durch definiert wird erbt die Merkmale aller Oberklassen Dabei k nnen Konflikte entstehen falls ein Merkmal in verschiedenden Oberklassen definiert ist oder eine indirekte Oberklasse als mehrfache Oberklasse auftritt Merkmal Oberbegriff f r die charakteristischen Eigenschaften eines tObjektes d h dessen Attribute und Methoden Messprozess Synonym f r Messverfahren Messung Anwendung eines tMessverfahrenes auf ein fUntersuchungsobjekt Messverfahren Menge von T tigkeiten zur Ermittlung eines Gr enwertes der eine sp
174. Datenbest nde e Entkopplung von operativen Systemen Um all diesen Anforderungen gerecht zu werden hat sich in den 90er Jahren mit Data Warehouse Systemen DWS eine Klasse von Architekturen herausgebildet in deren Zentrum eine als Data Warehouse DWH bezeichnete Datenbank steht die die Daten aus verschiedenen operativen Quellen einer Organisation integriert und eventuell um externe Daten anreichert Neben dem klassischen Berichtswesen ist das vorrangige Anwendungsfeld eine als OLAP Online Analytical Processing bezeichnete Form der interaktiven und explorativen Analyse von im DWH vorliegenden Daten Abbildung 1 2 skizziert die typische Architektur eines DWS Mail Handy Data Mining Front End Reporting Werkzeuge Applikationen A Br ae oe pol alo FS 5 Datenbank t a EE EE d a EEE t _ Datenbereinigung Operational e Back End z Data Store n Werkzeuge Transformation Extraktion nen ce ri Din u m ill ne nah a nenn Ta Lane Oe Monitoring Datenguellen C wa E je Externe Systeme Operative Systeme Abbildung 1 2 Architektur mit Data Warehouse Die Anwendungsfelder f r DWS sind u a e Betriebswirtschaft In praktisch jedem Bereich eines Unternehmens finden sich auf den unterschiedlichen Ebenen Anwendungsfelder vor allem im Marketing und Rechnungswe sen Controlling durch z B Einsatz klassischer Produkt Kunden oder Segmentanalyse Ak tuell bekanntestes Proje
175. Diese ber alle PropertyConnec tion Instanzen nicht eindeutige Beschreibung erm glicht die Verwendung desselben Namens f r unterschiedliche Typen von Schemaelementen d h es darf in einem Schema z B eine Dimension und ein FactAttribute geben die den gleichen Namen tragen aber alle Dimension Schemaobjekte m ssen disjunkte Namen haben Durch Setzen des isKey Attributes auf den Wert TRUE kann das die Eigenschaft besitzende Schemaelement als Identifikator markiert werden F r die Modellierung nicht dimensionaler Eigenschaften von ContextElement und DataClass Instanzen bildet die NonDimensionalProperty Metaklasse den Ausgangspunkt Eine Instanz dieser Metaklasse steht immer in Verbindung mit einer DataElement Instanz die der nicht dimensionalen Eigenschaft bzw dem Attribut als Daten Typ zugeordnet ist Das boolesche Attribut isOptional gibt an ob die dargestellte Eigenschaft optional sein darf Dient ein NonDimensionalProperty 6 1 MML Multidimensional Modeling Language 85 Schemaelement als Parameter bzw ist Resultat einer Berechnung so wird dies durch die Beziehungen zur Metaklasse Computation modelliert Die Metaklassen DataAttribute DimensionalAttribute und FactAttribute sind als Untermetaklassen der NonDimensionalProperty Metaklasse definiert und beschreiben Attribute von DataClass DimensionalClass bzw FactClass Instanzen die nicht dem Aufspannen des multidimensionalen Raumes dienen Bei DimensionalClass Schema
176. Dittrich Frederick H Lochovsky Pericles Loucopoulos und Manfred A Jeusfeld Herausgeber VLDB 97 Proceedings of 23rd International Conference on Very Large Data Bases August 1997 Athen Grie chenland Seiten 106 115 Morgan Kaufmann 1997 Glinz Martin Vorlesungsskript Requirements Engineering Institut f r Informatik Uni versit t Z rich Z rich Schweiz Oktober 2000 Gluchowski Peter Modellierung multidimensionaler Datenstrukturen Folien DWE 96 Data Warehousing Europe M nchen Juni 1996 Gupta Himanshu und Inderpal Singh Mumick Selection of Views to Materialize Under a Maintenance Cost Constraint In Beeri Catriel und Peter Buneman Herausgeber Database Theory ICDT 99 7th International Conference Januar 1999 Jerusalem Israel Proceedings Band 1540 der Reihe Lecture Notes in Computer Science Seiten 453 470 Springer 1999 Golfarelli Matteo Dario Maio und Stefano Rizzi Conceptual Design of Data Ware houses from E R Schemes In CIKM 98 Proceedings of the of Hawaii International Conference On System Sciences Januar 1998 Maui Hawai USA Seiten 81 88 1998 Golfarelli Matteo Dario Maio und Stefano Rizzi The Dimensional Fact Model A Con ceptual Model for Data Warehouses International Journal of Cooperative Information Systems IJCIS 72 3 215 247 Juni September 1998 Golfarelli Matteo Dario Maio und Stefano Rizzi Applying Vertical Fragmentation Techniques in Logical Design of
177. Durchlauf 3 Durchlauf 4 Durchlauf Tag Filiale Produktgruppe 1561032 Tag Stadt Produktgruppe 983064 7419 5940 1483 Monat Stadt Produkt 847161 66645 Monat Filiale Produkt 826020 63540 0 0 Tag Stadt Produkt 791436 49464 0 0 Monat Stadt Produktbereich 788393 7877 6398 Monat Filiale Produktbereich 188374 7858 6379 0 Monat Stadt Produktgruppe 788335 7819 6341 0 Tag Stadt Produktbereich 788205 7689 6210 0 Monat Filiale Produktgruppe 788140 7624 6145 0 Kosten Nebenbedingung in 657 1190 1191 1354 MByte Kosten Workload in Tupeln 81468 14823 8424 6940 Tabelle 10 1 Ablauf Beispiel 1 Man erkennt das kontinuierliche Anwachsen der Nebenbedingungskosten bei gleichzeitiger Abnah me der Workloadkosten Der Algorithmus terminiert mit dem vierten Schritt weil der Speicherplatz berschritten ist Beispiel 2 Materialisierung und Schreibzugriff Das Szenario aus dem letzten Abschnitt soll erweitert werden indem der Workload um einen konkur rierenden Schreibzugriff erg nzt werden soll Dazu nehmen wir an dass in jedem Monat neue Werte en bloc in die Faktentabelle eingetragen werden Dabei m ssen nat rlich auch die redundanten Materialisierungen gepflegt werden Angenommen es w rden bei jeder dieser Anf geaktionen 1 35 Milliarden Tupel in das DWH bertragen Die Update Kosten f r ein neues Tupel h ngen von der Anzahl und Kardinalit t der materialisierten Sichten ab Weil aber nicht jede Instanz jeder materiali siert
178. ES UR08 FROI NULL ReferentialConstraint RCO2 Referential constraint between tables Filialkategorie and Filialoberka 10 tegorie ROLL UR ALL_TYPES ALL_TYPES UR22 FRO2 NULL ReferentialConstraint RC03 Referential constraint between tables Monat and Quartal ROLL_UP 10 ALL_TYPES ALL_TYPES UR10 PRO NULL ReferentialConstraint RCO4 Referential constraint between tables Ort_des_Verkaufs and Filial 10 kategorie ROLL_UP Filiale ALL_TYPES UR21 FRO4 NULL ReferentialConstraint RC05 Referential constraint between tables Ort_des_Verkaufs and Stadt 10 ROLL UP ALL_TYPES ALL_TYPES WURI13 FRO5 NULL ReferentialConstraint RC06 Referential constraint between tables Produktfamilie and Produktka 10 tegorie ROLL_UP ALL_TYPES ALL_TYPES UR09 FR06 NULL ReferentialConstraint RC07 C Referential constraint between tables Produktgruppe and Produktfamilie 10 ROLL_UP ALL_TYPES ALL_TYPES UROl FRO7 NULL ReferentialConstraint RC03 Referential constraint between tables Quartal and Jahr ROLL_UP 10 ALL_TYPES ALL_TYPES UR08 FRO8 NULL ReferentialConstraint RC09 C Referential constraint between tables Region and Staat ROLL_UP 10 ALL_TYPES ALL_TYPES UR12 FRO9 NULL ReferentialConstraint RC10 C Referential constra
179. End Bereich eines Data Warehouse Systems verwenden zwischen Datenbank und Benutzer eine Zwischenschicht die es durch Point and Click Bedienung erm glicht Anfragen zu formulieren und so dem Endbenutzer das Formulieren komplexer SQL Anfragen abnimmt Abgeleitetes Attribut Wird aus den Werten anderer Attribute berechnet e k nnen nicht direkt ge ndert werden und werden durch eine Berechnungsoperation implementiert oder gesetzt Abstrakte Klasse Klasse die gemeinsame Merkmale ihrer Unterklassen festlegt wobei von der Klasse selbst keine Instanzen existieren d rfen Abstraktionsebene Synonym f r tBeschreibungsebene Additivit t Eigenschaft einer tKennzahl die angibt bez welcher Dimension welche Verdichtungsoperatoren angewendet werden d rfen Ad Hoc Anfrage W hrend der Nutzung spontan formulierte und interaktiv gestellte Anfrage an ein tDatenbanksystem nderungsanomalie Bei nderungsoperationen in einer Datenbank auftretende Inkonsistenz auf grund von redundanter Datenhaltung Aggregation 1 Synonym f r Verdichtung 2 Spezielle Form der tAssoziation die eine Ganzes Teil Beziehung zwischen zwei tKlassen beschreibt Gegen ber einer Komposition ist die als Teil betrachtete Klasse jedoch nicht von der als Ganzes aufgefassten Klasse abh ngig Aggregationsebene Synonym f r tHierarchieebene Aggregationsfunktion Synonym f r tVerdichtungsoperator Aggregation soperator Synonym f r Verdichtungso
180. Entwurf lt lt FactClass gt gt Verkauftes Produkt Anzahl Anzahl Einzelpreis Preis Abbildung 6 16 UML Darstellung von Attributen Der allgemeine Aufbau eines Attributes gem der UML Notation Rat97b bildet den Ausgangs punkt f r die Definition der UML Besonderheiten Sichtbarkeit Attributname Multiplizit t Typ Standardwert Wie bereits erw hnt wird der Attributname auf die propertyName Eigenschaft abgebildet die der Bezeichnung eines Attributs innerhalb der MML dient Eine Multiplizit tsangabe der Form 0 1 wird f r die Darstellung der isOptional Eigenschaft der NonDimensionalProperty Metaklasse verwendet Da die MML f r Attribute keine allgemeinen Multiplizit tsangaben vorsieht kommt diesem Attributzusatz keine andere Bedeutung zu Zudem entspricht diese Art der Kennzeich nung eines optionalen Attributes der blichen UML Notation Der in der Definition angegebene Attributdatentyp Typ bezieht sich auf die type Beziehung der NonDimensionalProperty zur DataElement Metaklasse die einem Attribut eine DataElement Instanz als Datentyp zuordnet G ltige Werte f r den Typ Abschnitt sind folglich Namen von DataClass und DataType Instanzen innerhalb des UML Diagramms W hrend DataClass Instanzen in einem UML Diagramm als Klassen dargestellt werden existiert f r die DataType Metaklasse keine vergleichbare Darstellungs form DataType Instanzen werden in einem UML Diagramm nicht
181. F hrungsinforma tionssystemen Wirtschaftsinformatik 40 6 483 492 Dezember 1998 Berchtold Stefan Daniel A Keim und Hans Peter Kriegel The X tree An Index Struc ture for High Dimensional Data In Vijayaraman T M Alejandro P Buchmann C Mohan und Nandlal L Sarda Herausgeber VLDB 96 Proceedings of 22th Inter national Conference on Very Large Data Bases September 1996 Mumbai Bombay Indien Seiten 28 39 Morgan Kaufmann 1996 Beckmann Norbert Hans Peter Kriegel Ralf Schneider und Bernhard Seeger The R Tree An Efficient and Robust Access Method for Points and Rectangles In Garcia Molina Hector und H V Jagadish Herausgeber Proceedings of the 1990 ACM SIG MOD International Conference on Management of Data Mai 1990 Atlantic City New Jersey USA Seiten 322 331 ACM Press 1990 Blakeley Jos A Per Ake Larson und Frank Wm Tompa Efficiently Updating Mate rialized Views In Zaniolo Carlo Herausgeber Proceedings of the 1986 ACM SIG MOD International Conference on Management of Data Washington D C USA Mai 1986 Seiten 61 71 ACM Press 1986 Bayer Rudolf und Edward M McCraight Organization and Maintenance of Large Or dered Indexes Acta Informatica 1 173 189 1972 Baralis Elena Stefano Paraboschi und Ernest Teniente Materialized Views Selection in a Multidimensional Database In Jarke Matthias Michael J Carey Klaus R Dittrich Frederick H Lochovsky Pericles Loucopoulos u
182. Filiale lt lt Dimension gt gt Zeit lt lt Dimension gt gt Zeit Verkauf lt lt FactClass gt gt Verkauf Betrag Wahrung lt lt Dimension gt gt Ort Verkauf lt lt Composition gt gt Verkauftes Produkt lt lt FactClass gt gt lt lt FactClass gt gt lt lt DimensionalClass gt gt Staat lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Quartal lt lt DimensionalClass gt gt Kanton nn ee lt lt DimensionalClass gt gt Bundesland SSS Cil lt lt DimensionalClass gt gt Verkaufsbezirk T se lt lt DimensionalClass gt gt Kaufhaus DEE Ceil Ort des Verkaufs Verkauftes Produkt Verkaufszahl Anzahl St ckzahlTyp lt lt Dimension gt gt Ort Einzelpreis W hrung Anzahl St ckzahlTyp Gesamtpreis W hrung lt lt Dimension gt gt Artikel lt lt DimensionalClass gt gt Artikel lt lt Dimension gt gt Produkt lt lt Dimension gt gt Zeit Einkommen lt lt FactClass gt gt Einkommen Betrag W hrung lt lt Dimension gt gt Ort Einkommen 4 lt lt DimensionalClass gt gt Produktgruppe lt lt DimensionalClass gt gt Strassenbereich lt lt DimensionalClass gt gt Produktfamilie lt lt DimensionalClass gt gt Produktkategorie
183. Fragen der Realisierung von DWH behandelt Dabei werden in Abschnitt 4 1 zun chst verschiedene physische Speicherungsformen vorgestellt und ihre Vor und Nachteile diskutiert Die Abschnitte 4 2 und 4 3 widmen sich der relationalen Welt indem zun chst verschiedene relationale Schematypen eingef hrt und anschlie end physische Optimierungsm glich keiten dieser Schemata diskutiert werden Abschnitt 4 4 geht auf die in einem DWS wichtigen Meta daten ein bevor Abschnitt 4 5 mit einer Zusammenfassung schlie t 4 1 Umsetzungsm glichkeiten des multidimensionalen Datenmodells Obwohl sowohl Entwickler und Modellierer w hrend der Entwurfsphase als auch OLAP Werkzeuge w hrend der Datenanalysephase eine multidimensionale Sichtweise siehe Abschnitt 3 1 auf die in einem DWH verwalteten Daten haben existieren verschiedene M glichkeiten der physischen Rea lisierung Aufgrund ihrer weiten Verbreitung und Etablierung in Organisationen sowie ihres in der Zwischenzeit erlangten technischen Reifegrades kommen h ufig relationale DBMS auch f r DWH zum Einsatz Man spricht in diesem Falle von ROLAP Systemen Relationales OLAP Findet hin gegen eine direkte Speicherung in multidimensionalen Strukturen statt so spricht man von MOLAP Systemen Multidimensionales OLAP Diese beiden Speicherungsformen weisen verschiedene Vor und Nachteile auf AAD 96 CD97 DNR 97 Mar98 Ken99 e Relationale Systeme sind in Organisationen weit verbreitet und etabl
184. HIdentifierCreate m b Integrity rule for attribute m attribute name 3 7 Seien 8 42 JdetidentifierRule m values J det Attribute Name m attribute name H ColumnConstraint HIdentifieT Update META jgentifier x Lcolumn gt LColumn def HIdenti fier Update m c AddColumnConstraint c b Integrity rule for attribute 8 43 J et sstrivutename M attribute name falls cname faet sriributename M attribute name c sonst Um eine Menge von Column Objekten zu erg nzen wird folgende Erweiterung definiert K Identifierupdateset META Identifier x Pot Lcolumn gt Pot Lcolumn def 8 44 KIdentifiervpdateSet m C U HIdentifierypdate m c cEC Schlie lich wird die Abbildung aller dentifier Metadaten eines Schemas realisiert M Identifier RXxL L d Midentifier R L amp E L Ocotumn 8 45 U UIdentifiercreate m me M Identifier U UIdentifierypdateset m OCoiumn me Mteenti fier 8 3 Abbildung von REMUS nach LCD of SOL 193 Durch Generalisierungsaufl sung per Nestung entstehen Attribute die in Abh ngigkeit vom Objekt typ keine Werte haben d rfen So d rfen bei Objekttypen aus einer Oberklasse die aus Unterklassen hinzugekommenen Attribute keine Werte enthalten Dieses wird durch das Valid Metadatum ausge dr ckt das nun in ein TableConstraint Objekt verwandelt wird wie in Abbildung 8 18 dargestellt Das Attribut Fl che darf nur da
185. IALRULE_CASCADE nderung oder L schung wird an referenzierten Datensatz ber tragen REFERENTIALRULE_SET_NULL die entsprechenden Spalten im referenzierten Da tensatz werden auf NULL gesetzt REFERENTIALRULE_SET_DEFAULT die entsprechen den Spalten im referenzierten Datensatz werden auf ihren Standardwert gesetzt REFERENTIAL RULE_NO_ACTION der referenzierte Datensatz bleibt unver ndert und REFERENTIALRU LE_RESTRICT nderungen und L schungen sind nicht erlaubt wenn noch referenzierte Daten s tze existieren Auch die Metaklasse ForeignKeyRole spezialisiert die abstrakte Metaklasse ReferentialRole hat kei ne eigenen Attribute sondern lediglich einen Verweis auf das die ForeignKey Attribut e Sowohl die UniqueKeyRole wie auch die ForeignKeyRole Metaklasse referenzieren die Metaklasse Referential Constraint Diese ist von der abstrakten Metaklasse Join abgeleitet die eine allgemeine Verbindung zwischen zwei Tabellen unter Nutzung eines Schl ssels von jeder Tabelle festlegt Neben dem von dieser Klasse geerbten Attribut name besitzt ReferentialConstraint drei weitere Metadaten die die referentielle Beziehung hinsichtlich multidimensionaler Eigenschaften genauer beschreiben W h rend typeMETA den Typ des urspr nglichen Verbindungskonstruktes angibt zul ssige Werte sind ASSOCIATION DIMENSION und ROLL_UP und NON_STRICT_ROLL_UP werden in typesPK bzw typesFK die zul ssige
186. ION CO15 CO38 UKO9 2 3 4 5 UK27 Table TAIO Quartal DIMENSION CO16 C039 C047 UK10 2 3 4 5 UK28 FK08 Table 10 TAIL Region DIMENSION CO17 C040 C062 CO070 UK11 2 3 4 5 UK40 FK09 Table 10 TA12 Staat DIMENSION CO19 CO41 UK12 UK30 Table 2 3 4 5 TAI3 Stadt DIMENSION C020 C042 C054 C060 C071 UK13 2 3 4 5 UK31 FK10 FK11 Table 10 TA14 Strassenbereich DIMENSION CO21 C043 C064 UK14 2 3 4 5 UK32 FK12 Table 10 TA15 Tag DIMENSION CO22 C044 C049 CO72 UKI5 UK33 FK13 2 3 4 5 FK14 Table 10 TAI6 Verkauf FACT CO08 CO51 C066 UK16 FK18 FK19 Table 7 3 4 10 TA17 Verkaufsbezirk DIMENSION CO23 C045 C061 UK17 2 3 4 5 UK34 FK15 Table 10 TA18 Verkaufszahl FACT C001 C005 C052 C067 UK18 FK20 FK21 2 3 4 10 FK22 Table TA19 Verkauftes_Produkt FACT C002 C006 C025 C030 2 3 4 10 CO53 C068 UK19 FK23 FK24 FK25 Table TA20 Woche DIMENSION CO24 C046 UK20 UK35 Table 2 3 4 5 TA21 Filialkategorie DIMENSION CO73 CO75 2 3 4 5 CO78 UK38 FK02 Table 10 TA22 Filialoberkategorie DIMENSION CO74 CO76 UK39 Table 2 3 4 5 TableConstraint TCO1 C Integrity rule for table Ort_des_Verkaufs 7 Flaeche IS NULL OR Type Kaufhaus
187. Jdetciassname Pi f r d Pi definieren 7 2 Transformationsalgorithmus 133 7 2 5 Schritt 4 Transformation von DimensionalAttribute Schemaelementen Alle DimensionalAttribute Instanzen werden in das REMUS Schema bertragen und bekommen dabei getrennt durch das Zeichen als Pr fix den Namen der Relation zugeordnet auf die die Klasse des Attributs abgebildet wird Im Beispiel in Abbildung 7 9 hat die DimensionalClass Instanz Stadt zwei Attribute die dementsprechend als Pr fix den Namen der Relation auf die Stadt abgebildet wird d h m Stadt faetoiassname Stadt Stadt als Pr fix bekommen Die bei der Nestung hochgezogenen Attribute erhalten entsprechend als Pr fix neben der Relation auch den Namen ihrer urspr nglichen Klasse z B wird das Attribut Fl che aus der Klasse Kaufhaus unter dem Namen Ort des Verkaufs Kaufhaus Fl che angelegt Ist ein Attribut wie im Beispiel PLZ als Schl ssel gekennzeichnet so wird ein ConceptualKey Metadatum angelegt Ist das Attribut als optional markiert wie im Beispiel das Attribut Bezeichnung wird entsprechend ein Optional Metadatum erzeugt lt lt DimensionalClass gt gt Stadt Bezeichnung Text PLZ PLZTyp DimensionalAttribute propertyName Bezeichnung isKey FALSE isOptional TRUE attribute DataType type name Text property Dimension
188. K15 RC19 RC21 RC25 UniqueKeyRole UR16 Role of primary key of table Verkauf 1 FULL REFERENTIALRU 4 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK16 UniqueKeyRole UR17 Role of primary key of table Verkaufsbezirk 1 FULL REFERENTI 4 10 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK17 RC11 UniqueKeyRole Fortsetzung auf der folgenden Seite A 3 LCD of SQL Schema 319 Fortsetzung von der letzten Seite URIS Role of primary key of table Verkaufszahl 1 FULL REFERENTIAL RULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK18 UniqueKeyRole 4 URI9 Role of primary key of table Verkauftes_Produkt 1 FULL REFEREN TIALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK19 UniqueKeyRole UR20 Role of primary key of table Woche 1 FULL REFERENTIALRU LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK20 RC14 UniqueKeyRole 10 UR21 Role of primary key of table Filialkategorie 1 FULL REFERENTI ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK36 RC04 UniqueKeyRole 10 UR22 Role of primary key of table Filialoberkategorie 1 FULL REFEREN TIALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK37 RC02 UniqueKeyRole 10 Tabel
189. KN96 EKNO1 FGM97 FGM98 FST88 Gar98 Cabibbo Luca und Riccardo Torlone Un Quadro Metodologico per la Costruzione e U Uso di un Data Warehouse In Italienisch In Sesto Convegno Nazionale su Sistemi Evoluti per Basi di Dati SEBD 98 September 1998 Ancona Italien Proceedings Seiten 123 140 1998 Data Mart Consulting GmbH Einsatzfelder von Technologien und Anwendungen im Data Warehouse Umfeld bei verschiedenen betriebswirtschaftlichen Aufgabenstellun gen Studie Data Mart Consulting GmbH der TU Darmstadt 1999 Dataquest Studie Ver ffentlicht in ComputerZeitung 20 2000 Oracle und IBM liegen Kopf an Kopf Der globale Datenbankmarkt 1999 2000 Datanamic Inc Homepage Firma Datanamic http www datanamic com 2001 Dodge Gary und Tim Gorman Herausgeber Oracle8 Data Warehousing John Wiley amp Sons Inc 1998 Deifel Bernhard Ursula Hinkel Barbara Paech Peter Scholz und Veronika Thurner Die Praxis der Softwareentwicklung Eine Erhebung Informatik Spektrum 22 1 24 36 Februar 1999 Deshpande Prasad Jeffrey F Naughton Karthikeyan Ramasamy Amit Shukla Kri stin Tufte und Yihong Zhao Cubing Algorithms Storage Estimation and Storage and Processing Alternatives for OLAP Data Engineering Bulletin 20 1 3 11 1997 Dorendorf Stefan Die f nf gro en W der Datenbankreorganisation bei relationa len Datenbank Management Systemen In Frank H semann and Klaus K spert and F
190. KeyRole URO7 Role of primary key of table Produktfamilie 1 FULL REFERENTI 4 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK07 UniqueKeyRole UROS Role of primary key of table Produktgruppe 1 FULL REFERENTI 4 10 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK08 RCO1 RC08 UniqueKeyRole URO9 Role of primary key of table Produktkategorie 1 FULL REFERENTI 4 10 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK09 RC06 UniqueKeyRole UR10 Role of primary key of table Quartal 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK10 RCO3 RC16 UniqueKeyRole UR11 Role of primary key of table Region 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK11 RC10 RC15 UniqueKeyRole UR12 Role of primary key of table Soa 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK12 RC09 UniqueKeyRole UR13 Role of primary key of table Stadt 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK13 RCO5 RC12 UniqueKeyRole UR14 Role of primary key of table Strassenbereich 1 FULL REFERENTI 4 10 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK14 RC17 UniqueKeyRole UR15 Role of primary key of table Tag 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE U
191. KeyType 5 Produktkategorie Bezeichnung Text 4 Produktkategorie ID KeyType 3 C Quartal Bezeichnung QuartalsTyp 4 C Quartal ID KeyType 3 Fortsetzung auf der folgenden Seite A 2 REMUS Schema 299 Fortsetzung von der letzten Seite C Quartal Jahr ForeignID ForeignKeyType 5 Region Bezeichnung Text 4 C Region ID KeyType 3 C Region Staat ForeignID ForeignKeyType 5 C Region Typ der Region Bundesland Kanton 4 OC Staat Bezeichnung Text 4 Staat ID KeyType 3 Stadt Bezeichnung Text 4 Stadt ID KeyType 3 Stadt PLZ PLZTyp 4 Stadt Region ForeignID ForeignKeyType 5 Stadt Verkaufsbezirk ForeignID ForeignKeyType 5 C Strassenbereich Bezeichnung Text 4 C Strassenbereich ID KeyType 3 C Strassenbereich Stadt ForeignID ForeignKeyType 5 Tag Bezeichnung DatumTyp 4 Tag ID KeyType 3 Tag Monat ForeignID ForeignKeyType 5 Tag Woche ForeignID ForeignKeyType 5 Verkauf Betrag W hrung 8 Verkauf Ort des Verka
192. L Schema notwendig ist Teilweise werden hierbei bereits im letzten Abschnitt genannte oder durch das MML Metaklassendiagramm sichergestellte Nebenbedingungen erneut aufgegriffen Die bereits durch das Metaklassendiagramm definierten Regeln sind durch ein M gekennzeichnet Allgemeines e WF Al Jede nicht abstrakte DimensionalClass FactClass und DataClass Instanz muss entweder selber mindestens ein Attribut haben oder durch Vererbung mindestens ein Attribut besitzen e WF A2 Jedes Attribut muss einen Typ haben Verbindungstypen e WF VT1 Vererbungen d rfen nur zwischen Klassen gleichen Typs definiert werden e WF VT2 Kompositionen d rfen nur zwischen Klassen gleichen Typs definiert werden e WF VT3 Instanzen der Metaklasse DimensionalClass d rfen keine Kompositionen eingehen e WF VT4 Instanzen der Metaklasse DataClass d rfen keine Assoziationen eingehen e WF VT5 Wenn zwischen zwei Klassen mehr als eine Beziehung besteht dann darf h chstens eine eine Nicht Assoziation sein e WF VT6 Besteht zwischen zwei DimensionalClass Instanzen ein DimensionalMapping so d rfen die Instanzen nicht einer durch RollUp NonCompleteRollUp oder Share dRollUp Schemaelemente gebildeten Hierarchie angeh ren e WF VT7 Association Schemaelemente d rfen nur zwischen zwei DimensionalClass Instanzen oder zwischen einer FactClass Instanz und einer DimensionalClass Instanz verwendet werden Im ersten Fall schr nken sie den multidim
193. M Dimensional Attribute xMxR R T Dimensional Attribute a M R at O AU CalcDimensional Attributes a M MU U a b owner name ConceptualKey be CalcDimensional Attributes a M b a b owner name b propertyName bisKey TRUE U U a b owner name Optional beCaleDimensional Attributes a M b a b owner name propertyName b isOptional TRUE U U Gabi Berechnung von Attribut 7 b owner name beCaleDimensional Attributes a M Computation b computation parameter n b owner name b computation y U U a b owner name Valid beCaleDimensional Attributes a M nn b 1 b owner name propertyName d b owner name d b owner name b owner name 7 20 Zur Transformation aller DimensionalAttribute Instanzen eines Schemas dient schlieBlich die Abbil dung 7 21 T Dimensional Attribute MXxR R def T Dimensional Attribute M R U TDimensional Attribute a M R MDimensional Attribute 7 21 7 2 Transformationsalgorithmus 135 7 2 6 Schritt 5 Transformation von Hierarchiepfaden RollUp NonCompleteRollUp und SharedRollUp Schemaelementen RollUp Instanzen werden wie in Abbildung 7 10 dargestellt transformiert Der Prim rschl ssel der h heren Hierarchieebene im Beispiel Produktgruppe wird in die Relation der niedrigeren Ebene Artikel als Fremdschl ssel eingetragen und diese Abh ngigkeit in den Metadaten festgeha
194. ML Schema M hei t g ltig amp 4 i M gen gt der Spezifikation des Metaklassendiagramms in Abschnitt 6 1 Seiten 73 bis 86 Gi M erf llt die Wohlgeformtheitseigenschaften aus Abschnitt 6 1 8 Seiten 87 bis 88 M sei die Menge aller g ltigen MML Schemata 7 2 Von dieser Stelle an werden f r den Rest des Kapitels nur noch g ltige MML Schemata betrachtet auch wenn dies nicht jedesmal explizit angegeben wird F r die Transformation notwendige Mengen bestimmter Schemaelementtypen werden in 7 3 fest gelegt Seit Wertebereich type 71 3 Ad sei die Menge aller Schemaelemente vom Typ t Sei So beschreibt beispielsweise M FactClass die Menge aller Faktklassen aller g ltigen MML Schemata Eine Schreibweise f r den Zugriff auf alle Schemaelemente eines bestimmten Typs in einem speziel len MML Schema wird in 7 4 festgelegt Sei M S type Ad ein MML Schema Sei t Wertebereich type Dann sei M lt t gt 2 s S type S t die Menge aller Schemaelemente vom Typ t 7 4 So ist beispielsweise MFactClass die Menge aller Faktklassen innerhalb des Schemas M Der Zugriff von Schemaelementen auf Attribute erfolgt ber die in der Objektorientierung bli chen Punktnotation der Form lt Klassenname gt lt Attributname gt ebenso geschieht der Zugriff ber Referenzen auf verbundene Komponenten und deren Attribute in der Form lt Klassenna me gt lt Referenzname gt lt Attributname gt Aus
195. MML Diagram Color Model ssRolk SR Mor Class Wizard Visual Differencing lt lt Dimensional Class gt gt Ouartal Abbildung 11 6 Um UML Unterstiitzung erg nztes Rational Rose Menii 11 4 Graphische Benutzungsoberflache 261 Das GUI an sich besitzt als zentralen Einstiegspunkt die sog Projektstartseite siehe Abbildung 11 7 die alle im bisherigen Projektverlauf angefallenen Informationen anzeigt Von hier aus sind die diversen im Metamodell aus Abbildung 11 1 definierten Methoden aufrufbar ODAWA Projektstartseite xj Projekt Musterprojekt Eigent mer Entwicklungsteam X Datum 16 10 2001 14 05 Benutzer Susanne Meier Name Datum Uschi Kaiser 2001 07 04 Franz M ller 2001 07 12 Variante mit Yorschlag von Hans Hans Schmidt 2001 07 17 Endg ltige Version vom 23 7 2001 Steffi Meier 2001 07 23 Abbrechen Abbildung 11 7 Projekt Startseite Bei den einzelnen Dialogen wurde darauf geachtet dass der Benutzer durch Visualisierung stets ber den aktuellen Entwurfsschritt informiert ist wie die in Abbildung 11 8 dargestellte Maske verdeut licht Im linken Teil des Formulars wird der Benutzer durch die Hinterlegung darauf hingewiesen in welchem Entwurfsschritt der Methodik er sich gerade befindet im rechten Teil wird durch das Fort schreiten der Hinterlegung der Fortschritt des momentan ablaufenden Transformationsalgorithmus verdeutlicht 262 Kapitel 11 Imple
196. MappingType allowedOperators OperatorSet computation String typesSource StringSet typesDestination StringSet D parameters Column identityIncrement Integer initialValue Expression name String optional Boolean result m name m type m allowedOperator s m computation m types Source m T ypes Destination m parameters m result valueExpression Expression MappingMETA ReferentialConstraint Additivity META name String allowedOperators OperatorSet additivity 1 Referential Constraint name String typeMETA RefConsType typesPK StringSet typesFK StringSet uniqueKeyRole 1 1 foreignKeyRole UniqueKeyRole ForeignKeyRole r name r typeMETA deleteRule ReferentialRule matchType MatchType initiallyDeferred Boolean multiplicity MultiplicityRange r iypesPK r typesFK isDeferable Boolean matchType MatchType multiplicity MultiplicityRange name String updateRule ReferentialRule name String r uniqueK ey Role r foreignK ey Role r additivity ReferentialConstraint Fortsetzung auf der folgenden Seite 8 3 Abbildung von REMUS nach LCD of SOL 181 Fortsetzung von der letzten Seite
197. Merkmale berschrieben Redefinition werden Die neue Klas se stellt deshalb eine ihrer Oberklassen dar Eine Unterklasse muss jedoch nicht unbedingt zus tzliche Merkmale definieren oder geerbte Merkmale redefinieren sie kann auch ausschlie lich die Vereinigung der Merkmale ihrer Oberklassen bilden Standardisierte Annotation Synonym f r tElementeigenschaft Standardwert Wert mit dem eine neu erzeugte Datenstruktur vorbelegt wird ohne dass der Ent wickler ihn explizit angeben muss e sind i Allg vom Typ der zu initialisierenden Daten struktur abh ngig Stereotyp Dient zur werkzeug projekt unternehmens oder methodenspezifischen Erweite rung vorhandener Modellelemente der UML d h ihres Metamodells Entsprechend der mit der Erweiterung definierten Semantik wird das Modellierungselement auf das der angewen det wird direkt semantisch beeinflusst Sternschema Relationale Repr sentation multidimensionaler Daten in der diese in Fakt und Di mensionstabellen gespeichert werden wobei die Dimensionstabellen denormalisiert sind Subklasse Synonym f r tUnterklasse Subschema Teil eines Schemas Glossar 349 Surrogat Eindeutiger meistens vom System vergebener Identifikator eines Datensatzes Tagged Value Englische Bezeichnung und Synonym f r tElementeigenschaft Transformation Schritt innerhalb des Data Warehouse Prozesses in dem Daten mit Hilfe einer bestimmten Vorschrift umgewandelt werden
198. Modellierung konventioneller DBen in der Praxis gro e Bedeu tung erlangt hat Es erm glicht die Erstellung von E R Schemata und besitzt die DWH spezifische Alle hier vorgenommenen Aussagen beziehen sich auf Herstellerangaben vom Sommer 2001 5 3 Weitere Aspekte des Software und Database Engineering 63 Funktionalit t Stern und Schneeflockenschemata zu modellieren Hierauf aufbauend lassen sich unter Analysegesichtspunkten Performanz optimierte Schemata generieren Einen weiteren Vorteil bietet ERWin durch seine Einbettung in die sog ModelMart Umgebung Com01 die eine profes sionelle Verwaltung der erstellten Schemata erm glicht Weiterhin bietet ERWin M glichkeiten In formationen ber die Datenquellen den Back End Prozess und den Ladevorgang zu verwalten Dies klingt einerseits nach einer integrierten L sung und damit positiv andererseits wird hierdurch aber der Schemaentwurf massiv durch die operativen Quellen beeinflusst Als weiterer Problempunkt bleibt zu vermerken dass die Erg nzungen lediglich relationale Realisierungen unterst tzen und somit nur f r solche Zielsysteme in Frage kommen Schlie lich sind als weitere Klasse kommerzieller Werkzeuge DWH Anbieter Werkzeuge wie z B der Oracle Warehouse Builder Ora01 zu nennen Diese bilden hnlich wie die Werkzeuge mit Er g nzungen einige Erweiterungen f r den Entwurf von DWH wie z B die Modellierung von Stern schemata Die enge Anbindung an die DB f hrt zu seh
199. Objektivit t Objektiv Kriterium Fachliche Konsistenz Beschreibung Sind die Schemaaussagen widerspruchsfrei Relevanz Kriterium ist zusammen mit der Korrektheit essentiell f r die Bedeu tung und Akzeptanz eines Schemas Messung Durch Review eines Fachvertreters berpr fen jedes Sachverhaltes Fakt Dimension Hierarchiebildung freigegebene Operatoren etc und anschlie ender Vergleich auf fachliche Widerspr che oder Unge nauigkeiten Metrik Quote fachlich nicht widerspr chlicher Sachverhalte Automatisierbarkeit Nein Objektivit t Objektiv Kriterium Fachliche Relevanz Beschreibung Sind die Schemaaussagen fachlich relevant d h werden wirklich f r die Datenanalyse relevante Objekte beschrieben Relevanz Kriterium bedeutend im Hinblick auf sp tere Benutzerakzeptanz Messung Durch Review eines Fachvertreters Feststellen aller relevanten Sach verhalte und der durch Fakten und Dimensionen des Schemas abge deckten Metrik Quote fachlich nicht relevanter Sachverhalte Automatisierbarkeit Nein Objektivit t Objektiv Kriterium Umfang Beschreibung Ist die Schemabreite angemessen Relevanz Kriterium bedeutend im Hinblick auf sp tere Benutzerakzeptanz Der Umfang eines Schemas ist immer relativ im Hinblick auf die Zielset zung Soll z B ein Data Mart Prototyp realisiert werden dann sind die Anforderungen an dieses Kriterium nat rlich geringer als bei einem Referenzschema Messung Durch Review eines Fachv
200. Prim rschl ssel besitzt Beim Denormalisieren der multiplen Hierarchie auf der Ortsdimension entstehen neue TableConstraint Objekte die ebenfalls in der Abbildung zu sehen sind Die Metadaten aus den Abbildungen 9 4 bis 9 7 werden im Zuge des Algorithmus folgenderma en ver ndert Die Additivit t bleibt erhalten ebenso die beiden bei den Attributen definierten Colum nConstraint Objekte Das in Abbildung 9 6 links abgebildete ReferentialConstraint Objekt wird in das Tabellenconstraint Filialkategorie Bezeichnung IS NULL OR Type Filiale verwandelt denn das Eintragen von Filialkategoriewerten ist nur f r Datens tze vom Typ Filiale m glich Von den konzeptionellen Schl sseln aus Abbildung 9 8 bleibt nur derjenige der Tabelle Artikel erhalten die beiden anderen werden in Zeile 21 implizit gel scht 224 Kapitel 9 Verfeinerung des Schemas Quartal Jahr JahrTyp Quartal QuartalsTyp ID PKTyp Strassenbereich ID PKTyp Bezeichnung Text PLZ PLZTyp Stadt Text Verkaufsbezirk Text Region Text Typ_der_Region Aufzahlungstyp Region Staat Text Ort des_Verkaufs Filialkategorie Text Filialoberkategorie Text Bezeichnung Text Filialart Text Filialleiter Text Flaeche FlaechenTyp Filialkategorie IS NULL OR Type Filiale Filialoberkategorie IS NULL OR Type Filiale Gesamtflaeche FlaechenTyp Tag Type
201. Referenzen zu ihren Bezugsobjekten 8 2 6 Meta Data In den Objekten der Metaklassen des Bereichs Meta Data werden Information festgehalten die sich nicht mit anderen LCD of SOL Objekten beschreiben lassen Der Ausschnitt aus dem Klassendia gramm ist in Abbildung 8 7 dargestellt Im einzelnen sind dies Metainformationen ber die Additi vit t von Kennzahlen bez Dimensionen die Multiplizit t aufgel ster Kompositionen und berechnete Beziehungen zwischen Dimensionen die sich aus den MML Konstrukten SharedRollUp und Dimen sionalMapping ergeben k nnen Diese Informationen werden nicht als ReferentialConstraint oder DBConstraint gespeichert weil sie auswertungsbezogene bzw die Informationen ber die Kompo sitionen f r den Ladevorgang des DWH relevante f r die sp tere Verwendung der Daten n tzliche Metainformationen sind Sie dienen somit einem OLAP Server bzw einem Ladewerkzeug als Zu satzinformationen Objekte der beiden Metaklassen ReferentialConstraint und DBConstraint stellen hingegen die statische Datenintegrit t sicher und sind keine Informationen die von auf die DB zugreifenden Komponenten genutzt werden F r die Wahl einer eigenen Metaklasse zur Speiche rung der Additivit tseigenschaft gilt noch zus tzlich das Argument dass ein ReferentialConstraint die Beziehung von zwei Tabellen Additivit t aber eine Beziehung zwischen Faktattribut und einer dimensionalen Relation beschreibt Die Klasse AdditivityMETA wird durch die
202. Relationen und Faktrelationen im erzeugten REMUS Schema sorgen MML Schema Schritt 6 Assoziationen 7 2 7 Schritt 7 Zwischen dimensionale Abbildungen 7 2 8 Schritt 8 Fakten 7 2 9 Schritt 9 Dimensionen 7 2 10 Schritt 10 Verdichtungsoperatoren 7 2 11 REMUS Schema Abbildung 7 3 Ablauf der Transformation von MML nach REMUS Weil neben einer verbalen auch eine formale Beschreibung der Transformation in einer mengen orientierten Notation erfolgen soll werden in Abschnitt 7 2 1 zun chst einige Definitionen vorge nommen Jeder der Abschnitte 7 2 2 bis 7 2 11 behandelt einen Schritt der Transformation Hier bei wird f r jeden Teilschritt zun chst eine informale Beschreibung gegeben zur Illustration dient jeweils ein Ausschnitt evtl in leichter Variation aus dem Beispiel Handelswelt Dabei werden Skizzen gezeigt die wie Abbildung 7 4 aufgebaut sind Das Teilschema das die zu transformieren den Elemente enth lt ist zur besseren Lesbarkeit sowohl in UML Notation als auch in Form von MML Schemaelementen dargestellt Die im betreffenden Schritt transformierten Elemente sind je weils grau hinterlegt Ein Pfeil symbolisiert den Transformationsschritt am Ende des Pfeiles werden die in diesem Schritt erzeugten REMUS Schemaelemente aufgef hrt Flie en Informationen aus fr heren Schritten in den Transformationsschritt ein so werden diese am Pfeil notiert Im Anschluss an diese Beschreibung erfolgt innerhalb ei
203. Role META Association x LuniqueK eyRole LUniqueKeyRole def HAssociationypdate U nique Key Role a u AddU niqueK eyRoleConstraint u bt Referential constraint between table Jdetrastenam r dimensional Relation A name and faetrastenam TintermediateRelation name falls v uniqueK ey table name Jaetrastenam r dimensionalRelation A name u sonst 8 92 Diese drei Aktualisierungsfunktionen werden im Folgenden auf Mengen erweitert MAssociationy pdateSet Table META Association X Pot Lrabie as Pot Lrabie 8 93 T def HAssociationypdateSet Table r U HAssociationypdate Table r t teT 208 Kapitel 8 Relationaler Entwurf H AssociationypdateSet Column META Association X Pot Lcolumn gt Pot Lcolumn E cy eet A 8 94 H Association pdate Set Column r Wee H Association pdate Column r c cEC H Associationy pdateSet UniqueKey Role META Association X Pot LuniqueKeyRole Pot LUniqueKeyRole 8 95 ry def H Associationy pdateSet UniqueKey Role r U H Associationy pdate UniqueKey Role r u ueU Schlie lich kann die Abbildung aller Association Metadaten durchgef hrt werden M Association R X L gt L def M Association R L lt L Orable Ocolumn OvrniqueKeyRole U H RUU pcreate ForeignKey m m M Association x U U Roll pCreate ForeignKey Role m m M x Association x U HRottU pcreate ReferentiatConstraine 0 M M s Association
204. Schema erf llt zwar die aufgestellten Kriterien in der Praxis verlangt jedoch das eingesetzte DBMS bzw der OLAP Server zur effizienten Anfragever arbeitung bestimmte Schematypen Kommerzielle Werkzeuge Aufgrund des sich stetig wandelnden Marktes an Werkzeugen und des Markteintritts st ndig neuer Hersteller kann an dieser Stelle keine komplette Markt bersicht gegeben werden Stattdessen werden die Werkzeuge in drei Klassen unterschieden und jeweils ein wichtiger Vertreter genannt Weit verbreitet ist der Einsatz herk mmlicher Werkzeuge d h solche die in einer Organisation eta bliert sind und eine E R Notation anbieten Vorteil dieser Werkzeuge sind Etablierung Akzeptanz und meistens schon erreichte Produktreife Ein Beispiel f r ein solches Werkzeug ist DeZign der Firma Datanamic Dat01 Das Problem dieser Klasse von Werkzeugen ist die Verwendung der E R Notation das Schema muss schon in einer fr hen Entwurfsphase auf das eingesetzte Zielsystem aus gelegt sein auch wenn das Werkzeug selber mehrere unterschiedliche DBMS unterst tzt Somit fallen konzeptioneller und logischer Entwurf praktisch zusammen Ebenso sind DWH spezifische Gestaltungen und Optimierungen wie z B Materialisierungen nicht m glich Zur Behebung dieser Mankos gibt es einige herk mmliche Werkzeuge mit Zus tzen die ihre urspr ng liche E R Notation erweitern Dieser Kategorie kann das Werkzeug ERWin Com01 zugeordnet wer den das in den letzten Jahren in der
205. Sprache f r die konzeptionelle Datenmodellierung von DWH vorgestellt Anschlie end wird in Abschnitt 6 2 mit der UML multidimensional UML eine graphische Notation f r diese Sprache eingef hrt Als konstruktive Vorgehensweise um mit Hilfe dieser Sprache bzw Notation zu einem Schema zu gelangen wird in Abschnitt 6 3 ein Leitfaden zum Erstellen von MML Schemata vorgeschlagen Ein Framework f r die analytische Qualit tssicherung eines auf diese Weise erstellten Schemas ist Gegenstand von Abschnitt 6 4 Abgerundet wird das Kapitel schlie lich in Abschnitt 6 5 mit dem Beispiel Handelswelt das f r Teil II dieser Arbeit als durchg ngiges Beispiel dient Multidimensionale Modellierung 6 2 6 3 mUML Diagramm Abbildung auf die MML 6 1 Konzeptionell MML Schema Review 6 4 MML Schema qualitatsgesichert Transformation T 7 Logisch REMUS Schema Transformation in initiales Datenbankschema 8 DB Schema unabh ngig Systemabh ngige Verfeinerung 9 Physisch DB Schema systemabh ngig Physische Optimierung 10 DB Schema systemabh ngig optimiert Abbildung 6 1 Einordnung des Schrittes in den Entwurfsprozess 6 1 MML Multidimensional Modeling Language Die in diesem Abschnitt eingef hrte MML Har99b Har99a HH99 ist eine multidimensionale Spra che f r die konzeptionelle DWH Datenmodellierung die sich an den Anforderungen f r ein konzep Kapitel 6 Konzeptioneller Entwurf tionelles Daten
206. Systeme in den Anfangsjahren ein Hilfsmittel f r die t gliche Arbeit so sind sie heute als essentiell wichtige Systeme einzustufen von denen die Organisationen abh ngig sind um ihre t gliche Arbeit durchf hren zu k nnen Daneben bestand aber schon seit den 60er Jahren der Wunsch auch Entscheidungstr gern verschiedener Funktionsbereiche und Hierarchieebenen einer Organisation als Grundlage zur Entscheidungsunterst tzung die n tigen Informationen zur Verf gung zu stellen W nschenswert ist hierbei dass die Bereitstellung der ben tigten Informationen zeitnah fehlerfrei flexibel ergonomisch effizient und effektiv erfolgt Dies kann nicht nur mittels der unmittelbar in der Datenbank abgelegten Daten erfolgen sondern dar ber hinaus m ssen auch Informationen ermittelt werden die aus diesen Daten durch Anwendung von z B statistischen Analysen gewonnen werden k nnen So sollte ein Buchhaltungssystem einen berblick ber Konten und Kostenstellen gew hrleisten und beim Platzreservierungssystem sollten Statistiken ber die Auslastung bestimmter Flugstrecken m glich sein Um solche Arten von Datenanalysen die ber die Unterst tzung der operativen Aufgaben hinausgehen zu unterst tzen entstanden in den letzten Jahrzehnten verschiedene Konzepte und Systeme die auf den operativen Systemen aufsetzten und unter Bezeichnungen wie Management Information System MIS Execu tive Information System EIS F hrungsinformationssystem FIS Chef
207. Table LTable def H Attribute pdate Table a t AddTableColumn t faetasmpiputenam 2 NaMe falls t name faetrabiename Prefix la name t sonst 8 16 Erweitert auf Mengen von Tabellen ergibt sich H AttributeUpdateSet Table R Attributes X Pot Lrabie gt Pot Lrabie def 8 17 H Attributey pdateSet Table a T SC U H Attributeurpdate Table a t tET Die Abbildung aller Attribute geschieht mittels M Attribute R XL gt L d M Attribute R L er L OTable 8 18 U H Attributecreate a ae A U aAttridutey pdateset Tabie 2 Table A 8 3 6 Schritt 4 Prim rschl ssel anlegen In diesem Schritt werden f r die in Schritt 2 siehe Seite 183 angelegten Tabellen die Prim rschl s sel eingetragen Bei den dimensionalen Tabellen sind dies die w hrend der Transformation von MML nach REMUS angelegten Surrogate die als PrimaryKey Metadatum dokumentiert sind Die Faktta bellen hingegen besitzen einen zusammengesetzten Prim rschl ssel der w hrend der Transforma tion sukzessive durch das Eintragen der Prim rschl ssel beteiligter Dimensionen entstand Die Ab bildungen 8 13 und 8 14 zeigen den Vorgang f r eine dimensionale Tabelle und eine Fakttabelle Der Unterschied besteht darin dass bei der Fakttabelle aufgrund des zusammengesetzten Prim r schl ssels das UniqueKey Objekt auf mehrere Spalten verweist Neben dem Anlegen eines Unique Key Objektes dessen Attribut isPrimary den Schl sse
208. Typ 1 Stadt Region_FK FKTyp Verkaufsbezirk_FK FKTyp Bezeichnung Text PLZ PLZTyp ID PKTyp 1 Verkaufsbezirk Region_FK FKTyp Bezeichnung Text N Region Staat_FK FKTyp 1 Typ_der_Region Aufz typ Region ID PKTyp N Bezeichnung Text ID PKTyp Strassenbereich ID PKTyp Bezeichnung Text Stadt_FK FKTyp Staat Bezeichnung Text ID PKTyp Abbildung 9 3 Handelswelt Schneeflockenschema mit Surrogaten 9 3 Verfeinerungsalgorithmen 221 Daneben sind zum Verst ndnis der Funktionsweise der nachfolgenden Algorithmen einige Metadaten relevant die aus Gr nden der bersichtlichkeit nicht in Abbildung 9 3 zu sehen sind sondern in den folgenden Abbildungen 9 4 bis 9 7 dargestellt sind Abbildung 9 4 zeigt die einschr nkenden Grup pierungsoperatoren der beiden Attribute Einzelpreis und Gesamtpreis bez der Ortsdimension Ort des_Verkaufs Stadt FR FKTyp Verkauftes_Produkt Filialkategorie_FK FKTyp Additivity Anzahl St ckzahlTyp Bezeichnung Text Einzelpreis SUM MIN MAX AVG Einzelpreis W hrung Filialart Text Gesamtpreis SUM MIN MAX AVG Gesamtpreis W hrung Filialleiter Text Artikel_FK FKTyp Flaeche FlaechenTyp i N Ort_des_Verkaufs_FK FKTyp Gesamtflaeche FlaechenTyp Tag_FK FKTyp Type Text _
209. Verweis auf die in 8 22 definierte Rolle sowie die am Prim rschl ssel beteiligten Spalten und die Tabelle HPrimaryKeyupdate UniqueKey META PrimaryK eyarouped x LuniqueKey gt LuniqueKey def H PrimaryK eu date UniqueKey M u AddU niqueK eyRole u b Role of primary key of table detrasiename M relation name falls uname b Primary key of table Jdetrastenam M relation name 8 23 u sonst 188 Kapitel 8 Relationaler Entwurf HPrimaryK ey pdate Table META PrimaryK eyarouped x Lrabie ie LT able def LPrimaryK eyupdate Table M t m AddT ableU niqueK ey t p Primary key of table 8 24 Jdetrastenam M relation name falls t name M relation name t sonst JdetrasieName MPrimaryKeyupdate Column META PrimaryK eyarouped X LColumn LColumn def HPrimaryKeyupdate Column M AddColumnUniqueKey c a Primary key of table 8 25 M relation name M attribute name JdetrabieName falls cname C sonst det erlangen Die Erweiterungen dieser Aktualisierungsoperatoren auf Mengen wird in den folgenden drei Abbil dungsvorschriften festgehalten MPrimary K eyu pdateSet UniqueKey METAPrimaryKeygrouped x Pot LuniqueKey Pot LuniqueKey ge 8 26 e HPrimaryKeyupdateSet UniqueKey M U U HPrimaryK eyupdate UniqueKey M u ueU MPrimary Keyvu pdateSet Table METAPrimary Keycrouped x Pot Lrabie gt Pot LTable def 8 27 HPrimaryKey
210. Werkzeuge und Systeme OFFIS bei Prof Dr H J Appelrath Promotion zum Doktor der Ingenieurswissenschaften am Fachbereich Informatik der Carl von Ossietzky Universit t Oldenburg
211. Yu und Hongjun Lu Herausgeber Proceedings of the 16th International Conference on Data Engineering Februar M rz 2000 San Diego Kalifornien USA IEEE Computer Society 2000 IEEE IEEE Standard Glossary of Software Engineering Terminology 1983 Inmon William H Building the Data Warehouse John Wiley amp Sons Inc 2 Auflage 1996 Jarke Matthias Manfred A Jeusfeld Christoph Quix und Panos Vassiliadis Architec ture and Quality in Data Warehouses An Extended Repository Approach Information Systems 24 3 229 253 1999 J rgens Marcus und Hans J Lenz Tree Based Indexes vs Bitmap Indexes a Perfor mance Study In Gatziu Stella Manfred A Jeusfeld Martin Staudt und Yannis Vas siliou Herausgeber Proceedings of International Workshop DMDW 99 Design and Management of Data Warehouses Juni 1999 Heidelberg Deutschland 1999 Jarke Matthias Maurizio Lenzerini Yannis Vassiliou und Panos Vassiliadis Funda mentals of Data Warehouses Springer Verlag Berlin Heidelberg Deutschland 2000 Jones Richard M Introduction to MFC Programming with Visual C Microsoft Technologie Series 1999 Josuttis Nicolai Die C Standardbibliothek Eine detaillierte Einf hrung in die voll st ndige ANSI ISO Schnittstelle Addison Wesley 1996 Jaworski Ramon und Andreas Totok Modellierung von multidimensionalen Daten strukturen mit ADAPT Berichte des Instituts f r Wirtschaftswissenschaften der Techni sch
212. Zur Homepage der Dissertation Eine Entwurfsmethodik f r Data Warehouses Dissertation zur Erlangung des Grades des Doktors der Ingenieurswissenschaften am Fachbereich Informatik der Carl von Ossietzky Universit t Oldenburg vorgelegt von Dipl Inform Olaf Herden Gutachter Prof Dr H J Appelrath Prof Dr Ing H F Schweppe Tag der Disputation 21 Dezember 2001 Zur Homepage der Dissertation Eine Entwurfsmethodik f r Data Warehouses Dissertation zur Erlangung des Grades des Doktors der Ingenieurswissenschaften am Fachbereich Informatik der Carl von Ossietzky Universit t Oldenburg vorgelegt von Dipl Inform Olaf Herden Gutachter Prof Dr H J Appelrath Prof Dr Ing H F Schweppe Tag der Disputation 21 Dezember 2001 Danksagung Mein erster Dank im Rahmen dieser Dissertationsschrift die w hrend meiner Zeit als wissenschaft licher Mitarbeiter am OFFIS Oldenburger Forschungs und Entwicklungsinstitut f r Informatik Werkzeuge und Systeme entstand geht an Herrn Prof Appelrath f r die umsichtige Betreuung und F rderung dieser Arbeit Er hat einerseits hilfreiche Leitlinien aufgezeigt andererseits aber auch die n tigen akademischen Freir ume gew hrt Ebenso danke ich Herrn Prof Schweppe f r die bernah me der Zweitbegutachtung Ein weiterer Dank geht an die im Umfeld Data Warehousing t tigen Kollegen des OFFIS wobei ich insbesondere Holger Hinrichs und Arne Harren hervorheben m
213. _ID Stadt_ID 1 Monat Bezeichnung Monat ID Region_ID Bezeichnung N T Quartal_ID Filiale S e 1 ag_ Filiale_ID N Bezeichnung Bezeichnung N Stadt ID Monat_ID a Woche_ID 1 Verkaufszahl Anzahl N H Filiale_ID Hersteller Artikel_ID Hersteller_ID Tag_ID Bezeichnung N N Produkt i Produkt_ID Marke 1 Bezeichnung N Marke ID Marke ID 1 Bezeichnung Produktgruppe Produktgruppe_ID Hersteller_ID N Produktgruppe_ID Bezeichnung 4 2 Relationale Realisierungen 45 Jede Tabelle besitzt neben einem Surrogat alle Attribute der Hierarchieebene sowie zus tzlich Fremd schl sseleintr ge der direkt dar berliegenden Hierarchieebenen Die Kennzahlen werden in einer sog Fakttabelle vorgehalten die neben einer Spalte pro Kennzahl Fremdschl sseleintr ge der Hierarchie ebenen der feinsten Granularit t jeder Dimension besitzt Die Menge der Fremdschl sseleintr ge in einer Faktentabelle beschreibt genau eine Zelle des multidimensionalen Datenraums und bildet da her in ihrer Gesamtheit den Prim rschl ssel der Faktentabelle Abbildung 4 4 zeigt diese Form der relationalen Realisierung f r das Beispiel Verkaufszahl das schon in Kapitel 3 zur Vorstellung der multidimensionalen Datenmodelle genutzt wurde Das Schneeflockenschema ist normalisiert bez der durch die Hierarchiestrukturen induzierten funk tionalen Abh ngigkeiten womit z B nderungsanomalien vermieden werden Andererseits besitzt das Schema Nachteile hinsichtlich der
214. a Relationenname Schritt 1 Datentypen Fee Schritt 2 Datenklassen Jahr T Monat Produktfamilie Schritt 4 Dimensionale Attribute Produktgruppe Produktdategorie Schritt 5 Hierarchiepfade Quartal Schritt 6 Zwischendimensionale Beziehungen Schritt 7 Zwischendimensionale Abbildungen Abbildung 11 9 Beispieldialog f r Interaktion 11 5 Zusammenfassung Dieses Kapitel hat die prototypische Implementierung der Entwurfsmethodik beschrieben Die resul tierende Software tr gt mit ODAWA den Namen des OFFIS Projektes in das die Forschungsarbeiten eingebettet waren Zun chst wurden in Abschnitt 11 1 die Metamodelle und Transformationen unter dem Begriff des Projektes zusammengefasst sowie Methoden f r die einzelnen Komponenten festgelegt Diese Kon zeption wurde in 11 2 in eine Architektur umgesetzt deren konkrete Realisierung in Abschnitt 11 3 skizziert wurde Weiterf hrende Implementierungsdetails k nnen in Har99b und vertiefende Pro grammdokumentation in MHHO1 nachgelesen werden Abschnitt 11 4 vermittelt dem Leser anhand einiger Bildschirmfotografien einen Eindruck der graphischen Benutzungsoberfl che des Prototypen Die komplette Oberfl che ist im Benutzerhandbuch HHMO1 beschrieben 264 Kapitel 11 Implementierung Kapitel 12 Evaluation Dieses Kapitel fasst eine in HKO1 ausf hrlicher beschriebene Evaluation der in Teil II dieser Arbeit konzipierten Methodik zusammen Als Dom ne f r die Evalua
215. a endA name r a endB name PrimaryKey y r a endA name n a endB name ID y r a endA name n a endB name ConceptualKey y r a endA name n a endB name n a endA name ForeignID d r a endA name n a endB name ConceptualKey d r a endA name n a endB name n a endB name ForeignID d r a endA name 1 a endB name 7 a endA name ForeignID Reference m a endA name ID d r a endA name n a endB name n a endB name ForeignID Reference m a endB name ID b r a endA name n a endB name Multiplicity d r a endA name m a endB name D t a endA name ForeignID a endBMultiplicity db r a endA name n a endB name Multiplicity d r a endA name m a endB name D t a endB name ForeignID a endAMultiplicity 1r a endA name n a endB name Association b 1 a endA name 1 a endB name a endB Name a endAName d a endA name d a endB name b a a endA name ID w r a endA name n a endB name m a endA name ForeignID b a a endB name I1D w r a endA name r a endB name n a endB name ForeignID nn nn 3 1 27 Um alle Assoziationen eines Schemas zu transformieren ruft 7 28 die in 7 27 definierte Transfor mationsvorschrift f r alle Association Elemente auf T Association MxROR di TAs
216. aben Detaildaten den niedrigsten Verdichtungsgrad und die feinste Zusammengefasste Daten haben entsprechend einen h heren Verdichtungsgrad und damit eine gr bere Gruppierung Synonym f r Verdichtung Herk mmliche Datenbank Synonym f r FOLTP Datenbank Hierarchie Menge aufeinander aufbauender tHierarchieebenen Hierarchieebene Auswertungsorientierte Zusammenfassung der Daten in einer Dimensionen Hybrides On Line Analytical Processing HOLAP FOLAP System in dem die Daten sowohl in einem Multimensionalen DBMS als auch einem tRelationalen DBMS gehalten werden Identit t Eigenschaft eines tObjektes die es von allen anderen Objekten unterscheidet und die nicht ver ndert werden kann Index Ein ist eine physische Datenstruktur die die Zugriffsgeschwindigkeit auf die in der Daten bank gespeicherten Daten erh ht 344 Glossar Informationssystem i e S Computergest tzter Teil eines tInformationssystems i w S e sind Datenorganisationsformen auf Computern die bestimmte Vorg nge und Abl ufe in Kom munikationsprozessen unterst tzen Informationssystem i w S Gesamte informationsverarbeitende Teilsystem einer Organisation Es besteht wiederum aus Teilsystemen wie Anwendungssystemen und Aktenarchiven Man kann das in das computergestiitzte Informationssystem i e S und das nicht computergest tzte Informationssystem unterteilen Instanz Synonym f r tObjekt Integrit t Unter ei
217. aber vertretbare Kosten bez ben tigtem Speicherplatz und Aktualisie rungsaufwand aufweist Zum Thema Materialisierung im DWH sind in den letzten Jahren etliche Arbeiten entstanden In HRU96 Gup97 werden Algorithmen zur Auswahl zu materialisierender Sichten vorgestellt die die Antwortzeiten unter der Nebenbedingung des verf gbaren Speicherplatzes minimieren Diese Aufga benstellung wird als Sichtenauswahlproblem oder DWH Konfigurationsproblem TS97 bezeichnet Dieses Optimierungsproblem ist i Allg NP vollst ndig die genannten Arbeiten bieten daher als L sung auf einer Greedy Strategie basierende Algorithmen an die polynomiale Laufzeit aufweisen und um einen konstanten Faktor von der optimalen L sung abweichen Erweitert werden diese Ans tze in GHRU97 LQA97 auf die Auswahl von Sichten und Indizes All diese Arbeiten vernachl ssi gen jedoch die Wartungskosten der materialisierten Sichten Diesen Aspekt ber cksichtigen u a die Arbeiten GM99 CLF99 die die Auswahl zu materialisierender Sichten unter der Nebenbedingung einer vorgegebenen Zeit f r die Wartung betrachten Dieses kann in der Praxis Bedeutung haben wenn f r das Nachladen der Daten in ein DWH nur eine beschr nkte Zeit zur Verf gung steht In URT99 wird der Ansatz aus HRU96 wieder aufgegriffen und zus tzlich die H ufigkeit von Anfra gen sowie die Kosten der Wartung der materialisierten Sichten ber cksichtigt In LH99 wird statt einer Greedy Strategie ein gen
218. ach so d rfen die El tern in keiner RollUp NonCompleteRollUp und SharedRollUp Beziehung zu einander stehen auch in keiner geerbten e WF MV3 Erbt die Instanz einer FactClass Metaklasse mehrfach so d rfen die Eltern in keiner Composition Beziehung zueinander stehen auch in keiner geerbten Auf die technische Realisierung zur Einhaltung der Regeln soll an dieser Stelle nicht einge gangen werden Zur Entdeckung von Mehrfachvererbungen in Klassendiagrammen sei z B auf FGM97 FGM98 BFM99 verwiesen zur Entdeckung von Zyklen freiheit auf Arbeiten aus der Graphentheorie Tur96 YG98 6 2 UML Graphische Notation Mit der MML als Kern der konzeptionellen Entwurfsebene lassen sich verschiedene graphische No tationen verwenden Dieses Konzept wurde gew hlt um in einer Organisation bereits etablierte No tationen weiterhin zu verwenden bzw geeignet zu erg nzen oder in spezifischen Projekten spezielle Notationen verwenden zu k nnen Im Rahmen dieser Arbeit soll als graphische Notation die UML Har99a Har99b HH99 dienen Ein UML Diagramm wird mittels des Klassendiagramms static structure diagram der UML dar gestellt und beinhaltet daher die statischen Eigenschaften von Klassen und Objekten wie beispiels weise Attribut und Methodenangaben oder Beziehungen Der weitere Aufbau dieses Abschnitts ba siert dementsprechend auf den durch die UML bereitgestellen Modellierungskonstrukten f r Klassen Attribute und Verbindung
219. achbearbeiter Analysten Manager Anwenderzahl Sehr viele Wenige Zugriffscharakteristika Zugriffsart von Applikation Lesen Schreiben Modifizieren L schen Lesen periodisches Hinzuf gen Transaktionsdauer und typ Kurze Lese und Lange Lesetransaktionen Schreibtransaktionen Abfragestruktur Einfach strukturiert Komplex rechenintensiv Abfragetyp Vorhersagbar H ufig ad hoc Anfragen Zugriffsart Einzelne Datens tze Bereichsanfragen Volumen der Anfrageergebnisse Wenige Datens tze Viele Datens tze Erwartete Antwortzeiten Milli Sekunden Sekunden bis Minuten Update Laufend konkurrierend Erg nzend Daten und Schemacharakteristik a Datenquellen Meistens eine Fast immer mehrere Eigenschaften der Daten Nicht abgeleitet zeitaktuell autonom dynamisch Abgeleitet konsolidiert historisiert integriert stabil Granularitat der Daten Detaildaten Detaildaten und Aggregate Aktualit t der Daten Online Realtime Unterschiedlich aufgabenabh ngig Zeithorizont der Daten Aktuelle Daten Historisierte Daten Datenschema Normalisiert Zweckgebunden analyse orientiert Datenvolumen Megabyte bis Gigabyte Gigabyte bis Terabyte Tabelle 2 1 Vergleich operative Datenbanken und DWH Diese bersicht unterstellt die idealtypische Vorstellung einer weitgehenden Orthogonalit t von OLTP Datenbanken und DWHs aus d
220. acher Multiplizit t werden dabei durch Einbettung aufgel st bei Kompositionen mit komplexer Multiplizit t hingegen wird in Abh ngigkeit von der Semantik der konkreten Daten zwischen vier verschiedenen Umsetzungen unterschieden Nachdem diese vorbe reitenden Schritte geschehen sind werden in Schritt 8c schlie lich die Faktrelationen und attribute erzeugt Schritt 8a Aufl sen von Generalisierungen Die Vererbungen werden aufgel st indem von den Oberklassen alle FactAttribute Dimension und Composition Schemaelemente an ihre Unterklassen bertragen werden Zur Illustration dient in Abbildung 7 14 eine Variante aus dem Beispiel Handelswelt Im ersten Schritt reicht die Klasse Produkt ihre Dimension Herkunftsland an ihre Unterklasse weiter Danach braucht sie nicht weiter betrachtet zu werden weil es sich um eine abstrakte Klasse handelt Im zweiten Schritt in der Abbildung reicht die Klasse Verkauftes Produkt ihre beiden Dimensionen ihre beiden Attribute und ihre Komposition zur Klasse Verkauf an die Unterklasse kologisches Produkt weiter womit dieser erste Teilschritt abgeschlossen ist 142 Kapitel 7 Logischer Entwurf lt lt FactClass gt gt Verkauf lt lt Dimension gt gt bs Betrag Wahrung Ort Verkauf NL der SE lt lt Dimension gt gt Herkunftsland lt lt FactClass gt gt Produ
221. ag mit dem aktuellen EKN Schema eine recht pr zise Spezifikation als Ausgangsbasis vor was das Messen von z B Schematiefe oder Vollst ndigkeit berfl ssig macht Andererseits soll die Evaluation nur dem Nachweis der Anwendbarkeit der Methodik dienen so dass z B Integrationsf higkeit kein relevantes Qualit tskriterium f r das Review darstellt Als Messverfahren und Metriken fanden f r die drei ausgew hlten Kriterien die in Tabelle 6 3 angegeben Vorschl ge Verwendung Bei der Dokumentation wurde auf Vollst ndigkeit und Qualit t im Sinne von Aussagekraft der Kommentare geachtet Zur Messung der fachlichen Korrektheit und Konsistenz wurde das konzeptionelle Schema in nat rlichsprachliche Aussagen umgewandelt wie in Abbildung 12 5 exemplarisch gezeigt die dann berpr ft wurden F r die Kennzahl Anzahl des Fakts Fall existieren keine Einschr nkungen bez der Verdichtungsfunktion der Dimension Geschlecht Ein Fall u A wird durch Angabe AN eines Geschlechts charakterisiert lt lt Dimension gt gt lt lt Dimension gt gt Alter Geschlecht o Fall ist ein relevantes Fakt lt lt FactClass gt gt e Fall Fall hat die Kennzahl Anzahl Anzahl 0 oder 1 T lt lt Composition gt gt Zu einem Fall kann es Angaben Therapien zu mehreren Therapien geben O lt lt FactClass gt gt Therapie Anzahl 0 oder 1 Abbildung 12 5 Review des konzeptionellen Schemas Zu den gemessenen We
222. agestellung eine Zusam menstellung der Daten hinsichtlich Verdichtungsgrad und Pr sentation vorzunehmen Damit bieten sie gegen ber Berichtswerkzeugen die Vorteile einer interaktiven auf die individuellen Bed rfnisse zugeschnittenen Datenanalyse Data Mining Werkzeuge Im Gegensatz zu OLAP ist das Data Mining ein induktiver Prozess Es werden keine Vermutungen menschlicher Benutzer durch interaktive Analysen erh rtet sondern z B anhand von Algorithmen des maschinellen Lernens und statistischer Verfahren versucht bisher unbekannte Zusammenh nge und Trends im Datenbestand zu entdecken Obwohl Data Mining auch ohne DWH m glich ist bie tet das Aufsetzen auf einem DWH erhebliche Vorteile So k nnen viele Zusammenh nge erst durch den Integrationsaspekt verschiedener Datenbest nde oder den Versionierungsaspekt eines Datenbe standes entdeckt werden Auf der anderen Seite sei aber auch auf die Nachteile des Data Mining in einer DWH Umgebung hingewiesen z B muss die f r OLAP optimierte Struktur des Schemas nicht f r Data Mining geeignet oder gar optimal sein Dar ber hinaus k nnen durch die Bereinigung und Integration von Daten manche Analysen nicht mehr sinnvoll durchgef hrt werden Eine Gegen ber stellung der Vor und Nachteile findet sich in G n00 Kapitel 2 Data Warehouse Systeme Tabelle 2 2 fasst die drei herk mmlichen Front End Werkzeuge nochmals zusammen Kem99 Kriterium Berichte OLAP Data Min
223. agnosen nur bei einem bestimmten Geschlecht auftreten Diese Abh ngigkeiten wurden in der in Tabelle 12 2 dargestellten Form dokumentiert Neben einer laufenden Nummer als eindeutiger Identifikator der Abh ngigkeit wurden die betrof fenen Dimensionen genannt die medizinisch epidemiologische Aussage verbal formuliert und schlie lich eine Konsistenzregel in Aussagenlogik formuliert Auf eine Abbildung dieser Aspekte in das konzeptionelle Schema wurde jedoch verzichtet weil diese Aspekte bereits in der bestehenden DB ber cksichtigt werden bzw beim Transformations und Ladeprozess behandelt werden Laufende Nummer P17 Betroffene Dimensionen Diagnose und Fernmetastasen Medizinisch epidemiologische Aussage Metastasen d rfen nur bei malignen Erkrankungen auftreten Konsistenzregel Fernmetastasen Bezeichnung 1 gt Diagnose Diagnose gt C00 A Diagnose Diagnose lt C76 Tabelle 12 2 Darstellung von Abh ngigkeiten zwischen Dimensionen 12 2 Anwenden der Entwurfsmethodik 271 12 2 3 Review des konzeptionellen Schemas Im Laufe der konzeptionellen Modellierung wurde ein Review zur Qualit tssicherung nach dem in Abschnitt 6 4 beschriebenen Vorgehen durchgef hrt Als zu messende Kriterien wurden dabei fachliche Korrektheit fachliche Konsistenz und Dokumentation ausgew hlt Die anderen in Tabelle 6 3 aufgef hrten Kriterien sind im Kontext dieser Evaluation als nicht so relevant einzustufen denn einerseits l
224. agung der Attribute w rde neben dem Defizit von M glichkeit I ledig lich zur Anzeige f hren dass jede T tigkeit zu einem Fall geh rt e M glichkeit IV scheidet aus da die gleichen Nachteile wie bei M glichkeit IH auftreten w r den Bei der durch die Transformation erzielten Konstellation ist zu ber cksichtigen dass Auswertungen auf T tigkeiten Familienanamnesen und Therapien immer die entsprechenden Eintr ge ber cksichti gen m ssen Wertet man beispielsweise auf dem Teilschema T tigkeit aus und untersucht z B ledig lich den Zusammenhang zwischen Orten Diagnosen und Geschlecht so erh lt man falsche Ergebnis se denn jeder Fall wird jetzt so oft mitgez hlt wie es zugeh rige T tigkeiten gibt Einerseits wird der die Datenanalyse vornehmenden Person soviel Dom nenwissen unterstellt dass die Analyse korrekt vorgenommen wird Andererseits dient zur Vermeidung solcher Fehler das Composition Metadatum Dieses kann von den Analysewerkzeugen des Front End Bereichs genutzt werden und den Benutzer auf z B falsche Verdichtungen hinweisen Zur Vermittlung eines Eindrucks ber den Umfang des durch die Transformation entstandenen lo gischen Schemas gibt Tabelle 12 3 die Anzahl der erzeugten REMUS Schemaelemente nach Typen geordnet an Schemaelementtyp Anzahl Objekte 74 Attribute 300 Kategorie A Metadaten AggregatedAttribute 0 Computation 4 Conc
225. ahren nur isoliert 228 Kapitel 10 Physische Datenbankoptimierung evtl noch auf einen bestimmten Kontext eingeschr nkt aber nicht hinreichend breit und abstrahie rend betrachten Darauf aufbauend und zus tzlich durch die in Abschnitt 5 3 3 vorgestellten pr emptiven Ans tze gepr gt lassen sich folgende Anforderungen an die physische Optimierung im DWH Entwurfsprozess festhalten die in die Konzeption des Framework eingeflossen sind Unterschiedliche Optimierungsma nahmen sollten gleichzeitig betrachtet werden Umweltparameter z B zeitliche Randbedingungen sollten individuell z B pro Projekt oder Organisation konfigurierbar sein Die Auswahl der Optimierungsma nahmen sollte einem nachvollziehbaren Prozess unterlie gen der idealerweise mit Werkzeugunterst tzung durchgef hrt wird Insbesondere sollte auch nachvollzogen werden k nnen wie konkurrierende Anforderungen oder Zielsetzungen z B schnelle Anfrageverarbeitung vs Speicherplatzminimierung behan delt werden Der gesamte Prozess sollte allerdings nicht vollautomatisch durchgef hrt werden sondern an definierten Punkten durch den Entwickler gezielt beeinflusst werden k nnen um hierdurch Wissen ber die Dom ne oder das konkrete Projekt einzubringen die nicht im System model liert worden sind Der Fortschritt des gesamten Vorgangs des physischen Entwurfs sollte zur Dokumentation und Nachvollziehbarkeit in einem Repository abgespeichert werde
226. alClass name Stadt isAbstract FALSE owner owner DimensionalAttribute propertyName PLZ isKey TRUE isOptional FALSE DataType type name PLZTyp LS property attribute T DimensionalAttribute Objekte Attribute Stadt Bezeichnung Text Stadt Farbe PLZTyp Metadaten Stadt ConceptualKey Stadt PLZ Stadt Optional Stadt Bezeichnung Abbildung 7 9 Transformation von DimensionalAttribute Instanzen Um die Transformationsfunktion f r ein DimensionalAttribute Schemaelement zu formulieren wird in 7 19 zun chst die Hilfsfunktion CalcDimensional Attributes gebildet die einem dimensiona len Attribut im Falle eines elementaren Datentyps den Namen und Typ des Attributs zuweist Bei Attributen mit komplexem Datentyp wird unter Verwendung des in 7 13 in Schritt 2 definierten 134 Kapitel 7 Logischer Entwurf Transformationsschrittes entsprechend eine Menge von Attributnamen Datentyp Kombinationen zu gewiesen CalcDimensional Attributes M DimensionalAttribute X M gt Name x Name CalcDimensional Attributes a M 7 19 def a propertyName a type name falls a type Mpatactass TDataClass a type sonst Unter Verwendung von CalcDimensional Attributes kann in 7 20 die Transformation f r dimen sionale Attribute mit einfachem und komplexem Datentyp einheitlich formuliert werden TDimensional Attribute
227. alen gibt Dadurch sind einerseits nderungsanomalien vorprogrammiert andererseits Kostet die Redundanz Speicherplatz Dennoch existieren eine Reihe f r DWH typische Charakteristika die f r ein Sternschema gegen ber einem Schneeflockenschema sprechen Kapitel 4 Realisierung von DWH e Einschr nkungen von Anfragen werden h ufig auf h herer Granularit tsstufe vorgenommen hierbei f hren die eingesparten Verbundoperatoren zu einer schnelleren Anfrageverarbeitung Das Datenvolumen der Dimensionen ist im Verh ltnis zur Gr e der Faktentabelle relativ klein Daher fallen die durch die Redundanzen verursachten Platzverluste im Verh ltnis zur Gesamt extension der DB nicht besonders stark ins Gewicht nderungen der Daten in den Dimensionen z B Umstellung der Produktpalette oder Er ff nung einer neuen Filiale treten erheblich seltener auf als das Hinzuf gen neuer Faktdaten neue Verk ufe Au erdem werden diese nderungen im Zuge des Ladeprozesses unter kontrollier ten Bedingungen vorgenommen und entstehen nicht durch Benutzerinteraktion wodurch die Gefahr von nderungsanomalien stark eingeschr nkt wird 4 2 4 Sonstige Schemaformen Neben den beiden in den vorangegangenen Abschnitten vorgestellten Schematypen existieren in Lite ratur und Praxis diverse weitere Vorschl ge die im Folgenden berblicksartig genannt werden sollen Bei einer Mischform aus Stern und Schneeflockenschema BGO1 wird durch Abw
228. ales bzw orientiertes Modell bleibt festzuhalten dass die Informationen ber Verdichtungspfade nicht als Metadaten festgehalten werden sondern in ihre direkten Gegenst cke des logischen Modells trans formiert werden k nnen 7 3 2 Objektorientiertes Zielsystem Ein logisches objektorientiertes Modell stellt die typischen objektorientierten Konstrukte etwa im Umfang der UML zur Verf gung Aus diesem Grunde k nnen die objektorientierten Aspekte der MML w hrend der Transformation erhalten bleiben d h Klassen Generalisierungen etc werden 1 1 bernommen Nun muss lediglich noch den multidimensionalen Aspekten Rechnung ge tragen werden Dabei wird f r jede Teilmenge von Klassen des MML Schemas die ber multidi mensionale Kontrukte wie z B Dimension oder RollUp Instanzen verbunden sind eine Instanz der 7 3 Nicht relationale Transformationen 159 abstrakten Klasse Cube angelegt werden siehe Abbildung 7 25 Diese besitzt keine Attribute aber eine Reihe von Methoden die die in Abschnitt 3 1 2 vorgestellten dynamischen Aspekte des multidi mensionalen Datenmodells realisieren Bei diesem Vorgehen wird durch das Definieren der Cube Klasse die gleichzeitige Behandlung von Daten und Funktionen im objektorientierten Modell deutlich Die mit Metainformation bezeichnete Klasse muss im Zuge der Transformation die Informationen ber die Verdichtungspfade im linken Teil von Abbildung 7 25 di
229. als Argumente die Parameterliste und Beschreibung der Berechnungsvorschrift erh lt und als Ergebnis einen Ausdruck liefert d h factcomputation String x String ExpressionT ype Die Aktualisierung der Spalte wird in 8 38 vorgenommen HDerivedAttributerpdate Column META Computation x Lcolumn Se Lcolumn def H DerivedAttributey pdate Column m d SetColumnValueExpression d fdetoomputation M parameters name m computation falls d m attribute A DerivedAttribute m TRUE d sonst 8 38 Auf Mengen von Spalten erweitert ergibt sich HDerivedAttributerpdateSet Column META Computation x Pot Lcolumn Pot Lcolumn def 8 39 HDerivedAttributer pdateSet Column m C U H DerivedAttributey pdate Column m c ceC Schlie lich werden alle abgeleiteten Attribute eines Schemas mittels eingetragen M DerivedAttribute RXL gt L def M DerivedAttribute R L L Ocolumn U H DerivedAttributey pdateset Golanii m OCoiumn 8 40 8 3 9 Schritt 7 Identifier IdentifierValue und Valid Die drei Metadatentypen Identifier IdentifierValue und Valid fallen w hrend der Transformation von MML nach REMUS bei der Aufl sung von Vererbungen durch Nestung an Daher wird ihre Abbil dung auf ein LCD of SQL Schema an dieser Stelle gemeinsam behandelt Abbildung 8 16 zeigt die Transformation des einzigen Identifier Objektes des Beispielschemas Die Metadaten Identifier und IdentifierValue werden als ColumnConstraint Objekt realisiert
230. an schlie t sich eine Phase der Workload Bestimmung und der Schemavalidierung an Ein 5 2 Arbeiten zum Entwurf von DWHs 59 Workload besteht aus einer Menge von Anfragen die Schemavalidierung pr ft ob das erzeugte kon zeptionelle Schema diese Anfragen erf llen kann Ebenso werden in dieser Phase Annahmen ber das Datenvolumen getroffen Aufbauend auf diesen Informationen findet der logische Entwurf statt der in diesem Ansatz neben der Bestimmung von Tabellen auch Materialisierungen und Partitionierungen umfasst Die abschlie ende Phase des physischen Entwurfs nimmt in Abh ngigkeit vom konkreten Zielsystem im Wesentlichen die Auswahl von Indizes vor Diese Arbeiten sind in das prototypische CASE Werkzeug WanD Warehouse Integrated Designer eingeflossen die graue Hinterlegung in Abbildung 5 4 skizziert die im Werkzeug implementierten Phasen Als positiv ist das Aufbauen auf dem Drei Ebenen Ansatz zu erw hnen zu kritisieren ist jedoch die Zuordnung der Aufgaben zu den Phasen logischer und physischer Entwurf Das Bestimmen von Materialisierungen und Partitionierungen ist vom eingesetzten System abh ngig und sollte daher Ge genstand des physischen Entwurfs sein Wiederum positiv zu erw hnen ist die faktenbasierte Vorge hensweise bei der Ableitung des konzeptionellen Schemas nachteilig hingegen ist die Anforderung des Vorliegens eines E R Schemas als Ausgangsbasis denn gerade die Struktur externer f r das DWH interessanter Daten ist s
231. andelt Die Menge aller FactClassAttributes Mengen sei mit M FectClass artributces PEZeichnet 7 31 Ferner ist in 7 32 die Hilfsabbildung Predecessor s f f r Faktklassen definiert die der Faktklasse f die Menge ihrer Oberklassen zuordnet Sei M M Predecessors f M FactClass R Pot MFactClass Predecessors f ger se M FactClass Agi n Meeneralization fis Eon fn 1 E M FactClass 7 32 g parent sAg child f ES A go parent fi A go child fo A Qn parent fn A gn child f 144 Kapitel 7 Logischer Entwurf Analog erfolgt in 7 33 die Definition der Hilfsabbildung Successors f die einer Faktklasse die Menge ihrer nicht abstrakten Unterklassen zuordnet Sei M M Successors f M FactClass gt Pot MFactClass Successors f ei se M FactClass Agi n Meeneralization fi AT fn 1 E M FactClass g parent f A g child fi 7 33 A go parent f A go child fo A gn parent fn 1 A gn child s A s isAbstract FALSE Die Transformationsvorschrift geht nicht wie in Abbildung 7 14 schrittweise jede einzelne Genera lisierung durch weil dies eine komplizierte Formulierung der Abarbeitungsreihenfolge verursachen w rde Stattdessen sammelt jede FactClass Instanz alle ben tigten Attribute bei ihren Vorg ngern ein und jede Dimension bzw Komposition ermittelt alle Nachfolger der urspr nglich referenzierten Faktklasse was dem gleichen Resultat entspric
232. aphische MERM Notationselemente 26 MERM Beispielschema 0000 eee ee 27 Konstrukte des starER Modells 2 2 0 00 2000 0020 eee 28 starER Beispielschema eg 2 a a a G e 28 starER Beispielschema Kritische Punkte oaaae 29 ADAPT Kernelemente ue Sa ae Rt en ra a a 30 ADAPT Dimensionstypen 30 ADAPT Dimensionselementtypen 31 ADAPT Beispieldiagramm oaa 31 DFM Notationselemente 2 2 0 32 DEM Beispielschem 2 2 2 02a 2202 2 a a a 33 DFM Darstellung der Additivitat 2 aaa ee 33 DFM Nicht m gliche Darstellungen 34 MD Notationselemente 2 CC m m mn 34 368 Abbildungsverzeichnis 3 22 3 23 3 24 4 1 4 2 4 3 4 4 4 5 4 6 4 7 4 8 5 1 32 5 3 5 4 5 5 5 6 5 7 6 1 6 2 6 3 6 4 6 5 6 6 6 7 6 8 6 9 6 10 6 11 6 12 6 13 6 14 MD Beispielschema 3 4 23 24 u wea Pa Sa ba Bae parka a dea dae 35 Konstrukte des MAC Modells 35 MAC Beispielschema 2 20 2 e ehr sea ee 36 Realisierungsm glichkeiten MOL AP ROLAP und HOLAP 42 Darstellung von Tabellen Attributen und Beziehungen 43 Darstellung von Prim rschl sselrollen und Constraints e 44 Schneeflockenschema 2 2 2 2 Cm 2 on nn 44 Stermschema s AN ESA AEN eh a AEN oe Be ei 45 Horizontale und vertikale Partitionierung e 48 Physische Optimierungsm glichkeiten 50 Strukturierung von OIM und CWM none 51 Begriffsbildung Datenbankent
233. ark un terschiedlichen Eigenschaften von DWHs und operativen DBen sind herk mmliche Entwurfsmetho diken jedoch nur eingeschr nkt anwendbar Ziel dieser Arbeit war daher die Konzeption einer durchg ngigen Entwurfsmethodik f r DWH Bei dem gew hlten Ansatz bildet der im Entwurf operativer DBen etablierte Drei Ebenen Entwurf die Basis und wurde unter Ber cksichtigung DWH spezifischer Aspekte erweitert Im Einzelnen wurden dabei die folgende Ziele erreicht F r die konzeptionelle Modellierung wurde die Sprache MML entworfen deren wesentliches Charakteristikum die Existenz sowohl multidimensionaler als auch objektorientierter Konstruk te ist Aufbauend auf der MML k nnen unterschiedliche graphische Notationen verwendet werden wobei mit der UML eine Sprache vorgestellt wurde die die UML unter Ausnutzung der Me chanismen Stereotype und standardisierte Annotationen erweitert Als Anleitung zur Schemagewinnung wurde erg nzend zu MML bzw UML ein Leitfaden vorgeschlagen mit dessen Hilfe mittels eines definierten Vorgehens ein Schema erzielt wird Weil der konzeptionelle Entwurf als Ausgangspunkt der weiteren Entwicklung zentraler Be standteil der Methodik ist bildet ein explizites Review durch einen Dom nenexperten den Ab schluss dieser Phase Dieses Review dient vor allem dem Nachweis von inhaltlichen Qualit ts kriterien des modellierten Schemas 284 Kapitel 13 Zusammenfassung und Ausblick Als Beschreibungsmittel
234. arstellung der Kompositionsbeziehung 94 Leitfaden zum Erstellen eines MML Schemas 95 Metamodell f r Reviews e 99 Vorgehen Konfiguration und Durchf hrung von Reviews 100 Dimension mit schwach abh ngigen Klassen 2 2 222 106 mUML Beispiel Ergebnis Schritt 2 Faktklassen 107 ML Beispiel Ergebnis Schritt 3 Faktattribute mit Datentyp 108 ML Beispiel Ergebnis Schritt 4 Beziehungen zwischen Faktklassen 108 ML Beispiel Ergebnis Schritt 5 Dimensionen 109 ML Beispiel Ergebnis Schritt 6 Ebenen der feinsten Granularit t 110 ML Beispiel Ergebnis Schritt 8 Dimensionale Klassen 111 ML Beispiel Schritt 10 Alternativen 112 ML Beispiel Ergebnis Schritt 10 Hierarchiepfade 113 ML Beispiel Schritt 11 Datenklasse 2 oo onen 114 ML Beispiel Ergebnis Schritt 14 Assoziation zwischen dimensionalen Klassen 114 mU mU mU mU mU mUML Beispiel Ergebnis Schritt 9 Vererbung zwischen dimensionalen Klassen 112 mU mU mU mU mU ML Beispiel Ergebnis Schritt 15 DimensionalMapping zwischen Ortsdimensionen115 Einordnung des Schrittes in den Entwurfsprozess 119 REMUS Metaschema 2 0 0000 eee ee 120 Ablauf der Transformation von MML nach REMUS 123 Darstellung einzelner Transformationsschritte e 124 Transformation von Dote Tune Instanzen 127 Tra
235. arten 239 Lade vorgang 12 vorgang Offline 12 vorgang Online 12 werkzeug G344 LCD of SQL 164 173 AdditivityMETA 170 178 201 ColumnConstraint 178 ColumnType 166 172 179 Column 178 189 191 192 200 202 207 CompositionMETA 171 179 DBConstraint 179 200 ForeignKeyRole 180 199 206 ForeignKey 168 179 199 206 Key 168 MappingMETA 171 180 ReferentialConstraint 180 199 202 207 TableConstraint 181 Table 181 189 200 207 UniqueKeyRole 181 187 207 UniqueKey 168 181 187 189 AdditivityMETA 201 Column 168 Column 184 185 190 191 194 197 200 201 205 ColumnConstraint 170 ColumnConstraint 191 ColumnType 182 184 CompositionMETA 208 Constraint 170 Constraints 164 170 382 Index Data Types 164 DBConstraint 170 DBConstraint 197 200 205 207 ForeignKey 197 200 205 ForeignKeyRole 169 ForeignKeyRole 197 200 205 Keys 164 Manipulation von Objekten 182 MappingMETA 202 205 Meta Data 164 Metadaten 170 Referential Integrity 164 ReferentialConstraint 169 170 ReferentialConstraint 197 200 201 205 ReferentialRole 169 Relational Basics 164 166 Schema 177 Schl ssel 168 Table 168 Table 183 185 193 195 197 200 205 TableConstraint 170 TableConstraint 193 195 197 Tupelschreibweise 178 UniqueKey 168 UniqueKey 185 UniqueKey 189 UniqueKeyRole 169 UniqueKeyRole 197 200 205 UniqueKeyRole 189 Leitfaden 95 107 269 LoadingTa
236. ass die Beeintr chtigung der Benutzung minimiert wird z B nachts oder an Wochenenden Aufgrund der m glicherweise sehr gro en Datenvolumina k nnen spezielle Ma nahmen zur Effizi enzsteigerung erforderlich werden z B durch Parallelisierung der Ladevorg nge Weiterhin ist ana log zur Extraktionskomponente eine angemessene Ausnahme und Fehlerbehandlung unerl sslich 2 3 Datenbank In dieser Architekturschicht sind mit dem DWH siehe Abschnitt 2 3 1 und dem Archiv siehe Ab schnitt 2 3 3 die zwei wesentlichen datenspeichernden Komponenten angesiedelt Als Variante bzw denkbare Gestaltungsm glichkeit des DWH sind sog Data Marts popul r die in Abschnitt 2 3 2 kurz vorgestellt werden 2 3 1 Data Warehouse Zentrale Komponente eines DWS ist das DWH eine durch folgende Charakteristika gekennzeichnete Datenbank e Die Datenbank ist physisch realisiert e sowohl Schema wie auch Daten sind integriert e das Schema ist analyse orientiert 2 3 Datenbank e i Allg werden an den Daten keine Modifikationen vorgenommen e in der Regel liegen die Daten historisiert vor Die wesentlichen Unterschiede zwischen herk mmlichen operativen Datenbanken und DWHs fasst Tabelle 2 1 zusammen BS97 BGO1 Kriterium Operative Datenbank DWH Zweck und Anwendercharakteristika Verwendung Transaktional Unterst tzung Analytisch Information f r und Abwicklung der Entscheidungstr ger Gesch ftsprozesse Anwendertyp S
237. assen sich von einem Bon direkt Anzahl sowie der Einzelpreis eines Artikels identifizieren Um der Anforderung der Marketingabteilung nach Kombinationen von Verk ufen ge n ge zu tun ist auch der Gesamtwert eines Verkaufs eine relevante Kennzahl Um schlie lich die Auswertungen auf der Produktpalette durchf hren zu k nnen muss die Anzahl verkaufter Artikel festgehalten werden F r die extern bezogenen Daten ist Einkommen eine Kennzahl Schritt 2 Finde Faktklassen Die Anzahl eines Produktes sowie dessen Einzelpreis treten stets zusammen auf und sind somit Attribute einer FactClass Da zus tzlich der Gesamtpreis einer Position des Bons f r Auswertungen relevant ist wird auch dieses Attribut in die Klasse aufgenommen Die drei anderen Kenngzahlen Gesamtwert eines Verkaufs Anzahl verkaufter Artikel und Einkommen sind jeweils in einer eigenen Klasse anzusiedeln so dass sich sich das in Abbildung 6 26 dargestellte Bild ergibt lt lt FactClass gt gt Verkauf lt lt FactClass gt gt e lt FactClass Betrag Verkaufszahl Verkauftes Produkt KEES Anzahl r ER lt lt FactClass gt gt Einkommen Betrag Abbildung 6 26 UML Beispiel Ergebnis Schritt 2 Faktklassen 108 Kapitel 6 Konzeptioneller Entwurf Schritt 3 Bestimme f r jedes Faktattribut den Datentyp Die Attribute bekommen ihren Datentyp und das abgeleitete
238. atenanalyse Vieweg Verlag Braunschweig Deutschland 1997 Rumbaugh James Disinherited Examples of misuse of inheritance JOOP 3 2 22 24 Februar 1993 Rumbaugh James On the horns of the modeling dilemma choosing among alternate modeling constructs JOOP 3 11 8 17 November 1993 Rohde Martin und Frank Wietek Das Datenschema f r das Epidemiologische Krebs register Niedersachsen Technischer Bericht OFFIS Oldenburg Deutschland 1999 Saarland Krebsregister Morbidit t und Mortalit t an b sartigen Neubildungen im Saarland Statistisches Landesamt Saarland Saarbr cken Deutschland 1996 SAP AG Business Information Warehouse Technologie SAP AG Walldorf Deutsch land 1997 Sapia Carsten On Modeling and Predicting Query Behavior in OLAP Systems In Gatziu Stella Manfred A Jeusfeld Martin Staudt und Yannis Vassiliou Herausgeber Proceedings of International Workshop DMDW 99 Design and Management of Data Warehouses Juni 1999 Heidelberg Deutschland 1999 Sapia Carsten PROMISE Modeling and Predicting User Query Behaviour in Online Analytical Processing Applications Technischer BerichtFORWISS Technical Report FR 2000 001 FORWISS M nchen Deutschland Juni 2000 Sapia Carsten PROMISE Predicting Query Behaviour to Enable Predictive Caching Strategies for OLAP Systems In DAWAK 2000 2nd International Conference on Data Warehousing and Knowledge Discovery DAWAK 2000 September 2000 G
239. ation The data ina DWH are integrated from different inner organisational data sources probably enriched with external data Scenarios for applications of DWHs can be found in the economical domain as well as in natural sciences and medical registries All these applications have in common that a decision s consequences are often cost intensive Therefore statements representing the basis for such decisions have to be derived from a DWH that fulfills quality aspects like maintainability extensibility and scaleability Today s development of DWHs however is characterised by various problems conceptual modelling is neglected physical tuning actions are coordinated poorly and metadata handling is not payed suffi cient attention Moreover existing tools do not support heterogeneous environments A study carried out by Meta Group gives evidence of this statement 20 of all DWH introduction projects fail and half of them is to be classified as only partially successful The goal of this thesis is the conception of a design method for DWHs On the one hand this me thod is built on established techniques of operational database design the approach is based on the widely accepted three level design on the other hand specific aspects of DWHs are considered For conceptual modelling the language MML Multidimensional Modeling Language is defined MML features multidimensional as well as object oriented constructs It is supplemented by the graphica
240. ation name roleA roleB validT ypes A validT ypes B primaryKeyA foreignK eyA primaryKeyB foreignKeyB Composition R R2 Composition C M factRelationAggregated name fact Relation Detail name Composition name multiplicity Dimension R Ra Dimension D T Ta F P fact Relation name dimensionalRelation name Dimension name validT ypesF act validT ypes Dimension JoreignKey name primaryKey name DimensionalMapping R Ra DimensionalMapping D T T2 C dimensional RelationSource name dimensional Relation Destination name DimensionalMapping name validT ypes Source validT ypes Destination computation name RollUp R1 Ra RollUp LR TT F P S dimensional RelationLower name dimensional Relation Higher name RollUp name validT ypes Lower Level validT ypes Higher Level JoreignKey name primaryK ey name type Fortsetzung auf der folgenden Seite 8 3 Abbildung von REMUS nach LCD of SOL 177 Fortsetzung von der letzten Seite SharedRollUp R Ra SharedRollUp dimensional RelationLower name S T T2 C 0 dimensionalRelation Higher name SharedRollUp name validT ypes Lower Level validT ypes Higher Level computation name allowedOperators Tabelle 8 6 REMUS Langform Kategorie B Metadaten LCD of SQL Ein LCD of SOL S
241. auftes Produkt ALL Verkauftes Produkt Gesamtpreis Ort des Verkaufs Additivity 10 Ort Verkauf Verkauftes Produkt SUM MIN MAX AVG Verkauftes Produkt Gesamtpreis Tag Additivity 10 Zeit Verkauf Verkauftes Produkt ALL Association Ort des Verkaufs Artikel Association Gefiihrter Artikel wird gef hrt 6 fiihrt ALL_TYPES ALL_TYPES Ort des Verkaufs ID C Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Artikel ID C Ort des VerkaufsArtikel Artikel ForeignID Composition Verkauf Verkauftes Produkt Composition Verkauftes Produkt 0 8 Computation Berechnung Jahr Computation Woche Bezeichnung ISO Wochenberechnung 5b Jahr Bezeichnung Berechnung von Geographische Abbildung Computation 7 C Ort des Verkaufs Bezeichnung Geographische Abbildung Strassenbereich Bezeichnung Berechnung von Attribut Gesamtpreis Computation Verkauftes Produkt Einzelpreis 8 Verkauftes Produkt Anzahl Einzelpreis Anzahl Verkauftes Produkt Gesamtpreis ConceptualKey Artikel ConceptualKey Artikel Artikelcode 4 Filialkatego
242. ausf hrung 2 5 Sonstige Werkzeuge 17 2 5 2 Metadaten Repository Eine Grundvoraussetzung f r den effektiven Umgang mit Daten ist das Vorhandensein von Wissen ber deren Syntax und Semantik Sind diese Metadaten formal repr sentiert und zentral verf gbar k nnen Datenverarbeitungsprozesse einerseits automatisiert andererseits sehr flexibel gestaltet wer den In der DWS Architektur ist das sog Metadaten Repository f r die zentrale Verwaltung und Bereitstellung von Metadaten zust ndig blicherweise werden administrative dom nenspezifische und operative Metadaten unterschieden CD97 Zu den administrativen Metadaten z hlen u a e Schemainformationen d h Metadaten im klassischen Sinne als Daten ber Daten e Informationen ber Quell und Zielsysteme z B technische Charakteristika ber den Zugriff wie Rechner oder DB Namen e Datenabh ngigkeiten in Form von Transformationsregeln zwischen den Quellsystemen und dem DWH e Datenabh ngigkeiten in Form von Anfragen o zwischen dem DWH und den Front End Werkzeugen Operative Metadaten sind u a e Systemstatistiken f r die Ressourcenplanung und Optimierung d h Anfragemuster oder nutzer bzw gruppenspezifisches Nutzungsverhalten e Informationen ber Scheduling Logging und Jobausf hrung des DWH e Regeln und Funktionen f r das Nachladen und die Archivierung Den dom nenspezifischen Metadaten werden u a zugerechnet e Informationsmod
243. banisierungsgradTyp Typ LandkreisTyp lt lt RollUp gt gt Landkreis lt lt DimensionalClass gt gt Gebiet Gemeindekennziffer Text 8 stellig Name Text Typ GebietTyp lt lt Dimension gt gt lt lt Dimension gt gt lt lt Dimension gt gt lt lt Dimension gt gt Ort Ort des Ort der Geburt Ort des l ngsten Aufwachsens Aufenthalts Abbildung B 19 Konzeptionelle Modellierung Dimension Ort 330 AnhangB Evaluation B 20 Dimension Populationstyp Die Dimension Populationstyp gibt den Typ einer Population in Form eines Bezeichners an f lt lt DimensionalClass gt gt lt lt Dimension gt gt Populationstyp Populationstyp Bezeichnung Text Abbildung B 20 Konzeptionelle Modellierung Dimension Typ B 21 Dimension Qualit t Die Dimension Qualit t beschreibt ob es sich um einen DCO Fall oder DCN Fall handelt Diese Attribute werden ben tigt um Aussagen ber die Vollst ndigkeit der erfassten Daten treffen zu k nnen und somit R ckschl sse auf die G te der Datenanalysen geben k nnen Zul ssige Werte sind 1 DCO Fall 2 DCN Fall und 3 Sonstiges l lt lt DimensionalClass gt gt lt lt Dimension gt gt i Qualit t Qualit t Bezeichnung Aufz hlungstyp Abbildung B 21 Konzeptionelle Modellierung Dimension Qualit t B 22 Dimension Rauchen Beendet Die Dimension Rauchen Bee
244. bedingungen sowie die f r den physischen Entwurf g ltigen Regeln Schlie lich beschreibt der Bereich Prozess Abschnitt 10 2 7 Eingaben Zwischenergebnisse und Resultate der physischen Optimierung einer Datenbank 232 Kapitel 10 Physische Datenbankoptimierung DesignProcess imizationAlgorith resultPhasel TuningActionSet w isUsod uses OptimizationAlgorithm resultPhasell TuningActionSet CSS name String resultPhaselll TuningActionSet i description String isUsed 0 uses 1 ProcessInput schema AnnotatedSchema workload Workload ruleSet RuleSet environment Environment typeOfCostOptimization SET OF TypeOfCostType typeOfCostConstraint SET OF TypeOfCostType Prozess Environment GlobalConstraint bameristting kel name String 0 environments expression ExpressionType typeOfCost TypeOfCostType A DBMS F ER GlobalSpaceConstraint
245. belle 11 1 Metaklasse Step Abh ngigkeiten zwischen referenzierten Schemata und Konfiguratio nen Jedes Schema Objekt wird genau wie ein Projekt durch die Attribute name date und remark beschrieben und besitzt die Methoden browse zum Navigieren der Elemente des Schemas copy zum 11 2 Architektur 255 Kopieren delete zum L schen document zum Dokumentieren und in activate zum De Jaktivieren eines Schemas Diese letzten beiden Methoden bewirken das in Abbildung 11 2 dargestellte Beenden von Entwicklungspfaden bzw die Wiederaufnahme eines solchen Die abstrakte Metaklasse Schema besitzt die vier Spezialisierungen MML Schema siehe Abschnitt 6 1 REMUS Schema siehe Abschnitt 8 3 LCD of SOL Schema siehe Abschnitt 8 2 1 und Annotated Schema siehe Abschnitt 10 2 Neben den jeweiligen Objekten die in den entsprechenden Abschnitten von Teil II definiert sind besitzt jede dieser Klassen spezielle Methoden deren Bedeutung in Tabelle 11 1 erl utert werden Klasse Methode Bedeutung MML check F hrt eine berpr fung auf Korrektheit des Schemas bez Schema des in Abschnitt 6 1 definierten Metaklassendiagramms samt Nebenbedingungen sowie der in Abschnitt 6 1 8 definierten Wohlgeformtheitseigenschaften durch create Legt ein neues Schema an model Erm glicht das Bearbeiten eines Schemas im graphischen Editor review Erm glicht das Erfassen der Ergebnisse eines Schemareviews transform St t di
246. bination dieser beide Wege ergibt sich ein als Shared Repository bezeichneter Ansatz der sowohl lokale Speicherung bei den einzelnen Komponenten vorsieht wie auch ein von al len Komponenten gemeinsam genutztes zentrales Repository Die Vorteile dieser L sung sind eine einheitliche Repr sentation gemeinsamer Metadaten Wahrung lokaler Autonomie Reduzierung des Metadatenaustauschs und eine kontrollierte Redundanz Demgegen ber muss ein Konzept f r die Kommunikation zwischen lokalen und globalem Repository etabliert werden Ans tze hierf r werden in DROO vorgestellt 4 5 Zusammenfassung 53 4 5 Zusammenfassung In diesem Kapitel wurden zun chst die m glichen physischen Realisierungen von DWH vorgestellt Basierend auf der zugrunde liegenden Technik wird dabei zwischen ROLAP MOLAP und HOLAP Systemen unterschieden Anschlie end wurden in Abschnitt 4 2 verschiedene relationale Realisierungen vorgestellt wobei sich Schneeflocken und Sternschemata als die beiden grundlegenden Schematypen herausge stellt haben auf denen aufbauend eine Vielzahl von Schemavarianten existiert Abschnitt 4 3 diente der kurzen Vorstellung unterschiedlicher Optimierungsm glichkeiten relationaler DWH Implementierungen Dieser Abschnitt ist bewusst kurz gehalten und mit vielen Referenzen versehen unter denen Details nachgelesen werden k nnen Als Quintessenz kann festgehalten werden dass eine Vielzahl von Arbeiten zu Optimierungsm glichkeiten und ver
247. bjekte Weitere die Assoziation beschreibende Attribute werden ber die artribute Beziehung zur Metaklasse DataElement dargestellt Objektorientierte Modellierungssprachen wie UML bieten neben der Assoziation mit der Aggrega tion einen weiteren Beziehungstyp an Die Aggregation verleiht einer Beziehung zwischen Klassen die Bedeutung einer Teil Ganzes Zugeh rigkeit entspricht jedoch prinzipiell einer Assoziation mit spezieller Multiplizit t Eins zu Viele Rat99b und kann in der MML durch das Associati on Konstrukt dargestellt werden Eine besondere Unterform der Aggregation ist die Komposition die neben der Zugeh rigkeit zus tzlich die Existenzabh ngigkeit der Teil von der Ganzes Klasse beinhaltet Eine Instanz der Teil Klasse kann daher nicht ohne ein zugeordnetes Ganzes Objekt existieren Dieses Konstrukt wird in der MML durch die Composition Metaklasse bereitgestellt die als Untermetaklasse der ClassConnection Metaklasse Kompositionsverbindungen zwischen zwei ClassElement Instanzen derselben Metaklasse herstellt Mit den beiden Attributen der Composition Metaklasse lassen sich Rolle und Multiplizit t der Klasse auf der Teil Seite der Beziehung spezifizieren Als Nebenbedingung ist zu ber cksichtigen dass die an den geerbten Beziehungen endA und endB beteiligten Schemaelemente Instanzen derselben Metaklasse sein m ssen d h es darf keine Kompositionen zwischen einer FactClass und einer Di mensionalClass Instanz geben Weit
248. bles Verkauftes_Produkt and Artikel 10 0 MATCHTYPE_FULL_MATCH FK23 RC23 ForeignKeyRole FR24 Role of foreign key between tables Verkauftes_Produkt and 10 Ort_des_Verkaufs 0 MATCHTYPE_FULL_MATCH FK24 RC24 ForeignKeyRole Fortsetzung auf der folgenden Seite 314 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite FR25 Role of foreign key between tables Verkauftes_Produkt and Tag 0 10 MATCHTYPE_FULL_MATCH FK25 RC25 ForeignKeyRole FR26 Role of foreign key between tables MTMOrt_des_VerkaufsArtikel 14 and Artikel 0 MATCHTYPE_FULL_MATCH FK26 RC26 ForeignKeyRole FR27 Role of foreign key between tables MTMOrt_des_VerkaufsArtikel and 14 Ort_des_Verkaufs 0 MATCHTYPE_FULL_MATCH FK27 RC27 ForeignKeyRole MappingMETA MMOI SharedRollUp from table Woche to Jahr SHARED_ROLL_UP 12 SUM ISO Wochenberechnung ALL_TYPES ALL_TYPES C024 C010 MappingMETA MMO2 DimensionalMapping from table Ort des Verkaufs to Strassenbereich 13 DIMENSIONAL_MAPPING ALL_TYPES GeographicalMapping ALL_TYPES ALL_TYPES CO12 CO21 MappingME TA ReferentialConstraint RCO1 Referential constraint between tables Artikel and Produktgruppe 10 ROLL_UP ALL_TYPES ALL_TYP
249. bles Tag and Monat 0 MATCHTY 10 PE_FULL_MATCH FK13 RC13 ForeignKeyRole FR14 Role of foreign key between tables Tag and Woche 0 MATCHTY 10 PE_FULL_MATCH FK14 RC14 ForeignKeyRole FR15 Role of foreign key between tables Verkaufsbezirk and Region 0 10 MATCHTYPE_FULL_MATCH FK15 RC15 ForeignKeyRole FR16 Role of foreign key between tables Einkommen and Quartal 0 10 MATCHTYPE_FULL_MATCH FK16 R106 ForeignKeyRole FR17 Role of foreign key between tables Einkommen and Strassenbereich 10 0 MATCHTYPE_FULL_MATCH FK17 RC17 ForeignKeyRole FR18 Role of foreign key between tables Verkauf and Ort_des_Verkaufs 10 0 MATCHTYPE_FULL_MATCH FK18 RC18 ForeignKeyRole FR19 Role of foreign key between tables Verkauf and Tag 0 MATCH 10 TYPE_FULL_MATCH FK19 RC19 ForeignKeyRole FR20 Role of foreign key between tables Verkaufszahl and Artikel 0 10 MATCHTYPE_FULL_MATCH FK20 RC20 ForeignKeyRole FR21 Role of foreign key between tables Verkaufszahl and Tag 0 10 MATCHTYPE_FULL_MATCH FK21 RC21 ForeignKeyRole FR22 Role of foreign key between tables Verkaufszahl and Ort_des_Verkaufs 10 0 MATCHTYPE_FULL_MATCH FK22 RC22 ForeignKeyRole FR23 Role of foreign key between ta
250. butes bezeichnet Dusch Einbeziehung des Generalisierungskonstrukts in den ERM Kern des MERMS ist eine unbalancierte Hierarchie durch Entit tsuntertypen modellierbar 40 Kapitel 3 Multidimensionale Datenmodelle 3 5 Zusammenfassung In diesem Kapitel wurden multidimensionale Datenmodelle behandelt Dabei wurden zun chst in Abschnitt 3 1 statische und dynamische Aspekte der multidimensionalen Sichtweise auf Daten eingef hrt Bei den statischen Aspekten wurden neben grundlegenden Charakteristika wie z B der Klassifikation der Daten in quantifizierende und qualifizierende insbesondere vielf ltige M glichkeiten der Hierarchiebildung in Dimensionen betrachtet Die dynamischen Aspekte sind im Wesentlichen die von OLAP Werkzeugen siehe auch Abschnitt 2 4 zur Verf gung gestellten Operationen Aufbauend auf diesen Grundbegriffen wurden in Abschnitt 3 2 unter Ber cksichtigung von Publi kationen sowohl mit reinem Forschungscharakter als auch mit praktischem Projekthintergrund eine Reihe von Anforderungen an Datenmodelle f r die Konzeptionelle multidimensionale Modellierung herausgearbeitet Abschnitt 3 3 stellte sechs existierende Datenmodelle vor nannte dabei St rken und Schw chen der einzelnen Ans tze Abschnitt 3 4 schlie lich verglich die vorgestellten Modelle mit den Anforderungen und hielt einige modell bergreifende Kritikpunkte fest Kapitel 4 Realisierung von Data Warehouses In diesem Kapitel werden grundlegende
251. chType MatchType name String A forsgn 4 SE Spee 1 KeyRole KeyRole UniqueKeyRole ForeignKeyRole deleteRule ReferentialRule initiallyDeferred Boolean isDeferable Boolean updateRule ReferentialRule role 1 uniqueKey foreignKey 1 ForeignKey UniqueKey isPrimary Boolean Abbildung 8 5 LCD of SQL Metamodell Bereich Referential Integrity Die abstrakte Metaklasse JoinRole definiert allgemein die Rolle einer Verbindung die durch einen Namen und die Angabe der Multiplizit t der Beziehung gekennzeichnet ist Die Metaklasse Refe rentialRole spezialisiert die abstrakte Metaklasse JoinRole um das Attribut matchType welches die Art der Beziehung spezifiziert indem angegeben wird ob jede referenzierende Spalte jeder referen zierten entsprechen muss Zul ssige Werte sind MATCHTYPE_FULL_MATCH und MATCH TYPE_PARTIAL_MATCH Durch Spezialisierung von ReferentialRole ensteht die Metaklasse Un iqueKeyRole die das Verhalten eines Prim rschl ssels spezifiziert Dies geschieht mittels der vier Attribute deleteRule gibt das Verhalten im Falle des L schens an initiallyDeferred gibt an ob das nderungsverhalten anfangs als verz gert definiert ist isDeferrable gibt an ob das nde rungsverhalten als verz gert definiert werden kann sowie updateRule gibt das Verhalten im Fal le einer nderung an Zul ssige Werte f r die Attribute deleteRule und updateRule sind REFE RENT
252. che FactClass Schemaelemente Es gibt aber auch F lle in denen zwei mit verschiedenen Fact Class Instanzen verbundene Dimensionen semantisch Gleiches beschreiben aber die Bildung einer gemeinsamen Hierarchieebene in Form einer DimensionalClass Instanz nicht m glich ist Dies kann z B bei zwei Ortsdimensionen der Fall sein Die eine beschreibt Filialen und darauf aufbauende gesch ftliche Hierarchien die andere bildet Verwaltungseinheiten in Form einer Hier archie Gemeinde Landkreis Bezirk ab Um die Daten dennoch vergleichen zu k nnen flie t das in Her99 vorgeschlagene DimensionalMapping in Form eines Modellierungskonstruktes in die MML ein Ein DimensionalMapping Schemaelement verweist ber die computation Referenz auf eine Computation Instanz welche die Berechnung der Abbildung beschreibt Die Einordnung ins Metaklassendiagramm zeigt Abbildung 6 12 86 Kapitel 6 Konzeptioneller Entwurf property DimensionalProperty 0 A DimensionalMapping RollUp Dimension D dimensional 0 rollUp 0 dimension 0 Mappings owner 1 owner 1 type H P 1 computation DimensionalClass FactClass Computation Source ContextElement Abbildung 6 12 MML DimensionalMappi ng Als Spezialisierung einfacher RollUp Beziehungen bietet die MML mit dem SharedRollUp Konstrukt siehe Abildung 6 13 ein
253. che Wirkung Nullwert Ausgezeichneter Datenwert der Element jeder Domine ist Steht meistens f r nicht vorhanden oder nicht bekannt Oberklasse Klasse deren Attribute und Methoden durch Vererbung an tUnterklassen bertra gen werden In Abh ngigkeit von der Anzahl der Vererbungsstufen spricht man auch von den direkten und indirekten Oberklassen einer Klasse Object Constraint Language OCL Definiert eine Sprache zu Beschreibung von Zusicherungen Invarianten Vor und Nachbedingungen und Navigation Objekt Zusammenfassung einer Datenstruktur und der darauf anwendbaren Methoden zu einer Einheit Ein besitzt eine Struktur Objektstruktur einen Zustand Objektzustand ein Ver halten Objektverhalten und eine fIdentitat Objektdiagramm Diagramm das tObjekte und ihre Beziehungen untereinander zu einem be stimmten Zeitpunkt zeigt Objektidentit t Synonym f r Identit t Objektorientiertes Datenmodell Datenmodell das objektorientierte Konstrukte wie Klassen Vererbung etc zur Verf gung stellt Objektrelationales Datenmodell Datenmodell das Aspekte des tRelationenmodells und tobjektorientierten Modells verbindet On Line Analytical Processing OLAP ist eine interaktive explorative Datenanalyse auf Grundlage eines multidimensionalen Datenmodells On Line Transaction Processing OLTP Arbeitsprozess der von den klassischen operativen transaktionsorientierten Datenbankanwendungen verfolgt
254. chema wird in 8 3 definiert Ein LCD of SQL Schema ist ein Paar L O type mit i O ist eine endliche nichtleere Menge von Objekten ii type ist die Funktion die jedem o O seinen Typ zuweist d h type O gt AdditivityM ET A Column ColumnConstraint ColumnType DatabaseConstraint ForeignK ey 8 3 MappingM ET A Ref erential Role Table TableConstraint UniqueK ey type o rn Objekttyp von 0 L sei die Menge aller LCD of SOL Schemata F r die Abbildung notwendige Mengen bestimmter Schemaelementtypen werden in 8 4 festgelegt Seit Wertebereich type 8 4 L lt t gt sei die Menge aller Objekte vom Typ t en So beschreibt beispielsweise rapie die Menge aller Tabellen aller LCD of SOL Schemata Eine Schreibweise f r den Zugriff auf alle Objekte eines bestimmten Typs in einem speziellen LCD of SOL Schema wird in 8 5 festgelegt Sei L O type Cem LCD of SOL Schema Sei t Wertebereich type 8 5 Dann sei O lt t gt ef o O type o t die Menge aller Objekte vom Typ t So ist beispielsweise O Agaitivitym ETA die Menge aller Additivit tsmetadaten innerhalb des Sche mas Wie schon f r MML und REMUS Schemata in Abschnitt 7 2 1 wird auch f r LCD of SOL Schemata G ltigkeit definiert was in 8 6 geschieht Sei L ein LCD of SOL Schema L hei t g ltig amp L Vo O o erf llt die Bedingungen
255. chieebenen der Ortsdimension einer Meldung Die f r die Analyse bedeutendste Faktklasse Fall hat nur ein numerisches Attribut welches auch nur die Werte 0 und 1 annehmen kann Zwischen der Faktklasse Fall und der dimensionalen Klasse Gebiet existieren vier Verbin dungen die unterschiedliche r umliche Aspekte des Faktes beschreiben Wesentliche Entwurfsentscheidungen w hrend der konzeptionellen Modellierung waren In der Ortshierarchie ergibt sich durch die kreisfreien St dte ein Problem da diese sich nicht in die strenge Hierarchie einordnen lassen Es liegt die in Abbildung 3 3 Seite 21 beschriebene Struktur einer unbalancierten Hierarchie vor Auf der feingranularsten Ebene der Ortshierarchie sind nicht nur Gemeinden zu verwalten sondern allgemeiner Gebiete was durch den Klassennamen und ein unterscheidendes Typ Attribut zum Ausdruck kommt Hintergrund ist die aus Datenschutzgr nden in Datenanalysen notwendige Zusammenfassung mehrerer kleinerer Gemeinden sowie umgekehrt der Wunsch gr ere Gemeinden u U aufzusplitten Zur Modellierung der Faktklasse Fall boten sich die beiden in Abbildung 12 3 dargestellten Alternativen an Eine Klasse und zus tzlich ein unterscheidendes Attribut bzw eine Dimension zur Unterscheidung Variante a oder Darstellung der beiden unterschiedlichen Typen durch Vererbung Variante b Die Entscheidung fiel schlie lich zugunsten von Variante a weil die zu erwart
256. chl sseleigenschaft erh lt Zus tzliche beschreibende Attribute werden teilweise eingef gt z B bei der Stadt die PLZ siehe Abbildung 6 35 a Eine Besonderheit bildet die Beschreibung einer Filiale die sich aus dem Filialleiter und der Filialart zusammensetzt Hierf r wird eine eigenes DataClass Objekt angelegt das dann von einem entsprechenden Attribut in der dimensionalen Klasse Filiale als Datentyp verwendet wird siehe Abbildung 6 35 b lt lt DimensionalClass gt gt Filiale lt lt DimensionalClass gt gt sad lt lt DataClass gt gt FilialTyp Bezeichnung Text PLZ PLZTyp me Filialleiter Text Filialart Text a b Abbildung 6 35 UML Beispiel Schritt 11 Datenklasse Schritt 12 Bestimme Abh ngigkeiten zwischen Attributen in dimensionalen Klassen Aufgrund der in Schritt 10 getroffenen Entscheidung der Modellierung von Bundesl ndern und Kan tonen kann es notwendig sein f r den einen oder anderen Typ spezifische Attribute festzuhalten z B k nnten f r Bundesl nder spezielle Informationen vorliegen die es f r Kantone nicht gibt Schritt 13 Bestimme f r die Attribute der dimensionalen Klassen den Datentyp Dieses war im Beispiel schon implizit in den Schritten 11 bzw 12 erfolgt Schritt 14 Finde Assoziationen zwischen dimensionalen Klassen Hier spielt die Anforderung eine Rolle dass nicht jedes Produkt an jedem Ort erh ltlich ist Di
257. chnologies Access Data Objects Business Application Research Center Communications of the ACM Computer Aided Software Engineering Client OLAP Common Warehouse Metamodel Directed Acyclic Graph Datenbank Datenbanksystem Datenbank Managementsystem Dimensional Fact Model Dimensional Normal Form Desktop OLAP Data Warehouse Data Warehouse System Epidemiologische Krebsregister Niedersachsen Ereignisorientierte Prozessketten Entity Relationship Modell Extraktion Transformation Laden Bayrisches Forschungszentrum fiir wissensbasierte Systeme Geographisches Informationssystem Generalized Multidimensional Normal Form Grunds tze ordnungsgem er Modellierung Graphische Benutzungsschnittstelle Hybrid OLAP Hypertext Markup Language International Business Machines Institute of Electrical and Electronic Engineers Informationssystem 378 Abk rzungsverzeichnis LCD of SQLLowest Common Denominator of SQL LNCS MAC MDB MDBMS MDBS MDC MERM MFC MML MNF MOLAP mUML OCL ODAWA ODBC ODS OFFIS OID OIM OLAP OLE OLTP OMG Qs RDBMS REMUS ROLAP SERM SIGMOD SQL TODS UML VLDB W3C XML Lecture Notes in Computer Science Multidimensional Aggregation Cube MADEIRA Modelling Analyses of Data in Epidemiological InteRActive Studies Multidimensionale DB Multidimensionales DBMS Multidimensionales DBS Meta Data Coalition Multidimensional Entity Relationship Modell Microsoft Foundation Classes Mul
258. chrift des SERM zu profitieren Von links nach rechts ergeben sich im Diagramm Pfade von Entit tstypen mit zu Viele Beziehungen die als potenzielle Kandidaten f r Hierarchie pfade in Frage kommen wie in Abbildung 5 5 zu erkennen ist Auch der dritte Schritt profitiert von dieser Darstellung denn sind die Pfade erst einmal entdeckt so kann man auch Beziehungen zwi schen diesen leicht erkennen Diese scheinbar sehr intuitive Vorgehensweise bringt aber auch Probleme mit sich Weil die Bezie hung das einzige Konstrukt im E R Modell und auch im SERM ist werden hierdurch auch andere Sachverhalte als hierarchische inhaltliche Abh ngigkeiten dargestellt Weiterhin ist das vorliegende Schema f r eine OLTP DB optimiert und kann f r das DWH zu grob oder zu fein bez der Hierarchie ebenen sein Als letzten Kritikpunkt kann man anmerken dass durch eine solche Vorgehensweise das resultierende Schema sehr stark von den in den operativen DBen vorliegenden Schemata abh ngig ist und somit m glicherweise nicht die Anforderungen potenzieller DWH Benutzer erf llt Konstruktion initialer Schemata nach Peralta et al In PMR99 wird der in Abbildung 5 6 skizzierte Ansatz vorgestellt Als Eingabe dienen ein konzeptionelles Schema die Quelldaten und Abh ngigkeiten zwischen diesen In einem ersten Schritt legt der Designer einige Entwurfsziele f r das logische Schema fest Ein solches Ent wurfsziel kann beispielsweise das Einhalten von Normalisierungen o
259. cht Zu kritisieren ist die Tatsache dass das im Repository abgelegte Metamodell sowohl Kennzahlen und Dimensionen als auch physische Aspekte wie Schl s selangaben und applikationsspezifische Elemente wie Berichte enth lt womit diverse Entwurfsebe nen gemischt werden Weiterhin fokussiert das Metamodell lediglich auf den betriebswirtschaftlichen Kontext und ist somit nicht dom nenunabh ngig WanD Warehouse Integrated Designer In GMR98a GR98 wird der in Abbildung 5 4 skizzierte Entwurfsprozess f r DWHs vorgeschla gen der auf den existierenden operativen Datenquellen aufsetzt Begonnen wird hierbei mit einer Analysephase in der aus existierenden Dokumentationen der operativen Systeme DB Schemata einheitlich in E R Notation erstellt werden Schritt Eingabe Ausgabe Analyse der Vorliegende S operativen DBen Dokumentation EE Anforderungsanalyse DB Schema Logisches Schema Ziel DBMS Workload J von WanD unterst tzt Abbildung 5 4 WanD Warehouse Integrated Designer Physischer Entwurf Physisches Schema Daran schlie t sich eine Anforderungsanalyse an in der die Erwartungen der potenziellen Benutzer an das zu entwerfende DWH festgestellt werden Ist dieses abgeschlossen wird das konzeptionelle Schema mittels einer semiautomatischen Vorgehensweise aus den operativen Quellen abgeleitet Die Notation f r das konzeptionelle Schema ist das in Abschnitt 3 3 4 vorgestellte Dimensional Fact Mo del Dar
260. chtig aufgrund der Lesbarkeit und Verst nd lichkeit des Schemas insbesondere gegen ber nicht an der Modellie rung beteiligten Personen und im Hinblick auf eine langlebige Wartbar keit Messung Per Review Feststellen ob zu jedem Attribut und Klassennamen ein aussagekr ftiger Kommentar existiert Metrik Quote des Nicht Vorhandenseins von fachlich korrekten in der L nge angemessenen Kommentaren Automatisierbarkeit Teilweise m glich im Hinblick auf die Existenz von Kommentaren nicht bez ihrer Qualit t Objektivit t Relativ Objektiv Fortsetzung auf der folgenden Seite 6 4 Qualit tssicherung von MML Schemata 103 Fortsetzung von der letzten Seite Kriterium Namenskonventionen Beschreibung Sind f r Bezeichnungen alle organisations dom nen bzw projektspe zifischen Namenskonventionen eingehalten worden Relevanz Einhaltung der Namenskonventionen ist wichtig bez der Lesbarkeit insbesondere gegen ber nicht an der Modellierung beteiligten Perso nen Messung Review Abgleich aller Attribut und Klassennamen mit den Konventio nen Metrik Quote der Nicht Erfiillung von Namenskonventionen Automatisierbarkeit Teilweise z B die Forderung nach bestimmten Pr fixen Teilweise wird das Kriterium auch durch die Methodik aus Abschnitt 6 3 unter st tzt z B Schritt 2 Objektivit t Objektiv Tabelle 6 3 Qualit tskriterie
261. crement ForeignKeyType QuadInt Identifier ValueType String Tabelle A 2 Abbildung der Datentypen im Beispielschema Schritt 2 fdetraviename Die Funktion fdetrasiename Nefert den Namen des Objektes im REMUS Schemas sofern dieser keine Sonderzeichen enth lt Leerzeichen sollen eliminiert und durch Unterstriche ersetzt werden so dass es folgende Ausnahmen gibt JdetpataType Ort des Verkaufs Ort_des_Verkaufs Jdetpatarype Verkauftes Produkt Verkauftes_Produkt 306 Anhang A Das Beispiel Handelswelt Ebenso sollen Verbindungstabellen aufgel ster Assoziationen aufgrund einer organisationsweiten Richtlinie das Pr fix MTM tragen m ssen so dass Jdetpatarype Ort des VerkaufsArtikel MTMOrt_des_VerkaufsArtikel gilt Schritt 3 JdetAttributeName Beim Anlegen der Attribute soll fdetAttriputename Jeweils den Tabellennamen als Pr fix entfernen und Umlaute sowie Sonderzeichen umwandeln Au erdem sollen Fremdschl sseleintr ge das Suffix FK tragen Einige Beispiele Artikel ID ID Artikel Produktgruppe ForeignID Produktgruppe_FK Ort des Verkaufs Kaufhaus Fliche Flaeche Jdet AtsributeName Jdet Attribute Name Jdet AtsributeName Schritt 4 fdetonder Die Funktion fgeto Spielt bei den Fakttabellen eine Rolle weil sich deren Prim rschl ssel aus der Menge der Fremdschl ssel der Dimensionen zusammens
262. ctType Binary Numeric Float Time length Long numericScale Integer loatPrecision Integer timePrecision TimePrecision isVariable Boolean numericPrecision Integer isSigned Boolean A N ise String Date characterType CharacterType z isCaseSensitive Boolean Single Double Z Datetime isVariable Boolean eent length Long EE Boolean Integer Decimal N TinyInt Shortint Longint Quadint Abbildung 8 8 Common Data Types des OIM Weil die dort definierten Datentypen bzw die Attributbezeichnungen aber nicht exakt denen im OIM Teilmodell Database and Warehousing Database Schema entsprechen ist eine Abbildung der Da tentypen notwendig Auf welche Art und Weise dies geschieht ist in Tabelle 8 4 zu festgehalten Abbildung der Datentypen Common Data Types LCD of SQL Type Attribute M gliche Attribut der Klasse Werte ColumnType Autoincrement isAutoUnique Value TRUE Binary length columnSize isVariable isFixedLength Boolean Date Datetime timePrecision 0 11 timePrecision Decimal numericScale gt 0 maximumScale numericPrecision gt 0 numericPrecision isSigned TRUE FALSE
263. d Abh n gigkeiten zwischen diesen festgehalten Die Phase II Schritte 5 7 dient dem Aufsp ren der zu den Fakten passenden Dimensionen Das Aufbauen von Hierarchiestrukturen die f r die sp tere Daten analyse relevant sind ist die Aufgabe der Schritte 8 bis 13 die Phase III bilden In Phase IV Schritte 14 und 15 werden zwischendimensionale Beziehungen festgehalten Die abschlie enden Schritte 16 bis 18 bilden Phase V die administrativen Aufgaben wie gute Strukturierung Dokumentation und Verfeinerung des Schemas beinhaltet Die R ckkopplungen von Schritt 18 zeigen dass es sich nicht um einen sequentiellen Prozess handelt sondern das das Schema durch Iterationen sukzessive verfeinert werden kann Dabei kann der R cksprung zu einem beliebigen Schritt durchgef hrt werden Als alternativer Weg bietet sich an dieser Stelle eine von den Dimensionen ausgehende Vorge hensweise an Kim96 Allerdings wirkt dieses Vorgehen ein wenig unnat rlich und kann auch fehlertr chtig sein So Kann man u U dimensionale Strukturen aufbauen und dann gar keine Fakten haben die gem dieser Dimensionen auszuwerten sind Tabelle 6 2 beschreibt die einzelnen Schritte des Leitfadens im Detail Leitfaden zum Erstellen eines Schemas Phase I Fakten modellieren Schritt 1 Finde Kennzahlen Alle f r die Entscheidungsunterst tzung relevanten Werte sind zu identifizieren und auf zulisten Potenzielle Kandidaten hierf r sind vom zuk nftigen Benutzer g
264. d erzeugte bzw genutzte LCD of SOL Objekte sowie ge nutzte Funktionen 0 2 sik 2 hoe ae Ss ee ee ie 212 L schweitergabeverhalten der Objekte im LCD of SQL Schema 215 10 1 Ablauf Beispiell 2 2 2 2 Con nn nn 246 376 Tabellenverzeichnis 10 2 10 3 11 2 11 3 12 1 12 2 12 3 12 5 12 6 12 7 Al A2 A 3 Abla f Beamer 24 wa ma elen Ari Dura rd 247 Anforderungen an die physische Optimierung und ihre Umsetzung im Framework 248 Metaklasse Step Abh ngigkeiten zwischen referenzierten Schemata und Konfigura Honen EE 254 Methoden der verschiedenen Schematypen 255 Umfang der Implementierung o aa 259 Aus dem EKN Bericht abgeleitete Aussagen 269 Darstellung von Abh ngigkeiten zwischen Dimensionen 270 Anzahl der erzeugten REMUS Schemaelemente e 272 Abbildung der Datentypen von REMUS nach LCD of SQL 2 2 2 2 274 Anzahl der erzeugten LCD of SQL Schemaelemente 274 Mengenger st der einzelnen Dimensionen 277 Alle REMUS Objekte des Beispiels Handelswelt 0 304 Abbildung der Datentypen im Beispielschema 305 LCD of SOL Objekte im Beispiel e 319 Abk rzungsverzeichnis ACM ADAPT ADO BARC CACM CASE COLAP CWM DAG DB DBS DBMS DFM DNF DOLAP DWH DWS EKN EPK ERM ETL FORWISS GIS GMNF GoM GUI HOLAP HTML IBM TEEE IS Association for Computing Machinery Application Design for Analytical Processing Te
265. das Metadatum wird aber die Abh ngikeit der Daten festgehalten und kann so z B von einem Ladewerkzeug ausgenutzt werden M glichkeit II bertragung der Dimensionen Bei dieser M glichkeit wird der Komposition Rechnung getragen indem die Dimensionen der ag gregierten Faktklasse auch auf die Faktklasse auf der Detailseite bertragen werden Dabei entstehen neue Faktattribut Dimension Kombinationen weshalb f r jedes Attribut der Detailseite f r jede wei tergegebene Dimension ein Additivity Metadatum angelegt werden muss siehe Schritt 10 auf Seite 156 das die erlaubten Operatoren beschreibt H ufig sind hier nicht so viele Einschr nkungen n tig wie im Falle der M glichkeiten III und IV siehe Bemerkung auf Seite 154 am Ende von Schritt 8 F r die Transformationsvorschrift wird in 7 40 eine Hilfsfunktionen zum Aktualisieren der Owner Mengen definiert In diesem Falle wird aber im Gegensatz zu 7 36 f r Kompositionen mit einfacher Komplexit t die urspr ngliche Faktklasse nicht aus der Owner Menge entfernt M glichkeit III bertragung der Attribute Bei dieser M glichkeit werden statt der Dimensionen die Attribute der aggregierten Faktklasse auf die Faktklasse der Detailseite bertragen Die bei der Komposition vereinbarte Multiplizit t wird in einem AggregateAttribute Metadatum festgehalten Neben der Tatsache dass das betreffende Attri but aggregiert ist wird auch dokumentiert wieviele Datens tze die Komposition ei
266. dass ein Wert nicht mehrfach zu 100 in die Berechnung einbezogen werden darf Die herk mmliche Definition einer Dimensionshierarchie mit auf Instanzebene eindeutig identifizierbaren Elternknoten ist somit nicht verwendbar Ebenso k nnen F lle auftreten in denen nicht alle Instanzen einer Hierarchieebene an der Verdichtung teilnehmen siehe Abbildung 3 4 b In diesem Falle spricht man von einer nicht vollst ndigen Verdichtung Beim Navigieren entlang einer solchen Verdichtung wird anschaulich die Datenbasis um die nicht an der Verdichtung teilnehmenden Instanzen ausgediinnt Hierbei ist insbesondere zu beachten dass ein Hierarchiepfad der eine nicht vollst ndige Verdichtung beinhaltet i Allg nicht wieder mit anderen Hierarchieebenen zusammengef hrt werden darf weil dann aufgrund der zuvor verlorenen Daten falsche Werte zustande kommen Jahr Woche Schlussverkauf Tag Tag eee eee a Anteilige Verrechnung b Nicht vollst ndige Verdichtung Abbildung 3 4 Anteilige Verrechnung und nicht vollst ndige Verdichtung 22 Kapitel 3 Multidimensionale Datenmodelle Beim Navigieren entlang der Verdichtungspfade werden die Daten entsprechend einer Verdich tungsoperation verrechnet Hierbei ist nicht f r jede Kennzahl jede Operation anwendbar So er h lt man beispielsweise in einer metereologischen Datenbank bei Addition der Kennzahl Tempe ratur bez der Dimension Ort falsche Werte Einen berblick ber dies
267. de ArtikelcodeTyp Bezeichnung Text d Bezeichnung QuartalsTyp Produktgruppe I Woche ID PKTyp y ID PKTyp Bezeichnung WochenTyp 1 vu Bezeichnung String I ID PKTyp Monat Produktfamilie_FK FKTyp l 1 1 Quartal_FK FKTyp i H H Bezeichnung MonatsTyp l ID PKTyp Artikel 1 i ID PKTyp i N Produktgruppe_FK FKTyp 1 Verkauf bei e mn A 7 A so lt me E Bezeichnung TagTyp ef ID PKTyp Verkaufszahl Verkauftes_Produkt Ort_des_Verkaufs_FK FKTyp Tag_FK FKTyp Betrag W hrung N MTMOrt_des_VerkaufsArtikel ID PKTyp _ Ort_des_Verkaufs FK7FKTyp Artikel_FK FKTyp Pa N Anzahl St ckzahlTyp Ort_des_Verkaufs_FK FKTyp Artikel_FK FKTyp Tag_FK FKTyp Anzahl St ckzahlTyp Einzelpreis W hrung Gesamtpreis W hrung Artikel_FK FKTyp Ort des_Verkaufs Ort_des_Verkaufs_FK FKTyp Tag_FK FKTyp N Z 1 Filialkategorie ID PKTyp Bezeichnung Text Filialoberkategorie_FK FKTyp zZ Filialoberkategorie Bezeichnung Text ID PKTyp Stadt_FK FKTyp Filialkategorie FK FKTyp IN Bezeichnung Text Filialart Text Filialleiter Text Flaeche FlaechenTyp Gesamtflaeche FlaechenTyp Type Text ID PK
268. definiert Sei M M REmpty ein leeres REMUS Schema Dann ist die Abbildung Tschema M gt Rvatia wie folgt definiert TSchema M X Ryvatid gt Rvalid d Tschema M R ger T Adaitivity M TDimension M Tract Attribute M 3 TractClass M TFactClassComposition M TFactClassGeneratization M SC TDimensionalMapping M T Association M TsharedRollUp M Trott p M T Dimensional Attribute M TDimensionalClass M TDataT ype M H Rempty 158 Kapitel 7 Logischer Entwurf 7 3 Nicht relationale Transformationen In diesem Abschnitt sollen Transformationsalternativen f r nicht relationale Zielwelten kurz skiz ziert werden Ber cksichtigt werden sollen dabei das multidimensionale Datenmodell Abschnitt 7 3 1 das objektorientierte Datenmodell Abschnitt 7 3 2 und das objektrelationale Datenmodell Abschnitt 7 3 3 7 3 1 Multidimensionales Zielsystem Die Transformation in eine multidimensionale Zielwelt basiert auf einem logischen Metamodell das die in Abschnitt 3 1 1 beschriebenen statischen Aspekte der multidimensionalen Welt enth lt Die Form der Implementierung im Sinne der Klassifikation in Abschnitt 4 1 entspricht einer reinen MOLAP Realisierung Die w hrend der Transformation durchzuf hrenden Schritte lassen sich in drei Gruppen einteilen e Zun chst sind die objektorientierten Aspekte wie Vererbungen und Kompositionen aufzul sen denn diese besitzen keine Gegenst cke im logischen
269. dells bestimmt sind Steigen die Anforderungen an die Struktur der Daten so kann das MERM um entsprechende E R Konstrukte erweitert werden z B w rde die Generalisierungsbeziehung die Unterscheidung verschiedener Ob jekttypen erlauben Als Nachteil kann sich herausstellen dass das MERM keine graphische Repr sentation abgeleiteter Attribute erm glicht Analog zum ERM stellt ein MERM Schema nur statische Aspekte der Daten dar eine Unterscheidung der beiden Attributtypen ist somit nicht m glich Infor mationen ber abgeleitete Attribute lassen sich jedoch zusammen mit den ben tigten Berechnungs vorschriften separat notieren oder mit einem orthogonalen funktionalen Modell erfassen 3 3 2 starER Modell Wie beim multidimensionalen E R Modell wird im starER Modell TBC99 das konventionelle ERM erweitert indem spezielle Beziehungstypen eingef hrt werden um die Modellierung von Hier archien zu erm glichen Die Konstrukte des starER Modells sind in Abbildung 3 10 dargestellt e Eine Faktenmenge repr sentiert eine Menge von Fakten der Realwelt mit gleichen Eigenschaf ten im Sinne des multidimensionalen Datenmodells ihre graphische Darstellung ist ein Kreis Eine Entit tsmenge ist ein Entit tstyp im Sinne der klassischen E R Modellierung d h sie repr sentiert eine Menge von Realwelt Objekten mit gleichen Eigenschaften Die graphische Darstellung ist ein Rechteck Eine Beziehungsmenge repr sentiert eine Menge von Assoziationen zw
270. der Dimensionselemente werden hierbei die sichtbaren Daten auf einen Teilw rfel oder eine Scheibe eingeschr nkt Diese als Slice and Dice bezeichnete Operation ist in Abbildung 3 7 veranschaulicht On Produkt Zeit Zeit Produkt Y Zeit Zeit Abbildung 3 7 Slice and Dice Operator 24 Kapitel 3 Multidimensionale Datenmodelle 3 2 Datenmodellanforderungen In diesem Abschnitt werden die speziellen Anforderungen an die konzeptionelle Modellierungsphase von DWHs genannt Als Grundlage dienen dabei sowohl theoretische berlegungen Inm96 AM97b Tho97 SBHD98a als auch praktische Experimente BCJJ98 PJ99 Wes00 Generell muss es f r die ad quate Darstellung der multidimensionalen Sachverhalte m glich sein sowohl komplex struk turierte Dimensionen als auch komplex strukturierte Fakten modellieren zu k nnen Zur Definition komplex strukturierter Fakten geh ren dabei folgende Anforderungen Ein Daten W rfel bzw ein Schema sollte beliebig viele Fakten enthalten d rfen um den gesamten Umfang des DWH modellieren zu k nnen Ein Daten W rfel bzw ein Fakt sollte beliebig viele Kennzahlen enthalten d rfen denn dies ist die nat rlichste M glichkeit in der Realwelt gleichzeitig auftretende Kennzahlen darzustel len Beziehungen zwischen Fakten wie z B Spezialisierungen oder Aggregationen sollten explizit dargestellt werden k nnen weil diese Abh ngigkeiten das Verst ndnis der Daten w hr
271. der Konzepte Dadurch sind die Quantit tsangaben mit denen anderer Bibliotheken nicht vergleichbar und w rden zu einem schiefen Bild f hren Bibliothek Anzahl Anzahl Anzahl Quellcodezeilen Klassen Methoden Generiert Hand codiert GUI Im Prototyp nur rudiment r realisiert MML 37 717 13497 13497 Remus 32 428 8246 8246 LCDofSQL 33 410 9321 9321 AnnotatedSchema Im Prototyp nur rudiment r realisiert MML2REMUS 24 184 4705 4705 REMUS2LCD 31 271 2297 2297 LCD2Annotated Im Prototyp nur rudiment r realisiert PhysFramework Im Prototyp nur rudiment r realisiert MMLmUML 3 105 3332 3332 Rose 5 22 32321 125 Database 4 46 1091 1091 Utility 9 46 970 970 Summe 158 2229 75780 43584 Tabelle 11 3 Umfang der Implementierung 11 4 Graphische Benutzungsoberfl che Die in Abschnitt 6 2 vorgestellten Erweiterungen der UML zur UML wurden in Rational Rose realisiert die graphische Modellierung hiermit ist in Abbildung 11 5 dargestellt Beispielsweise stehen die neuen Stereotypen FactClass und DimensionalClass zur Modellierung zur Verf gung 260 Kapitel 11 Implementierung Rational Rose Bsp1 mdl Class Diagram Logical View Main E Ele Edt View Browse Repot Quey Tools Addins Window Help EE olala eje ai io zalo oc elelee s lt Dimenslonal Class gt gt Jahr m Use Case View
272. der umgekehrt das bewusste Denormalisieren sein Aus diesen Entwurfszielen wird ein sog Entwurfsplan generiert der den Designer bei Anwendung einer Reihe von sog Transformationsprimitiven hilft Insgesamt gibt es 14 Transformationsprimitive die Manipulationen am Schema vornehmen Das Resultat ihrer Anwendung ist ein logisches DWH Schema Konzeptionelles Schema Entwurfsziele Loch i m me T i Logisches Abh ngigkeiten a DWH Schema i Generierung El Generierung i Entwurfsplan I Schema E Folge von Transformationsprimitiven Datenquellen Abbildung 5 6 DWH Entwurf mit Transformationsprimitiven Positiv ist an diesem Ansatz das Bestimmen von Entwurfszielen durch den Entwickler zu nennen denn durch die m glichen Vorgaben l sst sich ein auf die Datenanalyse bzw das Zielsystem aus gerichtetes Schema erzeugen Nachteilig ist zum einen die enge Verkn pfung zwischen Datenquel len und konzeptionellem Schema die das Verst ndnis der konzeptionellen Modellierung unabh ngig von jeglichen physischen Rahmenbedingungen durchbricht und zum anderen die Beschr nkung der Anwendung der Transformationsprimitive auf relationale Schemata obwohl in DWS typischerwei 5 2 Arbeiten zum Entwurf von DWHs 61 se viele heterogene Quellsysteme existieren Weiterhin bleibt die Schemaintegration bei nicht v llig disjunkten Best nden in den verschiedenen Datenquellen unk
273. derholen Der Fortschritt des gesamten Vorgangs des physischen Entwurfs sollte zur Dokumentati on und Nachvollziehbarkeit in einem Reposi tory abgespeichert werden Die Basis zur Erf llung dieser Anforderung ist durch das Framework gegeben werden alle Eingaben und die Resultate der einzel nen Schritte mitprotokolliert so k nnen die se Angaben zu Dokumentationszwecken und zur Nachvollziehbarkeit bei einer vorliegen den Implementierung im Repository gespei chert werden Tabelle 10 3 Anforderungen an die physische Optimierung und ihre Umsetzung im Framework Teil IH Implementierung und Evaluation berblick Die in Teil II vorgestellten Entwurfsmethodik wurde im Rahmen des OFFIS Projektes ODAWA OFFIS Tools for Data Warehousing in Form eines Prototypen softwaretechnisch umgesetzt Das dabei entstandene Entwurfswerkzeug tr gt den Projektnamen seine Konzeption und einige Architektur und Implementierungsdetails werden in Kapitel 11 beschrieben Um die Anwendbarkeit der Methodik und des Werkzeugs ODAWA zu zeigen werden in Kapitel 12 beide anhand eines realen Beispiels evaluiert Als Anwendungsdom ne wurde dabei das EKN Epidemiologisches Krebsregister Niedersachsen gew hlt Das im Zuge dieser Evaluation entstan dene DWH sowie die exemplarisch entwickelten auf dem DWH aufsetzenden Applikationen werden unter dem Begriff ODAWA EKN zusammengefasst 252 Teil IV Implementierung und Evaluation
274. det es in einer erweiterten Form Anwendung als durchg ngiges Beispiel Kapitel 3 Multidimensionale Datenmodelle F llen wie im Beispiel l sst sich der W rfel graphisch gut veranschaulichen siehe Abbildung 3 1 Ort z Dimensionen HB Nord HB S d OL Nord OL West 12 23 12 1999 OLOst 22 12 1999 21 12 1999 Produkt A B C DE Abbildung 3 1 Daten W rfel Weil multidimensionale Datenschemata einen analyseorientierten Charakter besitzen werden die Daten auf den Dimensionen auswertungsorientiert zusammengefasst Eine solche Zusammenfassung wird als Hierarchieebene synonym auch Aggregations oder Verdichtungsebene bezeichnet Eine Menge aufeinander aufbauender Hierarchieebenen hei t Dimensionshierarchie oder kurz Hierarchie oder auch Verdichtungspfad Das Zusammenfassen von Daten entlang einer Hierarchie wird als Verdichtung synonym auch Gruppierung oder Aggregation bezeichnet Dieses Zusammenfassen der Daten erfolgt mittels einer Berechnungsvorschrift die entsprechend als Verdichtungs Gruppie rungs oder Aggregationsfunktion bezeichnet wird Innerhalb einer Dimension kann es F lle geben in denen auf eine Hierarchieebene alternativ mehrere andere folgen k nnen indem aufgrund verschiedener Merkmale verdichtet wird In diesem Falle spricht man von multiplen Hierarchien oder Mehrfachhierarchien Werden verzweigende Pfade innerhalb der Hierarchie wieder zusammengef hrt so spric
275. die Eigenschaften des Klassen mit denen des Assoziationskonstruktes vereint Aufgrund dieser Kombination kann jedoch nur eine Assoziation zu einer Assoziationsklasse geh ren so dass dieses Modellierungskonstrukt f r die Repr sentation des Zusatzattributes einer MML Assoziation nicht verwendet werden kann Statt der Assoziationsklasse existiert in der UML f r Assoziationen die zus tzliche Elementeigenschaft attribute deren Wert den Namen der als Attribut referenzierten DataElement Instanz enth lt Fehlt diese Eigenschaft bei einer Assoziation so k nnen die Assoziationsobjekte neben den f r die Verbindung notwendigen Daten keine Zusatzinformationen aufnehmen Abbildung 6 19 verdeutlicht dies Zwischen den beiden Klassen Produkt und Filiale existiert eine Assoziation welches Produkt in welcher Filiale gef hrt wird Diese Beziehung ist zeitabh ngig die Elementeigenschaft verweist auf den Datentyp IntervallTyp der durch zwei Datumsangaben einen Zeitraum angibt lt lt DimensionalClass gt gt Produkt lt lt DataClass gt gt ZeitraumTyp Von Datum Bis Datum 0 f hrt lt lt DimensionalClass gt gt Filiale Abbildung 6 19 UML Assoziationen zwischen zwei Klassen Dimensionshierarchien Das Assoziationskonstrukt bildet in der UML auch die Grundlage f r die Darstellung der di mensionalen Eigenschaften Dimension RollUp NonCompleteRollUp und SharedRollUp sowie Dimensi
276. die im DWH Kontext relevanten hinterlegt sind Physische Optimierungsm glichkeiten Materialisierte Sichten Partitionierung ein mehr dimensional dimensional Baum B Baum R UB Baum Horizontal Vertikal Statisch Dynamisch Liste Bitmap SR Wertebasiert Zuf llig ZN Bereich Hash Abbildung 4 7 Physische Optimierungsm glichkeiten 4 4 Metadaten Wie in Abschnitt 2 5 2 motiviert wurde spielt die Verwaltung von Metadaten in einem DWS eine wichtige Rolle Durch das Zusammenspiel der vielen einzelnen Komponenten in einem DWS siehe Kapitel 2 ergibt sich f r die Verwaltung der in Abschnitt 2 5 2 aufgelisteten Metadatentypen eine Reihe von Anforderungen Rah01 Vorliegen eines m chtigen Metadatenmodells zur Repr sentation aller relevanten Typen von Metadaten Konsistente Bereitstellung aller relevanten Metadaten auf aktuellem Stand Zugriffsm glichkeiten auf alle Metadaten ber m chtige Schnittstellen Vorhandensein einer Versions und Konfigurationsverwaltung Unterst tzung f r technische und fachliche Aufgaben der Benutzer M glichkeit der aktiven Unterst tzung von DWH Prozessen z B automatisches Generieren von Transformationsskripten Im Folgenden sollen kurz existierende Standardisierungsbem hungen Abschnitt 4 4 1 und unter schiedliche physische Realisierungen Abschnitt 4 4 2 beschrieben werden 4 4 Metadaten 51 4 4 1 Standards Neben einer Vielza
277. druck gebracht wird DimensionalClass name Ort des Verkaufs isAbstract TRUE lt lt DimensionalClass gt gt endB Ort des Verkaufs Sheets Bezeichung Text Association wird gef hrt 0 Gef hrter endAMultiplicity 0 Artikel endAName f hrt ln endBMultiplicity 0 n ll rt endBName wird gef hrt lt lt DimensionalClass gt gt connectionA Artikel Bezeichnung Text Artikelcode ArtikelcodeTyp endA DimensionalClass name Artikel isAbstract FALSE Association Objekte Ort des VerkaufsArtikel Attribute Ort des VerkaufsArtikel ID PrimaryKeyType Ort des VerkaufsArtikel Ort des Verkaufs ForeignID ForeignKeyType Ort des VerkaufsArtikel Artikel ForeignID ForeignKeyType Metadaten Ort des VerkaufsArtikel PrimaryKey Ort des VerkaufsArtikel ID Ort des VerkaufsArtikel ConceptualKey Ort des VerkaufsArtikel Artikel ForeignID Ort des VerkaufsArtikel ConceptualKey Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Ort des VerkaufsArtikel Artikel ForeignID Reference Artikel ID Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Reference Ort des Verkaufs ID Ort des VerkaufsArtikel Multiplicity Ort des VerkaufsArtikel Ort des Verkaufs ForeignID O Ort des VerkaufsArtikel Multiplicity Ort des VerkaufsArtikel Artikel ForeignID
278. durch DimensionalClass Schemaelemente dargestellt Zwischen Hierarchieebenen sollte die Dar stellung von Verdichtungspfaden m glich sein Mit den Konstrukten RollUp NonComple teRollUp und SharedRollUp stehen in der MML drei M glichkeiten zur Verf gung un terschiedliche Typen von Verdichtungspfaden zu modellieren Die Struktur sollte ein gerichteter azyklischer Graph sein Die Dimensionsstruktur Kann ein solcher Graph sein wodurch die Zusammenf hrung von Verdichtungspfaden und die gemeinsame Nutzung von Hierarchieebenen m glich ist Dar ber hinaus k nnen zwischen Hierarchie ebenen weitere Beziehungen wie Generali sierungen und Assoziationen bestehen die ebenfalls explizit formuliert werden sollten Zwischen DimensionalClass Schemaelementen sind sowohl Generali sierungen als auch Assoziationen m glich In der Hierarchiestruktur sollten Mehrfach hierarchien m glich sein Mit Hilfe von RollUp Verbindungen zwi schen DimensionalClass Objekten K nnen Mehrfachhierarchien realisiert werden In der Hierarchiestruktur sollten alternative Verdichtungspfade m glich sein Mit Hilfe von RollUp Verbindungen zwi schen DimensionalClass Objekten K nnen alternative Verdichtungspfade realisiert wer den In der Hierarchiestruktur sollten unbalancier te Hierarchien m glich sein Mit Hilfe von RollUp Verbindungen zwi schen DimensionalClass Objekten K nnen Hierarchien realisiert werden di
279. e Bezeichnung name Bezeichnung parameters result MappingMETA name Dimensional mapping from table Ort_des_Verkaufs to Strassenbereich type DIMENSIONAL_MAPPING allowedOperators ALL computation Berechnung von GeographicalMapping typesSource ALL_TYPES typesDestination ALL_TYPES Abbildung 8 23 Abbildung des REMUS Metadatums DimensionalMapping auf das LCD of SOL Schema Die beiden folgenden Abbildungsvorschriften sind entsprechende Modifikationen von 8 81 und 8 82 U DimensionalM appingcreate META pimensional Mapping gt L MappingMETA def H DimensionalM appingoreate m 4b DimensionalMapping from table Saetraviename m dimensionalRelationSource name to Jdetrariename LTL dimensional RelationDestination name DIMENSIONAL_MAPPING m allowedOperators 8 83 m computation computation m dimensional RelationSource name m dimensional RelationDestination name m computation parameter s m computation result MappingMETA 8 3 Abbildung von REMUS nach LCD of SOL 205 M Dimensional Mapping SRX LOL def M Dimensional Mapping R L L 8 84 U U Dimensional Mappingoreate m me M DimensionalMapping 8 3 16 Schritt 14 Assoziationen anlegen Eine Assoziation wird wie in Abbildung 8 24 dargestellt transformiert Zwischen den beiden ber die Tabelle MTMOrt_des_Verkaufs verbundenen Tabellen Ort_des_Verkaufs und
280. e ment keine Spezialisierungen d h ist Blatt einer Vererbungshierarchie so darf es nicht abstrakt sein lt lt DataClass gt gt VerkaufsTyp m lt lt DataClass gt gt EinzelhandelsVerkaufsTyp Abbildung 6 15 UML Darstellung von abstrakten Klassen und Vererbung zwischen Klassen Verhaltensbezogene Aspekte von Objekten bzw Klassen wie sie in der Objektorientierung betrachet werden finden in der MML Spezifikation keine Ber cksichtigung so dass der Methodenabschnitt einer mUML Klasse keine Angaben enth lt 6 2 2 Attribute In der in Abschnitt 6 1 vorgestellten MML Spezifikation werden die Attribute der drei Klassentypen DataClass DimensionalClass und FactClass mittels zugeh riger Instanzen der DataAttribute DimensionalAttribute bzw FactAttribute Metaklasse modelliert In der UML werden Attribute in einem besonderen Abschnitt des Klassensymbols notiert so dass keine weitere Kennzeichnung zur Unterscheidung des Typs eines Attributes notwendig ist Attribute die bei einer Klasse mit dem Stereotyp FactClass eingetragen sind sind automatisch Instanzen der FactAttribute Metaklasse analoges gilt nat rlich auch f r DimensionalClass und DataClass Der Attributname entspricht dabei der zugeh rigen propertyName Eigenschaft die die FactAttribute Metaklasse von der Property Connection Metaklasse erbt Abbildung 6 16 verdeutlicht diese Notation 90 Kapitel 6 Konzeptioneller
281. e ob Kanton und Bundesland in separaten Hierarchiepfaden Abbildung 6 33 a oder zusammengefasst model liert werden sollen Im letzten Fall besteht wiederum die Alternative zwischen einer Klasse mit aufz hlendem Typ Attribut Abbildung 6 33 b und dem Einsatz der Vererbung Abbildung 6 33 c lt lt DimensionalClass gt gt Bundesland lt lt DimensionalClass gt gt Region lt lt DimensionalClass gt gt Typ Bundesland Kanton Kanton a b lt lt DimensionalClass gt gt Region A lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Bundesland Kanton c Abbildung 6 33 UML Beispiel Schritt 10 Alternativen Die Entscheidung h ngt vom Wissen des Modellierers ber den Typ der sp teren Analysen zum Zeitpunkt der konzeptionellen Modellierung ab Im Falle von a k nnen die Verkaufszahlen aus Kantonen und Bundesl nder nur schwer gegen bergestellt werden vielleicht will man das aufgrund zu gro er Unterschiede oder organisatorischer Richtlinien aber auch gerade verhindern bei b und c ist dies hingegen m glich Bei Auswahl zwischen b und c spielen wieder die in Abschnitt 6 3 unter Schritt 9 genannten Argumente zum Vererbungsmissbrauch eine Rolle Die Entscheidung soll im Beispiel zugunsten von Variante b fallen weil die Daten miteinander vergleichbar sein sollen und diese L sung die beste Erweiteru
282. e Arbeit zu diesem Thema vorgestellt und im Anschluss daran die vorgestellten Aspekte kritisch beleuchtet Multidimensionale Normalformen W hrend Normalformen in der relationalen Welt sich haupts chlich auf Probleme bei Datenabh n gigkeiten beziehen Update Anomalien aufl sen und relationale Strukturen vereinfachen sollen die in ALW98 vorgeschlagenen Schemaeigenschaften die Korrektheit analytischer Berechnungen auf multidimensionalen Daten zu sichern Weil ALW98 auf existierende Arbeiten statistischer Normalformen Gho91 LS97 aufbaut wird dort als Grundlage die Terminologie statistischer Datenbanken verwendet Im folgenden werden die dort vorgenommenen berlegungen und Definitionen auf die MML Terminolgie bertragen Dazu wird zun chst in 6 1 und 6 2 der aus dem Relationenmodell bekannte Begriff der schwa chen funktionalen Abh ngigkeit CBS98 HS00 zwischen Attributen auf Klassen bertragen Seien A und B zwei Klassen B ist funktional abh ngig von A als Symbol A B 6 1 EL F r jede Instanz a von A J eine Instanz b von B Seien A und B zwei Klassen B ist schwach funktional abh ngig von A als Symbol A gt B 6 2 d i EL F r jede Instanz a von A 3 maximal eine Instanz b von B Hierauf aufbauend wird in 6 3 der Begriff des Dimensionsschemas definiert der durch eine Menge von RollUp Beziehungen verbundener DimensionalClasses charakterisiert ist Eine Menge D D Dn von Dimensional
283. e DB ausgelegt Diese beiden Arbeiten besitzen somit eher historische Bedeutung und werden daher nicht detailliert behandelt gt Bayerisches Forschungszentrum f r wissensbasierte Systeme 5 2 Arbeiten zum Entwurf von DWHs 57 Eignung im DWH Umfeld untersucht und an die speziellen Erfordernisse dieser Umgebung ange passt werden Resultat des Projektes ist die in Abbildung 5 2 skizzierte Architektur MD Schema Interaktion MERM PROMISE Graphischer Modellierungseditor GraMMi i Sichtenmanagement Babelfish Repository Generator und en Evolutionskomponente LZ System DWH Abbildung 5 2 Architektur Babelfish Als Beschreibungsformalismus der konzeptionellen Ebene kommt das in Abschnitt 3 3 1 vorgestellte MERM zum Einsatz Neben diesen statischen Aspekten wurde versucht in der fr hen Entwicklungs phase der konzeptionellen Modellierung Benutzerinteraktionen einflie en zu lassen Hierzu wurde die Notation PROMISE Predicting User Query Behaviour in Multidimensional Information Sy stem Environments eingef hrt Sap99 Sap00a Sap00b MERM Schemata wie auch PROMISE Diagramme werden im graphischen Editor GraMMi Graphical Meta Data Driven Modeling Tool SBH00 verarbeitet und ber eine Zwischenschicht zum Sichtenmanagement im Repository gespei chert Aufbauend auf dem Repository erfolgt durch eine Generator und Evolutionskomponente eine zielsystemspezifisch
284. e Modellierungsm glichkeit zur Darstellung anteiliger Verrechnungen Anteilige Verrechnungen erm glichen die Verkn pfung eines DimensionalClass Objektes unter Ber cksichtigung einer Berechnungsvorschrift bergeordneten Hierarchieebene DimensionalProperty zu mehreren Objekten einer A allowedOperators OperatorSet E RollUp SharedRollUp a DEE Dimension multiplicity Multiplicity rollUp 0 D owner 1 dimension 0 owner 1 DimensionalClass FactClass computation Computation el ContextElement Abbildung 6 13 MML SharedRollUp Neben der Angabe zugeh riger Multiplizit ten auf Seiten der bergeordneten DimensionalClass Instanz der h heren Hierarchieebene k nnen die bei Nutzung des SharedRollUp Pfades erlaub ten Verdichtungsoperatoren angegeben werden Operatoren die ein fehlerhaftes Verhalten aufweisen w rden sollten auf diesem Weg von der Benutzung ausgeschlossen werden 6 1 MML Multidimensional Modeling Language 87 6 1 8 Wohlgeformtheitseigenschaften Neben den im MML Metamodell festgehaltenen Eigenschaften z B der dass Instanzen der Me taklasse Dimension nur zwischen Instanzen einer FactClass und DimensionalClass bestehen d r fen werden in diesem Abschnitt weitere Regeln festgelegt deren Einhaltung f r ein wohlgeformtes MM
285. e Problematik findet sich in LS97 Wie00 Die Eigenschaft einer Kennzahl bez einer Dimension bestimmte Verdichtungsope ratoren zu besitzen wird als Aggregierbarkeit oder Additivit t bezeichnet 3 1 2 Dynamische Aspekte Unter den dynamischen Aspekten multidimensionaler Datenmodelle werden Operationen auf den statischen Strukturen verstanden H ufigste Operation ist das in Abbildung 3 5 dargestellte Wechseln zwischen den Hierarchieebenen das als Drilling bezeichnet wird Das Wechseln auf eine gr bere Hierarchieebene hei t Roll Up die inverse Operation die Verfeinerung der Hierarchieebene wird als Drill Down bezeichnet Produkt Zeit Jan Feb Mrz Apr Mai Jun Jul Aug Sep Okt Nov Dez Abbildung 3 5 Roll Up und Drill Down Operator Abbildung 3 6 zeigt das Pivotisieren bzw Rotieren bei dem der Datenw rfel in eine f r die aktuelle Datenanalyse g nstige Position bewegt wird In Arbeiten die dem Kontext statistischer Datenbank entstammen wie z B LS97 Wie00 wird von Summierbarkeit gesprochen weil in statistischen Datenbanken Summenbildung h ufig die einzige Operation ist 3 1 Grundbegriffe 23 a SI m x Se mo N Zeit Ort ey vy e E 8 Produkt Ort S a ge O t ei e N Zeit Produkt Abbildung 3 6 Pivoting bzw Rotation Operator Schlie lich ist auch das benutzergesteuerte Erforschen des Datenw rfels eine wichtige multidimen sionale Operation Durch Restriktion
286. e Seite 204 als Constraints verarbeitet Abbildung 8 15 zeigt exemplarisch das Vorgehen Die deterministische Funktion Jaetcompu tation ermittelt aus den Parametern und der Beschreibung aus der konzeptionellen Modellierung einen Ausdruck der das abgeleitete Attribut berechnet Berechnung des Attributs Gesamtpreis Computation Verkauftes Produkt Einzelpreis Verkauftes Produkt Anzahl Einzelpreis Anzahl Verkauftes Produkt Gesamtpreis Lu Verkauftes Produkt Gesamtpreis AttributeName io Gesamtpreis Verkauftes Produkt Einzelpreis F DerivedAttribute Verkauftes Produkt Anzahl Einzelpreis Anzahl Einzelpreis Anzahl det Computation Column name Gesamtpreis initialValue NULL valueExpression Einzelpreis Anzahl identityIncrement 0 optional FALSE Abbildung 8 15 Abbildung abgeleiteter Attribute von REMUS nach LCD of SQL F r die Abbildungsvorschrift sei zun chst in 8 37 die Funktion DerivedAttribute definiert die einer Computation Instanz in Abh ngigkeit davon ob sie ein abgeleitetes Attribut berechnet oder nicht TRUE oder FALSE zuweist 8 3 Abbildung von REMUS nach LCD of SOL 191 DerivedAttribute METAcomputation gt TRUE FALSE TRUE falls Kein SharedRollUp und kein DerivedAttribute m DimensionalMapping verweist auf m FALSE sonst 8 37 Desweiteren muss eine deterministische Funktion fdetcomputation existieren die
287. e Transformation HSBO0a HSBOOb Als positive Aspekte des Babelfish Ansatzes l sst sich einerseits die Ber cksichtigung dynamischer Aspekte andererseits die prinzipielle Erweiterbarkeit sowohl weiterer Notationen als auch weiterer Zielsysteme festhalten Als Probleme bzw offene Fragen bleiben die fehlende saubere Trennung zwi schen logischem und physischem Entwurf sowie die unklare Integration statischer und dynamischer Aspekte bei der konzeptionellen Modellierung ebenso unklar ist die Einbindung weiterer Notationen MetaMIS Das Projekt MetaMIS der Universit t M nster BH98 Hol99 HK99 Hol00 hatte das prim re Ziel eine werkzeuggest tzte Methodik zum konzeptionellen DWH Entwurf zu erstellen und mit dem Me taMIS Toolset zu implementieren Als zweites wurde das Werkzeug mit einem DWH Werkzeug ge koppelt um den Lebenszyklus eines DWH in den einzelnen Phasen von der Entwicklung vom kon zeptionellen Entwurf bis zur Implementierung bis zum Betrieb Aktualisierungen und Evolutionen durchg ngig zu unterst tzen Die Gesamtarchitektur des Werkzeugs ist in Abbildung 5 3 dargestellt 58 Kapitel 5 Entwurf von Informationssystemen Er g 2 Umgebung Designer i Data Repository L Ee Warehouse Ea ETL MetaMIS OLTP SEI wen OLTP System Abbildung 5 3 Architektur MetaMIS Positiv zu erw hnen ist die Idee der Durchg ngigkeit inklusive des Populationswerkzeugs Lookup Populator das ein Prototyping erm gli
288. e dann sp ter auf Instanzebene unbalanciert sind Bei der Verdichtung sollte die Darstellung an teiliger Verrechnung m glich sein Hierf r stellt die MML das SharedRollUp Konstrukt zur Verf gung mit dem eine die anteilige Verrechnung spezifizierende Be rechnungsvorschrift verkn pft ist Die Modellierungssprache sollte ein Konzept zur Handhabung nicht vollst ndiger Verdich tungen anbieten In der MML werden nicht vollst ndige Ver dichtungen mittels eines NonCompleteRol IUp Schemaelementes gekennzeichnet F r jede Hierarchieebene sollten dar ber hin aus zus tzliche Attribute definierbar sein die nicht unmittelbar der Hierarchiebildung die nen Jede dimensionale Klasse kann beliebig viele weitere Attribute besitzen die nicht unmittel bar an der Hierarchiebildung beteiligt sind F r jede Hierarchieebene sollten Schl sselat tribute definiert werden k nnen DimensionalClass k nnen als Schl ssel Attribute eines Schemaelements spezifiziert werden Fortsetzung auf der folgenden Seite 118 Kapitel 6 Konzeptioneller Entwurf Fortsetzung von der letzten Seite Innerhalb einer Hierarchieebene k nnen Daten objekte mit unterschiedlichen Dimensionsattribu ten existieren was insbesondere bei Hierarchiebil dungen Probleme nach sich ziehen kann so dass die Modellierung unterschiedlicher Datenobjekt typen unterst tzt werden sollte Durch Generalisier
289. e grau hinterlegten Teile zugewiesen bekommen damit die Methoden der Nachfolger der Klasse Cube nur gem der konzeptionellen Modellierung zul ssige Methodenpa rameter akzeptieren So darf die Methode rollUp besipielsweise nur mit Dimensionen parametrisiert werden die f r diesen W rfel definiert sind Grunds tzlich anders als bei der relationalen bzw multidimensionalen Transformation k nnen Be rechnungsvorschriften behandelt werden denn diese k nnen direkt als Methoden der Klassen reali siert werden Abbildung 7 24 zeigt dies anhand eines SharedRollUp Schemaelementes lt lt DimensionalClass gt gt Jahr Jahr Bezeichnung JahrTyp ie oe Bezeichnung tall yp nac lt lt SharedRollUp gt gt Jahr lt lt DimensionalClass gt gt Woche Bezeichnung WochenTyp BerechneJahr Bezeichnung WochenTyp Abbildung 7 24 Transformation von Berechnungsvorschriften in ein objekorientiertes Zielsystem 7 3 3 Objektrelationales Zielsystem Ein logisches objektrelationales Datenmodell SBM99 erweitert das relationale Modell um die Kon zepte zur Definition erweiterbarer vordefinierter und benutzerdefinierter Datentypen Funktionen und Methoden Typkonstruktoren Objektidentit t und Referenzen Als Transformation sind zwei extreme Varianten denkbar Einerseits kann bei Verzicht auf die Erwei terungen die relationale Transformation 7 verwendet werden andererseits kann die im letzten Ab schnitt skizzierte Idee f
290. e in Abschnitt 7 2 definierte Transformation zur Er zeugung eines REMUS Schemas an REMUS transform F hrt die in Abschnitt 7 2 definierte Transformation zur Er Schema zeugung eines LCD of SOL Schemas aus LCD of SQL annotate berf hrt ein LCD of SOL Schema in ein annotiertes Schema Schema implement Realisiert das Schema in Form eines DB Skriptes oder ber eine Programmierschnittstelle refine Transformiert ein LCD of SOL Schema in ein anderes LCD of SOL Schema mit Hilfe eines Verfeinerungsalgorithmus Annotated annotate Erm glicht das Manipulieren von Annotationen des Schemas Schema implement Realisiert das Schema in Form eines DB Skriptes oder ber eine Programmierschnittstelle optimize F hrt den in Abschnitt 10 2 7 beschriebenen Optimierungs prozess durch Tabelle 11 2 Methoden der verschiedenen Schematypen 11 2 Architektur Die berlegungen aus Abschnitt 11 1 haben zu der in Abbildung 11 3 dargestellten Architektur ge f hrt Im Back End Bereich ist das Repository angesiedelt in dem alle Projektinformationen persistent abgelegt werden Darauf aufbauend basiert die eigentliche Applikation die sich ihrerseits in vier Schichten unterteilen l sst Die mittlere Schicht ist die Objektschicht in der die in Teil II vorge stellten Metamodelle realisiert sind Auf dieser Schicht ist eine Exportschnittstelle angesiedelt die es erm glicht Schemata eines jeden Meta
291. e relativ komplexe Ortshierarchie die multiple Hierarchiepfade besitzt Einer ber Filialkategorie zur Filialoberkategorie der andere von Stadt bis Staat Dieser letztgenannte Hierarchiepfad ist zudem ein alternativer Verdich tungspfad denn bei einem RollUp von Stadt kann man immer wieder zu Region gelangen Ebenfalls zu erkennen ist die gemeinsame Nutzung von dimensionalen Klassen durch verschie dene Faktklassen Dieses kann sowohl ganze Hierarchien z B wird die mit Artikel begin nende Hierarchie von Verkaufszahl und Verkauftes_Produkt genutzt oder aber Teile davon betreffen z B nutzen Verkauf und Verkaufszahl die gesamte Zeithierarchie w hrend Ein kommen erst bei Quartal einsteigt Die einzige wei e Tabelle im Schema repr sentiert die Assoziation zwischen Artikel und Ort des Verkaufs hier werden die an einem Verkaufsort gef hrten Artikel festgehalten 220 Kapitel 9 Verfeinerung des Schemas Produktkategorie ID PKTyp f Bezeichnung Text i Produktfamilie i N Bezeichnung Text Produktkategorie_FK FKTyp 1 ID PKTyp Einkommen Betrag W hrung Quartal_FK FKTyp Strassenbereich_FK FKTyp Jahr Bezeichnung JahrTyp ID PKTyp 1 Quartal Jahr_FK FKTyp Artikelco
292. eKey Fortsetzung auf der folgenden Seite A 3 LCD of SOL Schema 317 Fortsetzung von der letzten Seite UK10 Primary key of table Quartal TRUE TA10 C039 UR10 UniqueKey 4 UK11 Primary key of table Region TRUE TA11 CO40 UR11 UniqueKey 4 UK12 Primary key of table Staat TRUE TA12 CO41 UR12 UniqueKey 4 UK13 Primary key of table Stadt TRUE TA13 C042 UR13 UniqueKey 4 UK14 Primary key of table Strassenbereich TRUE TA14 C043 UR14 4 UniqueKey UK15 Primary key of table Tag TRUE TA15 C044 UR15 UniqueKey 4 UK16 Primary key of table Verkauf TRUE TA16 CO51 CO66 UR16 4 UniqueKey UK17 Primary key of table Verkaufsbezirk TRUE TA17 CO45 UR17 4 UniqueKey UK18 Primary key of table Verkaufszahl TRUE TA18 CO05 CO52 CO67 4 UR18 UniqueKey UK19 Primary key of table Verkauftes_Produkt TRUE TA19 4 C006 C053 C068 UR19 UniqueKey UK20 Primary key of table Woche TRUE TA20 CO46 UR20 UniqueKey 4 UK21 Conceptual key of table Artikel FALSE TA01 CO03 NULL 5 UniqueKey UK22 Conceptual key of table Jahr FALSE TA02 CO10 NULL 5 UniqueKey UK23
293. eKey UK38 Conceptual key of table Filialkategorie FALSE TA21 CO73 NULL 5 UniqueKey UK39 Conceptual key of table Filialoberkategorie FALSE TA22 CO74 5 NULL UniqueKey Fortsetzung auf der folgenden Seite 318 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite UK40 Conceptual key of table Region FALSE TAll CO17 NULL 5 UniqueKey UniqueKeyRole URO1 Role of primary key of table Artikel 1 FULL REFERENTIALRU 4 10 14 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UKO1 RC07 RC20 RC23 RC26 UniqueKeyRole URO2 Role of primary key of table Jahr 1 FULL REFERENTIALRU 4 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK02 UniqueKeyRole URO3 Role of primary key of table Einkommen 1 FULL REFERENTIALRU 4 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK03 UniqueKeyRole URO4 Role of primary key of table Monat 1 FULL REFERENTIALRU 4 10 LE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK04 RC13 UniqueKeyRole UROS Role of primary key of table Ort_des_Verkaufs 1 FULL REFERENTI 4 10 14 ALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK05 RC18 RC22 RC24 RC27 UniqueKeyRole URO6 Role of primary key of table MTMOrt_des_VerkaufsArtikel 1 FULL 4 REFERENTIALRULE_CASCADE REFERENTIALRULE_CASCADE TRUE TRUE UK06 Unique
294. ectType Relation x 184 Kapitel 8 Relationaler Entwurf 8 3 5 Schritt 3 Attribute anlegen Zu jedem Attribut im REMUS Schema wird ein Column Objekt im LCD of SOL Schema an gelegt wie in Abbildung 8 12 dargestellt Der Name wird durch die deterministische Abbildung Jdet areriputenam entschieden Somit k nnen wie schon bei den Tabellen in Schritt 2 wieder Namens konventionen ber cksichtigt oder Sonderzeichen entfernt werden Ebenso besteht an dieser Stelle die projektindividuelle M glichkeit die Pr fixschreibweise der Attributnamen beizubehalten Der Wert des Attributs identityIncrement wird f r Attribute mit der Endung ID auf 1 gesetzt ansonsten auf 0 Die beiden Attribute valueExpression und initial Value werden zun chst leer initialisiert und eventuell beim Abarbeiten der Metadaten in Schritt 6 siehe Seite 190 belegt Ebenso wird das At tribut optional leer initialisiert und in Schritt 8 siehe Seite 194 bei Abarbeitung der Metadaten manipuliert Die type Referenz wird auf den f r das Attribut referenzierten Datentypen gesetzt die table Referenz auf die referenzierte Tabelle Schlie lich wird das bereits im letzten Schritt angelegte Table Objekt um Referenzen auf die Spalten aktualisiert Woche Bezeichnung WochenTyp Woche ID KeyType f det AttributeName Woche Bezeichnung Woche ff attribute Woche ID ID det AttributeName
295. eebe Wird nicht unterst tzt rungen und Aggregationen Wird nicht unterst tzt 2 nen sind m glich Mehrfachhierarchien Werden durch DAG unter Werden durch DAG unter Sind darstellbar st tzt st tzt Alternative Verdich Werden durch DAG unter Werden durch DAG unter A lt Sind darstellbar tungspfade st tzt st tzt Kardinalit tsangabe m glich Anteilige Verrechnung Wird nicht unterst tzt aber keine Berechnungsvor Wird nicht unterst tzt schrift Jeder Hierarchieebene k n s i FR Hierarchieebenen werden als Schl sselattribute nen identifizierende Attribute Keine Angabe abstrakte Objekte behandelt zugeordnet werden Werden pro Hierarchieebene Werden pro Hierarchieebene Werden pro Hierarchieebene Dimensionsattribute angegeben angegeben angegeben i e x K nnen mit Hilfe nicht x Unbalancierte Hierarchi K nnen im Schema nicht mo K nnen im Schema nicht mo 5 9 kompletter Beziehungen 4 en delliert werden delliert werden Q modelliert werden S A EEE 5 Ss amp Unterschiedliche Objekt Sind nicht vorgesehen Sind mittels Generalisierung Sind nicht vorgesehen a typen darstellbar Gg EES Sind nicht vorgesehen Sind nicht vorgesehen Sind nicht vorgesehen Tabelle 3 1 Eigenschaften der konzeptionellen Datenmodelle I Die Betrachtung des MERM erfolgt auf der Basis des einfachen E R Modells Neben numerischen Datentypen sind im Dimensional Fact Model auch Kennza
296. eferenzen besteht die M glichkeit innerhalb einer Menge von Di mensionalClass Schemaelementen HierarchiepfadeVerdichtung spfad festzulegen Die Referenz dimensionalMapping zur gleichnamigen Metaklasse erm glicht die Abbildung von Instanzen einer Hierarchieebene auf Instanzen einer anderen Hierarchieebene die au erhalb der gleichen Hierarchie liegt Die charakterisierenden Eigenschaften einer DimensionalClass Instanz werden durch Attribute beschrieben was sich in der MML durch die Referenz attribute zur Metaklasse DimensionalAttribute ausdr ckt Die Beschreibung von DimensionalMapping folgt auf Seite 85 80 Kapitel 6 Konzeptioneller Entwurf ContextElement A a ee DimensionalMapping FactAttribute RB attribute 2 J N FactClass DimensionalClass 2 RollUp i i E s Dimension dimension rollUp t D DimensionalProperty 7 property ClassElement DimensionalAttribute attribute Z GeneralizableElement isAbstract Boolean Abbildung 6 6 MML Multidimensionaler Kontext Als Untermetaklasse von ClassElement und damit transitiv auch Untermetaklasse der Generalizable Element Metaklasse wird die Erstellung von Unterklassen erm glicht so dass innerhalb einer Hier archieebene verschiedene Objekttypen darstellbar sind Die Unterklassen k nne
297. eichnis 355 GG98 GGC97 Gho91 GHRU97 GL95 GL97 Gli00 Glu96 GM99 GMR98a GMR98b GMRO0 GMRRO1 Gabriel Roland und Peter Gluchowski Grafische Notationen fiir die semantische Modellierung multidimensionaler Datenstrukturen in Management Support Systemen Wirtschaftsinformatik 40 6 493 502 Dezember 1998 Gluchowski Peter Roland Gabriel und Peter Chamoni Management Support Systeme Computergestiitzte Informationssysteme f r F hrungskr fte und Entscheidungstr ger Springer Berlin Deutschland 1 Auflage 1997 Ghosh Sakti P Statistical Relational Databases Normal Forms Transactions on Knowledge and Data Engineering 3 1 55 64 1991 Gupta Himanshu Venky Harinarayan Anand Rajaraman und Jeffrey D Ullman Index Selection for OLAP In Gray Alex und Per ke Larson Herausgeber Proceedings of the Thirteenth International Conference on Data Engineering April 1997 Birmingham England Seiten 208 219 IEEE Computer Society 1997 Griffin Timothy und Leonid Libkin Incremental Maintenance of Views with Duplicates In Carey Michael J und Donovan A Schneider Herausgeber Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data Mai 1995 San Jose Kalifornien USA Seiten 328 339 ACM Press 1995 Gyssens Marc und Laks V S Lakshmanan A Foundation for Multi dimensional Data bases In Jarke Matthias Michael J Carey Klaus R
298. eignKeyRole LRollUpCreate ReferentialConstraint META RollUp gt LReferentialConstraint def HRollUporeate ReferentialConstraint r y Referential constraint between table Jet at Name r dimensional RelationHigher name and fdetrablename r dimensionalRelationLower name ROLL_UP r typesPK r typesFK 8 68 ab Role of primary key of table Jaetrastenam r dimensionalRelationHigher name ab Role of foreign key in referential constraint between tables Jdetraniename r dimensionalRelationHigher name and 3 JdetrasieName ReferentialConstraint r dimensionalRelationLower name URoUUpoOreate TableConatraine METARollUp gt LTableConstraint def HRollUpCreate TableConstraint r y Table constraint allowed RollUps for table Jdetrariename r dimensionalRelationLower name 8 69 to table r dimensional Relation Higher name 3 7 JdetravieName JdetroitUpTypesRule r DBConstraint 200 Kapitel 8 Relationaler Entwurf Aktualisiert werden m ssen die entsprechenden Table und Column Objekte was durch die Funk tionen in 8 70 und 8 71 geschieht HRollUpupdate Tabie META RollUp X LTable gt Table def HROollUPUpdate Table r t Wee AddT ableF oreignK ey t b Foreign key of table Jdetrariename r dimensionalRelationLower name from table faetraptenam T dimensional Relation Higher name falls t name
299. ein Review k nnen individuell bestimmt werden Daher wird in Abschnitt 6 4 1 zun chst das Metamodell f r dieses Review beschrieben bevor in Abschnitt 6 4 2 die Anwendung dieses Framework verdeutlicht wird Abschnitt 6 4 3 liefert schlie lich eine Aufli stung m glicher Kriterien f r das Review ebenso erfolgt die Nennung aus der Literatur bekannter Qualit tskriterien die sich jedoch nicht f r ein Review anbieten 6 4 Qualit tssicherung von MML Schemata 99 6 4 1 Metamodell f r Qualit ts Review Das Metamodell f r ein Qualit ts Review ist in Abbildung 6 23 dargestellt MMLSchema name String schema 1 review 0 ReviewType Review type name String i reviewer String predecessor 0 timestamp DATETIME D 1 reviewTypes remark String Bi value 0 1 0 1 passed BOOLEAN reviews ReviewTypeCriterion weight Integer minimum 0 1 successor criterions Criterion values 1 name String _ MeasuredValue description String metrics String value 0 1 measures 1 MeasuringMethod 1 name String measure description String automateable AutomateableType autoDescription String objectivity ObjectiveType Abbildung 6 23 Metamodell fiir Reviews Die Bewertung eines Schemas wird anhand von Kriterien Objekte der Klasse Criterion vorgenom men die d
300. eine konstruktive Vorgehensweise in Form eines konkreten Leitfadens vorgeschlagen der in 18 Schritten zu einem MML Schema f hrt Dieser Leitfaden realisiert eine Bottom Up Strategie und hilft von den Fakten ausgehend systematisch ein multidimensionales Schema zu modellieren Abschnitt 6 4 behandelte die analytische Qualit tssicherung eines konzeptionellen Schemas mittels Reviews Hierbei wurde zun chst ein Metamodell f r den Review Schritt vorgeschlagen und der Ablauf eines Reviews skizziert Anschlie end wurde eine Reihe m glicher Kriterien inkl m glicher Messverfahren ebenso aufgez hlt wie Kriterien die f r ein Review eher ungeeignet sind Als vielleicht etwas berraschendes Resultat wird festgestellt dass die im relationalen Modell wichtigen Normalformen im multidimensionalen Fall keine gro e Bedeutung haben Im abschlie enden Abschnitt 6 5 wurde die Anwendungswelt Handelswelt eingef hrt die dem gesamten Teil II als durchg ngiges Beispiel dienen wird Schlie lich wurde mit Hilfe des Leitfadens ein Konzeptionelles Schema f r dieses Szenario erstellt Kapitel 7 Logischer Entwurf Dieses Kapitel widmet sich dem logischen Entwurfsschritt dessen Einordnung in den Entwurfspro zess in Abbildung 7 1 dargestellt ist Multidimensionale Modellierung 6 2 6 3 Abbildung auf die MML 6 1 Review 6 4 MML Schema qualit tsgesichert Transformation T 7 REMUS Schema Transformation in initiales Datenbankschema 8 Syst
301. eines Review bei dem ein Designer oder Programmierer ein oder mehrere Mitglieder des Entwicklungsteams durch einen von ihm entwickelten Quell textabschnitt f hrt w hrend die anderen Mitglieder Fragen stellen und Kommentare geben zu Technik Stil m glichen Fehlern Verletzung von Entwicklungsstandards und anderen Pro blemfeldern IEE83 Zusammenfassend kann man festhalten dass die drei Verfahren in der hier aufgef hrten Reihenfolge zunehmend informeller bzw abgeschw chter werden 5 3 2 Qualit t konzeptioneller Schemata Das Anwenden einer bestimmten Sprache bzw Notation gew hrleistet eine gewisse Qualit t im Hin blick auf eine konstruktive Qualit tssicherung allerdings sind bei Anwendung einer Sprache bzw Notation immer noch unterschiedliche Interpretationen m glich Dieses wird manchmal als Model lierungswillk r bezeichnet MS94 Aus diesem Grunde kann zus tzlich eine analytische Qualit ts sicherung in Form eines Reviews durchgef hrt werden die f r ein Schema w nschenswerte Quali t tseigenschaften sichert Zum Thema Qualit t konzeptioneller Schemata existieren einige Ans tze einen berblick geben Bur98 Sch99 die im Folgenden kurz skizziert werden In der bekannten Arbeit BCN92 nennen die Autoren eine Reihe von Kriterien die ein hoch qualitatives Datenbankschema erf llen muss Es werden jedoch keine Metriken oder Messver fahren angegeben Jedes genannte Kriterium Vollst ndigkeit Korrektheit Mini
302. eit Zeit lt lt FactClass gt gt lt lt FactClass gt gt Verkauf Verkauf N Betrag ee Betrag ee a bertragung Attribut bei gemeinsam b Gleichzeitige bertragung von genutzter Dimension Attribut und Dimension Abbildung 7 21 Neue Additivity Metadaten 7 2 10 Schritt 9 Transformation von Dimension Schemaelementen F r jede Dimension Instanz des Schemas wird mit Hilfe der Owner Funktion festgestellt f r welche Faktklassen sie g ltig ist Neben den im MML Schema modellierten Verbindungen k n nen dies zus tzlich in Schritt 8 durch Kompositionsaufl sung entstandene Verbindungen sein Abbildung 7 22 zeigt exemplarisch das Vorgehen beim Transformieren der Dimensionen Der Prim rschl ssel der aus der DimensionalClass Instanz hervorgegangenen Relation wird in die aus der FactClass Instanz hervorgegangenen Relation als Fremdschl ssel eingetragen Die Referenz sowie ihr Typ werden als Metadaten festgehalten Weil aufgrund der Transformation in Schritt 8 Owner Ort Verkaufszahl gilt braucht dieses im Beispiel nur einmal durchgef hrt werden Durch das Eintragen des Fremdschl ssels als PrimaryKey Metadatum wird durch Aufl sen der einzelnen Dimensionen einer Faktrelation sukzessive der Prim rschl ssel dieser Faktrelation 7 2 Transformationsalgorithmus 155 _ DimensionalClass lt lt DimensionalClass gt gt name Ort des Verkaufs Ort des Verkaufs isAbstract TRUE Bezeichnung Text
303. elationA name Role of foreign key in referential constraint between tables Jaetrastenam dimensional RelationA name and faetrablename T intermediateRelation name ReferentialConstraint 8 3 Abbildung von REMUS nach LCD of SOL 207 H Associationgreate DBConstraint META Association gt EDBConstraint def H AssociationCreate DBConstraint a 4b Database constraint between table Jet at Name a intermediateRelation name 8 89 and faetrabiename a dimensionalRelationA name Sie a 3 DBConstraint Aktualisiert werden m ssen die betroffenen Table Column und UniqueKeyRole Objekte dies geschieht in den drei folgenden Abbildungsvorschriften H Associationypdate Table META Association X Lrabie gt LTable def H AssociationUpdate Table a t AddT ableForeignK ey t b Foreign key of table Jaetrastenam a intermediateRelation name from table Sdetravie wann 2 dimensional RelationA name falls t name fuetrasiename a intermediateRelation name t sonst 8 90 MAssociationy pdate Column META Association X LColumn LColumn def HAssociationypdate Column a c AddColumnK ey c bi Foreign key of table detrasiename a intermediateRelation name from table Jdetrasten m 2 dimensional RelationA name falls c foreignK ey name faetrabiename a intermediateRelation name c sonst 8 91 HAssociationypdate Unique Key
304. elementen entsprechen die Attribute charakterisierenden Eigenschaften da sie im Gegensatz RollUp bzw NonCompleteRollUp Verbindungen zus tzliche beschreibende Daten enthalten F r die Fact Class Schemaelemente sind Attribute hingegen die eigentlichen Komponenten zur Aufnahme quantifizierender Daten d h die Kennzahlen Jede dieser drei Metaklassen besitzt eine als owner bezeichnete Beziehung zur entsprechenden Metaklasse Dar ber hinaus hat die FactAttribute Metaklasse eine Referenz auf Additivity Eine Instanz der DimensionalProperty Metaklasse repr sentiert eine qualifizierende Eigenschaft Sie ist immer mit genau einem DimensionalClass Schemaelement verbunden das entweder als berge ordnete Hierarchieebene einer anderen DimensionalClass oder als beschreibende Eigenschaft einer FactClass Instanz angesehen werden kann Die Interpretation unterliegt der jeweiligen Untermeta klasse Die DimensionalProperty Metaklasse besitzt kein Attribut zur Angabe einer Multiplizit t f r Objekte des ber die type Beziehung verbundenen DimensionalClass Schemaelementes so dass mit einer DimensionalProperty Instanz immer genau eine DimensionalClass Instanz verbunden sein muss Die DimensionalProperty Metaklasse vererbt an die Untermetaklassen Dimension RollUp und DimensionlMapping Instanzen der Dimension Metaklasse verbinden eine FactClass Instanz mit einer DimensionalClass Instanz was durch die entsprechenden Referenzen dargestellt wird Semantisch w
305. elle und konzeptionelle Datenschemata die der implementierungsunabh ngi gen Dokumentation dienen e Organisations bzw branchenspezifische Vokabulare Terminologien und Taxonomien Abbildungen zwischen diesen drei Begriffswerken und den korrespondierenden Elementen im DWH e Informationen ber Organisationsstrukturen und Gesch ftsprozesse e Konzeptionelle Beschreibungen von Berichten Anfragen Kennzahlen etc e Angaben ber die Datenqualit t Das Metadaten Repository kommuniziert mit den anderen DWS Komponenten die entweder Meta daten anfordern z B Schemabeschreibungen oder aber ihrerseits erzeugte Metadaten im Repository ablegen z B Zugriffsstatistiken 3Typischerweise existieren in der Praxis neben einem zentralen Repository bei den einzelnen Werkzeugen lokale Da tenhaltungskomponenten in denen Metainformationen abgelegt werden Siehe hierzu Abschnitt 4 4 2 18 Kapitel 2 Data Warehouse Systeme 2 6 Zusammenfassung In diesem Kapitel wurde eine grundlegende DWS Architektur vorgestellt und die einzelnen Kompo nenten ihre Aufgaben sowie ihr Zusammenspiel beschrieben In der Praxis gibt es mittlerweile eine Vielzahl von Herstellern die einen Teil oder auch das gesamte Spektrum eines DWS abzudecken versuchen Diese Anbieter kommen sowohl aus dem Datenbank sektor z B Oracle wie auch aus dem Bereich betrieblicher Standardsoftware z B SAP Daneben existieren auch diverse meist kleinere Nischenanbiet
306. ellelemente derived elements eine Markierungsunterst tzung in Form eines Schr gstriches der dem jeweiligen Elementnamen vorangestellt wird Rat97a Diese Notation wird f r die UML bernommen so dass abgeleitete Attribute in der Darstellung eines UML Diagramms auch dann erkennbar sind falls die zus tzlichen Elementeigenschaften nicht angezeigt werden Abbildung 6 18 zeigt diese Notation beispielhaft anhand einer FactClass Klasse mit zwei normalen und einem abgeleiteten Attribut dessen Wert sich aus dem Produkt der beiden anderen berechnet lt lt FactClass gt gt Verkauftes Produkt Anzahl Anzahl Einzelpreis Preis Gesamtpreis Preis formula Anzahl Einzelpreis parameter Anzahl Einzelpreis Abbildung 6 18 UML FactClass Instanz mit abgeleitetem Attribut 6 2 3 Verbindungen Als Notationselemente f r die Beschreibung von Verbindungen innerhalb eines Klassendiagramms bietet die UML die f nf Modellierungskonstrukte Association Composition Link Generalization und Dependency Rat97a Ein Link entspricht einer instantiierten Assoziation und kann folglich nicht als Notationselement f r Klassen genutzt werden Das Dependency Konstrukt ist f r Beziehungen zwischen Modellelementen ohne Ber cksichtigung der zugeh rigen Objekte vorgesehen Aufgrund dieser Eigenschaften wird im Folgenden auf die Nutzung dieser zwei UML Elemente verzichtet Der Name einer UML Assoziation bzw Komposition wird dem At
307. eller gt 0 M gt 0 M M gt 0 Produktgruppe M 1 M 1 M 1 Tag Mo gt Monat Mo Quartal Mo gt Jahr M gt 0 M 1 Woche Abbildung 3 11 starER Beispielschema 3 3 Konzeptionelle multidimensionale Datenmodelle 29 Zusammenfassend l sst sich zum starER Modell sagen dass mit dem Erweitern des E R Modells auf einer bew hrten formal fundierten Basis aufgesetzt wird Gegen ber dem MERM bietet es mit Generalisierung und Aggregation erweiterte Beziehungskontrukte an Ebenso positiv ist die Klassifikation der Kennzahlen und ihre darauf aufbauende Additivit t zu erw hnen Negativ sind die unterschiedlichen Beziehungstypen zwischen Entit tsmengen zu bewerten Das in Abbildung 3 12 dargestellte Schemafragment TBC99 ist in dieser Form nicht sinnvoll So bleibt die Frage warum die Halbjahre als Aggregation und nicht als normale Verdichtungspfade modelliert worden sind Ebenso sind die Viele zu Viele Beziehungen zwischen einer Faktmenge und einer Entit tsmenge fragw rdig denn hinter dieser Beziehung verbirgt sich implizit ein weiteres Fakt und sollte daher auch als solches modelliert werden Quartal Hi Jahr C 7 Verkauf A N 1 Halbjahr 2 Halbjahr Produkt Abbildung 3 12 starER Beispielschema Kritische Punkte 3 3 3 ADAPT Application Design for Analytical Processing Technol
308. ellierung der Daten zu Analyse zwecken erm glicht Wesentliches Charakteristikum sind die Unterscheidung der Daten in Fakten und tDimensionen sowie die M glichkeit der Bildung von Hierarchien auf den Dimensionen 346 Glossar Multidimensional OLAP MOLAP Mit werden Datenbanksysteme bezeichnet deren Daten in einem TMDBMS gehalten werden Multidimensionales Schema Schema das mit den Mitteln eines tmultidimensionalen Datenmo dells erstellt wurde Multiple Hierarchie Spezialform der Hierarchie bei der auf eine tHierarchieebene alternativ mehrere folgen k nnen n erlauben somit Verzweigungen innerhalb einer Hierarchie Multiplizit t Beschreibt die Anzahl von tObjekten die an einer FAssoziation oder Komposition beteiligt sein K nnen Navigation Die Betrachtung von Zugriffsm glichkeiten auf tObjekte und ihre Attribute und Methoden innerhalb einer Menge von Objekten Direkt navigierbar werden solche Zugrif fe genannt die ohne Umwege m glich sind Navigierbarkeit Synonym f r Navigation Nestung Fasst mehrere Objekte zu einem Objekt zusammen Nicht vollst ndige Verdichtung Verdichtung an der nicht alle Instanzen einer tHierarchieebene teilnehmen Normalform Eine tRelation ist in einer bestimmten wenn sie eine Menge von Eigenschaften erf llt Definiert sind die 1 bis 5 Normalform und die Boyce Codd Normalform Notiz Kommentar zu einem Diagramm oder einem oder mehreren Elementen ohne semantis
309. elmehr geht der Zeitaspekt der Vergleichspo pulation als Parameter in die Auswertung ein B 37 Dimension Verstorben 335 lt lt Dimension gt gt lt lt DimensionalClass gt gt Vergleichspopulation Vergleichspopulation Zeit Zeit Bezeichnung Text Abbildung B 35 Konzeptionelle Modellierung Dimension Vergleichspopulation Zeit B 37 Dimension Verstorben Die Dimension Verstorben macht eine Angabe zum tumorbedingten Tod Zul ssige Wertepaare sind 1 Patient verstorben 2 Patient nicht verstorben und 3 Fehlende Angabe Unbekannt R lt lt DimensionalClass gt gt lt lt Dimension gt gt V b Verstorben erstorben Bezeichnung Aufz hlungstyp Abbildung B 36 Konzeptionelle Modellierung Dimension Verstorben B 38 Dimension Verwandtschaftsgrad Die Dimension Verwandtschaftsgrad beschreibt der Grad der Verwandtschaft von Familienange h rigen zum Festhalten von Familienanamnesen Zul ssige Werte sind 0 Enkel 1 Kinder 2 Geschwister 3 Eltern 4 Neffen 5 Gro eltern 6 Onkel Tanten 7 Cousins Cousinen 8 Sonstige 9 Fehlende Angabe Unbekannt Bien lt lt DimensionalClass gt gt lt lt gt gt verwandtschaftsgrad 7 Verwandtschaftsgrad Bezeichnung Aufz hlungstyp Abbildung B 37 Konzeptionelle Modellierung Dimension Verwandtschaft B 39 Dimension Zeit Die Dimension Zeit
310. elten in einer E R Notation modelliert Dar ber hinaus bleibt unklar was geschieht wenn bei der Schemavalidierung eine unzureichende Bereitstellung von Daten aus den Quellen festgestellt wird Konstruktion initialer Schemata nach Sinz et al In BE99b BE99a wird ein Verfahren zur Gewinnnung initialer DWH Schemata aus operativen DB Schemata vorgeschlagen Ausgangspunkt ist dabei die E R Variante SERM Sin88 Eine Besonderheit des SERM ist die Forderung dass bei der Visualisierung unabh ngige Entit tstypen auf der linken Seite im Diagramm stehen die abh ngigen dann auf der rechten Seite folgen Das Vorgehen beinhaltet im Wesentlichen die Schritte Identifikation von Kennzahlen Dimensionen und Hierarchien sowie von Integrit tsbedingungen zwischen den Dimensionshierarchien Land I Staat LU Stadt FK Flughafen FK Teilstrecke FK Flugzeugtyp Bi Flugzeug HK Flug FR FK Flugintervall Fluglinie FK Flugzeug Buchungsklasse Buchungsklasse Passagier ER BEE Dimension Buchungsklasse Dimension Flugintervall Dimension Flughafen Geographie Abbildung 5 5 Ableitung initialer DWH Schemata aus operativen Schemata 3SERM Structured Entity Relationship Model 60 Kapitel 5 Entwurf von Informationssystemen W hrend der erste Schritt weitgehend manuell abl uft versucht man im zweiten Schritt von der Vi sualisierungsvors
311. emabh ngige Verfeinerung 9 Physische Optimierung 10 mUML Diagramm Konzeptionell MML Schema Logisch DB Schema unabh ngig Physisch DB Schema systemabh ngig DB Schema systemabh ngig optimiert Abbildung 7 1 Einordnung des Schrittes in den Entwurfsprozess Aufgrund des Fazits von Abschnitt 4 1 besitzen relationale Implementierungen f r DWH die gr te Bedeutung weil ROLAP und HOLAP Systeme die erfolgversprechendsten Realisierungsformen sind Zielschema des logischen Entwurfs ist eine erweiterte Form von Relationenschema Dieser als RE MUS Relational Schema for Multidimensional Purpose bezeichnete Schematyp wird in Abschnitt 7 1 eingef hrt Abschnitt 7 2 beschreibt den Transformationsalgorithmus und demonstriert ihn an hand von Ausschnitten des in Abschnitt 6 5 2 eingef hrten Beispiels Handelswelt Abschnitt 7 3 skizziert kurz die Transformation in nicht relationale Datenmodelle bevor das Kapitel mit einer Zu sammenfassung in Abschnitt 7 4 schlie t 120 Kapitel 7 Logischer Entwurf 7 1 REMUS Relational Schema for Multidimensional Purpose In den folgenden beiden Unterabschnitten werden mit Objekten und Attributen Abschnitt 7 1 1 sowie den unterschiedlichen Metadatentypen Abschnitt 7 1 2 die Bestandteile eines REMUS Schemas eingef hrt 7 1 1 Schema Objekte und Attribute Ein REMUS Schema besteht in Erg nzung zu herk mmlichen Relationenschemata vor allem aus vielf ltigen
312. ematischer Aufbau Modellierungsgrunds tzen aufgestellt Ziel war jedoch keine konkrete Schemabewertung im Sinne einer Messung sondern eher die Erstel lung eines allgemeinen Leitfadens zum Gestalten guter Schemata Tabelle 5 1 f hrt nochmals die genannten Arbeiten auf und bewertet sie anhand der Kriterien Nennt die Arbeit eine Reihe von Oualit tskriterien f r Datenschemata Werden in der Arbeit Metriken und oder Messverfahren zur Bewertung der Qualit tskriterien angegeben Sieht der Ansatz ein explizites Review vor in dem eine projektspezifische Bewertung des Schemas vorgenommen werden kann Gibt es ein Werkzeug das das vorgeschlagene Konzept implementiert Welche Datenmodelle werden unterst tzt Qualit ts Messung Reviews Werk Daten kriterien Metriken zeug modell Bruce Reingruber und Gregory ER Bru91 RG94 Batani Ceri und Navathe ER BCN92 Rishe ER Ris92 Ris93 Moody Shanks ER MS94 Becker Rosemann und Schiitte ER BRS95 BES98 Tabelle 5 1 Vergleich einiger Arbeiten zur Qualit t von Schemata 5 3 3 Pr emptive Ans tze zum physischen Datenbankentwurf In der Praxis werden Optimierungsma nahmen physischer Schemata h ufig nach Faustregeln vor genommen die der Hersteller des eingesetzten DBMS vorgibt oder die dem Erfahrungsschatz der Die Zeichen und geben nur an
313. en erg nzt um den Bereich Verdichtungsoperatoren 6 2 1 Klassen Mittels des Klassenkonstruktes werden Instanzen der drei Metaklassen DataClass DimensionalClass und FactClassFactClass mMUML FactClass UML modelliert da diese die Untermetaklassen der Metaklasse ClassElement sind und daher innerhalb der MML den Notationselementen f r verschiedenartige Klassen entsprechen F r die Zugeh rigkeit einer Klasse zu einer der drei Me taklassen werden Stereotypen definiert die den Namen der ClassElement Untermetaklasse tragen siehe Abbildung 6 14 Klassen mit abweichendem oder fehlendem Stereotyp sind innerhalb eines 6 2 UML Graphische Notation 89 mUML Diagramms nicht erlaubt lt lt FactClass gt gt Verkauf lt lt DimensionalClass gt gt Woche lt lt DataClass gt gt VerkaufsTyp Abbildung 6 14 UML Darstellung von Klassen Die ClassElement Metaklasse ist in der MML von der GeneralizableElement Metaklasse abgeleitet und erbt dadurch die Eigenschaft zur Beschreibung eines abstrakten Schemaelements F r Klassen wird durch die UML ebenfalls diese Abstraktionseigenschaft angeboten so dass sie in der UML f r die Darstellung der isAbstract Eigenschaft verwendet wird Abstrakte Klassen werden durch einen kursiv geschriebenen Klassennamen markiert Zu beachten ist jedoch die durch die MML festgelegte Einschr nkung bei der Definition abstrakter Schemaelemente Besitzt ein Schemael
314. en Anfor derungen des Zielsystems erm glicht MML2REMUS bietet die f r die Transformation eines MML Schemas in ein REMUS Schema notwendigen Abbildungen REMUS2LCD erm glicht die f r die Transformation eines REMUS Schemas in ein LCD of SOL Schema notwendigen Abbildungen LCD2Annotated beinhaltet die f r die Umspeicherung eines LCD of SOL Schemas in ein an notiertes Schema notwendigen Abbildungen PhysFramework realisiert den Prozess der physischen Optimierung MMLmUML bietet Methoden f r die berpr fung von UML Diagrammen und deren Kon vertierung in MML Diagramme Schnittstelle zwischen graphischer Pr sentation und Sprache auf der konzeptionellen Ebene Rose dient der Herstellung einer OLE Object Linking and Embedding Verbindung zu Ratio nal Rose und enth lt durch Rose zur Verf gung gestellte Kapselungsklassen f r den Zugriff auf Rose Modelle und Modellelemente Database dient der Kapselung des Datenbankzugriffs Utility enth lt Hilfsklassen die der Unterst tzung der brigen Komponenten dienen Beispiels weise ist hier eine Smart Pointer Implementierung realisiert Erg nzend werden in der Implementierung folgende Fremdbibliotheken genutzt e Fast durchgehend werden von allen Komponenten Klassen der STL Standard Template Libra ry Jos96 verwendet e Zur persistenten Speicherung verwenden die Bibliotheken MML Remus LCDofSQL und AnnotatedSchema sowohl ODBC Open Database Connectivity als auch OLE D
315. en Datenbestand integrieren Ein entscheidender Unterschied zum Meldeweg mit Einwilligung liegt darin dass Meldungen von ausschlie lich dia gnostizierenden oder begutachtenden rzten f r z B Forschungsvorhaben nicht r ckverschl sselt werden k nnen 12 1 3 Basiszahlen Die folgenden Zahlenangaben sollen die behandelten Mengenger ste verdeutlichen Einwohner im Meldebereich Niedersachsen ca 7 300 000 Erwartete Neuerkrankungen j hrlich ca 40 000 etwa 500 F lle pro 100 000 Einwohner Todesf lle an Krebs j hrlich ca 21 000 25 bis 30 aller Todesf lle Erwartete Meldungen j hrlich mit sog Mehrfachmeldungen ber verschiedene Meldewege ca 60 000 klinische Meldungen 80 000 sog Pathologenmeldungen und 87 000 Todesbeschei nigungen Historie und Zukunft des EKN lassen sich grob anhand von drei Phasen beschreiben In einer Pilot phase in den Jahren 1993 94 wurde der Nachweis der prinzipiellen Funktionalit t eines Landeskrebs registers nach dem im KRG beschriebenen Konzept der Krebsregistrierung gezeigt Ebenso wurde die Entwicklung eines Standards f r epidemiologische Krebsregister zur technischen Umsetzung konkre ter Verfahren vorgenommen die zur Realisierung des im KRG enthaltenen Meldemodells sowie f r die Durchf hrung eines bundesweiten Abgleichs der Krebsmeldungen Kontrollnummern Standar disierung der Erfassungsrichtlinien Einwegverschl sselungsverfahren beitragen Es folgte eine Erprobungsphase in de
316. en Sicht betroffen ist errechnen sich die Kosten in Schreibzugriffen auf das Festspeichermedium wie folgt Sei R die Menge einzuf gender Tupel MV die Menge materialisierter Sichten Dim die Menge der Dimensionen Dann ist f r jedes v MV eine Funktion card Dim Integer definiert die die Kardinalit t der angegebenen Dimension d in der materialisierten Sicht v ermittelt 1 costupdate r Do card Zeit S card v Damit kann die Beschreibung aus 10 19 folgenderma en erg nzen TOCcons Speicherplatz Updatekosten GC Speicherplatz lt 1 2 GByte Updatekosten lt 56 58 Mio Schreibzugriffe Die Menge A selektierter Optimierungsma nahmen bleibt gleich Die Funktion f r die Speicherko sten und die Nebenbedingung bleiben bestehen Neu hinzu kommt fiir die Berechnung der Updateko sten Updatekosten er X costupaate r reR An dieser Stelle k nnte eine Optimierung des Algorithmus vorgenommen werden es wird im letzten Schritt die Opti mierungsma nahme mit gr tem Nutzen realisiert die noch die Nebenbedingung erf llt Dieser Sch tzwert kommt folgenderma en zustande 10000 Produkte 4500 Filialen 30 Tage 10 5 Zusammenfassung Der Workload wird um die Schreibaufgabe erweitert d h tg Nachladen von neuen monatlichen Verkaufszahlen mit de 1 Auch die Optimierungsaufgabe bleibt so bestehen allerdings kommt als zus tzliche Nebenbedingung neben dem Speicherplatz die Bedingung X costu
317. en Universit t Braunschweig Juli 1998 Kemper Hans Georg Architektur und Gestaltung von Management Unterst tzungs Systemen B G Teubner 1999 Kenner Andrea Wie viele Dimensionen hat ein W rfel Informatik Informatique 20 1 3 7 1999 Kimball Ralph The Data Warehouse Toolkit John Wiley amp Sons Inc 1996 K spert Klaus und Jan Nowitzky Partitionierung von Datenbanktabellen Informatik Spektrum 22 2 146 147 April 1999 Kimball Ralph Laura Reeves Margy Ross und Warren Thornthwaite The Data Ware house Life Cycle Toolkit John Wiley amp Sons Inc 1998 Lechtenb rger Jens Data Warehouse Schema Design Dissertation Westf lische Wilhelms Universit t M nster Deutschland Fachbereich Mathematik und Informa tik Juni 2001 Leighton F Thomson Einf hrung in parallele Algorithmen und Architekturen Gitter B ume und Hypercubes Thomson Publishing International 1997 Lee Minsoo und Joachim Hammer Speeding up Warehouse Physical Design Using a Randomized Algorithm In Gatziu Stella Manfred A Jeusfeld Martin Staudt und Yan nis Vassiliou Herausgeber Proceedings of International Workshop DMDW 99 Design and Management of Data Warehouses Juni 1999 Heidelberg Deutschland 1999 Literaturverzeichnis 359 LMSS95 LQA97 LRT96 LS97 LS99 LW96 LY01 Mar98 MBS00 MBSO1 Met99a Met99b Met00 Lu James J Guido Moerkotte Joach
318. en sich komple xe Operatoren und Algorithmen formulieren die ein Schema den Anforderungen des verwendeten DBMS bzw OLAP Servers anpassen Zur Formulierung komplexer Operatoren und Algorithmen im n chsten Abschnitt ist eine Pseudocodesprache definiert die Variablen der Typen Boolean und Integer kennt Cursorobjekte als Variablen verwendet um mengenwertige Resultate handhaben zu k nnen auf den Cursorobjekten seien die navigierenden Operationen MoveFirst MoveNext MovePre vious und MoveLast sowie eine die Anzahl der Cursorelemente liefernde Funktion Count defi niert eine Reihe durch Semikolons getrennte Anweisungen als Sequenz interpretiert als Strukturierungskommandos while und for Schleifen sowie if then else Anweisungen kennt ein forall Konstrukt f r das Navigieren auf einer Menge benutzt Prozeduren mit Variablen als bergabe sowie R ckgabeparameter kennt um Strukturierung und Rekursion zu erm glichen 9 2 2 Beispiel Prim rschl ssel ndern In diesem Abschnitt wird unter Verwendung der elementaren Operatoren und der Kontrollstrukturen ein komplexer Operator f r das ndern des Prim rschl ssels einer Tabelle definiert Die Syntax dieses Operators wird definiert durch changePrimaryKey lt table name gt lt attribute list gt 9 16 Bei Aufruf von changePrimaryKey wird ein neuer Eindeutigkeitsschl ssel ber die angegebenen At tribute angelegt und als Prim rschl ssel der angegebenen Tabelle markiert
319. en und Datentyp wird eine Dimension durch das Attribut changeability charakterisiert das einen Wert aus dem Intervall O 1 der reellen Zahlen annehmen kann und die nderungswahrscheinlichkeit der Dimension angibt Ein AnnotatedLevel Objekt wird schlie lich neben seinem Namen durch die Attribute estimatedSize und estimatedObjects charakterisiert W hrend estimatedSize die gleiche Bedeutung wie das gleichnamige Attribut in der Metaklasse AnnotatedFactAttribute besitzt entspricht estimatedObjects dem Attribut estimatedRows in der Metaklasse AnnotatedFactAttribute 10 2 3 Optimierungsma nahmen Wie in Abbildung 10 9 dargestellt ist eine Optimierungsma nahme Klasse TuningAction durch ihren Typ z B Materialisierung und durch einen Ausdruck in Form eines Methodenaufrufs definiert Eine Optimierungsma nahme kann mehrere aufgabenunabh ngige Kosten verursachen wie z B Speicherplatz eines Index die als Objekte der Klasse TuningActionCost jeweils durch eine Kostenart Attribut type und einen Ausdruck Attribut expression beschrieben werden Optimierungsma nahmen werden zu Mengen Klasse TuningActionSet zusammengefasst die Eingabeparameter f r den Entwurfsprozess sein k nnen 236 Kapitel 10 Physische Datenbankoptimierung TuningActionCost expression ExpressionType type TypeOfCostType costs 0 TuningAction expression MethodCallType type TuningActionType tuni
320. en und Eigenschaften von MML Metaklassen einge f hrt W hrend der Datenmodellierung k nnen Situationen auftreten in denen die Zusammenfassung glei cher Eigenschaften von verschiedenen Schemaelementen die Modellierung vereinfachen und ber sichtlicher gestalten Diese gemeinsamen Eigenschaften k nnen dann mit Hilfe eines verallgemeiner ten Schemaelementes modelliert werden und sind f r alle untergeordneten Schemaelemente g ltig F r die Erstellung dieser abstrahierenden Schemaelemente wird das aus der Objektorientierung be kannte Konzept der Vererbung bernommen das als Abstraktionsmittel die Generalisierung f r die Zusammenfassung von Eigenschaften in einem gemeinsamen Basisschemaelement und die Spezia lisierung zur Modellierung von Unterschemaelementen mit erg nzenden Eigenschaften bereitstellt Jede MML Metaklasse deren Instanzen Spezialisierungen bzw Generalisierungen unterst tzen sol len muss eine Untermetaklasse der GeneralizableElement Metaklasse sein Nur bei Erf llung dieser Voraussetzung kann in einem MML Schema das Generalisierungskonstrukt Generalization verwen det werden Zur Unterscheidung zwischen k nstlich eingef hrten und in der zu modellierenden Diskurswelt tat s chlich existierenden Basisschemaelementen besitzt die GeneralizableElement Metaklasse das At tribut isAbstract Ist dieses Attribut gesetzt so d rfen zur betreffenden Klasse keine Objekte existie ren Als Nebenbedingung muss an dieser Stelle
321. en vorzunehmen 12 5 Zusammenfassung 279 MeasuresLevel Bundesland Bundesland Kennziffer __ Regierungsbezirk Regierungsbezirk Kenn Landkreis Anzahl Alle Ort Alle Ort Gesamt 1 600 000 Gesamt 1 298 Niedersachsen Gesamt 1 598 702 SUUUDUU Gesamt S 1 598 702 Braunschweig Braunschweig Gesamt 317 924 Hannover Hannover Gesamt 337 388 L neburg L neburg Gesamt 567 072 Weser Ems Gesamt 376 310 3400000 Gesamt 376 318 Ammerland 7 786 Aurich 41 525 Cloppenburg 19 465 5 Delmenhorst 1 298 Niedersachsen 3000000 Enden 1298 Emsland 88 240 Weser Ems 2400000 Friesland 11 679 Grafschaft Bentheim 38 929 sue a 33 739 Oldenburg Oldenburg 23 358 Osnabr ck i 50 608 Vechta 2 15 572 Wesermarsch 12 976 Wilhelmshaven 1 298 le Wittmund 28 54A E Abbildung 12 9 OLAP mit dem Microsoft Cube Browser 12 5 Zusammenfassung In Kapitel 12 wurde die Evaluation der in Teil II dieser Arbeit entwickelten Entwurfsmethodik be schrieben Zur Werkzeugunterst tzung f r die Evaluation wurde das in Kapitel 11 entwickelte Werk zeug ODAWA verwendet Dom ne f r die Evaluation war das in Abschnitt 12 1 vorgestellte EKN Weitere Hintergrundinformationen hierzu k nnen z B in AFH 97 ABH 98 EKNO1 nachgelesen werden In Abschnitt 12 2 wurde die Evaluation im engeren Sinne d h das Anwenden der in Teil II beschriebenen Entwurfsschri
322. ename M attribute name c sonst 8 51 Eine Menge von Column Objekten wird erg nzt durch HOptionalupdateSet META Optional x Pot Lcolumn gt Pot LColumn def HOptionaly pdate Set M C U KOptionaltypdate c ceC 8 52 Schlie lich erfolgt die Abbildung aller Optional Metadaten eines Schemas M optional RXL L d Moptionai R L ger L OColumn 8 53 U UOptionalypdateset m Ocotumn ME Moptionat 8 3 Abbildung von REMUS nach LCD of SOL 195 8 3 11 Schritt 9 Multiplizit ten festlegen Ist die im Metadatum spezifizierte Multiplizit t O oder 1 so braucht dieses Metadatum bei der Abbildung ins LCD of SOL Schema nicht ber cksichtigt zu werden Ansonsten wird f r die entsprechende Tabelle ein TableConstraint Objekt angelegt wobei wie in Abbildung 8 19 dargestellt die deterministische Funktion Jdetmuttiplicity Rute ber die konkrete For mulierung dieses Constraint entscheidet Der Ausdruck dieser Konsistenzregel kann wie im Beispiel eine SQL Anweisung sein die mittels Gruppierung die Anzahl der vorhandenen Datens tze des betroffenen Attributs bzw der betroffenen Attributgruppe ermittelt und berpr ft ob sie mit der Multiplizit tsangabe im Metadatum berein stimmt Woche Multiplicity Woche Jahr ForeignID 1 2 fet tablename WOChe Woche ger Woche Jahr Foreign D AttributeName Jahr ForeignID face Woche Multiplicity MultplciyRule
323. enannte oder in der Spezifikation gefundene numerische Attribute Liegen Berichte in ausgedruckter Form vor so sind alle Zahlenwerte vor allem solche auf denen addiert oder eine andere Gruppierungsfunktion ausgef hrt wird m gliche Kennzahlen Liegt w hrend dieser Pha se das Datenschema von OLTP Datenbanken vor die als Datenquelle dienen sind alle numerischen Attribute potenzielle Kennzahlen Schritt 2 Finde Faktklassen Treten zwei oder mehrere der im ersten Schritt identifizierten Kennzahlen stets zusam men auf so sind sie zu einer Klasse zusammenzufassen Schritt 3 Bestimme f r jedes Faktattribut den Datentyp F r jedes Faktattribut ist der Datentyp zu bestimmen was an dieser Stelle im Sinne einer von jeglichen technischen Details abstrahierenden konzeptionellen Modellierung ein sprechender Name sein sollte und kein technischer wie z B LongInteger oder String 10 Schritt 4 Finde Beziehungen zwischen Faktklassen Beziehungen zwischen Faktklassen in Form von Generalisierungen und Kompositionen sind zu analysieren Als Faustregel f r das Nicht Vorliegen einer Generalisierung kann dabei die Pr fung B ist Unterklasse von A wenn man B ist ein A sagen kann her angezogen werden Dieser ist ein Test ist nicht absolut zuverl ssig aber er identifiziert vor allem die negativen F lle d h er bewahrt vor Missbrauch der Vererbung Rum93a F r Kompositionen kann analog ein
324. end der konzeptionellen Modellierung erheblich vertiefen Ein Fakt sollte eine innere Struktur besitzen denn Fakten bestehen nur in Ausnahmef llen aus einer einzigen numerischen Kennzahl Ein Fakt kann einerseits sowohl mehrere Attribute be sitzen die beispielsweise in Form einer Verbundstruktur angeordnet sind und zum anderen k nnen auch textuelle Kennzahlen oder Eigenschaften existieren deren Dom ne ein Aufz h lungstyp ist Die Markierung abgeleiteter Attribute und die Angabe der Berechnungsvorschrift sollten im Datenschema m glich sein Gerade in OLAP Szenarien existieren h ufig eine Reihe abgelei teter Attribute SBHD98a die in dieser Form nicht im Datenbestand enthalten sind sondern sich durch Anwendung einer Funktion aus anderen Kennzahlen berechnen lassen Die Additivit t von Kennzahlen sollte im Schema explizit angegeben werden k nnen denn die falsche Anwendung von Verdichtungsoperatoren kann zu falschen Auswertungen mit m gli cherweise sogar schwerwiegenden Folgen f hren Auch Kennzahlen sollten eine innere Struktur besitzen k nnen um so Zusammengeh rigkeiten bzw Abh ngigkeiten dieser Werte nat rlich abbilden zu k nnen Die Anforderung der Modellierung Komplex strukturierter Dimensionen l sst sich wie folgt pr zi sieren Die Modellierung von Hierarchieebenen sollte m glich sein um die Daten auf einem f r die sp tere Analyse ad quaten Verdichtungsgrad darzustellen Zwischen Hierarchieeb
325. ende Eigenschaften dienen der n heren Beschreibung der quantifizierenden Eigenschaften wodurch diese eine Bedeutung erhalten Faktattribut Bestandteil eines tFakts Fremdschl ssel Attribut oder Attributkombination das die in einer anderen Relation Primiirschliissel ist Extraktion Selektieren von Daten aus den tDatenquellen und deren Bereitstellung zur Datenintegration Front End Bereich Bereich eines Data Warehouse Systems die der Untersuchung und Pr senta tion von Daten dient Die dabei eingesetzten Methoden und Werkzeuge reichen vom einfachen Reporting mit FAbfragewerkzeugen bis hin zu komplexen Analysemethoden wie z B On Line Analytical Processing und tData Mining Funktionale Abh ngigkeit F r eine Relation R mit tAttributen X und Y hei t Y funktional ab h ngig von X genau dann wenn jeder X Wert in R genau einen Y Wert in R bestimmt Ganzes Teil Beziehung Synonym f r FAggregation Generalisierung Modellierungskonstrukt bei dem gleiche Eigenschaften verschiedener Klassen nur einmal f r eine gemeinsame tBasisklasse modelliert werden Siehe auch Vererbung Geordnete Assoziation tAssoziation bei der die Objektverbindungen in bestimmter Weise geord net sind Gerichtete Assoziation Assoziation bei der von der einen beteiligten tAssoziationsrolle zur an deren direkt navigiert werden kann nicht aber umgekehrt Granularit t Stufe des Verdichtungsgrades von Daten innerhalb einer Hierarchie Dabei h
326. enden Datenanalysen doch relativ hnlich sind 270 Kapitel 12 Evaluation lt lt FactClass gt gt T Fall lt lt Dimension gt gt Anzahl 0 oder 1 Typ des Falls Aw lt lt FactClass gt gt Fall ERTE lt lt FactClass gt gt lt lt FactClass gt gt Inzidenzmeldung Sterbemeldung a Modellierung als eine Klasse b Modellierung als Generalisierung Abbildung 12 3 Alternative Darstellungsm glichkeiten der Faktklasse Fall e Das Schema besitzt zwar analyseorientierten Charakter aber einige Aspekte aus dem alten Schema sind nicht in der gleichen Form realisiert z B die Darstellungsebene die Auswer tungen wie Niedersachsen auf Kreisebene zul sst Dies ist eine Vermischung von Schema und Daten und kann wesentlich effizienter von einer Applikation oder der Datenbank mittels einer Abfrage realisiert werden wie in Abbildung 12 4 skizziert Darstellungsebene Niedersachsen auf Kreisebene SELECT Ort Landkreise FROM Ort WHERE Ort Land Niedersachsen Instanz Schema Abbildung 12 4 Darstellungsebene Aufgrund der hohen Dimensionalit t existieren viele Abh ngigkeiten zwischen den Dimensionen Sechs Abh ngigkeiten ergeben sich durch die Modellierung des Falles als eine Faktklasse z B d rfen Angaben zur Todeszeit nur bei Mortalit tsmeldungen auftreten 25 bestehen zwischen Paaren von Dimensionen z B k nnen bestimmte Di
327. endet 103 Raucherstatus 4 Seite 5 Staatsangeh rigkeit 223 Therapieart 8 Therapiestatus 4 Therapieziel 4 Todesursache siehe Diagnose Todeszeit siehe Zeit Tumorausbreitung 8 Tumorbedingter Tod 4 Tumorfolge 3 Typ des Falles 2 Validit t 4 Verstorben 3 Verwandschaft 10 Zeit 120 Tabelle 12 7 Mengenger st der einzelnen Dimensionen Zur Erzeugung der Faktdaten wurde ein Algorithmus zum Testdatengenerieren gew hlt der f r die unterschiedlichen Auspr gungen der Dimensionen unterschiedliche Verteilungen vornimmt Die Annahmen ber diese Verteilungen wurden den aktuell vorliegenden Daten der aktuellen EKN Datenbank entnommen 278 Kapitel 12 Evaluation 12 3 2 Applikationen Aufbauend auf dem DWH wurden exemplarisch Applikationen realisiert die in diesem Abschnitt durch Bildschirmfotografien dokumentiert werden Zum einen wurde mit der Berichtskomponente von Microsoft Access die in EKN96 definierten Berichte nachgebildet siehe Abbildung 12 8 und zum anderen wurden Microsoft Excel und der Microsoft Cube Browser als OLAP Client verwendet siehe Abbildung 12 9 Bericht Allgeimen Angaben zur Inzidenz und Mortalit t Fall Idir Ikum Alter Diag Fall Idir Ikum Alter Diag BRD87 Welt 0 64 0 74 Med BRD87 Welt 0 64 0 74 Med mM as 252 1221 osf sef rof 128 e saf eaj oaf Dal 4 rn rn der std Raten ae oa a Quotient aim der a Raten En BRDET z Erfasste altersspezifische Inzidenz Alter
328. enen sollte die Darstellung von Verdichtungspfaden m glich sein um Verdichtungspfade f r potenzielle Auswertungen definieren zu k nnen Die Struktur sollte ein gerichteter azyklischer Graph DAG sein denn eine reine Baumstruk tur schr nkt die Modellierungsm glichkeiten erheblich ein Dar ber hinaus k nnen zwischen Hierarchieebenen weitere Beziehungen wie Generalisierun gen und Assoziationen bestehen die ebenfalls explizit formuliert werden sollten 3Directed acyclic graph 3 2 Datenmodellanforderungen 25 In der Hierarchiestruktur sollten Mehrfachhierarchien m glich sein In der Hierarchiestruktur sollten alternative Verdichtungspfade m glich sein In der Hierarchiestruktur sollten unbalancierte Hierarchien m glich sein Bei der Verdichtung sollte die Darstellung anteiliger Verrechnungen m glich sein Die Modellierungssprache sollte ein Konzept zur Handhabung nicht vollst ndiger Verdichtun gen anbieten F r jede Hierarchieebene sollten dar ber hinaus zus tzliche Attribute definierbar sein die nicht unmittelbar der Hierarchiebildung dienen weil die Dimensionsstrukturen allein keine n heren Informationen ber die qualifizierenden Daten enthalten Diese Dimensionsattribute K nnen sp ter w hrend der Analysephase von den Anwendern f r eine dynamisch entstehende Struk turierung der Dimensionen verwendet werden F r jede Hierarchieebene sollten Schl sselattribute definiert werden k nnen Innerhalb
329. ensionalClass det 7 15 gt Ydi d P mit i 1 k dde Pj d ist Vorg nger von d und da Damit l sst sich in 7 16 dieser Teilschritt f r ein Element der Zerlegung darstellen TDimensionalClass Pot M DimensionalClass KRZR TDimensionalClass P R OW Fiebre P AU P faetctassname P LD KeyType U Ylfdetonsenane P Type IdentifierV alueType P gt 1 M U fdetorassname P ObjectType Relation Dimension 7 16 U fdetorassname P PrimaryKey Y fdetorassname P JD faetctasswome P Identifier DI faetciasswame P Type P gt 1 b ten P Type IdentifierValue p name p P A p isAbstract FALSEY U U Das Transformieren der gesamten Zerlegung ist in 7 18 definiert Zweck dieser Hilfsfunktion ist die Kapselung so dass die in 7 18 definierte Transformation die gleiche Signatur wie die anderen Transformationsschritte tragen kann Sei Pe P die in 7 15 definierte Zerlegung von M pimensionalClass TDimensionalClass Help MxR R 7 17 TDimensionaiClass Heip M R TDimensionalClass P R P eP TDimensionalClass MXR gt R 7 18 def TDimensionalClass M R T DimensionalC lass Help M R Die auf Seite 126 eingef hrte Funktion r die einer Klasse eines MML Schemas die Relation des REMUS Schemas zuordnet auf die sie abgebildet wird l sst sich an dieser Stelle als a d gef
330. ensionalClass name Produktgruppe lt lt DimensionalClass gt gt isAbstract FALSE Produktgruppe type Bezeichnung Text ap lt lt RollUp gt gt RollU Produktgruppe propertyName Produktgruppe lt lt DimensionalClass gt gt Artikel owner Bezeichnung Text Artikelcode ArtikelcodeTyp DimensionalClass name Artikel isAbstract FALSE en Objekte Attribute Artikel Produktgruppe ForeignID ForeignKeyType Metadaten Artikel Produktgruppe ForeignID Reference Produktgruppe ID Artikel Multiplicity Artikel Produktgruppe ForeignID 1 Artikel Produktgruppe RollUp Produktgruppe ALL_TYPES ALL_TYPES Artikel Produktgruppe ForeignID Produktgruppe ID COMPLETE Abbildung 7 10 Transformation von RollUp Instanzen 136 Kapitel 7 Logischer Entwurf Aufgrund der sich nur geringf gig unterscheidenden Transformationsvorschriften werden RollUp und NonCompleteRollUp Instanzen einheitlich behandelt werden Als Voraussetzung daf r werden in 7 22 die zwei Hilfsfunktionen Calculate Multiplicity und Calculate rouvpType definiert Calculate RouupType M rotttp U MN onCompleteRollUp COMPLETE NONCOMPLETE COMPLETE falls r ist vom Typ RollUp def Ad r owner r owner CalceulateRouvpType r NONCOMPLETE sonst Calculate Multiplicity MRouup U MNonCompleteRotup gt
331. ensionalen Raum ein im zweiten dienen sie der Konsistenzsicherung Tabelle 6 1 fasst nochmals die in einem MML Schema zul ssigen Verbindungen zusammen DataClass DimensionalClass FactClass DataClass Generalization Composition DimensionalClass Association Association Generalization RollUp M NonCompleteRollUp M SharedRollUp M DimensionalMapping FactClass Association Generalization Dimension M Composition Diese Vorgehensweise begr ndet sich darin um z B im Abschnitt Verbindungstypen eine bersicht ber alle m gli Tabelle 6 1 MML Erlaubte Verbindungstypen chen Verbindungen zu haben 88 Kapitel 6 Konzeptioneller Entwurf Zyklenfreiheit e WF ZFl Bei Benutzung von DataClass Instanzen als Attributtyp in anderen Data Class Instanzen Aufbau von geschachtelten Verbunden muss diese Verwendung zy klenfrei sein e WF ZF2 Kompositionshierarchien d rfen keine Zyklen enthalten e WF ZF3 Vererbungshierarchien d rfen keine Zyklen enthalten e WF ZF4 Durch RollUp NonCompleteRollUp und SharedRollUp Instanzen aufgebaute Hierarchien von DimensionalClass Instanzen d rfen keine Zyklen enthalten Mehrfachvererbung e WF MV1 Mehrfachvererbungen sind erlaubt gleichbenannte Attribute m ssen aber auch das semantisch gleiche beschreiben damit keine Namenskonflikte auftreten k n nen e WF MV2 Erbt die Instanz einer DimensionalClass Metaklasse mehrf
332. enspezifischen Datenstrukturen ausgelesen und in die Datenstrukturen des Transformati onsbereichs berf hrt Aufgrund der u U gro en Datenvolumina kann eine Komprimierung der zu transferierenden Daten sinnvoll sein Die Zeitpunkte an denen eine Extraktion durchgef hrt wird sollten je nach Bedarf unterschiedlich gew hlt werden Es werden folgende prinzipielle Vorgehens weisen unterschieden KRRT98 Periodisch Die Extraktion wird in periodischen Zeitabst nden durchgef hrt wobei die Peri odendauer von der Dynamik der Daten bzw von den gestellten Anforderungen an die Aktualit t der Daten abh ngt So sind z B B rsenkurse oder Wetterdaten i Allg mehrmals t glich zu aktualisieren w hrend Daten ber technische Spezifikationen von Produkten typischerweise best ndiger sind und daher mit einer l ngeren Periodendauer auskommen Anfragegesteuert In diesem Fall wird die Extraktion durch eine explizite Anfrage angesto en Wenn beispielsweise eine Produktgruppe um einen neuen Artikel erweitert wird so kann die Extraktionskomponente angewiesen werden die in den operativen Quellen zu diesem neuen Artikel gespeicherten Informationen in das DWS zu bertragen Ereignisgesteuert H ufig ist es sinnvoll einen Extraktionsvorgang durch ein Zeit Datenbank oder externes Ereignis auszul sen Ein typisches Datenbankereignis w re bei spielsweise das Erreichen einer 3 priori festgelegten Anzahl von nderungen Ein externes Ereignis w rde
333. ente zu Transformationsvorschriften kombinieren lassen Als letzter Schritt des Entwurfsprozesses erfolgt die physische Optimierung des bis zu diesem Zeitpunkt erreichten Schemas Hierf r wurde ein Framework vorgestellt das die gleichzeitige Behandlung verschiedener Optimierungsma nahmen erm glicht Zum Nachweis der Umsetz und Anwendbarkeit der vorgestellten Konzepte erfolgte die soft waretechnische Realisierung in Form eines Prototypen der in einer anschlie enden Evaluati on anhand des Realweltbeispiels Epidemiologisches Krebsregister Niedersachsen eingesetzt wurde Der Notation aus Abschnitt 5 1 folgend ergibt sich zusammenfassend der in Abbildung 13 1 darge stellte Entwurfsprozess Die Zahlen in Klammern verweisen auf den jeweiligen Abschnitt der Arbeit in dem der entsprechende Schritt bzw die entsprechende Notation ausf hrlich behandelt werden 13 2 Erweiterungen der Methodik Neben den erreichten Zielen wurden im Rahmen der Arbeit an einigen Stellen Einschr nkungen vor genommen bzw wurde auf bestehende Probleme hingewiesen Einige dieser Einschr nkungen oder Probleme bilden den Ausgangspunkt f r m gliche zuk nftige Arbeiten z B e Zun chst ist die Abrundung des Werkzeuges zu nennen indem noch fehlende oder nur sehr rudiment r gestaltete Teile implementiert werden Ebenso k nnte das Werkzeug um Konzepte wie Zugriffsrechte ein Hilfesystem oder Versions bzw Variantenmanagement erweitert wer den e
334. ente dieser Modelle ist festzulegen e Die konzeptionelle Entwurfsebene als zentraler Punkt der Methodik k nnte ausgebaut werden wobei der Charakter einer Workbench von Werkzeugen f r die konzeptionelle multidimensio nale Modellierung verfolgt werden kann Denkbar sind beispielsweise Werkzeuge die Konzep te und Verfahren des Requirements Engineering in die Phase der konzeptionellen Modellierung einbinden e Der die physische Optimierung behandelnde letzte Entwurfsschritt der Methodik k nnte ausge baut und verfeinert werden Insbesondere kann hier ein Konzept entwickelt werden wie w h rend des laufenden Betriebs des DWH gewonnene Log Informationen wieder als Eingabe in den Optimierungsprozess genutzt werden k nnen e Bisher ber cksichtigt der Entwurfsprozess keine Verteilung Dementsprechend k nnten Kon zepte zur Verteilung auf mehrere DBen konzipiert und in die Methodik integriert werden Dabei k nnen aus dem Bereich verteilter und paralleler DBen bekannte Verteilungstechniken 286 Kapitel 13 Zusammenfassung und Ausblick Rah94 OV99 unter Ber cksichtigung des multidimensionalen Datenmodells und Analyse spezifischen Aspekten untersucht werden Die Methodik k nnte dahingehend ausgebaut werden dass als Resultat neben der Erzeugung eines DWH Schemas auch z B Berichte automatisch generiert werden oder mit einem Lade werkzeug kommuniziert wird Die Methodik unterst tzt bisher ein reines Forward Engineering Insbeso
335. eptualKey attribute name Identifier R Identifier A relation name Identifier attribute name Identifier Value A IdentifierValue Vi Va attribute name IdentifierValue values Multiplicity R Multiplicity A1 An M relation name Multiplicity attributes multiplicity ObjectType O ObjectType T D object name ObjectType type description Optional R Optional A relation name Optional attribute name PrimaryKey R PrimaryKey A relation name PrimaryKey attribute name Fortsetzung auf der folgenden Seite 176 Kapitel 8 Relationaler Entwurf Fortsetzung von der letzten Seite Reference A Reference A gt fk Attribute name Reference pk Attribute name Valid A Valid I V Vn attribute name Valid identi fier name values Tabelle 8 5 REMUS Langform Kategorie A Metadaten REMUS Kategorie B Metadaten Langform Additivity A R Additivity D F O fact Attribute name dimensional Relation name Additivity dimension factRelation name allowedOperators Association R Ra Association Rz Li Lo Ti Ta Pri Fr Pra Fra dimensional Relation A name dimensional RelationB name Association intermediate Rel
336. eptualKey 67 Identifier 0 IdentifierValue 0 Multiplicty 166 ObjectType 74 Optional 0 PrimaryKey 200 Reference 163 Valid 0 Kategorie B Metadaten Additivity 268 Association 0 Composition 3 Dimension 163 DimensionalMapping 4 RollUp 10 SharedRollUp 0 Tabelle 12 3 Anzahl der erzeugten REMUS Schemaelemente 12 2 Anwenden der Entwurfsmethodik 273 12 2 5 Physischer Entwurf Das im letzten Abschnitt erzielte logische Schema wird nun mittels der in Abschnitt 8 3 definier ten Transformation in ein LCD of SOL Schema berf hrt Durch Anwendung der deterministischen Funktion fae wurden dabei Umlaute Leerzeichen etc eliminiert Im ersten Schritt der Transformati on der die Abbildung der Datentypen realisiert wurden die in Tabelle 12 5 aufgef hrten Zuordnun gen vorgenommen Der erste Eintrag in der rechten Spalte jeder Zeile gibt dabei den Datentyp aus dem Common Data Types Modell des OIM an siehe Abschnitt 8 2 7 die weiteren Eintr ge in der rechten Spalte die entsprechenden Wertzuweisungen an die Variablen des ColumnType Objektes im LCD of SOL Schema Abbildung der Datentypen REMUS LCD of SOL 0 oder 1 ShortInt Abk rzungsTyp String Wahr oder falsch Boolean ForeignKeyType LongInt Ganze Zahl zwischen 0 und 9999 ShortInt range 0 9999 numericPrecision 5 isUnsignedAttribute TRUE GebietTyp String ICD 9 ICD 10
337. er Auf eine Nennung konkreter Anbieter und Werkzeuge wird jedoch auf Grund der schnellen Alterung solcher Informationen an dieser Stelle verzichtet Stattdessen sei auf die Markt bersichten und Studien Ovu98 MBS00 MBS01 hingewiesen Die Auswahl fiel auf diese Studien weil sie regelm ig aktualisiert werden z B Ovu98 viertelj hrlich Kapitel 3 Multidimensionale Datenmodelle Gegenstand dieses Kapitels sind multidimensionale Datenmodelle Dabei werden zun chst in Ab schnitt 3 1 die Grundbegriffe eingef hrt Anschlie end werden in Abschnitt 3 2 aus der Literatur her ausgearbeitete Anforderungen an konzeptionelle multidimensionale Datenmodelle gestellt bevor in Abschnitt 3 3 konkrete Modelle pr sentiert werden Ein Vergleich dieser unterschiedlichen Modelle erfolgt in Abschnitt 3 4 bevor eine Zusammenfassung in Abschnitt 3 5 das Kapitel abschlie t 3 1 Grundbegriffe Zur Einf hrung der Grundbegriffe multidimensionaler Datenmodelle soll das folgende Szenario die nen In einem Unternehmen sollen die Verkaufszahlen von Produkten pro Tag und Filiale analysiert werden relevante Zeiteinheiten neben dem Tag sind Woche Monat Quartal und Jahr die Produkte sollen einerseits zu Produktgruppen andererseits zu Marken und Herstellern zusammengefasst wer den k nnen Filialen k nnen immer einer Stadt zugeordnet werden diese einer Region und diese wiederum einem Land 3 1 1 Statische Aspekte Hauptcharakteristikum multidime
338. er Owner Menge wird Transformation 7 50 in 7 51 auf die gesamte Owner Menge zur Berechnung siehe 7 44 erweitert TDimensionset M Dimension X R gt R d TDimensionset d R ae U T Dimension ds R 7 51 JeOwner d Kapitel 7 Logischer Entwurf Alle Dimension Instanzen eines Schemas werden schlie lich mittels 7 52 konvertiert TDimensin MXR gt R d TDimension M R Li U TDimensionset d R 7 52 dEM Dimension 7 2 11 Schritt 10 Transformation von Additivity Schemaelementen F r jede Faktattribut Dimension Kombination wird im REMUS Schema ein Metadatum angelegt Die Menge der zul ssigen Verdichtungsoperatoren wird durch die deterministische Funktion fdetaa ditivigy bestimmt Abbildung 7 23 zeigt das Vorgehen exemplarisch f r das Attribut Anzahl bez der Dimension Zeit DimensionalClass lt lt DimensionalClass gt gt name Tag connection Tag isAbstract FALSE Bezeichnung TagTyp type additivity lt lt Dimension gt gt Additivity Dimension Additivit Zeit allowedOperators ALL propertyName Zeit allowedOperators ALL additivity lt lt FactClass gt gt owner Verkaufszahl FactClass Anzahl St ckzahlTyp name Verkaufszahl isAbstract FALSE attribute een Objekte Attribute Metadaten Verkaufszahl Anzahl Tag Additivity Zeit Verkaufszahl ALL
339. er g ngigen Literatur In einigen Quellen z B ZS99 wird darauf hingewiesen dass die Welt in Wirklichkeit nicht so schwarzwei ist So k nnen in bestimm ten Anwendungsszenarien auch in den OLTP Systemen historisierte Daten existieren z B Status bei Bestellungen oder bestimmte Anwendungen z B Marketing Kampagnen k nnen ein Schreiben auf das DWH verlangen Ebenso wird man in der Praxis in den operativen Systemen nicht durchg n gig auf normalisierte Schemata treffen 14 Kapitel 2 Data Warehouse Systeme 2 3 2 Data Marts Die Realisierung eines zentralen DWH ist in einigen F llen konzeptionell oder technisch schwer durchsetzbar Beispielsweise kann eine solche L sung zu teuer sein oder das Projekt seiner Ent stehung zu komplex oder ressourcenintensiv Technische Probleme kann eine zentrale L sung hinsichtlich der Skalierbarkeit bei steigender Benutzerzahl und oder anwachsenden Datenbest nden aufwerfen Aus diesem Grunde haben sich Data Marts kleine DWHs als L sung etabliert was aus Datenbanksicht einer Verteilung des DWH Datenbestandes entspricht Prinzipiell lassen sich die beiden in Abbildung 2 2 dargestellten Auspr gungen unterscheiden Abh ngige Data Marts sind Extrakte aus einem zentralen integrierten DWH w hrend unabh ngige Data Marts als isolierte Sichten auf die Quellsysteme ohne Verwendung einer gro en gemeinsamen Datenbasis realisiert werden Abbildung 2 2 Abh ngige
340. erapieziel Die Dimension Therapieziel beschreibt den mit der Therapie verfolgten Zweck Zul ssige Wertepaare sind l Kurativ 2 Palliativ 3 Adjuvant 4 Supportiv 5 Neoadjuvant 6 Explorativ 7 Sonstige und 9 Fehlende Angabe Unbekannt lt lt DimensionalClass gt gt Therapieziel Bezeichnung Aufzahlungstyp lt lt Dimension gt gt Therapieziel Abbildung B 28 Konzeptionelle Modellierung Dimension Therapieziel B 29 Dimension Todeszeit Die Dimension Todeszeit macht eine Angabe zur Zeit des Todes Sie wird dabei in der Form Monat Jahr angegeben und benutzt die gleichen Klassen und Verdichtungspfade wie die Dimension Zeit siehe Abbildung im Abschnitt B 39 B 30 Dimension Tumorausbreitung Die Dimension Tumorausbreitung beschreibt die Ausbreitung des Tumors die sog T Angabe Zul ssige Werte sind Zul ssige Werte sind is a 0 I 2 3 4 und X B 31 Dimension Tumorbedingter Tod 333 lt lt DimensionalClass gt gt 4 Tumorausbreitung Bezeichnung Text lt lt Dimension gt gt Tumorausbreitung Abbildung B 29 Konzeptionelle Modellierung Dimension Tumorausbreitung B 31 Dimension Tumorbedingter Tod Die Dimension Tumorbedingter Tod beschreibt die m gliche Todesfolge aufgrund des Tumors Zul ssige Wertepaare sind l Tod durch diesen Tumor bed
341. ere Objekt zusammenfasst Die Klassen dieser Objekte lassen sich in folgende Bereiche unterteilen Relational Basics siehe Abschnitt 8 2 2 stellt mit Tabellen Attributen und Datentypen die fundamentalen Elemente des relationalen Modells zur Verf gung Die im Bereich Keys siehe Abschnitt 8 2 3 zusammengefassten Klassen bieten die M glich keit Eindeutigkeitsschl ssel insb Prim rschl ssel und Fremdschl ssel zu definieren Unter Verwendung dieser Schl ssel besteht die M glichkeit mit Hilfe von Instanzen der Klas sen im Bereich Referential Integrity siehe Abschnitt 8 2 4 referentielle Integrit tsregeln fest zulegen Dar ber hinausgehende Integrit tsregeln werden durch Instanzen der Klassen aus dem Bereich Constraints siehe Abschnitt 8 2 5 festgelegt wobei je nach Granularit t des Constraint zwi schen Datenbank Tabellen und Spalten Constraint unterschieden wird Im Bereich Meta Data siehe Abschnitt 8 2 6 sind Metaklassen angeordnet deren Objekte Informationen aufnehmen die sich nicht als Constraints in der Datenbank repr sentieren lassen Die im Bereich Data Types siehe Abschnitt 8 2 7 befindlichen Metaklassen stellen Datentypen zur Verf gung die von Attributen anderer Metaklassen verwendet werden In den folgenden Abschnitten werden die Metaklassen der einzelnen Bereiche detailliert vorgestellt eine Beschreibung der einzelnen LCD of SQL Metaklassen kann in Her01b nachgelesen werden Alle Klassen erben
342. erhin d rfen keine zwei DimensionalClass Instanzen ber eine Komposition verbunden sein Diese Restriktion ist darin begr ndet dass Kompositionen zwischen DimensionalClass Instanzen eine Hierarchie bilden Hierf r aber stehen die speziellen RollUp bzw NonCompleteRollUp Konstrukte zur Verf gung siehe Seite 85 Das Schemaelement der Beziehung endB ist Besitzer des ber endA verbundenen Schemaelements so dass die Existenz der Objekte in endA durch endB bestimmt sind Generalisierungsbeziehungen zwischen Instanzen der bereits vorgestellten GeneralizableElement Hilfsmetaklasse werden mittels der Generalization Metaklasse modelliert die jeweils zwei Metaklasseninstanzen miteinander verbindet und ber die parent bzw child Referenz die Rolle als Basis oder Unterklasse zuordnet Eine Generalisierungsbeziehung kann nur zwischen zwei Schemaelementen derselben Untermetaklasse von GeneralizableElement etabliert werden beispielsweise d rfen FactClass Instanzen nur von anderen FactClass Instanzen erben Durch die in Abbildung 6 9 abgebildete Computation Metaklasse werden in der MML Berechnungen unterst tzt Sie k nnen f r abgeleitete Attribute sowie SharedRollUp siehe Seite 86 und DimensionalMapping Konstrukte siehe Seite 85 verwendet werden SharedRollUp DimensionalMapping FF g3 gt 7 f 0 Daut computation computation ConnectionElement q Computation formula FormulaEx
343. erkauf ALL_TYPES ALL_TYPES 9 Verkauftes Produkt Tag ForeignID Tag ID DimensionalMapping Ort des Verkaufs Strassenbereich DimensionalMapping 7 Abbildung Ort des Verkaufs nach Strassenbereich ALL_TYPES ALL_TYPES Berechnung von Geographische Abbildung Identifier Ort des Verkaufs Identifier Ort des Verkaufs Type 3 Identifier Value Ort des Verkaufs Type IdentifierValue Filiale Kaufhaus 3 Multiplicity Artikel Multiplicity Artikel Produktgruppe ForeignID 0 5 Einkommen Multiplicity Einkommen Quartal ForeignID 0 9 Einkommen Multiplicity Einkommen Strassenbereich ForeignID 0 9 Filialkategorie Multiplicity Filialkategorie Filialoberkategorie ForeignID 0 5 OC Monat Multiplicity Monat Quartal ForeignID 0 5 Ort des Verkaufs Multiplicity Ort des Verkaufs Filialkategorie ForeignID 0 5 Ort des Verkaufs Multiplicity Ort des Verkaufs Stadt ForeignID 0 5 Ort des VerkaufsArtikel Multiplicity 6 C Ort des VerkaufsArtikel Artikel ForeignID 0 OC Ort des VerkaufsArtikel Multiplicity 6 C Ort des
344. erkn pft werden Eine Menge von Drillingbeziehungen bildet einen Dimensionspfad sofern einige strukturelle Bedingungen erf llt sind Ein oder mehrere Dimensionspfade die gemeinsame Dimensionsebenen haben bilden eine Dimension Schlie lich sind Multidimensional Aggregation Cubes MAC als Beziehung zwischen den Dom nen einer oder mehrerer Dimensionen definiert Ein MAC kann eine oder mehrere Kennzahlen haben von denen jede ein atomares Attribut der durch den MAC definierten Beziehung ist Die Instanz eines MAC wird als W rfel Zelle MAC cell bezeichnet Die graphischen Notationsprimitive sind in Abbildung 3 23 dargestellt peg Oe Peel e Dimensions Drilling Dimensions ebene Beziehung pfad Dimension MAC Attribute Abbildung 3 23 Konstrukte des MAC Modells 36 Kapitel 3 Multidimensionale Datenmodelle Als Besonderheit verf gt das MAC Modell ber die M glichkeit der Definition von Analysepfaden analysis paths die das Aufsp ren der Dimensionshierarchien w hrend der konzeptionellen Mo dellierung erleichtern soll Dem Problem des Zusammenf hrens nicht vollst ndiger Verdichtungen siehe Abschnitt 3 1 1 auf Seite 21 wird im MAC Modell mit Hilfe einer ALL Ebene begegnet die wieder alle Elemente der Dimension zusammenfasst Die Modellierung des Beispiels erfolgt in Abbildung 3 24 ALL Region Filiale Produkt 3 L Verka
345. ertreters Feststellen aller relevanten Sach verhalte und aller modellierten Sachverhalte Metrik Quote nicht abgedeckter Sachverhalte bez der Anforderungsdefiniti on oder dem Dom nenwissen eines Fachvertreters Automatisierbarkeit Nein Objektivit t Objektiv Fortsetzung auf der folgenden Seite 102 Kapitel 6 Konzeptioneller Entwurf Fortsetzung von der letzten Seite Kriterium Detaillierungsgrad Beschreibung Ist die Schematiefe angemessen Relevanz Kriterium bedeutend im Hinblick auf sp tere Benutzerakzeptanz Bei den potenziellen Analysen ist es wichtig einen vom Benutzer vorge gebenen kontextabh ngigen Detaillierungsgrad zu erreichen der eine gute Entscheidungsgrundlage bietet Messung Durch Review eines Fachvertreters Feststellen des ben tigten Detail lierungsgrades f r jedes Fakt und jede Dimension Angemessenheit der Spr nge zwischen den Hierarchie Ebenen Metrik Quote nicht ausreichend detaillierter Sachverhalte Automatisierbarkeit Nein Objektivit t Objektiv Kriterium Vollst ndigkeit Beschreibung Ist das Schema vollst ndig bez der gestellten Anforderungen Relevanz Kriterium ist sehr wichtig denn Ziel der konzeptionellen Modellierung ist ein vollst ndiges Schema Messung Folgt aus den beiden zuvor diskutierten Kriterien Umfang und Detail lierungsg
346. erung B 36 Konzeptionelle Modellierung B 37 Konzeptionelle Modellierung B 38 Konzeptionelle Modellierung B 39 Konzeptionelle Modellierung Konzeptionelle Modellierung Konzeptionelle Modellierung Konzeptionelle Modellierung Konzeptionelle Modellierung Dimension Autopsie 324 Dimension Beruf 324 Dimension C Faktor 325 Dimension Diagnose 22 222 325 Dimension Diagnoseanlass 326 Dimension Diagnosesicherung 326 Dimension Differenzierungsgrad 326 Dimension Denter 327 Dimension Fernmetastasen 327 Dimension Geschlecht 327 Dimension Histologie 328 Dimension Lokalisation 328 Dimension Lymphknoten 328 Dimension Mehrling 329 Dimension Ort 2 2 2 onen 329 Dimension Typ 2 2 2 2 onen 330 Dimension Qualit t 2 2 2 222m 330 Dimension Rauchen Beendet 330 Dimension Raucherstatus 331 Dimension Seite 2 2 2 none 331 Dimension Staatsangeh rigkeit 331 Dimension Therapieart 332 Dimension Therapiestatus 332 Dimension Therapieziel 332 Dimension Tumorausbreitung 333 Dimension Tumorbedingter Tod 333 Dimension Tumorfolge 333 Dimension Typ des Falle 334 Dimension Validit t 0 334 Dimension Vergleichspopulation Ort 33
347. es FactClassAttributes f def Update Attribute c Update Attribute cn_1 See 7 45 Update Attribute ca Update Attribute c CalcFactClassAttributes f yon Schritt 8c Faktrelationen und attribute anlegen Nachdem nun alle Generalisierungen und alle Kompositionen aufgel st sind k nnen Fak trelationen und unter Ausnutzung der in den FactClassAttributes Mengen gespeicher ten Informationen die zugeh rigen Attribute angelegt werden Sei dazu f r alle f M FactClass eines MML Schemas M M mit Relation f eine boolesche Funktion definiert de ren Wert bestimmt ob f r f eine eigene Relation angelegt wird oder nicht Relation f liefert genau dann FALSE wenn f abstrakt ist oder wenn f als einzige Verbindung in Kompositionen auf der De 7 2 Transformationsalgorithmus 151 tailseite mit einfacher Multiplizit t erscheint Das Anlegen einer einzelnen Faktrelation ist in 7 46 definiert TFactClass MractClass X R gt R TFactClass f R O U f name A 7 46 def M U f name ObjectType Relation Fact o falls Relation f TRUE R sonst Alle Faktrelationen werden mittels 7 47 angelegt TFactClass MXR gt R d TFactClass M R os U TFactClass f R 7 47 FEM FactClass Nun kann in 7 48 die Abbildung f r das Anlegen eines einzelnen Faktattributes definiert werden Da bei sind als zus tzliche Argumente der Name der Klasse die Angabe ber Optionalit t des Attribut
348. es und ber die Multiplizit t notwendig da diese Informationen in den FactClassAttributes Mengen abgespeichert sind TFactAttribute M FactClass X M FactClass Attributes XR gt R def TFactAttribute f a R O AU 4 f name D oni ott M U f name Optional b f name a n a o TRUE U f name AggregatedAttribute 7 f name a n a m a a TRUE U It Berechnung von Attribut a n Computation 7 48 a computation parameter f name a computation 0 Das endg ltige Anlegen aller Faktattribute im Schema wird mittels 7 49 realisiert T Fact Attribute MxR AR def Tract Attribute M R A U U TFactAttribute f Q R JEMFaetClass a FactClass Attributes f 7 49 F r das Beispiel Handelswelt muss f r die Komposition Verkauftes Produkt entschieden werden welche der vier auf Seite 148 vorgestellten M glichkeiten gew hlt werden soll Aufgrund der An forderungen an das System und der damit verbundenen zu erwartenden Auswertungen sollen hierbei die beiden Dimensionen Ort Verkauf und Zeit Verkauf an die Detailklasse bertragen werden M glichkeit ID Dazu werden die Mengen Owner Ort Verkauf und Owner Zeit Verkauf wie in Abbildung 7 18 zu sehen jeweils um das Element Verkauftes Produkt erweitert 152 Kapitel 7 Logischer Entwurf T lt lt Dimension gt gt Zeit Einkommen lt lt Dimension gt gt Or
349. es_Verkaufs den Typ Filiale besitzt d h der Prim rschl ssel der Tabelle Filialkategorie darf nur dann als Fremdschliissel in Tabel le Ort_des_Verkaufs eingetragen werden wenn das Attribut Type von Ort_des_Verkaufs den Wert Filiale besitzt Diese Bedingung l sst sich z B durch das in der Abbildung gezeigte Table Constraint Objekt formulieren i Allg sorgt die deterministische Funktion fez RollUpTypesRule T die Formulierung des Constraints Erg nzend zu diesem TableConstraint Objekt werden die g ltigen Typen in den Attributen typesPKMETA und typesFKMETA des ReferentialConstraint Objektes ab gelegt Dieses doppelte Vorhalten der Informationen ist wie folgt zu erkl ren W hrend mit dem TableConstraint die Integrit t sichergestellt wird fungieren die Informationen beim ReferentialCons traint Objekt als Metainformationen die eventuell sp ter von einem Analysewerkzeug genutzt wer den k nnen Die Transformation von RollUp und NonCompleteRollUp Metadaten unterscheidet sich lediglich in der Multiplizit t die beim neu angelegten ForeignKeyRole Objekt eingetragen wird Zur Unterscheidung der beiden RollUp Typen dient die folgende Funktion die die entsprechende Multiplizit t ermittelt JdetRoliUpMultiplicity META x RollUp gt ExpresstonT ype def JdetRolUpMultipticity m SS 8 64 La fallsm type COMPLETE 0 1x sonst Die bereits oben erw hnte Hilfsabbildung fdetronupTypesru
350. ese Zuordnung wird sp ter bei der Transformation von Attributen in den Schritten 4 und 8 verwendet um einem Attribut mit komplexem Datentyp die entsprechende Attributmenge zuordnen zu k nnen Abbildung 7 6 verdeutlicht diese Vorgehensweise an einem Beispiel Das Attribut Beschreibung der dimensionalen Klasse Filiale hat den komplexen Datentyp FilialTyp Durch diesen Transformationsschritt wird dem Datentyp FilialTyp die Menge Filialleiter Text Filialart Text zugewiesen Sp ter in Schritt 4 bekommt die dimensionale Klasse Filiale anstelle des einzelnen Attributes Beschreibung diese Menge an Attributen zugewiesen 128 Kapitel 7 Logischer Entwurf lt lt DimensionalClass gt gt Filiale Beschreibung FilialTyp lt lt DataClass gt gt FilialTyp Filialleiter Text Filialart Text Objekte Attribute Metadaten Tempor re Objekte Attributes FilialTyp Filialleiter Text Filialtyp Text DataClass owner attribute DataAttribute propertyName Filialleiter isKey FALSE isOptional FALSE name FilialTyp isAbstract FALSE T DataClass owner DataAttribute attribute propertyName Filialtyp isKey FALSE isOptional FALSE Abbildung 7 6 Transformation von DataClass Instanzen Als Hilfsstruktur zur Beschreibung der Tra
351. esen 216 Referenzen l schen 217 Referenzen schreiben 217 Schneeflockenschema mit Surrogaten 219 Stern Operator 216 Sternschema mit Surrogaten 222 Sternschema ohne Surrogate 224 Schneeflockenschema 44 G348 Mischform mit Sternschema 46 mit Surrogaten 219 274 Selektionsphase 240 SharedRollUp UML 92 94 SharedRollUp MML 86 88 136 SharedRollUp REMUS 122 137 176 202 203 Sichtenauswahlproblem 49 Slice and Dice 23 G348 Standardisierte Annotation 67 G348 starER Modell 27 37 38 Stereotyp 67 92 G348 Sternschema 45 276 G348 Mischform mit Schneeflockenschema 46 mit Surrogaten 222 ohne Surrogate 224 Summierbarkeit siehe Additivit t Surrogat G349 Table LCD of SQL 181 183 185 189 193 195 197 200 205 207 TableConstraint LCD of SQL 170 181 193 195 197 Tagged Value 67 G349 Task 236 TaskConditionType 233 TaskRule 237 TaskSchemaConditionType 233 TaskSchemaRule 237 Transformation REMUS nach LCD see Abbildung REMUS nach LCD of SQL 182 TuningAction 235 TuningActionCost 235 TuningActionSet 235 236 TuningActionType 233 TypeOfCostType 233 UB Baum 47 berarbeitungsphase 230 UML 51 52 164 170 G349 Elementeigenschaft 67 Standardisierte Annotation 67 Stereotyp 67 Tagged Value 67 Unbalancierte Hierarchie 21 G349 386 Index UniqueKey LCD of SQL 181 185 187 189 UniqueKey LCD of SQL 189 UniqueKeyRole LCD of SQL 169 1
352. eses wird durch eine Viele zu Viele Assoziation Gef hrtes Produkt zwischen Artikel und Ort des Verkaufs zum Ausdruck gebracht wie in Abbildung 6 36 dargestellt lt lt DimensionalClass gt gt Ort des Verkaufs 0 Gef hrtes Produkt One lt lt DimensionalClass gt gt Artikel Abbildung 6 36 mUML Beispiel Ergebnis Schritt 14 Assoziation zwischen dimensionalen Klassen 6 5 Beispiel Handelswelt 115 Schritt 15 Finde gleiche und hnliche Dimensionen W hrend gleiche Dimensionen nicht zu finden sind bzw die Zeit und Produkt Dimension schon mit mehreren FactClasses Instanzen verbunden sind sind die beiden Ortsdimensionen gem der Definition in Abschnitt 6 3 Schritt 15 hnlich Es ist also an geeigneter Stelle d h auf einer f r potenzielle Analysen sinnvollen Granularit t eine Verbindung in Form eines DimensionalMapping Objekt darzustellen siehe Abbildung 6 37 lt lt DimensionalClass gt gt Ort des Verkaufs lt lt DimensionalMapping gt gt lt lt DimensionalClass gt gt Stra enbereich Abbildung 6 37 UML Beispiel Ergebnis Schritt 15 DimensionalMapping zwischen Ortsdimen sionen Schritt 16 Bestimme Subschemata Zur Erhaltung der bersichtlichkeit des Schemas wird f r jede dimensionale Struktur ein Subschema gebildet Das resultierende Schema ist in Anhang A zu sehen Schritt 17 berpr fung der Dokumentation
353. et nun COSttocg W A Xh Cottocg ti gt min 10 10 Verrechnung der Kostenarten Die TOC Optimierungsziele werden zu einem zu optimierenden Ausdruck verschmolzen Zun chst wird f r jede Kostenart eine Normierungsfunktion definiert die die Kosten auf das Intervall 0 1 abbildet Die Optimierungsaufgabe lautet in diesem Falle k 3 costtoc W A gt min 10 11 i 1 Alternative Optimierungen zur Benutzerentscheidung Die Optimierung wird f r jede Kostenart unter Vernachl ssigung der anderen Kostenarten ein mal durchgef hrt am Ende w hlt der Benutzer eine L sung aus Es wird also f r jedes K 1 k die Optimierung COSttocg W A Yh COttocg ti gt min 10 12 durchgef hrt danach entscheidet der Benutzer Hat man sich f r eine dieser Strategien entschieden so ist die Optimierungsaufgabe eindeutig spezi fiziert und der Algorithmus zur Kompromissfindung kann bestimmt werden Ein Brute Force Ansatz kommt nur f r sehr kleine Mengen von Optimierungsma nahmen in Frage weil seine Komplexi t t O n betr gt wobei n die Anzahl an Optimierungsma nahmen ist Als alternative Ans tze f r die Kompromissphase kommen Greedy Strategien Hoch Tief Verfahren oder Verfahren wie Ge netische Algorithmen oder Simulated Annealing in Betracht Diese liefern zwar nicht die optimale L sung weisen aber praktikable Laufzeiten auf Phase III des physischen Entwurfs wird in 10 13 definiert wobei fue
354. eten Erweiterungs mechanismen werden in diesem Abschnitt kurz eingef hrt Die UML versteht sich als offener Standard was die Kombination mit bzw Integration von weiteren Heute IBM Almaden Research Center System R ist ein in den siebziger Jahren ebenfalls am IBM San Jose Research Laboratory entwickeltes DBS System R realisierte SQL und zeigte dariiber hinaus dass relationale Systeme gute Performanz bez Transaktionsverarbeitung bieten k nnen 10Oder k nnen in z B Alh98 nachgelesen werden 5 4 Zusammenfassung 67 Sprachen und Modellen betrifft So kann die UML benutzerdefiniert erweitert bzw modifiziert wer den Dabei stehen die beiden Mechanismen Stereotypen und Elementeigenschaften standardisierte Annotationen Tagged Values zur Verf gung Elementeigenschaften bestehen aus einem Schl ssel wort dem Tag und einem dazugeh rigen Wert dem Value Neben einer Reihe von vordefinierten Schl sselworten kann der Benutzer zus tzliche definieren So besitzt z B das Modellierungskon strukt Klasse die Schl sselworte location und persistence als Notation w re beispielsweise class Kunde location host persistence persistent m glich Denkbare selbstdefinierte Elementeigenschaften sind in diesem Zusammenhang Ersteller oder Erstellungsdatum Ein Stereotyp ist ein Mechanismus zur benutzerdefinierten Erweiterung Pr zisierung oder Redefini tion von Elementen der UML wobei das Metamodel
355. etiert Eine Menge von Column Objekten bildet einen ColumnSet der neben einem eindeutigen Namen einige statistische Informationen enth lt estimatedRows gibt die gesch tzte Anzahl an Zeilen des ColumnSets an estimatedSize die gesch tzte Gr e eines ColumnSets Mit projectGrowthPeriod wird die Zeitspanne mit einem ganzzahligen numerischen Wert der den Zuwachszeitraum in Tagen angibt beschrieben in der der im Attribut ProjectGrowthRate angegebene Zuwachs erwartet wird w hrend das Attribut projectGrowthRate den erwarteten Zuwachs des ColumnSets angibt In Verbindung mit dem Attribut ProjectGrowthPeriod kann hieraus die Zuwachsrate berechnet werden Als Speziali sierung der Metaklasse ColumnSet wird die MetaklasseTable LCD of SQL Table LCD of SQL eingef hrt Jede Instanz beschreibt eine Tabelle wie sie aus der relationalen Welt bekannt ist Als zu s tzliches Metadatum wird das Attribut tableTypeMETA festgelegt das den Typ der Tabelle angibt zul ssige Werte sind FACT und DIMENSION 8 2 3 Keys Im Bereich Keys werden Schl ssel festgelegt Der relevante Schemaausschnitt ist in Abbildung 8 4 zu sehen 0 oi ForeignKey stable A foreignKeys OR 1 columns ordered keys Ke Column Table 5 y identityIncrement Integer eet tableTypeMETA String aplianal SE EEN gt valueExpression Expression E UniqueKey Abbildun
356. etischer Algorithmus zur L sung des Optimie rungsproblems verwendet Hierbei wurden Resultate erzielt die bei linearem Laufzeitverhalten um etwa 10 von der optimalen L sung abwichen Daneben existieren noch eine Reihe weiterer Publikationen zum Thema die das Problem der Aus wahl zu materialisierender Sichten ohne Nebenbedingungen und ohne Aussagen zur G te der L sung betrachten RSS96 YKL97 BPT97 TS97 Meistens wird davon ausgegangen dass w hrend des Nachladens des DWH und damit w hrend der Pflege der materialisierten Sichten kein lesender Zugriff f r die auf dem DWH operierenden Applikationen zugelassen ist In QW97 wird ein Ansatz vorgestellt der auch bei laufenden Aktua lisierungen konsistente Lesezugriffe garantiert Neben der Auswahl der zu materialisierenden Sichten spielt auch ihre Wartung eine wichtige Rolle Aufgrund der Datenvolumina ist ein vollst ndiges Neuberechnen der materialisierten Sichten i Allg nicht m glich so dass inkrementelle Aktualisierungen vorgenommen werden m ssen Mit effizienten Algorithmen hierf r besch ftigen sich u a GMS93 LMSS95 ZGHW95 MQM97 LS99 OAE00 Huy00 LYO1 Als weitere Problemstellung kann in einem DWH das Entdecken redundanter mate rialisierter Sichten bei Evolutionen im DWH auftreten womit sich The01 besch ftigt 50 Kapitel 4 Realisierung von DWH Abbildung 4 7 skizziert noch einmal die in diesem Abschnitt erw hnten physischen Optimierungs optionen wobei
357. etzen und diese Menge in der Regel mehrere Elemente enth lt ist eine Sortierung notwendig Es sollen hierbei die Attribute alphabetisch sortiert werden Schritt 6 Telesis Das einzige berechnete Attribut im Schema ist Gesamtpreis in der Tabelle Verkauftes_Produkt Dieser ergibt sich aus dem Produkt von Einzelpreis und Anzahl so da faetoomputation US EI gebnis Einzelpreis Anzahl liefert Schritt 7 JdetrdentifierRule und JdetvatidRute F r die Aufl sung der Metadaten Identifier IdentifierValue und Valid seien die beiden folgenden Funktionen definiert Jdetrdentifier Rule Ort des Verkaufs Identifier Ort des Verkaufs Type a Type IN Filiale Kaufhaus und Faety atidnute OC Ort des Verkaufs Kaufhaus Fl che Valid Ort des Verkaufs Type Kaufhaus af Plaeche IS NULL OR TYPE IN Kaufhaus F r die anderen drei Valid Metadaten sind analoge Regeln definiert MTM steht als Akronym f r Many To Many A 3 LCD of SOL Schema 307 Schritt 9 JdetmuttipticityRange Alle im Schema definierten Multiplicity Metadaten haben eine Multiplizit t von 0 bzw 1 so dass die Funktion J enge nicht n her spezifiziert zu werden braucht Schritt 10 Jdetnoitorgpesrehult Die Funktion fdetroitUpTypesTorute SO f r diejenigen RollUp und Dimension Metadaten die nicht alle Typen zulassen Regeln nach dem fol
358. eue Submodelle abbilden entstehen somit eine Reihe von inkompatiblen Modellen unter einem gemeinsamen Dach Das CWM der OMG Obj01 zielt auf eine Unterst tzung des Metadatenaustausches wie er in DW Sen auftritt Dementsprechend enth lt das CWM im Gegensatz zum OIM vor allem weiterreichende Modelle mit DWH spezifischem Inhalt wie z B Informationen zum Betrieb des DWH oder zum Data Mining Zur Entwicklung ist anzumerken dass die T tigkeiten der MDC im Herbst 2000 eingestellt worden bei der Weiterentweiklung des CWM sollen jedoch Ideen des MDC einflie en 4 4 2 Datenhaltung Die konkrete Organisation der Metadatenhaltung in einem DWS kann in drei Formen geschehen e Alle Metadaten werden in einem zentralen Repository gehalten Dieser Ansatz hat den Vorteil dass keine Replikation von Metadaten notwendig ist andererseits existiert aber eine hohe Ab h ngigkeit vom zentralen Repository Dar ber hinaus besitzen die einzelnen Komponenten nur eine eingeschr nkte Autonomie Bei einer vollst ndig verteilten Metadatenverwaltung sorgt jede einzelne Komponente des DWS f r die Verwaltung ihrer Metadaten Den Vorteilen maximaler Unabh ngigkeit und schnellen Zugriffs auf die lokalen Ressourcen stehen als Nachteile neben den zahlreichen Ver bindungen zwischen den Komponenten eines DWS zum Metadatenaustausch auch ein hoher Grad an Replikation und vor allem das Problem der Synchronisation der verschiedenen Meta datenbest nde gegen ber Als Kom
359. ewing Concept Crite ria Tool In Fernando Brito and Brian Henderson Sellers and Mario Pattini and Ge ert Poels and Houari A Sahraoui Herausgeber 5th International ECOOP Workshop on Quantitative Approaches in Object Oriented Software Engineering OAOOSE Juni 2001 Budapest Ungarn Proceedings Seiten 59 70 Wettelijk Depot 2001 Herden Olaf ODAWA Physisches Datenbank Design Technischer Bericht OF FIS Verf gbar unter http odawa offis uni oldenburg de Oldenburg Deutschland Juli 2001 Herden Olaf ODAWA Transformationsbeschreibung MML nach REMUS Techni scher Bericht OFFIS Verf gbar unter http odawa offis uni oldenburg de Oldenburg Deutschland Juni 2001 Literaturverzeichnis 357 HH99 HHMOI Hin00 Hin01 HK99 HKO1 HLV00 H0199 H0100 HRU96 HSO0 HSB00a HSBO0b Harren Arne und Olaf Herden MML und UML Sprache und Werkzeug zur Unter st tzung des konzeptionellen Data Warehouse Designs In Herausgeber 2 Workshop Data Mining und Data Warehousing als Grundlage moderner entscheidungsunterst t zender Systeme DMDW99 September 1999 Magdeburg Deutschland Proceedings Seiten 57 67 1999 Herden Olaf Jens Happe und J rgen Meister ODAWA Benutzerhandbuch Tech nischer Bericht OFFIS Verf gbar unter http odawa offis uni oldenburg de Oldenburg Deutschland Erscheint Ende 2001 Hinrichs Holger Statistical Quality Cont
360. ey S Ka S Reference Valid bd Additivity Zz Association ZS en Composition 5 Dimension Ge DimensionalMapping lt e RollUp a ei SharedRollUp S 5 S ClassName Ei S Composition T S S Additivity S S Attributes S5 Aggregated Zs Detail x S S Sr vi HE Owner d Tabelle 7 3 Transformationsschritte und erzeugte REMUS Objekte Kapitel 8 Relationaler Entwurf 8 1 Einleitung In diesem Abschnitt wird die Transformation eines REMUS Schemas in ein initiales SQL Schema beschrieben Initial bedeutet in diesem Kontext dass das aus diesem Schritt resultierende Entwurfs dokument den Ausgangspunkt f r weitere Umformungen bildet Die Einordnung dieses Schrittes in den Entwicklungsprozess ist in Abbildung 8 1 zu sehen Multidimensionale Modellierung 6 2 6 3 m UML Diagramm Abbildung auf die MML 6 1 Konzeptionell MML Schema Review 6 4 MML Schema qualit tsgesichert Transformation T 7 Logisch REMUS Schema Transformation in initiales Datenbankschema 8 DB Schema unabh ngig Systemabh ngige Verfeinerung 9 Physisch DB Schema systemabh ngig Physische Optimierung 10 DB Schema systemabh ngig optimiert Abbildung 8 1 Einordnung des Schrittes in den Entwurfsprozess Zun chst wird im folgenden Abschnitt 8 2 das relationale Metamodell LCD of SOL Lowest Common Denominator of SQL eingef hrt Dies ber
361. ezifische Eigenschaft eines FUntersuchungsobjektes beschreibt Metadaten Jede Form von Informationen ber Daten Dies betrifft in einem TData Warehouse Sy stem neben den Schemadaten Metadaten i e S auch den tData Warehouse Prozess beschrei bende Daten wie Transformationsregeln Daten zur Sicherheit Daten ber Herkunft und G te etc also Metadaten i w S Metadaten Manager Synonym f r Repository Manager Metadaten Repository tDatenbankmanagementsystem zur Verwaltung von Metadaten Metaklasse Klasse deren Instanzen wiederum Klassen sind Methode Operation die ein tObjekt ausf hren kann Metrik Abbildung svorschrift von einem TUntersuchungsobjekt auf Zahlen oder Symbole mit dem Ziel eine spezifische Eigenschaft des Untersuchungsobjektes zu charakterisieren Monitor Werkzeug das den Prozess des Monitoring unterst tzt Monitoring T tigkeit innerhalb des Data Warehouse Prozesses in dem die tDatenquellen ber wacht werden um zu extrahierende Daten zu bestimmen Multidimensionale Datenbank MDB Auf Grundlage eines Multidimensionalen Datenmodells aufgebaute Datenbank Multidimensionales Datenbanksystem MDBS Auf Grundlage eines tMultidimensionalen Da tenmodells basierendes Datenbanksystem Multidimensionales Datenbankmanagementsystem MDBMS Datenbankmanagementsystem das die Verwaltung tmultidimensionaler Datenbanken erm glicht Multidimensionales Datenmodell Datenmodell das die Mod
362. f llen Quantifizierende Eigenschaft Eigenschaft eines tFakts die f r die Datenanalyse wichtigen nu merischen Daten enth lt Quelle Kurzform f r Datenquelle Reach Through Durchgriff von tAnalysewerkzeugen auf den tOperational Data Store oder die Datenquellen Redundanz Mehrfache Speicherung desselben Sachverhalts in einer Datenbank Referentielle Integrit t Stellt sicher dass alle Werte eines tAttributes oder einer Attributkombina tion das die als fFremdschliissel definiert ist in einer anderen Relation als FPrim rschl ssel vorhanden sind Relation Tabelle die einen eindeutig festgelegten Namen besitzt Der Tabelleninhalt besteht aus einer Menge von fTupeln Relationales DBMS RDBMS Auf dem tRelationenmodell basierendes DBMS Relationenmodell Datenmodell das sowohl Daten als auch Datenbeziehungen in Form von Ta bellen ausdriickt REMUS Logische relationales Datenmodell das in Erg nzung zu herk mmlichen relationalen Da tenmodellen zahlreiche Metadaten enth lt die in Kategorie A und Kategorie B Metadaten unterteilt werden 348 Glossar Repository Kurzform f r Metadaten Repository Repository Manager Verwaltungskomponente eines tRepository fungiert als Schnittstelle zum Repository ROLAP Relational FOLAP FOLAP Systeme deren Daten in einem RDBMS gehalten werden Roll Up Operation in tmultidimensionalen Datenmodellen Synonym f r Verdichtung Rolle Synonym fiir tAsso
363. faetrablename r dimensional RelationLower name t sonst 8 70 H RollUpypdate Column META RollUp x LColumn gt LColumn def HRollUPUpdate Column r c AddColumnK ey c bi Foreign key of table Jdetrariename r dimensional RelationLower name Jdetrastenam r dimensional RelationLower name falls e foreign K ey name faetrablename r dimensionalRelationLower name c sonst 8 71 Diese Aktualisierungsfunktionen werden in den beiden folgenden Definition auf Mengen erweitert LRollU pu paateset Tabie META RotUp X Pot Lravie Pot Lravie def 8 72 H RollU pu pdate Set Table m T Ze U H RollU pupdate Table m t tet LRollU pupdateset Column METARouvp X Pot Lcorumn gt Potl coiumn C def 8 73 H RollU pu pdateSet Column m Ke U H RollU pupdate Column m c cEC Schlie lich wird die Abbildung aller RollUp Metadaten eines Schemas durchgef hrt Mrolitp RX LAL d MRolivp R L ef L Orable Ocolumn OuniqueKeyRole Lu petite e Foreignkey 1 Mm Myx RollUp x t U HRoltU create ForeignKeyrote M M Mut RollUp 8 74 U HRollUpcreate Re ferentialConstraint M M Myx RollUp s U MRollUpcreate TableConstraint M M My RollUp U HRollUpupdateset Taste 7 Tabie M Mut RollUp U HRollUpupdateset Column h OColumn M Mu RollUp F Die Abbildungsvorschriften f r Dimension Objekte sind analog zu denen der RollUps so
364. fahren existieren die meisten jedoch eine M glichkeit oder ein Verfahren nur isoliert evtl noch auf einen bestimmten Kontext eingeschr nkt aber nicht hinreichend breit und abstrahierend betrachten Abschnitt 4 4 befasste sich mit Metadaten deren gro e Bedeutung im Kontext von DWH bereits in Abschnitt 2 5 2 motiviert worden war wobei Standards und physische Realisierung der Metadaten verwaltung in einem DWS behandelt wurden 54 Kapitel 4 Realisierung von DWH Kapitel 5 Entwurf von Informationssystemen Im Mittelpunkt dieses Kapitels steht der Entwurf von Datenbanken Dabei werden zun chst in Ab schnitt 5 1 wichtige Begriffe aus dem Umfeld des Entwurfs operativer DBen eingef hrt Abschnitt 5 2 stellt verwandte Arbeiten zum DB Entwurf mit Fokus auf DWHs vor In Abschnitt 5 3 werden einige weitere Aspekte aus den Bereichen Software Engineering und DB Entwurf behandelt die auf die in Teil I dieser Arbeit konzipierte Entwurfsmethodik Einfluss haben 5 1 Entwurf operativer Datenbanken Weil die zentrale Datenhaltung f r mehrere Anwendungssysteme ber einen i Allg mehrj hrigen Zeitraum ein kritischer Aspekt des Informationsmanagements ist kommt dem Entwurf einer DB besondere Bedeutung zu HS00 Daher ist ein als Entwurfsmethodik bezeichneter strukturierter Ansatz notwendig der unter Verwendung wohldefinierter Vorgehensweisen Techniken Werkzeuge und Dokumentationen den Entwurfsprozess der DB unterst tzt bzw erleichtert
365. ference on Scientific and Statistical Data Management Juli 1998 Anahory Sam und Dennis Murray Data Warehouse Planung Implementierung und Administration Addison Wesley Juni 1997 Anahory Sam und Dennis Murray Data Warehousing in the Real World A Practical Guide for Building Decision Support Systems Addison Wesley Juni 1997 Arbeitsgemeinschaft bev lkerungsbezogener Krebsregister in Deutschland Krebs in Deutschland H ufigkeiten und Trends Arbeitsgemeinschaft bev lkerungsbezogener Krebsregister in Deutschland 1999 Balzert Helmut Lehrbuch der Software Technik Spektrum Akademischer Verlag Hei delberg Deutschland 1998 Bernstein Philip A Thomas Bergstraesser Jason Carlson Shankar Pal Paul Sanders und David Shutt Microsoft Repository Version 2 and the Open Information Model In formation Systems 24 2 71 98 1999 Busborg Frank Jens G Borch Christiansen Kristian M Jensen und Lars R Jensen Da ta Warehouse Modeling The Nykredit Case Study Technischer BerichtDat5 Report Part I Aalborg University Computer Science Department Aalborg D nemark 1998 352 Literaturverzeichnis BCN92 BD99 BE99a BE99b BES98 BFM99 BGO1 BH98 BKK96 BKSS90 BLT86 BM72 BPT97 Batani Carlo Stefano Ceri und Shamkant Navathe Conceptual Database Design An Entity Relationship Approach Redwood City 1992 Borst Thomas und Matthias Diedrich Terab
366. finitions Z zz Tee zs IS Abbildung 4 8 Strukturierung von OIM und CWM Im folgenden werden die beiden Ans tze kurz skizziert eine ausf hrlicher Vergleich kann in VVS00 nachgelesen werden Das OIM Met99a BBCT99 wurde von der MDC einer 1995 gegr ndeten Non Profit Organisation von Herstellern entwickelt Ziel ist die Bereitstellung einer hersteller und plattformunabh ngigen 52 Kapitel 4 Realisierung von DWH Spezifikation von Metadaten damit verschiedene Werkzeuge ber ein gemeinsam genutztes Infor mationsmodell interoperieren k nnen Das OIM unterst tzt alle Phasen der Informationssysteme Entwicklung von der Analyse bis zum Betrieb Das OIM nutzt die UML Unified Modeling Langua ge in dreifacher Weise e als Modellierungssprache f r die Beschreibung der OIM Modelle e als Hauptbestandteil des Submodells Analysis and Design Model und e als Kernmodell des OIM von dem die anderen Modelle objektorientierte Konzepte erben Diese letztgenannte Eigenschaft erm glicht es zur Handhabung werkzeugspezifischer Aspekte von den bestehenden Sub Modellen Spezialisierungen zu erzeugen Dies zeigt einerseits eine gute Of fenheit des Standards im Sinne von Erweiterbarkeit andererseits ergibt sich die Problematik dass zwei Spezialisierungen eines gemeinsamen Sub Modells auch wieder zueinander inkompatibel sind Wenn nun verschiedene Hersteller Besonderheiten ihrer Werkzeuge durch n
367. g An wel chen SharedRollUp Instanzen ist ein Attribut Parameter nicht relevant ist Aufgrund seiner Na tur als Metadatum wird der Zugriff immer ber das MappingMETA Objekt erfolgen Im LCD of SOL Metamodell siehe Seite 165 ist diese Tatsache durch die einseitige Assoziation zwischen den Metaklassen Column und MappingMETA ausgedr ckt Somit kann das bertragen aller SharedRol IUp Metadaten wie folgt erreicht werden MSharedRollUp R X L gt L 8 82 def M SharedRoltup R L LU USharedRolUporeate 1 m My SharedRollUp 204 Kapitel 8 Relationaler Entwurf 8 3 15 Schritt 13 DimensionalMapping markieren Eine DimensionalMapping Instanz wird analog zum vorigen Schritt wie ein SharedRollUp Objekt transformiert d h es werden Metainformationen angelegt Abbildung 8 23 zeigt ein Beispiel Ort des Verkaufs Strassenbereich DimensionalMapping Abb Ort des Verkaufs nach Strassenbereich ALL_TYPES ALL_TYPES Berechnung von GeographicalMapping Berechnung von GeographicalMapping Computation Ort des Verkaufs Bezeichnung GeographicalMapping Strassenbereich Bezeichnung Ort des Verkaufs Ort _des_Verkaufs f det TableName Ha Sttassenbereich Strassenbereich HDimensionalMapping Table Table name Ort_des_Verkaufs name Strassenbereich columnSet columnSet columns columns Column Column nam
368. g 8 4 LCD of SQL Metamodell Bereich Keys Ausgangspunkt ist die abstrakte Metaklasse Key die einen Schl ssel als eine geordnete Menge von Spalten festlegt Sie vererbt an ihre beiden Unterklassen ForeignKey und UniqueKey Instanzen der UniqueKey Metaklasse legen eindeutige Schl ssel fest d h sie verweisen auf eine Teilmenge von Spalten deren Werte eindeutig sein m ssen Tr gt das Attribut isPrimary den Wert TRUE handelt es sich um einen Prim rschl ssel Instanzen der ForeignKey Metaklasse beschreiben Fremdschl s seleintr ge d h eine geordnete Menge von Spalten die die Prim rschl sselspalten einer anderen Tabelle referenzieren 8 2 4 Referential Integrity Die Metaklassen des Bereichs Referential Integrity und ihre Instanzen erm glichen unter Nutzung der in Abschnitt 8 2 3 definierten Schl ssel die Festlegung referentieller Integrit ten innerhalb eines 3 Auch wenn diese vier Attribute in diesem Entwurfsschritt noch nicht ben tigt werden werden sie wegen der Anlehnung von LCD of SOL an das OIM hier schon genannt 8 2 Das relationale Metamodell LCD of SQL 169 Schemas Der Schemaausschnitt ist in Abbildung 8 5 wiedergegeben constraint q Referential ee JoinRole Constraint gmy multiplicity MultiplicityRange typeMETA RefConsType name String typesPK StringSet typesFK StringSet i re ReferentialRole Join mat
369. gehaltene Datenbank verstanden deren Daten aus verschie denen organisationsinternen Quellen integriert und h ufig durch externe Daten angereichert werden Anwendungsszenarien finden sich sowohl im betriebswirtschaftlichen Kontext wie auch in den Na turwissenschaften oder in medizinischen Registern Alle diese Anwendungen zeichnen sich dadurch aus dass auf ihnen basierende Entscheidungen bzw deren Konsequenzen sehr weitreichend und kostenintensiv sind so dass die zugrundeliegende Aussa ge auf einer soliden Grundlage basieren muss Hierzu ist es notwendig dass das DWH einige Quali t tseigenschaften wie gute Wartbarkeit Erweiterbarkeit und Skalierbarkeit aufweist Die heutige Praxis der Entwicklung von DWHs ist jedoch h ufig noch durch Defizite gepr gt Der konzeptionellen Modellierung wird keine ausreichende Aufmerksamkeit geschenkt physische Opti mierungsma nahmen sind schlecht koordiniert und die Behandlung von Metadaten wird vernachl s sigt Schlie lich bieten existierende DWH Werkzeuge keine Unterst tzung heterogener Umgebun gen Daher scheitern einer Studie der Meta Group zufolge 20 der Projekte einer DWH Einf hrung und 50 k nnen als nur teilweise erfolgreich eingestuft werden Ziel dieser Arbeit ist die Konzeption einer Entwurfsmethodik die sowohl auf Erfahrungen aus der Realisierung herk mmlicher Datenbanken Grundlage des Ansatzes ist der allgemein akzeptierte Drei Ebenen Entwurf zur ckgreift als auch die Besonderheiten
370. gelten dass eine abstrakte Klasse nicht Blattelement innerhalb einer Vererbungshierarchie sein darf Die beiden Referenzen generalization und speciali zation verweisen auf Instanzen der Generalization Metaklasse die das Schemaelement entsprechend generalisieren bzw spezialisieren Der Mechanismus der Polymorphie erm glicht es in einem MML Schema an Stellen an denen ein Basisschemaelement verwendet wurde auf Instanzebene Datenob jekte der Unterschemaelemente zu nutzen Die Metaklasse ClassElement dient der Unterst tzung generalisierbarer Schemaelemente und f hrt damit das objektorientierte Konzept der Klasse in die MML ein Sie dient zus tzlich der vereinfachten Definition der in Abschnitt 6 1 6 beschriebenen Me taklassen Association und Composition f r die Verbindung von Schemaelementen 6 1 4 Multidimensionaler Kontext In Abbildung 6 6 werden mit der FactClass und der DimensionalClass die beiden wichtigsten Metaklassen der MML spezifiziert Sie sorgen f r die Einstufung von Daten als quantifizierend oder qualifizierend und bilden somit den multidimensionalen Kontext innerhalb der MML Als gemeinsame Basismetaklasse ist das ContextElement definiert das jedoch nur der Zusammenfassung dient und keine eigenen Eigenschaften aufweist Die Metaklasse DimensionalClass beschreibt Klassen die innerhalb einer Dimension angeordnet sind und entspricht dem Begriff Hierarchieebene der multidimensionalen Begriffswelt Durch die rollUp und property R
371. gen Zum Nachweis der Umsetzbarkeit der Methodik soll die softwaretechnische Umsetzung in Form eines Prototypen erfolgen Um die Anwendbarkeit der Methodik zu zeigen soll mit Hilfe dieses Prototypen eine Evalua tion an einem ausreichend gro en Beispiel durchgef hrt werden Aufbau der Arbeit Der Aufbau der Arbeit gliedert sich in vier Teile Teil I stellt neben dieser Einleitung grundlegende Begriffe und Konzepte aus den Bereichen Data Warehouse Datenmodelle bzw modellierung mit dem Schwerpunkt multidimensionales Datenmodell Entwurfsmethodiken f r Datenbanken physi scher Datenbankentwurf und Metadaten vor Teil II widmet sich der im Rahmen dieser Arbeit kon zipierten Entwurfsmethodik In Teil III werden die softwaretechnische Umsetzung des Konzeptes beschrieben und wesentliche Ergebnisse der Evaluation dargestellt Eine Zusammenfassung und ein Ausblick folgen in Teil IV bevor einige Anh nge und Verzeichnisse die Arbeit abschlie en Kapitel 2 Data Warehouse Systeme In diesem Kapitel soll die allgemeine Architektur eines Data Warehouse Systems DWS vorgestellt werden Ein DWS enth lt neben der Datenbank dem DWH die Menge aller Komponenten und deren Beziehungen untereinander die f r das Beschaffen Aufbereiten Speichern und Analysieren von Daten BGO1 notwendig sind Abbildung 2 1 zeigt eine solche Architektur deren einzelne Komponenten im Folgenden vorgestellt werden Data Mining Data Mining Server
372. gen der Argumente f r und wider die beiden Typen f r jede Dimension entschieden ob sie denormali siert wird oder nicht Mehrere m glicherweise ber gemeinsame dimensionale Tabellen verbundene Fakttabellen enthaltende Schemata werden manchmal auch als Multi Fakttabellen Schema oder Galaxie schema KRRT98 bezeichnet Werden in einem Schema neben den Basisdaten auch verdichtete Daten vorgehalten so ergeben sich mehrere aufeinander aufbauende Stern oder Schneeflockenschemata In KRRT98 wird dieser Schematyp als Fact Constellation Schema bezeichnet Als Variante des Sternschemas ist neben der Anordnung der Hierarchieebenen als Spalten also horizontal auch eine vertikale oder rekursive Darstellung denkbar Hierbei besitzt jedes Tu pel den Eintrag selbst und eine Selbstreferenz auf die Tabelle durch die die Hierarchiestruktur abgebildet wird Noch einen Schritt weiter geht das in BD99 vorgeschlagene sog Kollabierte Sternschema Bei Existenz nur einer dimensionalen Tabelle fiir alle Dimensionen eines Fakts werden in zu s tzlichen Tabellen die Meta Informationen ber Dimensionszugeh rigkeit und Hierarchie bildungen festgehalten Im System SAP Business Warehouse SAP97 SSLO1 kommt eine Variante des Sternschemas zum Einsatz bei der zu den dimensionalen Tabellen zus tzlich Stammdatentabellen existie ren In diesen Stammdatentabellen werden beschreibende Attribute von Dimensionsobjekten vorgehalten mit dem Ziel einerseit
373. genden Datentyp z B nicht summierbare Textfelder abh ngig sondern ergibt sich oftmals erst aus der Kombination des Datentyps mit der Bedeutung des Datenobjektes und den zugeordneten Dimensionen Jedes Datenobjekt das eine quantifizierende Eigenschaft darstellt l sst sich in der MML mit den in bezug auf eine Di mension unterst tzten Verdichtungsoperatoren markieren so dass eine flexible Freigabem g lichkeit existiert Im Gegensatz zu Berechnungsvorschriften f r abgeleitete Datenobjekte er folgt in einem MML Schema keine genaue Angabe wie die Ausf hrung eines Verdichtungs operators auf einem Datenobjekt definiert ist e Als Sprache f r die konzeptionelle Modellierung ist die MML unabh ngig von der logischen Entwurfsebene 6 1 1 Begriffsbildung und Namenskonventionen Um m glichen Begriffsverwirrungen vorzubeugen erfolgt vor der detaillierten Vorstellung der MML eine Begriffsbildung bez der Unterscheidung von MML Konstrukten und Objekten eines MML Datenschemas Die Ursache m glicher Begriffsverwirrungen ergibt sich aus der Mehr fachverwendung des Begriffs Klasse Einerseits stellt die MML objektorientierte Konzepte wie Klassen Vererbung und Polymorphie f r die multidimensionale Datenmodellierung zur Verf gung andererseits wird die MML Syntax selbst durch ein Klassendiagramm beschrieben Aus Sicht der MML Syntax sind daher die in einem Datenschema enthaltenen Klassen Instanzen von MML Sprachelementen also Objekte bestimmter
374. genden Muster bilden e Ort des Verkaufs Filialkategorie RollUp Filialkategorie 7 Filiale ALL_TYPES Ort des Verkaufs Filialkategorie ForeignID Filialkategorie ID NONCOMPLETE def Filialkategorie ForeignID IS NULL OR Ort_des_Verkaufs Type IN Filiale A 3 2 Liste aller LCD of SOL Schemaelemente In der folgenden Tabelle sind die Objekte nach Typ sortiert Die erste Spalte gibt f r jedes Objekt einen eindeutigen Identifikator an der von anderen Objekten referenziert werden kann In der zweiten Spalte folgen die Werte des Objektes in der in Tabelle 8 7 festgelegten Tupelnotation Die letzten beiden Spalten geben die Schritte der Abbildung an in denen dieses Objekt erzeugt bzw manipuiert worden ist LCD of SOL Objekte des Beipiels Handelswelt AdditivityMETA ADO1 Valid operators for Betrag with respect to Ort_Verkauf ALL CO08 11 RC18 AdditivityMETA AD0O2 Valid operators for Betrag with respect to Zeit_Verkauf ALL CO08 11 RC19 AdditivityMETA ADO3 Valid operators for Anzahl with respect to Produkt ALL COO1 RC20 11 AdditivityMETA AD04 Valid operators for Anzahl with respect to Ort ALL CO01 RC22 11 AdditivityMETA ADO5 Valid operators for Anzahl with respect to Zeit ALL CO01 RC21 11 AdditivityMETA AD06 Valid operators for
375. gselementes entsprechen den unterschiedlichen Objekttypen der Hierarchieebene Das Resultat f r das Beispiel Handelswelt ist in Abbildung 7 7 zu sehen 130 Kapitel 7 Logischer Entwurf lt lt DimensionalClass gt gt Jahr Bezeichnung JahrTyp lt lt SharedRollUp gt gt Jahr lt lt RollUp gt gt Jahr lt lt DimensionalClass gt gt Woche Bezeichnung WochenTyp lt lt DimensionalClass gt gt Quartal Bezeichnung QuartalsTyp lt lt RollUp gt gt Woche lt lt Dimension gt gt Zeit lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp lt lt Dimension gt gt Ort lt lt Dimension gt gt Produkt lt lt RollUp gt gt Quartal lt lt DimensionalClass gt gt Monat Bezeichnung MonatsTyp lt lt RollUp gt gt Monat lt lt DimensionalClass gt gt Tag Bezeichnung TagTyp lt lt Dimension gt gt Zeit Verkauf lt lt FactClass gt gt Verkauf Betrag Wahrung lt lt Composition gt gt Verkauftes Produkt FW lt lt FactClass gt gt Verkauftes Produkt Einzelpreis W hrung Anzahl St ckzahlTyp Gesamtpreis W hrung lt lt Dimension gt gt Produkt lt lt DimensionalClass gt gt de Artikel f hrt Bezeichnung Text Artikelcode ArtikelcodeTyp T lt lt RollUp gt gt Produktgruppe lt lt DimensionalClass gt gt Produktgruppe Bezeichnung Text lt lt RollUp gt gt Pr
376. gsformalismen sind auf der konzeptionellen Entwurfsebene das E R Modell auf der logischen Ebene das Relationenmodell und auf der physischen Ebene die Da tendefinitionssprache des eingesetzten DBMS Jede Entwurfsebene korrespondiert in gewisser Weise mit einem Entwurfsschritt des Software En gineering Der konzeptionelle Entwurf entspricht der Analyse der logische dem Entwurf und der physische der Implementierung 5 2 Arbeiten zum Entwurf von DWHs Aufgrund der unterschiedlichen Einsatzgebiete operativer DBen und DWHs ergeben sich Unterschie de zwischen den beiden Datenbanktypen siehe auch Tabelle 2 1 auf Seite 13 die ein einfaches bertragen der Entwurfsmethodiken operativer DBen nicht zulassen Aus diesem Grunde sind eine Reihe von Arbeiten entstanden die den DB Entwurf mit dem Fokus auf DWHs betrachten Diese werden in diesem Abschnitt kurz skizziert und bewertet Babelfish Babelfish ist ein Teilprojekt des DWH Projektes System 42 vom FORWISS M nchen dessen Ziel die Entwicklung einer Methodik zum modellgest tzten Entwurf und Betrieb von Repository basierten DWHs ist Dabei sollen vorhandene Modellierungs und Entwurfsmethodiken auf ihre Die ersten Ans tze auf diesem Gebiet stammen von Kimball Kim96 und Rautenstrauch Rau97 W hrend die erste Arbeit sehr stark auf die relationale Zielwelt ausgerichtet und sehr viele Aspekte des physischen Entwurfs behandelt ist die zweite speziell auf die Realisierung mit einer Oracl
377. gt Pot Lcolumn ee C def dE 8 78 H Additivityy pdateset Column m SE U H Additivityy paate Column m c CEC HAdditivityupdateset ReferentialConstraint METAAdditivity X Pot L re ferentialConstraint gt Pot LReferentialConstraint de H Additivityu pdateSet ReferentialConstraint m R U H AdditivityUpdate Re ferentialConstraint m r reR 8 79 Die bertragung aller Additivity Metadaten M Additivity R xX LOL def M Additivity R L L OColumn ORe ferentialConstraint U H Additivitycreate m E My additivity x 8 80 U MAdditivityrpdateset Column M OColumn Mm M x additivity U MAdditivityy paateset ReferentialConstraint m ORe ferentialConstraint m M x Additivity J 8 3 14 Schritt 12 SharedRollUp markieren Die SharedRollUp Instanzen lassen sich nicht direkt in ein relationales Modell abbilden Es handelt sich um Viele zu Viele Beziehungen deren nat rliche Aufl sung sich in einer Zwischentabelle widerspiegeln w rde Im Hinblick auf sp tere Auswertungen ist diese Darstellung aber nicht brauch bar denn ein Navigieren entlang dieser Pfade w re nicht mehr m glich Aus diesem Grunde wird das SharedRollUp lediglich als Metainformation festgehalten evtl kann sp ter eine auswertende Appli kation diese Informationen nutzen Konkret wird wie in Abbildung 8 22 dargestellt ein Mapping META Objekt angelegt das die Berechnungsvorschrift und die zul ssigen Typen festh
378. he Dimension Instanz im MML Schema mit welcher FactClass Instanz verbunden war braucht nicht mitgef hrt zu werden denn bei potenziellen Aus wertungen kann die entsprechende Dimension einfach unber cksichtigt bleiben F r die Transformationsvorschrift wird in 7 36 die Hilfsfunktion UpdateOwnercompsimpie festge legt die durch Manipulation der Owner Menge die Dimension von der Detailklasse auf die aggre gierte Klasse umh ngt d h die Detailklasse der Owner Menge hinzuf gt die aggregierte Klasse aus ihr entfernt UpdateOwnercompsimple MComposition X Mowner gt Mowner UpdateOwnercompSimple c O def OU f name f CalcAggregated c c endA name falls c endA name O 0 sonst 7 36 In analoger Art und Weise wird in 7 37 das bertragen der Attribute definiert U pdateAttributeComposition M Composition x M FactClass Attributes Zr M FactClass Attributes Update Attributecomposition c A AU U a n a t TRU E c endAMultiplicity TRU E def a CalcF actAttributes c endA best falls f CalcAggregated c A sonst 7 37 Die Funktion 7 37 tr gt im Gegensatz zu 7 36 als Bezeichner Composition statt CompSim ple weil sie auch f r Kompositionen mit komplexer Multiplizit t verwendet wird f r die Owner Mengen jeodch in 7 40 die Definition einer neue Funktion notwendig wird Kompositionsbeziehungen mit komplexer Multiplizit t Im Falle komplexer Multiplizit t werden stets zwei
379. hen Schemaerzeugung zu Die neuen MERM Sprachelemente bieten neben der Unterscheidung qualifizierender und quantifizierender Daten die Modellierung von Dimen sionshierarchien Vorrangig wurde hierbei auf eine minimale Erweiterung f r die Darstellbarkeit multidimensionaler Daten geachtet so dass die Erg nzungen einfach zu erlernen sind und die Konstrukte auch in m chtigere E R Modelle integriert werden k nnen Die drei multidimensionalen Spezialisierungen der ERM Modellierungskonstrukte sind in Abbildung 3 8 mit ihren graphischen Symbolen zu sehen F r die Strukturierung von Dimensionen wird ein direkter Entit tsuntertyp im Sinne einer Dimensionsebene eingef hrt der im Gegensatz zum urspr nglichen Entit tstyp die beiden neuen Fakt und Rolls Up Beziehungen verwenden darf Da jede Hierarchieebene durch eine separate Entit tsmenge repr sentiert wird lassen sich auf einfache Weise ebenenabh ngige Dimensionsattribute in ein Datenschema aufnehmen Unklarheiten w hrend der Modellierung kann die graphische Darstellung von Dimensionsebenen verursachen da das Symbol einer normalen Entit t verwendet wird Die Einsetzbarkeit der verschiedenen Beziehungstypen ist dadurch nicht sofort ersichtlich Cony Name Dimensions Rolls Up Fakt Beziehung ebene Beziehung Abbildung 3 8 Graphische MERM Notationselemente Die hierarchische Struktur einer Dimension wird mittels einer gerichteten bin ren Rolls Up Beziehung zwischen zwei Dimensionsebenen
380. hfrage ungekl rt und 4 Invalide Unm glich und ungekl rt lt lt DimensionalClass gt gt lt lt Dimension gt gt Validitat m Validit t alaka Bezeichnung Aufz hlungstyp Abbildung B 33 Konzeptionelle Modellierung Dimension Validit t B 35 Dimension Vergleichspopulation Ort Die Dimension Vergleichspopulation Ort macht eine Ortsangabe auf die sich die entsprechende Population bezieht Da die Bezugsgr ssen nicht unbedingt mit denen der Ortshierarchie in Abschnitt B 19 bereinstimmen m ssen k nnen keine dimensionalen Klassen gemeinsam genutzt werden Die Verbindung f r sp tere Auswertungen wird in Abschnitt B 40 durch Verwenden eines Dimensional Mapping Objektes realisiert lt lt Dimension gt gt lt lt DimensionalClass gt gt Vergleichspopulation Vergleichspopulation Ort Ort Bezeichnung Text Abbildung B 34 Konzeptionelle Modellierung Dimension Vergleichspopulation Ort B 36 Dimension Vergleichspopulation Zeit Die Dimension Vergleichspopulation Zeit macht eine Zeitangabe auf die sich die entsprechende Population bezieht Die Bezugsgr sse ist meistens ein Jahr Da dies aber prinzipiell auch anders sein kann wird eine eigene dimensionale Klasse verwendet und nicht auf die Zeit Hierarchie aus Abschnitt B 39 zur ckgegriffen Auch eine Verbindung in Form eines DimensionalMapping Objektes ist nicht notwendig da keine verbindenden Auswertungen vorgenommen werden Vi
381. hielt 117 Aussagen und wurde auf Vollst ndigkeit und Richtigkeit berpr ft Die berarbeitete Endversion des Anforderungskataloges enth lt schlie lich 125 nat rlichsprachliche Aussagen 12 2 Anwenden der Entwurfsmethodik 269 Lfd Nr Aussage Quelle Ass Die Basisberichterstattung des EKN umfasst f r einen Be EKN96 richtszeitraum die erfassten Inzidenzen und Mortalit ten S 14 15 A39 Sowohl erfasste Inzidenzen als auch Mortalit ten werden EKN96 nach Geschlecht unterschieden S 15 Ayo Neben der reinen Fallzahl wird jeweils auch die direkt al EKN96 tersstandardisierte und eine kumulative Inzidenzrate gebil S 15 det AA Bei der kumulativen Inzidenrate werden die beiden Alters EKN96 gruppen 0 64 0 74 gebildet S 15 Tabelle 12 1 Aus dem EKN Bericht abgeleitete Aussagen 12 2 2 Konzeptionelle Modellierung Basierend auf dem in der Anforderungsanalyse des letzten Abschnitts entwickelten Aussagenkatalo ges und dem 18 Schritt Leitfaden zur Findung eines MML Schemas aus Abschnitt 6 3 wurde das konzeptionelle Datenschema erstellt das in Anhang B zu finden ist Das Schema weist folgende Charakteristika auf Die zentrale Faktklasse Fall besitzt mit 36 eine relativ hohe Dimensionalit t Es gibt viele Dimensionen mit nur einer Hierarchieebene Von der Orts Dimension der Vergleichsbev lkerung existieren dimensionale Abbildungen auf verschiedene Hierar
382. hien aufbauen Schritt 8 Finde f r jede Dimension weitere Klassen F r jede Dimension sind weitere f r die potenzielle Analyse wichtige Klassen zu ent decken und als DimensionalClass Objekte festzuhalten Schritt 9 Finde innerhalb dieser dimensionalen Klassen Vererbungshierarchien Die im letzten Schritt gefundenen DimensionalClasses sind auf Spezialisierungen hin zu analysieren Sind entsprechende Abh ngigkeiten entdeckt worden so sind sie durch eine Generalization Beziehung festzuhalten An dieser Stelle ist au erdem die Entscheidung zu f llen ob und wenn ja welche Klassen in dieser Hierarchie als abstrakt markiert wer den sollen Auch an dieser Stelle sollte ein Test bez glich Vererbungsmissbrauch analog zu dem in Schritt 4 durchgef hrt werden Au erdem ist bei dimensionalen Klassen auf einen Vererbungsmissbrauch zur reinen Typunterscheidung zu achten Es sollte deswe gen konsequent die Regel gelten ein neue Klasse nur dann einzuf hren wenn sie sich in mindestens einem Attribut von ihrer Generalisierung unterscheidet Reine Typunterschei dung sollte durch ein Attribut mit entsprechendem Aufz hlungstyp dargestellt werden Rum93b Auch die korrekte Handhabung multipler Generalisierungen Rum93b spielt eine gro e Rolle wird eine Klasse nach zwei orthogonalen Kriterien unterschieden so ist dies durch Mehrfachvererbung zu realisieren Schritt 10 Finde innerhalb dieser dimensionalen Klassen Hierarchie Be
383. hl in der Praxis existierender propriet rer Metadatenmodelle die von Werkzeug Herstellern oder auch aus Forschungsprojekten JJQV99 JLVVO0 stammen gibt es zwei nennenswerte Standardisierungsbem hungen Zum einen ist dies das OIM Open Information Model der MDC Meta Data Coalition auf der anderen Seite das CWM Common Warehouse Metamodel der OMG Object Management Group Beide Modelle sind UML basiert ihre Struk turierung ist in Abbildung 4 8 gegen bergestellt Das OIM ist in themenspezifischen Submodelle unterteilt Die Menge aller Submodelle umfasst alle relevanten Aspekte des Informations DWH und Wissensmanagement Im CWM wird die zentrale Komponente das CWM Foundation Model von der UML abgeleitet ist Um diesen Kern herum siedeln sich die 13 im rechten Teil von Abbildung 4 8 dargestellten Modelle an EZ Open Information Model a pt ENER EINEN a E Analysis and Design Model Unified Modeling Language UML Core UML Extensions Common Data Types Generic Elements Entity Relationship Modeling 8 Object and Component Model Component Description Model a Database and Warehousing Model Relational Database Schema OLAP Schema Data Transformations Record Oriented Legacy Databases Report Definitions XML Schema 8 Business Engineering Model Business Goals Organizational Elements Business Rules Business Processes Fy Knowledge Management Model Knowledge Description Format Semantic De
384. hlen mit einem anderen kontinuierlichen Wertebereich zugelassen 3 4 Vergleich der Datenmodelle 39 Konzeptionelle Datenmodelle Dimensional MD Modell MAC Modell Fact Model DFM Multidimensional Data Multidimensional Model Aggregation Cube Modellgrundlage Keine propriet rer Ansatz Keine propriet rer Ansatz Keine propriet rer Ansatz Werkzeugunterst tzung Keine Angabe Nein Nein Anzahl der Datenw r 1 Fakt ist Wurzel des baum ee ie fel Fakten pro Schema f rmigen Schemas amp amp Anzahl der Kennzahlen pro Datenw rfel Fakt Unbegrenzt 1 Unbegrenzt E EN i i 2 en zwisehen pake eco Sind nicht m glich Sind nicht m glich Struktur eines Fakts Menge von Kennzahlattribu Ein Attribut Menge von Kennzahlattribu ten ten Pro Kennzahl und Dimensi S Additivit t on ist die Angabe alternativer Wird nicht ber cksichtigt Wird nicht ber cksichtigt R Funktionen m glich S Abgeleitete Attribute Werden nicht beriicksichtigt Werden nicht beriicksichtigt Werden nicht beriicksichtigt Lei Innere Struktur eae Kennzahlen Attribut beliebigen Datentyps Menge von Attributen gt K nnen im Schema darge K nnen im Schema darge K nnen im Schema darge Hierarchieebenen stellt werden stellt werden stellt werden K nnen im Schema darge K nnen im Schema darge K nnen im Schema darge Hierarchiepfade stellt werden stellt
385. hrbares Datenbankskript erzeugt oder ber eine Programmierschnittstelle das DB Schema angelegt werden kann Unter Ber cksichtigung dieser Aspekte ergibt sich der in Abbildung II 1 dargestellte Entwurfspro zess Jeder Kasten stellt dabei einen Entwurfsschritt dar die Zahlen in Klammern verweisen auf das Kapitel in dem der Schritt behandelt wird die kursiven Beschriftungen nennen den Beschreibungs formalismus des Entwurfsdokuments des abgeschlossenen Schrittes Fettgedruckt am rechten Rand sind die drei Entwurfsebenen genannt Multidimensionale Modellierung 6 2 6 3 mUML Diagramm Abbildung auf die MML 6 1 Konzeptionell MML Schema Review 6 4 MML Schema qualitatsgesichert Transformation T 7 Logisch REMUS Schema Transformation in initiales Datenbankschema 8 DB Schema unabh ngig Systemabhangige Verfeinerung 9 Physisch DB Schema systemabh ngig Physische Optimierung 10 DB Schema systemabh ngig optimiert Abbildung II 1 Ablauf des Entwurfprozesses Kapitel 6 widmet sich der konzeptionellen Entwurfsphase Es wird zun chst in Abschnitt 6 1 mit der MML Multidimensional Modeling Language eine Metasprache eingef hrt die sowohl multidi mensionale wie objektorientierte Aspekte enth lt Mit der UML multidimensional UML wird in Abschnitt 6 2 eine dazugeh rige graphische Notation vorgeschlagen Wie mit Hilfe dieser Notation ein Schema erstellt werden kann wird in Abschnitt 6 3 behandelt in dem e
386. hrittes in Form eines dokumentierten UML Schemas wiedergegeben Das Ergebnis der Transfor mation nach REMUS ist Gegenstand von Abschnitt A 2 bevor in Abschnitt A 3 die Schemaelemente des hieraus resultierenden LCD of SOL Schemas aufgef hrt werden A l MML Schema Aus Gr nden der bersichtlichkeit wurde das Schema in Schritt 16 des Leitfadens siehe Seite 115 in Abschnitt 6 5 2 in mehrere Subschemata unterteilt Die Faktklassen und ihre gegenseitigen Be ziehungen sowie die einer Faktklasse zugeordneten Dimensionen inkl der die Ebene der feinsten Granularit t bildenden dimensionalen Klasse bilden ein Subschema siehe Abschnitt A 1 1 jede Hierarchiestruktur bildet ebenso ein Subschema Dimension Zeit siehe Abschnitt A 1 2 Dimen sion Produkt siehe Abschnitt A 1 3 und Dimension Ort siehe Abschnitt A 1 4 Die Faktklasse Einkommen mit zugeh rigen dimensionalen Strukturen ist in Abschnitt A 1 5 dokumentiert In die sem Falle wurde auf eine separate Darstellung der Dimensionen verzichtet weil diese Dimensionen nur sehr klein sind A 1 1 Fakten Verk ufe als Ausgangspunkt der Datenanalysen bilden eine Faktklasse diese setzen sich aus mehreren verkauften Produkten zusammen so dass diese ebenfalls eine Faktklasse bilden und zwischen beiden eine Komposition gebildet wird Die Ebenen der feinsten Granularit t sind gem den Anforderungen Artikel Tag und Ort des Verkaufs 292 Anhang A Das
387. hrung TRUE 0 FALSE Gesamtpreis Wahrung TRUE 0 FALSE Abbildung 7 18 Aktualisierung der Owner und FactClassAttributes Mengen 7 2 Transformationsalgorithmus 153 Anschlie end werden f r die vier Faktklassen des Schemas Relationen angelegt und jeweils durch ein Metadatum dokumentiert wie in Abbildung 7 19 exemplarisch f r Verkaufszahl gezeigt FactClass name Verkaufszahl isAbstract FALSE lt lt FactClass gt gt owner Verkaufszahl Anzahl St ckzahlTyp _ FactAttribute propertyName Anzahl isOptional FALSE isKey FALSE l Tas Objekte Verkaufszahl Attribute Metadaten Verkaufszahl ObjectType Relation Fact Abbildung 7 19 Transformation von FactClass Schemaelementen Schlie lich werden die zugeh rigen oct Joss Attributes Mengen abgearbeitet und die entspre chenden Faktattribute angelegt siehe Beispiel in Abbildung 7 20 Zugeh rige Optional oder Multiplicity Metadaten fallen im Beispielschema nicht an weil die Bedingungen nicht erf llt sind FactClass name Verkaufszahl isAbstract FALSE owner lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp attribute FactAttribute propertyName Anzahl isOptional FALSE isKey FALSE ee j _m zZ ysz zz zz Eu L FactAttribute Objekte Attribute Verkaufszahl Anzahl
388. ht 7 34 zeigt die Berechnungen f r die Mengen CalcOwner M Dimension Mowner CalcOwner d Successors d owner CalcDetail Mcomposition gt M Detail CalcDetail c def Successors c endB CalcAggregated M Composition gt M Aggregated CalcAggregated c Successors c endA CalcFact Attributes M FactAttribute U M DataClass gt M FactClass Attributes 7 34 CalcF act Attributes s s name s type name s isOptional 0 FALSE falls s M Fact Attribute A s type M DataClass def CalcFact Attributes s type falls s E MractAttribute A S type Mpatactass U CalcFactAttributes a a s attribute falls s M DataClass Beim Berechnen der FactClass Attributes Mengen werden zun chst die Attribute mit komplexen Datentypen in eine Menge von Attributen verwandelt Dies geschieht analog zu der in 7 11 f r DimensionalAttribute Instanzen definierten Funktion Abbildung 7 15 zeigt die ermittelten Owner Detail Aggregated und Attributes Mengen f r die Beispielwelt 7 2 Transformationsalgorithmus 145 lt lt Dimension gt gt Zeit Verkauf lt lt FactClass gt gt Verkauf lt lt Dimension gt gt Ort Verkauf gt Betrag W hrung EEE g lt lt Composition gt gt lt lt Dimension gt gt lt lt Dimension gt gt Zeit lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp lt lt Dimension gt gt lt lt Dimension gt gt Produkt Ort Objek
389. ht man auch von alternativen Verdichtungspfaden Abbildung 3 2 zeigt f r das Beispiel aus Abbildung 3 1 eine einfache Hierarchie auf der Ortsdimension und eine Mehrfachhierarchie auf der Produktdimension Hersteller Region Marke Stadt Produkt gruppe Filiale Produkt a Einfache Hierarchie b Multiple Hierarchie Abbildung 3 2 Einfache und Mehrfachhierarchien 3 1 Grundbegriffe 21 Die Stufe des Verdichtungsgrades von Daten innerhalb einer Hierarchie bezeichnet man als Granula rit t Hierbei besitzen die Detaildaten den niedrigsten Verdichtungsgrad bzw die feinste Granularit t zusammengefasste Daten haben entsprechend einen h heren Verdichtungsgrad und damit eine gr be re Granularit t Es ist m glich dass bei der Zuordnung von Elementen einer Hierarchieebene zur n chsth heren oder n chstniedrigeren Ebene nicht immer zugeh rige Elemente existieren In diesem Fall ergibt sich auf Instanzebene ein unbalancierter Baum wie er Abbildung 3 3 zu sehen ist Man spricht in diesem Falle von einer unbalancierten Hierarchie Bezirk Stadt Gemeinde Gemarkung Abbildung 3 3 Unbalancierte Hierarchie In Glu96 Wie00 wird die Problematik der anteiligen Verrechnung vorgestellt die durch Zuordnung eines Elementes einer Hierarchieebene zu mehreren Elementen der n chst h heren Ebene mittels einer Berechnungsvorschrift entsteht siehe Abbildung 3 4 a Bei einer Verdichtung der Daten muss ber cksichtigt werden
390. ibung lean unterschieden wird isFixedLength Boolean Gibt an ob Spalten dieses Datentyps eine feste L nge haben isFixedPrecisionScale Boolean Gibt f r numerische Datentypen an ob sie feste Vor und Nachkommastellen haben isLong Boolean Gibt an ob es sich um einen Bin rdatentyp oder einen sehr langen Textda tentyp handelt Was unter einem sehr langen Textdatentyp zu verstehen ist ist systemabh ngig isNullable Boolean Gibt an ob f r Werte der Spalte dieses Datentyps NULL Werte m glich sein sollen isUnsignedAttribute Gibt an ob der Datentyp vorzeichenlos ist Boolean literalPrefix String Die Zeichenfolge die ein Literal dieses Typs als Pr fix erh lt literalSuffix String Die Zeichenfolge die ein Literal dieses Typs als Suffix erh lt maximumscale Integer Gibt bei einem numerischen Datentyp die maximale Anzahl an Nachkomma stellen an minimumscale Integer Gibt bei einem numerischen Datentyp die minimale Anzahl an Nachkomma stellen an name String Die Bezeichnung des Datentyps im Gegensatz zum Attribut domainName steht hier ein technischer Name numericPrecision Inte ger Maximale Anzahl an Stellen zur Basis 10 die f r ein numerisches Attribut gespeichert werden k nnen numericPrecisionBinary Integer Maximale Anzahl an Stellen zur Basis 2 die f r ein numerisches Attribut ge speichert werden k nnen range RangeType Liste v
391. ich 10 19 Die aufgabenunabh ngigen Kosten sind durch d cost Speicherplatz card z card o card p festgelegt Die Kosten fiir die Nebenbedingung errechnen sich mittels Speicherplatz at 5 cost gpeicherplatz wobei A C A gilt ac A Der Workload l sst sich durch W T mit T t tm und d dm beschreiben wobei t Tag Stadt Produktgruppe d 3 ta Monat Stadt Produkt da 1 t3 Jahr Stadt Produktbereich s 7 t4 Tag Filiale Produktgruppe 4 9 ts Monat Stadt Produktbereich 5 5 gelten soll Die aufgabenabh ngigen Kosten berechnen sich nach cost An fragezeit t A min cost a a E A Aa Xt Die Optimierungsaufgabe lautet damit schlieBlich 5 cost Anfragezeit W A 3 de cost An fragezeit ti A min i 1 unter Beriicksichtigung der Nebenbedingung 5 X cost Speicherplatz i lt 1 2GByte i 1 Beispiel 1 Materialisierung Mit Hilfe des Greedy Algorithmus erh lt man das Resultat aus Tabelle 10 1 Hinter den Materia lisierungen ist jeweils der relative Nutzen im betreffenden Durchlauf des Algorithmus angegeben Einheit ist die Anzahl der Tupel Der Wert gibt die Anzahl der eingesparten zu lesenden Tupel an wenn die enstprechende Materialisierung realisiert wird 246 Kapitel 10 Physische Datenbankoptimierung Materialisierung 1 Durchlauf 2
392. ichnung NULL NULL FALSE FALSE TA05 String NULL 3 NULL Column CO13 Bezeichnung NULL NULL FALSE FALSE TA07 UK25 String 3 5 NULL NULL Column CO14 Bezeichnung NULL NULL FALSE FALSE TA08 UK26 String 3 5 NULL NULL Column CO15 Bezeichnung NULL NULL FALSE FALSE TA09 UK27 String 3 5 NULL NULL Column CO16 Bezeichnung NULL NULL FALSE FALSE TA10 UK28 3 5 QuartalsTyp NULL NULL Column CO17 Bezeichnung NULL NULL FALSE FALSE TAll UK40 String 3 5 NULL NULL Column CO19 Bezeichnung NULL NULL FALSE FALSE TA12 UK30 Text 3 5 NULL NULL Column CO20 Bezeichnung NULL NULL FALSE FALSE TA13 Text NULL 3 NULL Column Fortsetzung auf der folgenden Seite A 3 LCD of SOL Schema 309 Fortsetzung von der letzten Seite CO21 Bezeichnung NULL NULL FALSE FALSE TA14 UK32 Text 3 5 NULL NULL Column CO22 Bezeichnung NULL NULL FALSE FALSE TA15 UK33 3 5 DatumTyp NULL NULL Column CO23 Bezeichnung NULL NULL FALSE FALSE TA17 UK34 Text 3 5 NULL NULL Column CO24 Bezeichnung NULL NULL FALSE FALSE TA20 UK
393. ichten und die Aktualisierung bei Daten nderungen 4 3 Relationale Optimierungsm glichkeiten 49 BLT86 TB88 GL95 Die Auswahl der zu materialisierenden Sichten kann statisch oder dynamisch erfolgen Bei dynamischer Auswahl wird ein Caching von Anfrageergebnissen vorgenommen wo bei die Lokalit t von Ad Hoc Anfragen genutzt wird Besonders vorteilhaft ist dies bei interaktiven aufeinander aufbauenden Anfragen z B Roll Up Operationen Dieses Verfahren kann jedoch nur im Kern des DBMS realisiert werden so dass es f r den Entwurfsprozess und damit im Rahmen dieser Arbeit keine Bedeutung besitzt Hier spielt vielmehr die statische Auswahl von Sichten eine Rolle die durch den Entwickler oder auch automatisiert durch ein Werkzeug geschieht Die Auswahl er folgt aufgrund von Erfahrungen aus der Vergangenheit meistens in Form von Anfragemustern und bis zur n chsten Aktualisierung des DWH werden keine Ver nderungen der materialisierten Sichten vorgenommen In einem DWH bieten sich als materialisierte Sichten Kombinationen von Hierarchie ebenen an Dabei ist es in der Praxis aufgrund des ben tigten Speicherplatzes bzw des Aktualisie rungsaufwandes i Allg nicht m glich alle Kombinationen zu realisieren denn die Anzahl m glicher Kombinationen w chst exponentiell mit der Anzahl der Dimensionen Ziel ist es daher eine m glichst optimale Teilmenge zu ermitteln die einerseits die Anfrageperfor manz verbessert andererseits
394. idForMethodCall BOOLEAN MethodCallType SchemaConditionType validForCondition BOOLEAN TaskSchemaConditionType Typen Abbildung 10 4 Metamodell f r die physische Datenbankoptimierung 10 2 Metamodell f r den physischen Datenbankentwurf 233 10 2 1 Typen Der Bereich Typen stellt Datentypen zur Verf gung die von Attributen anderer Metaklassen genutzt werden In Abbildung 10 5 wird mit Hilfe der Klassen TuningActionType f r verschiedene Optimierungsm glichkeiten und TypeOfCostType f r verschiedene Kostenarten die M glichkeit zur Definition von Aufz hlungstypen eingef hrt Die in der Abbildung dargestellten Instanzen zeigen typische Objekte eines realen Weltausschnitts TuningActionType TypeOfCostType name String name String N ba l l Materialisierung L Speicherplatz 2 Indexierung ler Update Zeit ell Partitionierung Abbildung 10 5 Datentypen In Abbildung 10 6 werden Ausdriicke durch die Oberklasse ExpressionType mit ihrer Spezialisierung MethodCallType definiert Au erdem k nnen als Instanzen der Klasse ConditionType Bedingungen d h boolesche Ausdr cke festgelegt werden die je nach Objekten auf die sie Bezug nehmen in TaskConditionType SchemaConditionType und TaskSchemaConditionType spezialisiert werden ConditionType name String expression String ExpressionType
395. ie ISt folgenderma en definiert EE META x RollUp ExpressionT ype sa def H f det RollUpTypesRule m Konsistenzregel 198 Kapitel 8 Relationaler Entwurf Ort des Verkaufs Filialkategorie RollUp Filialkategorie Filiale ALL_TYPES Ort des Verkaufs Filialkategorie ForeignID Filialkategorie ID COMPLETE fjet Ort des Verkaufs Ort_des_Verkaufs TableName HRollup Ha Filialkategorie Filialkategorie ReferentialConstraint name Referential constraint between tables Filialkategorie and Ort_des_Verkaufs typeMETA ROLL_UP typesPKMETA Filiale typesFKMETA constraints foreignKeyRole UniqueKeyRole ForeignKeyRole name Role of unique key of table Filialkategorie name Role of foreign key of table Ort_des_Verkaufs multiplicity 1 from table Filialkategorie matchType MATCHTYPE_FULL_MATCH multiplicity 1 deleteRule REFERENTIALRULE_CASCADE role initiallyDeferred TRUE isDeferable TRUE updateRule REFERENTIALRULE_CASCADE foreignKey ForeignKey name Foreign key from table Filialkategorie foreignKeys keys DBC kam table B onstrain Table name Table constraint allowed RollUps name Ort des Verkaufs from table Ort_des_Verkaufs to table SS ee SCTE Filialkategorie body Filialkategorie ForeignID IS NULL OR Col
396. ie property Referenz des SharedRollUp verweisen e Wird das Objekt f r ein DimensionalMapping Schemaelement verwendet m ssen die Parame ter mit dessen source Referenz bereinstimmen und das Resultat muss auf das gleiche Element verweisen wie die property Referenz des DimensionalMapping Mit Hilfe von Instanzen der Additivity Metaklasse k nnen in einem MML Schema f r bestimmte FactAttribute Instanzen und ConnectionElement Schemaelemente anwendbare Verdichtungs operatoren definiert werden Fehlt bei einem FactAttribute Schemaelement eine zugeh rige Additivity Instanz so sind per Definition alle Operatoren erlaubt ber die Art wie ein Operator auf den durch die FactAttribute Instanz verbundenen Datenelementen ausgef hrt wird erfolgt in einem MML Schema keine Aussage ConnectionElement SSE connection additivity 0 Additivity allowedOperators OperatorSet 0 generalization 1 child FactAttribute 0 attribute 1 owner FactClass Abbildung 6 10 MML Additivity Die Angabe der Verdichtungsoperatoren ist auf Dimension Beziehungen zwischen FactClass und Di mensionalClass Instanzen sowie auf Kompositionsbeziehungen zwischen zwei FactClass Instanzen beschrankt 84 Kapitel 6 Konzeptioneller Entwurf 6 1 7 Properties Im Gegensatz zu den im letzten Unterabschnitt vorgestellten allgemeinen Verbindungsm glichkeiten zw
397. iebsphase 231 ConditionType 233 DBMS 237 DesignProcess 238 Environment 237 ExpressionType 233 GeneralGlobalConstraint 237 GlobalConstraint 237 GlobalSpaceConstraint 237 GlobalTimeConstraint 237 Identifier 234 237 Implementierungsphase 231 Kompromissphase 230 240 Konfigurationsphase 228 Kostenarten 239 Kostenmodell 230 LoadingTask 236 MethodCallType 233 Optimierungsalgorithmus 230 Optimierungsma nahmen 231 Optimierungsphase 239 OptimizationAlgorithm 238 ProcessInput 238 Prozess 231 ReadingTask 236 Regeln 228 Rule 237 RuleSet 237 SchemaConditionType 233 SchemaRule 237 Selektionsphase 240 Task 236 TaskConditionType 233 TaskRule 237 TaskSchemaConditionType 233 TaskSchemaRule 237 TuningAction 235 TuningActionCost 235 TuningActionSet 235 236 TuningActionType 233 Typen 231 233 TypeOfCostType 233 Uberarbeitungsphase 230 240 Umgebung 230 WeightOfTask 236 Workload 228 231 238 239 Workload 236 PimaryKey REMUS 155 Pivotisierung 22 PrimaryKey REMUS 121 132 139 176 185 ProcessInput 238 PropertyConnection MML 84 Qualifizierende Eigenschaft 19 G347 Qualit tssicherung 63 98 G347 Analytische 63 Inspektion 64 Konstruktive 63 Psychologisch orientierte 63 Review 64 Walkthrough 64 Quantifizierende Eigenschaft 19 G347 R Baum 47 R Baum 47 R Baum 47 Reach Through G347 ReadingTask 236 Reference REMUS 121 136 139 155 176 Referential
398. iert sie haben sich auch in der Verwaltung gro er Datenmengen bew hrt Ebenso existieren sowohl intern z B Si cherheitskonzepte wie auch extern z B Administrationswerkzeuge von Drittherstellern eine Reihe von hilfreichen Werkzeugen Ebenso haben relationale Systeme in der Zwischenzeit einen hohen technischen Reifegrad erlangt und mit SQL liegt eine weitestgehend standardisierte Zugriffssprache zur Ver f gung MOLAP Systeme als vergleichsweise junge Produkte hingegen besitzen in puncto Performanz Optimierungen Lastverteilung etc weniger Konfigurationsm glichkeiten ebenso existieren keine allgemein anerkannten Standards bez Datenformaten Abfragesprachen oder Programmierschnittstellen ROLAP Systeme speichern die Daten in Relationen die eine Untermenge des Kreuzproduk tes aller Wertebereiche d h im multidimensionalen Fall Instanzen der feingranularsten Ebe nen jeder Dimension sind Somit werden nur vorkommende Wertekombinationen gespeichert MOLAP Systeme hingegen bilden einen Datenw rfel direkt auf den physischen Speicher ab indem dieses mehrdimensionale Konstrukt zu einer eindimensionalen Liste linearisiert wird 42 Kapitel 4 Realisierung von DWH Dadurch wird f r jeden m glichen Wert sprich jede W rfelzelle Speicherplatz reserviert Dies f hrt bei d nn besetzten W rfeln zu Speicherplatzverschwendung Praktische Analysen Mic95 haben ergeben dass insbesondere in betriebswirtschaftlichen Applikationen h
399. iffe oe re an Se Datenmodellanforderungen Konzeptionelle multidimensionale Datenmodelle Vergleich der Datenmodelle e ZUSAMMENFASSUNG hf en a ENNEN EE e a el a aoe 4 Realisierung von Data Warehouses 4 1 4 2 4 3 4 4 4 5 Umsetzungsm glichkeiten des multidimensionalen Datenmodells Relationale Realisierungen Relationale Optimierungsm glichkeiten ooo Me tad ate nin 02 64d 5 den ent ea e A nn be NA Za avs See EE o CO Oh L UY 10 12 15 16 18 19 19 24 26 37 40 INHALTSVERZEICHNIS 5 Entwurf von Informationssystemen u 5 1 Entwurf operativer Datenbanken 5 2 Arbeiten zum Entwurf von DWHs 5 3 Weitere Aspekte des Software und Database Engineering 5 4 Zusammenfassung Entwurfsmethodik f r Data Warehouses berblick aa ar BA ec as tee Konzeptioneller Entwurf 6 1 MML Multidimensional Modeling Language 6 2 UML Graphische Notation 6 3 Leitfaden zum Erstellen eines Schemas 6 4 Qualit tssicherung von MML Schemata 6 5 Beispiel Handelswelt 6 6 Zusammenfassung Logischer Entwurf 7 1 REMUS Relational Schema for Multidimensional Purpose 7 2 Transformationsalgorithmus 7 3 Nicht relationale Transformationen 7 4 Zusammenfassung Relationaler Entwurf 8 1 Einleittung 002 8 2 Das relationale Metamodell LCD of SQL 8 3 Abbildung von REMUS nach LCD of SQL 8 4 Zusammenfassung Verfeinerung des Schemas 9 1 Elementare Verfeiner
400. ift ben tigt man diejenige Zerlegung der Primary Key Metadaten die die einzelnen Prim rschl ssel einer Relation zusammenfasst Diese als M Primary KeYGrouped bezeichnete Zusammenfassung ist in 8 19 definiert MPrimaryK eycrouped M1 Mn ist diejenige Zerlegung von MPrimaryKey mit Gig m M mit i 1 n m a m a A ii Ym Mm M mit i j 1 n und i j m a m a A 242 Vm M PrimaryKey m M miti 1 uan 8 19 Weil die Anordnung der Attribute innerhalb eines Schl ssels geordnet ist wird die nachfolgend defi nierte Funktion eingef hrt die die Elemente einer endlichen Menge in eine Ordnung bringt Sei S eine n elementige Menge fgeto ist eine bijektive Abbildung mit Jdetorser S gt 1 n 8 20 de wis Jdetorder 8 af Position von s Die UniqueKey und UniqueKeyRole Objekte werden durch die beiden folgenden Abbildungsvor schriften angelegt HPrimaryKeyoreate UniqueKey META PrimaryK eycrouped gt LuniqueK ey def HPrimaryKeyoreate UniqueKey M Primary key of table fdetrasiename M relation name TRUE foetreste name M relation name Jaetoraer U Lfaet Aan rte wann m attribute name meM NULL UniqueKey 8 21 8 3 Abbildung von REMUS nach LCD of SOL 187 Verkaufszahl PrimaryKey Verkaufszahl Artikel ForeignID Verkaufszahl PrimaryKey Verkaufszahl Tag ForeignID Verkaufszahl PrimaryKey Verka
401. ig 2 In situ 3 B sartig Prim rsitz 6 Bosartig Metastase und 9 Fehlende Angabe Unbekannt B 13 Dimension Fernmetastasen 327 b lt lt DimensionalClass gt gt lt lt Dimension gt gt d ate Dignit t Dignit t Bezeichnung Aufz hlungstyp Abbildung B 12 Konzeptionelle Modellierung Dimension Dignit t B 13 Dimension Fernmetastasen Die Dimension Fernmetastasen beschreibt das Vorliegen von Fernmetastasen die sog M Angabe Zul ssige Werte sind O0 1 und Unbekannt lt lt DimensionalClass gt gt Fernmetastasen Bezeichnung Text lt lt Dimension gt gt Fernmetastasen Abbildung B 13 Konzeptionelle Modellierung Dimension Fernmetastasen B 14 Dimension Geschlecht Die Dimension Geschlecht beschreibt das Geschlecht des Patienten auf den sich die Meldung bezieht Zul ssige Wertepaare sind 1 M nnlich 2 Weiblich und 9 Fehlende Angabe Sonstige l lt lt DimensionalClass gt gt lt lt Dimension gt gt Geschlecht Geschlecht Bezeichnung Aufz hlungstyp Abbildung B 14 Konzeptionelle Modellierung Dimension Geschlecht B 15 Dimension Histologie Die Dimension Histologie beschreibt die Histologie nach ICD 0 Diese besteht aus einem vierstelligen Zifferncode und dem zugeh rigen Langtext 328 AnhangB Evaluation lt lt Dimension gt gt H
402. ignID Reference Artikel ID 9 Verkauftes Produkt Ort des Verkaufs ForeignID Reference 9 Ort des Verkaufs ID Verkauftes Produkt Tag ForeignID Reference Tag ID 9 Fortsetzung auf der folgenden Seite 304 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite RollUp Artikel Produktgruppe RollUp Produktgruppe ALL_TYPES ALL_TYPES 5 Artikel Produktgruppe ForeignID Produktgruppe ID COMPLETE OC Filialkategorie Filialoberkategorie RollUp Filialoberkategorie Filiale 5 ALL_TYPES Filialkategorie Filialoberkategorie ForeignID Filialoberkategorie ID COMPLETE OC Monat Quartal RollUp Quartal ALL_TYPES ALL_TYPES 5 Monat Quartal ForeignID Quartal ID COMPLETE Ort des Verkaufs Filialkategorie RollUp Filialkategorie Filiale 5 ALL_TYPES Ort des Verkaufs Filialkategorie ForeignID Filialkategorie ID NON COMPLETE Ort des Verkaufs Stadt RollUp Stadt ALL_TYPES ALL_TYPES C Ort des Verkaufs Stadt ForeignID Stadt ID COMPLETE 5 Produktfamilie Produktkategorie RollUp Produktkategorie ALL_TYPES 5 ALL_TYPES Produktfamilie Produktkategorie ForeignID Produktkategorie ID COMPLETE Pr
403. im Schii und V S Subrahmanian Efficient Main tenance of Materialized Mediated Views In Carey Michael J und Donovan A Schnei der Herausgeber Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data Mai 1995 San Jose Kalifornien USA Seiten 340 351 ACM Press 1995 Labio Wilbert Juan Dallan Quass und Brad Adelberg Physical Database Design for Data Warehouses In Gray Alex und Per ke Larson Herausgeber Proceedings of the Thirteenth International Conference on Data Engineering April 1997 Birmingham England Seiten 277 288 IEEE Computer Society 1997 Lehner Wolfgang Thomas Ruf und Michael Teschke CROSS DB A Feature Extended Multidimensional Data Model for Statistical and Scientific Databases In CIKM 96 Proceedings of the Fifth International Conference on Information and Knowledge Ma nagement November 1996 Rockville Maryland USA 1996 Lenz Hans Joachim und Arie Shoshani Summarizability in OLAP and Statistical Da ta Bases In Ioannidis Yannis E und David M Hansen Herausgeber Ninth Inter national Conference on Scientific and Statistical Database Management Proceedings August 1997 Olympia Washington USA IEEE Computer Society 1997 Ling Tok Wang und Eng Koon Sze Materialized View Maintenance Using Version Numbers In Chen Arbee L P und Frederick H Lochovsky Herausgeber Database Systems for Advanced Applications Proceedings of the Sixth International Co
404. immer eindeutig ist Das dritte Beispiel zeigt eine Verkn pfung von get Operatoren die durch das Metaklassendiagramm navigieren und alle im Schema S verwendeten Datentypen ermittelt Das vierte und letzte Beispiel zeigt einen get lt reference name gt Operator mit Bedingung der alle Fakttabellen des Schemas S ermittelt getTables S getT ype B getT ype getColumns getT ables S getTables S tableType META FACT 9 12 Weiterhin ist f r get lt reference name gt Operatoren ein Operator definiert der den transitiven Ab schluss berechnet Voraussetzung ist hierbei dass der Typ des Arguments gleich dem des Resultats ist get lt reference name gt lt set of object names gt lt condition zl 9 13 9 2 Komplexe Operatoren 217 Um die Referenzen zu manipulieren werden die in 9 14 gezeigten add und minus Operatoren verwendet Sie f gen der Referenz eines Objektes ein Element hinzu oder entfernen es add lt reference name gt lt object name gt lt value gt 0 14 minus lt reference name gt lt object name gt lt value gt Die Beispiele in 9 15 f gen dem Schema S die Tabelle A hinzu und entfernen die Tabelle D addTables S A 9 15 minusTables S D E 9 2 Komplexe Operatoren 9 2 1 Algorithmische Elemente Aufbauend auf den im letzten Abschnitt definierten elementaren Operatoren lass
405. in Leitfaden zur Gewin nung eines MML Schemas pr sentiert wird Qualit tssicherung in Form eines Reviews sowie die Angabe zahlreicher Qualit tskriterien sind Gegenstand des Abschnitts 6 4 Die Transformation von der konzeptionellen auf die logische Entwurfsebene wird in Kapitel 7 be handelt Hierzu wird in Abschnitt 7 1 die Relationenschemaform REMUS Relational Schema for Multidimensional Purpose definiert in 7 2 erfolgt dann die Spezifikation der eigentlichen Transfor mation In den Kapiteln 8 bis 10 wird der physische Datenbankentwurf behandelt Nachdem zun chst in Ka pitel 8 die berf hrung von REMUS Schemata in LCD Lowest Common Denominator of SQL Schemata beschrieben wird behandelt Kapitel 9 die Zielsystem spezifische Umstrukturierung dieses Schemas Zum physischen Entwurf im engeren Sinne der Optimierung des Schemas wird in Kapitel 10 ein Framework f r die integrierte Handhabung verschiedener Optimierungsm glichkeiten unter Ber ck sichtigung von Umgebungs und Extensionsparametern entworfen Die Pr sentation der Konzepte wird von einem durchg ngigen Beispiel Handelswelt begleitet des sen Vorstellung beim ersten Auftreten in Abschnitt 6 5 erfolgt Kapitel 6 Konzeptioneller Entwurf Dieses Kapitel widmet sich dem konzeptionellen Entwurf Dabei werden die in Abbildung 6 1 dunkel hinterlegten Schritte betrachtet Zun chst wird in Abschnitt 6 1 mit der Multidimensional Modeling Language MML eine multidimensionale
406. in neues Objekt durch Kopieren eines bestehenden Objektes anlegt Dabei werden alle Attributwerte und Referenzen bernommen copy lt Classname gt name namen 9 5 9 1 Elementare Verfeinerungsoperatoren 215 Beispielsweise erzeugt der Operatorenaufruf in 9 6 eine Spalte C die genau wie B zur Tabelle A geh rt und auch sonst die gleichen Eigenschaften wie Datentyp und Standardwert besitzt copyColumn C B 9 6 Als inverse Operation zum Anlegen gibt es den delete Operator zum L schen von Objekten der die folgende Syntax hat delete lt Classname gt name 9 7 Inwieweit die Ausf hrung des delete Operators das L schen aller referenzierten Objekte impliziert zeigt Tabelle 9 1 Ebenso gibt die Tabelle f r jeden Objekttyp an bei Existenz welcher referenzierten Objekte Instanzen dieses Typs nicht gel scht werden k nnen L schen von bewirkt L schen von kann nicht gel scht werden Objekten referenzierten Objekten wenn Referenzen vorhanden der Metaklasse der Metaklassen sind zur Metaklasse Additivity META Column AdditivityMETA UniqueKey ColumnConstraint ForeignKey MappingMETA ColumnConstraint ColumnType Column DBConstraint ForeignKey ForeignKeyRole Columns ForeignKeyRole ForeignKey MappingMETA ReferentialConstraint ForeignKeyRole Schema DBConstraints Referential
407. iner Modellierungstechnik f r Data Warehouse Fachkonzepte In Schmidt Herrad Herausgeber Proceedings der MobiS Fachtagung 2000 Oktober 2000 Siegen Deutschland 2000 Harinarayan Venky Anand Rajaraman und Jeffrey D Ullman Implementing Data Cu bes Efficiently In Jagadish H V und Inderpal Singh Mumick Herausgeber Procee dings of the 1996 ACM SIGMOD International Conference on Management of Data Juni 1996 Montreal Quebec Kanada Seiten 205 216 ACM Press 1996 Heuer Andreas und Gunter Saake Datenbanken Konzepte und Sprachen Internatio nal Thomsen Publishing Bonn Deutschland 2 Auflage 2000 Hahn Karl Carsten Sapia und Markus Blaschka Automatically Generating OLAP Schemata from Conceptual Graphical Models In DOLAP 00 ACM Third Interna tional Workshop on Data Warehousing and OLAP November 2000 Washington DC USA Proceedings Seiten 22 27 ACM Press 2000 Hahn Karl Carsten Sapia und Markus Blaschka Automatically Generating OLAP Schemata from Conceptual Graphical Models Technischer BerichtFORWISS Tech nical Report FR 2000 002 FORWISS M nchen Deutschland Oktober 2000 358 Literaturverzeichnis Huy00 TEE83 Inm96 JJQV99 JL99 JLV V00 Jon99 Jos96 JT98 Kem99 Ken99 Kim96 KN99 KRRT98 LecO1 Lei97 LH99 Huyn Nam Speeding up View Maintenance Using Cheap Filters at the Warehouse In Wang Xiaoyang Sean Ge
408. informationssystem CIS Entscheidungsunterst tzungssystem EUS oder Decision Support System DSS bekannt wurden Dabei entstand eine Architekturform wie in Abbildung 1 1 zu sehen Aufbauend auf den operativen Systemen wurden Berichtswerkzeuge integrierte L sungen und mit der zunehmenden Verbreitung von PC Arbeitspl tzen in den 80er und 90er Jahren auch auf Tabellenkalkulationen basierende L sungen angesiedelt Einen berblick ber die historische Entwicklung geben GGC97 und Kem99 Kapitel 1 Einleitung Tabellen kalkulation Entscheidungs unterst tzung z B Controlling MIS Applikation Berichts applikation A E Ir oe Anwendung Anwendung Operative Aufgaben z B Buchhaltung op Abbildung 1 1 Architektur ohne Data Warehouse Auf einer solchen Architektur basierende Systeme bringen jedoch eine Reihe von Problemen mit sich e Meistens wird eine Beschr nkung auf interne Daten und dabei h ufig auch nur auf ein Sy stem innerhalb einer Vielzahl von Systemen in einer Organisation vorgenommen gerade f r mittel und langfristige Entscheidungen sind aber auch externe Daten die z B von Meinungs forschungsinstituten erhoben werden oder von statistischen mtern stammen von Belang e Oftmals werden in unterschiedlichen Teilorganisationen und deren Informationssystemen von einander abweichende Begriffe verwendet so dass Berichte aus unterschiedlichen Sy
409. ing Systemausrichtung Berichtsorientiert Berichtsorientiert Algorithmisch Nutzungsinitiative Systeminduziert Benutzerinduziert Benutzerinduziert Nutzungsfrequenz A Jperiodisch A periodisch A periodisch Erforderliche DV Kompetenz Wenig Mittel Sehr gro der Benutzer Tabelle 2 2 Vergleich herk mmlicher Front End Werkzeugklassen Sonstige Front End Werkzeuge Neben den drei klassischen auf einem DWH aufsetzenden Front End Komponenten sind beliebige Applikationen denkbar die sich mit Daten aus dem DWH versorgen Exemplarisch ist in der Refe renzarchitektur in Abbildung 2 1 auf Seite 9 ein mobiler Informationsagent genannt der das DWH als Datenbasis nutzt und durch zus tzliches Wissen kritische F lle erkennt in denen er Benutzer benach richtigt Unter Ber cksichtigung der Tatsache dass fast alle entscheidungsrelevanten Daten einen Raumbezug haben ist auch die in der Abbildung dargestellte Kombination mit einem GIS Geogra phisches Informationssystem eine interessante M glichkeit raumbezogene Auswertungen attraktiv aufbereitet zu pr sentieren 2 5 Sonstige Werkzeuge Erg nzt werden die bisher vorgestellten Komponenten in einem DWS typischerweise um einen DWS Manager siehe Abschnitt 2 5 1 und ein Metadaten Repository siehe Abschnitt 2 5 2 Fasst man den Begriff der Werkzeuge in einem DWS etwas weiter so geh ren auch Entwurfswerkzeuge f r das DWH dazu Weil diese im Kontext der Arbeit eine
410. ing A updateRule ReferentialRule u constraints UniqueKeyRole Tabelle 8 7 Tupelschreibweise der LCD of SOL Objekte 182 Kapitel 8 Relationaler Entwurf Im Unterschied zur Transformation in Kapitel 7 bei der in jedem Schritt neue REMUS Objekte erzeugt werden sind aufgrund der wechselseitigen Referenzen im LCD of SOL Metaschema Ma nipulationsoperatoren notwendig um ein korrektes Schema zu erhalten Aus diesem Grunde sind Set und Add Methoden zur Datenmanipulation definiert Eine Ser Methode ndert eine Kompo nente eines Tupels eine Add Methode f gt bei mengenwertigen Eintr gen von Referenzen entspre chend einen Eintrag hinzu Der Name der Methode setzt sich aus Set bzw Add dem Namen der zu manipulierenden Metaklasse sowie der zu manipulierenden Komponente zusammen Bei spielsweise ndert die Methode SetTableN ame A B den Tabellennamen von A in B und AddTableConstraint A C erweitert die Menge der von Tabelle A referenzierten Cons traints um den Eintrag C Formal SetTableName Lrabie X String LTable SetTableN amett s def s t tableTypeM ET A 8 7 t uniqueK eys t constraints Table Hinzufiigen bei mengenwertigen Komponenten AddTableConstraint LTable X LTableConstraint LTable AddTableConstraint t c u t name t tableTypeMETA 8 8 t uniqueK eys t constraints U c Table 8 3 3 Schritt 1 Datentypen anlegen Die Daten
411. ingt 2 Tod nicht durch diesen Tumor bedingt 3 Fraglich ob Tod durch diesen Tumor bedingt und 9 Fehlende Anga be Unbekannt Nicht verstorben Sepsis lt lt DimensionalClass gt gt Tumorbedingter Tod Tumorbedingter Tod Bezeichnung Aufz hlungstyp Abbildung B 30 Konzeptionelle Modellierung Dimension Tumorbedingter Tod B 32 Dimension Tumorfolge Die Dimension Tumorfolge beschreibt ob es sich um einen Erst oder Folgetumor handelt Zul ssige Werte sind 1 Erster Tumor 2 Zweiter Tumor und 3 Weiterer Tumor lt lt DimensionalClass gt gt Tumorfolge Bezeichnung Aufz hlungstyp lt lt Dimension gt gt Tumorfolge Abbildung B 31 Konzeptionelle Modellierung Dimension Tumorfolge B 33 Dimension Typ des Falles Die Dimension Typ des Falles beschreibt ob es sich um einen Inzidenz oder einen Sterbefall handelt 334 AnhangB Evaluation lt lt DimensionalClass gt gt Typ des Falles Bezeichnung Inzidenzfall Sterbefall lt lt Dimension gt gt Typ des Falles Abbildung B 32 Konzeptionelle Modellierung Dimension Typ des Falles B 34 Dimension Validit t Die Dimension Validit t macht eine Angabe zur Zuverl ssigkeit des Falles Zul ssige Wertepaare sind 1 Valide Unauff llig Noch unbearbeitet 2 Auff llig aber in Nachfrage best tigt 3 Ungew hnlich und trotz Nac
412. int between tables Stadt and Region ROLL_UP 10 ALL_TYPES ALL_TYPES UR11 FR10 NULL ReferentialConstraint RC11 Referential constraint between tables Stadt and Verkaufsbezirk 10 ROLL UP ALL_TYPES ALL_TYPES URI7 FRII NULL RC12 ReferentialConstraint OC Referential constraint between tables Strassenbereich and Stadt 10 ROLL_UP ALL_TYPES ALL_TYPES UR13 FR12 NULL ReferentialConstraint RC13 C Referential constraint between tables Tag and Monat ROLL_UP 10 ALL_TYPES ALL_TYPES UR04 FR13 NULL ReferentialConstraint RC14 C Referential constraint between tables Tag and Woche ROLL_UP 10 ALL_TYPES ALL_TYPES UR20 FR14 NULL ReferentialConstraint Fortsetzung auf der folgenden Seite A 3 LCD ofSOL Schema 315 Fortsetzung von der letzten Seite RC15 Referential constraint between tables Verkaufsbezirk and Region 10 ROLL UP ALL_TYPES ALL_TYPES URII FRI5 NULL ReferentialConstraint RC16 Referential constraint between tables Einkommen and Quartal 10 11 DIMENSION ALL_TYPES ALL_TYPES URI0 FR16 AD16 ReferentialConstraint RC17 Referential constraint between tables Einkommen and Strassenbereich 10 11 DIMENSION ALL_TYPES
413. inzelner Bibliotheken Bei der relationalen Gestaltung des Repository wurde f r die einzelnen Klassendiagramme jede Me taklasse auf eine eigene Tabelle abgebildet Grundgedanke dieser Vorgehensweise ist die einfachere Erweiterbarkeit Sowohl Attribut als auch Beziehungserg nzungen der Metamodelle bleiben damit auf die nderung einer Tabelle beschr nkt Bei der Einbindung von Rational Rose als graphischen Modellierungseditor wurde haupts chlich der Erweiterungsmechanismus zur Bereitstellung von Stereotypen und Elementeigenschaften genutzt so dass die in Abschnitt 6 2 vorgestellten Modellierungskonstrukte der UML zur Verf gung stehen Dar ber hinaus kann Rational Rose basierend auf einem Addln Mechanismus mit zus tzlicher Programmfunktionalit t ausgestattet werden Dies wurde beispielsweise ausgenutzt um auf einem konzeptionellen Schema die Methode check siehe Abbildung 11 1 und Tabelle 11 2 zu realisieren die die Einhaltung der UML Notation berpr ft Abschlie end werden in Tabelle 11 3 die Anzahl der Klassen und die Summe der Quellcodezeilen aufgelistet um einen Eindruck von der Komplexit t der Software zu vermitteln Bei einigen Bibliotheken wird keine Angabe gemacht weil diese im Prototypen nur rudiment r realisiert worden sind d h auf eine saubere Klassenstruktur und Implementierung der Methoden 11 4 Graphische Benutzungsoberflache 259 wurde weniger geachtet als auf einen Nachweis der prinzipiellen Umsetzbarkeit
414. ion Produkt gos 2 200 ed EEN nee A 4 Ergebnis Konzeptionelle Modellierung Subschema Dimension Ort A 5 Ergebnis Konzeptionelle Modellierung Subschema Einkommenszahlen mit Hierar chien und DimensionalMapping gt 2 Cm mn BI Konzeptionelle Modellierung Faktklassen B 2 Konzeptionelle Modellierung Datenklasse Aufzahlungstyp B 3 Konzeptionelle Modellierung Dimension Alter BA Konzeptionelle Modellierung Dimension Ausbreitung Abbildungsverzeichnis 373 B Konzeptionelle Modellierung B 6 B 7 B 8 B 9 B 10 Konzeptionelle Modellierung B 11 Konzeptionelle Modellierung B 12 Konzeptionelle Modellierung B 13 Konzeptionelle Modellierung B 14 Konzeptionelle Modellierung B 15 Konzeptionelle Modellierung B 16 Konzeptionelle Modellierung B 17 Konzeptionelle Modellierung B 18 Konzeptionelle Modellierung B 19 Konzeptionelle Modellierung B 20 Konzeptionelle Modellierung B 21 Konzeptionelle Modellierung B 22 Konzeptionelle Modellierung B 23 Konzeptionelle Modellierung B 24 Konzeptionelle Modellierung B 25 Konzeptionelle Modellierung B 26 Konzeptionelle Modellierung B 27 Konzeptionelle Modellierung B 28 Konzeptionelle Modellierung B 29 Konzeptionelle Modellierung B 30 Konzeptionelle Modellierung B 31 Konzeptionelle Modellierung B 32 Konzeptionelle Modellierung B 33 Konzeptionelle Modellierung B 34 Konzeptionelle Modellierung B 35 Konzeptionelle Modelli
415. ionale Metamodell LCD of SQL 167 Fortsetzung von der letzten Seite createParams String Ben tigte Parameter zum Erzeugen einer Spalte dieses Typs Die Parameter werden als eine durch Kommata getrennte Liste in der Reihenfolge ihres Auf tretens genannt ohne umschlie ende Anf hrungszeichen Sind die Parameter L nge maximale L nge Genauigkeit und Skalierung so sollten die Bezeich nungen length max length precision und scale verwendet werden bei anderen Parametern sind entsprechende hersteller abh ngige Bezeichner zu w hlen Ben tigt der Datentyp Parameter so sollte im Typnamen er scheinen um die Position an der die Parameter eingesetzt werden sollen an zuzeigen Enth lt der Typname keine Teilzeichenkette so werden die Pa rameter in Klammern eingeschlossen an das Ende des Datentyps angeh ngt Beispiel Der Datentypname ist DECIMAL und das Attribut CreatePa rams bekommt den Wert precision scale Beim Erzeugen einer Spalte die ses Typs wird precision scale in den Klammerausdruck der Datentypnamen eingesetzt also DECIMAL precision scale domainName String Im Gegensatz zum technisch gepr gten name Attribut enth lt dieses Attribut einen logischen Namen isAutoUniqueValue Gibt an ob der Datentyp automatisch inkrementiert wird Boolean isCaseSensitive Boo Definiert den Datentyp als Zeichenkette in der Gro und Kleinschre
416. ird durch ein solches Konstrukt der FactClass Instanz eine in bezug auf die Multidimensionalit t klassifizierende Bedeutung zugeordnet Eine Dimension Instanz bildet somit den Einstiegspunkt in eine ber DimensionalClass Instanzen definierte hierarchische Dimensi onsstruktur Mittels einer Dimension Instanz kann ein Objekt der DimensionalClass Instanz mit verschiedenen Objekten derselben FactClass Instanz in Verbindung stehen so dass implizit von einer Multiplizit t der Form 0 f r die verbundene FactClass Instanz ausgegangen wird Instanzen der RollUp bzw NonCompleteRollUp Metaklasse verbindet zwei DimensionalClass Schemaelemente wodurch Verdichtungspfade und hierarchische Strukturen innerhalb einer Dimension aufgebaut werden k nnen Anzumerken ist an dieser Stelle dass RollUp und Dimension Beziehungen besonderen zu Viele Assoziationen entsprechen bei denen die mittels type referenzierte DimensionalClass Instanz der Eins Seite entspricht Eine NonCompleteRollUp Beziehung hingegen hat implizit die Multiplizit t 0 1 zu Viele Dies bedeutet dass bei einer Verdichtung einige Objekte der niedrigeren Hierar chieebene herausfallen ab der h heren Ebene sind dann weitere Verdichtungen nur noch mit dieser eingeschr nkten Ausgangsdatenmenge m glich Die bisher vorgestellten Modellierungskonstrukte gestatten lediglich die Bildung von Hierarchien innerhalb einer Dimension und die gemeinsame Nutzung dieser Strukturen durch unterschiedli
417. isUnsigned Attribute NOT isSi gned floatPrecision gt 0 numericPrecision Double isUnsignedAttribute FALSE floatPrecision 53 numericPrecision 53 Integer numericScale 0 maximumScale numericPrecision gt 0 numericPrecision sen TRUE FALSE isUnsignedAttribute NOT isSi gned Float isUnsignedAttribute FALSE floatPrecision gt 0 numericPrecision Fortsetzung auf der folgenden Seite 8 3 Abbildung von REMUS nach LCD of SOL 173 Fortsetzung von der letzten Seite LongInt NumericScale 0 maximumScale DoubleWord NumericPrecision 0 10 numericPrecision 4 Byte isSigned TRUE FALSE ee Tat QuadInt numericScale 0 maximumScale Quad Word numericPrecision 0 19 8 Byte signed numericPrecision 20 unsigned isSigned TRUE FALSE IsUnsignedAttribute NOT isSi gned ShortInt numericScale 0 maximumScale Word 2 Byte numericPrecision 0 5 numericPrecision isSigned TRUE FALSE isUnsignedAttribute Single IsUnsignedAttribute FALSE floatPrecision 24 NumericPrecision 24 String isVariable isFixedLength NOT isVariable length columnSize isCaseSensitive isCaseSensitive characterType characterType Time timePrecision 0 11 timePrecision TinyInt numericScale 0 maximumScale HalfWord numericPrecision 0 3 numericPrecision 1 Byte isSigned TRUE FALSE en NOTE Tabelle 8 4 Abbildung der Datentypen Die Tabelle ist folgenderma
418. ischen MMLElement Instanzen ist die PropertyConnection Metaklasse f r Eigenschaften zust n dig die in direktem Zusammenhang mit der multidimensionalen Sichtweise stehen Wie in Abbildung 6 11 zu sehen ist sie Oberklasse der bereits erw hnten NonDimensionalProperty Metaklasse und der f r qualifizierende Eigenschaften bestimmten DimensionalProperty Metaklasse ConnectionElement A PropertyConnection isKey Boolean propertyName Name Computation formula FormulaExpression computation 0 0 parameter result 1 D parameter property DimensionalProperty NonDimensionalProperty a isOptional Boolean pepe Dimension FactAttribute DimensionalAttribute DataAttribute gt gt gt et rollUp 0 dimension 0 0 attribute 0 attribute attribute 0 1 owner NonCompleteRollUp DataType DataClass 1 type 1 owner DimensionalClass FactClass H 1 rowne DataElement Type 1 owner Abbildung 6 11 MML PropertyConnection Neben dem ein Schemaelement eindeutig identifizierenden von MMLElement geerbten name Attribut besitzt die PropertyConnection Metaklasse ein zus tzliches propertyName Attribut f r die Aufnahme einer Beschreibung der repr sentierten Eigenschaft
419. ischen zwei Entit ts mengen oder einer Entit tsmenge und einer Faktenmenge Zul ssige Kardinalit ten sind Viele zu Viele N M Viele zu 1 M 1 und zu Viele 1 M graphische Darstellung ist eine Raute Um die Aggregierbarkeit anzuzeigen k nnen Attribute mit S stock Bestandsgr e F flow Bewegungsgr e oder V value per unit Wert pro St ck gekennzeichnet werden 28 Kapitel 3 Multidimensionale Datenmodelle e Zwischen Faktenmengen gibt es Beziehungsmengen der speziellen Typen Spezialisierung bzw Generalisierung Aggregation und Membership die Notationen sind in Abbildung 3 10 zu se hen e Attribute beschreiben die statischen Eigenschaften von Fakten Entit ts und Beziehungs Instanzen und werden als Ellipse dargestellt die mit ihrem Bezugsobjekt verbunden ist C Name Name Mi N Name Name Faktenmenge Entit tsmenge Beziehungsmenge Spezialisierung Generalisierun i g AributeName AttributeName Aggregation AttributeName Vollst ndige Membership Name Den Nicht vollst ndige Membership ae Strikte Membership Attribute Beziehungsmengen Typen Abbildung 3 10 Konstrukte des starER Modells Das Beispiel Verk ufe ist in Abbildung 3 11 dargestellt er M 1 M 1 P M Filiale Mo gt Stadt mo gt Region Mn Land Produkt Hi Marke W i Herst
420. istologie lt lt DimensionalClass gt gt Histologie Histologie Zahl 4 stellig Beschreibung Text Abbildung B 15 Konzeptionelle Modellierung Dimension Histologie B 16 Dimension Lokalisation Die Dimension Lokalisation beschreibt die Lokalisation nach dem Tumorlokalisationsschliissel zur ICD O mit mindestens einer Nachkommastelle Somit ergibt sich ein maximal sechsstelliger Code und der zugeh rige Langtext lt lt Dimension gt gt Lokalisation lt lt DimensionalClass gt gt Lokalisation Lokalisation Text 6 stellig Beschreibung Text Abbildung B 16 Konzeptionelle Modellierung Dimension Lokalisation B 17 Dimension Lymphknoten Die Dimension Lymphknoten beschreibt den Lymphknotenbefund die sog N Angabe Zul ssige Werte sind 1 2 3 und Unbekannt lt lt Dimension gt gt Lymphknoten lt lt DimensionalClass gt gt Lymphknoten Bezeichnung Text Abbildung B 17 Konzeptionelle Modellierung Dimension Lymphknoten B 18 Dimension Mehrling Die Dimension Mehrling beschreibt ob der Patient Einzelkind oder Mehrling ist Zul ssige Wer tepaare sind 0 Kein Mehrling 1 Eineiiger Mehrling 2 Zweieiiger Mehrling 3 Mehrling unbekannt ob ein oder zweieiig und 9 Fehlende Angabe Unbekannt B 19 Dimension Ort 329 e lt lt DimensionalClass gt gt lt lt Dimensi
421. itt 8 3 2 auf den Seiten 178 bis 181 festgelegt Als Nebenbedingungen ist das Festlegen von nicht optionalen Attributen zu definieren ebenso m s sen alle Referenzen eine gem der definierten Multiplizit t zul ssige Anzahl von Eintr gen haben Als Beispiel wird in 9 2 die Syntax zum Anlegen eines neuen Column Objektes gezeigt newColumn name initialV alue valueExpression identityIncrement 9 2 optional columnSet keys type constraints additivity Die konkrete Anwendung zeigt 9 3 Eine neue Spalte B mit den Eigenschaften Standardwert 0 und nicht optional keine Berechnungsvorschrift und kein sich automatisch erh hender Wert wird angelegt Die Spalte wird der Tabelle A zugeordnet sie ist nicht Bestandteil eines Schl ssels ihr Datentyp ist Integer und es sind keine Constraints und keine Additivit ten f r diese Spalte definiert newColumn B 0 NULL 0 FALSE A NULL Integer NULL NULL 9 3 Neben dem Nennen referenzierter Objekte ber ihren Namen existiert f r jeden Operator eine analoge Version in der die Objekte ber ihre Referenz angesprochen werden als Beispiel siehe 9 4 Sei RefToCons eine Referenz auf die Spalte B Ref ToT ab eine Referenz auf die Tabelle A newColumn RefToCons 0 NULL 0 FALSE RefToTab Integer NULL NULL 9 4 Eine Spezialform des new Operators ist der in 9 5 definierte copy Operator der e
422. ix den Tabellennamen zu geben Hierbei bleiben Datentyp Referenz der Metaklasse Column zur Metaklasse ColumnType und Constraints Referenz der Metaklasse Column zur Metaklasse ColumnConstraint sowie eventuell vorhandene zwischendimensionale Abbildungen Referenz der Metaklasse Column zur Metaklasse MappingMETA erhalten Neu hinzukommen k nnen in den Zeilen 13 bis 15 zus tzliche Tabbellenconstraints falls auf dem Pfad von der Wurzeltabelle der Dimension zur aktuellen Tabelle ein RollUp existiert das nur f r bestimmte Typen zul ssig ist In diesem Falle d rfen die durch die Denormalisierung hinzukommenden Attribute auch nur f r diese Typen g ltig sein In der if Anweisung in den Zeilen 16 bis 18 wird schlie lich berpr ft ob auf dem Pfad von der Wurzelklasse der Dimension zur aktuellen Klasse eine nicht vollst ndige Verdichtung existiert Wenn dies der Fall ist dann wird die neu angelegte Spalte als optional markiert Nicht erhalten bleiben d rfen die Schl ssel denn durch die Denormalisierung gelten sie nicht mehr Daher werden sie auch beim L schen der alten Tabellen in Zeile 21 durch die in Tabelle 9 1 festgelegten L schweitergaben entfernt Ebenso mitgel scht werden evtl existierende AdditivityMETA Objekte Angewendet auf das Ausgangsschema des Beispiels Handelswelt in Abbildung 9 3 erzeugt Algorithmus 9 2 das in Abbildung 9 8 dargestellte Schema Jede Dimension wird durch eine Tabelle repr sentiert die einen k nstlichen
423. k der Vereinheitlichung dienen Data Mining Semi automatische Analyse eines gro en oder komplexen Datenbestandes mit dem Ziel neue signifikante Muster oder Trends zu entdecken die sonst unerkannt bleiben Data Mining Werkzeuge Werkzeuge die Data Mining unterst tzen Data Warehouse DWH Physische tDatenbank in der sowohl Schema als auch Daten integriert sind Das Schema ist analyseorientiert ausgelegt einmal im gespeicherte Daten werden nicht mehr modifiziert Die Daten im sind typischerweise aber nicht notwendig historisiert Data Warehouse Manager Verwaltungskomponente des Data Warehouse Systems der den Data Warehouse Prozess steuert Data Warehousing Umfasst den dynamischen Vorgang der Datenverarbeitung in einem TData Warehouse System von der Extraktion in den Datenquellen bis hin zur Auswertung Data Warehouse Prozess Synonym f r Data Warehousing Data Warehouse System DWS Umfasst alle f r das Data Warehousing notwendigen Hardware und Softwarekomponenten au er den Datenquellen sowie deren Zusammenspiel Datenanalyse Synonym f r FAnalyse Datenbank DB Strukturierte Sammlung von Daten die mit Hilfe eines Datenbankmanagementsystems verwaltet wird Datenbankentwurf Prozess der Modellierung eines vorgegebenen Weltausschnitts mit dem Ziel der Erzeugung eines tSchemas in der formalen Sprache des tDatenmodells Datenbanksystem DBS Kombination eines Datenbankmanagementsystems mit mindestens
424. kanntgabe von Krankheitsh ufungen an einem bestimmten Ort gro e Konsequenzen nach sich ziehen k nnen Aus diesem Grunde ist neben einem sauberen Datenbestand auch eine gut kon zipierte Datenbank unerl sslich die sinnvolle Analysen in nachvollziehbarer Art erst erm glicht Gut konzipiert zielt auf Eigenschaften wie Wartbarkeit Erweiterbarkeit Skalierbarkeit und Performanz ab Als weiterer Beleg f r die Praxisrelevanz der Thematik ist das hohe Investitionsvolumen von Unter nehmen in DWH zu nennen So nahm in den USA der DWH Markt von 2 Mrd US Dollar im Jahre 1995 auf 8 Mrd US Dollar in 1998 zu KRRT98 Ein Anhalten dieses Trends wird in verschiedenen Studien auch f r die kommenden Jahre erwartet In Met00 wird ein Ansteigen des OLAP Marktes in Deutschland von knapp 100 Mio US Dollar 1998 ber gut 200 Mio US Dollar in 2000 auf rund 600 Mio US Dollar im Jahre 2002 vorhergesagt Ste00 prognostiziert ein Ansteigen der weltweiten Investition von knapp 60 Mrd US Dollar auf ber 150 Mrd US Dollar in 2005 In der Literatur herrscht im Wesentlichen Einigkeit dar ber dass existierende Entwurfsmethodiken nur eingeschr nkt auf den Entwurf von DWH bertragbar sind z B Regardless of the underlying paradigm traditional individual software systems are developed according to certain requirements In contrast to that data warehouses are usually built upon existing operational systems with requi rements being clear at most partiall
425. kationsbasis mit dem Endbenutzer und der fehlenden Navigierbarkeit durch DBMS als ungeeignet f r den DWH Entwurf eingestuft Diese berlegungen und Studienergebnisse lassen den Bedarf nach einer Entwicklungsmethodik f r DWH aufkommen Kapitel 1 Einleitung 1 3 Zielsetzung Im Rahmen dieser Arbeit soll eine Entwurfsmethodik f r DWH konzipiert werden die einerseits bew hrte Konzepte aus dem Entwurf herk mmlicher Datenbanken bernimmt andererseits aber spe zielle Aspekte von DWH ber cksichtigt Insbesondere sind dies 1 4 Das Vorgehen soll dem Drei Ebenen Entwurf folgen W hrend der konzeptionellen Modellierung soll eine multidimensionale Sicht auf die Daten erm glicht werden weil diese in der Analysephase f r ein gutes Problemverst ndnis und als Kommunikationsbasis mit potenziellen Anwendern ben tigt wird Die konzeptionelle Modellierung ist wichtigster Bestandteil des Prozesses daher soll schon in dieser fr hen Phase der Qualitdtssicherung besondere Bedeutung zukommen Nach Beendigung des konzeptionellen Entwurfs soll die Methodik das weitere Vorgehen weit gehend automatisch vorgeben an ausgew hlten Stellen soll aber Interaktion durch den Benut zer m glich sein Die Methodik soll zielsystemunabh ngig sein Um Nachvollziehbarkeit des Entwicklungsprozesses sowie die f r langfristige Wartung und Erweiterbarkeit notwendige Dokumentation zu gew hrleisten soll der gesamte Prozess Metadaten gest tzt erfol
426. klassen nicht automatisch Klassen im Sinne der Objektorientierung sind da diese Klasseneigenschaft durch eine spezielle Metaklasse bereitgestellt wird und explizit durch eine MML Metaklasse geerbt werden muss Daher werden Instanzen von Metaklassen auch allgemein als Schemaelemente bezeichnet MML Metaklasse Metaklasse Produkt lt Metaklasse gt Instanz Schemaelement 0 Klasse 1 Hersteller Ericsson NY Schemaelement Instanz E11 Schemaelement Objekt Nokia NI Abbildung 6 2 Begriffsbildung Metaklasse Klasse Objekt N14 Bezeichnungen f r Klassen Attribute etc sind stets in Englisch gew hlt In der Wahl der Gro bzw Kleinschreibung wurde der UML Spezifikation Rat99a gefolgt Klassennamen und Datentypen beginnen mit einem Gro buchstaben danach wird in Klein buchstaben fortgefahren bei zusammengesetzten Begriffen bzw einem wesentlichen weiteren Teil wird der Beginn dieses zweiten Wortteils durch Verwendung eines Gro buchstabens ver deutlicht Attributnamen und Rollenbezeichnungen in Beziehungen beginnen mit einem Kleinbuchsta ben f r zusammengesetzte Begriffe bzw wesentliche weitere Wortteile gilt die gleiche Regel wie bei Klassennamen und Datentypen Konstantennamen werden komplett in Gro buchstaben geschrieben Bei allen Bezeichnungen werden nur Buchstaben und Ziffern verwendet auf jegliche Art von Sonderzeichen wird
427. kt A LEE lt lt FactClass gt gt Produkt Verkauftes Produkt 77 Einzelpreis W hrung Anzahl St ckzahlTyp ZN _ lt lt FactClass gt gt Okologisches Produkt Anzahl2 Zahl lt lt Dimension gt gt Okokategorie lt lt Dimension gt gt Herkunftsland lt lt FactClass gt gt lt lt Dimension gt gt Produkt N lt lt Dimension gt gt Herkunftsland lt lt Dimension gt gt Produkt l Anzahl St ckzahlTyp De Verkauftes Produkt Einzelpreis W hrung o Anzahl St ckzahlTyp See ZN _ lt lt FactClass gt gt Okologisches Produkt Anzahl2 Zahl lt lt Dimension gt gt Okokategorie lt lt FactClass gt gt Verkauf lt lt Dimension gt gt Ort Verkauf Betrag Wahrung lt lt FactClass gt gt Verkauftes Produkt Einzelpreis W hrung lt lt FactClass gt gt Verkauf lt lt Dimension gt gt Ort Verkauf Betrag W hrung el Herkunftsland NJ lt lt FactClass gt gt l lt lt Dimension gt gt kologisches Produkt lt lt FactClass gt gt lt lt Dimension gt gt Produkt Einzelpreis W hrung gl Verkauf Ort Verkauf Anzahl St ckzahlTyp Betrag W hrung Anzahl2 Zahl lt lt Dimension gt gt Okokategorie N EE e EEN E Abbildung 7 14 Aufl sen von Vererbung in FactClass Zusammenhangskomponenten 7
428. kt ist das DWH von Wal Mart Wes00 Wissenschaft und Technik Bei empirischen Untersuchungen in der Wissenschaft fallen oft gro e Datenmengen z B in Form von Messwerten an Ein bekanntes Projekt in diesem Sek tor ist Earth Observing System EOS Mic91 aus dem Bereich der Klima und Umweltfor schung in dem gro e Mengen an meteorologischen Daten von Bodenstationen und Satelliten gesammelt werden wobei t glich ca 1 TeraByte neue Daten hinzukommt Mit Hilfe von sta tistischen Untersuchungsmethoden sollen schlie lich Informationen extrahiert werden die zur Gewinnung von neuen Erkenntnissen beitragen Die einzelnen Komponenten dieser Architektur werden in Kapitel 2 detailliert vorgestellt Kapitel 1 Einleitung e Statistik Schon seit den 70er Jahren sind Statistical and Scientific Databases SSDB Mic91 Ruf97 bekannt die analog zu einem DWH die Integration Verarbeitung und Analyse groBer Rohdatenmengen zum Ziel haben Ein Teilgebiet ist hier die Epidemiologie die sich mit der Untersuchung der Verteilung und der Determinanten von Gesundheitszust nden oder ereignissen in spezifischen Bev lkerungsgruppen und der Anwendung dieser Erkenntnisse zur Kontrolle von Gesundheitsproblemen besch ftigt 1 2 Motivation Alle oben erw hnten Szenarien f r den Einsatz von DWH weisen die Gemeinsamkeit auf dass die m glichen Folgen der Analysen wirtschaftlich z B Umstellen der Produktpalette oder politisch z B Be
429. l notation UML a multidimensional extension of the UML The transformation to the logical layer is realised for the relational data model Besides relations and attributes this transformation generates multifarious kinds of metadata The physical database design step is divided into three substeps after creating an initial schema a refinement is done which reflects the specific needs of the used OLAP server or database management system respectively As last substep of physical database design a framework for schema tuning is proposed The application of this framework supplements the schema with additional information e g size of extension or derivation of attribute values and specifies a set of tasks operating on the DWH Thereby the coordination of different tuning actions becomes possible Inhaltsverzeichnis I Einleitung und Grundlagen 1 Einleitung 1 1 1 2 1 3 1 4 Informationssysteme irani won 2 ea a Motivations st bogie eh a Ba en E Mg ZIELSETZUNG nn ud de ee e br le eg e eg i Edd ek ee Aufbau der Arbeit ai LN Ge be Go NL ae lan EES A 2 Data Warehouse Systeme 2 1 2 2 2 3 2 4 2 5 2 6 Datenquellen n sAr meir ter Sara ES Pea ee Sarde Marke Gnd a Back End Bereich Ae EE E IN re an ee a Datenbank 2er are DE BO ara ek Front End Werkzeuge e Sonstige Werkzeugen uud ne e a a ee ee A a en Zusammenfassung 4 2 want a der ur Ss 3 Multidimensionale Datenmodelle 3 1 3 2 3 3 3 4 3 5 Grundbegr
430. l 8 Relationaler Entwurf Transformationsalgorithmus M schema Kategorie B Kategorie A Objekte Metadaten Metadaten Attribute abarbeiten abarbeiten abarbeiten Gol Gol Go Gol Go HA Gol A Gol A A Go Gol oo Qq a o o o o a a oa oa oa o o a a TE SEEE EEE 88g 888 6 90 al apa a D ADDEN lol zl al gt alo EE EE EG BEE EES EE SISISIS S SPS BIS SS Zl siete SOIS SIS S RISIEIS 528 5 gt 2 8 2 S 2 18 Sal ESSIE eos 2 8 S S s 5 5 3 gt oO 5 ISIS all SiS pala Do SM be ke SiS S 2 8 jaa 5 E v p ZIR El o A S al 5 S al gile 5 5 log I elsiss S S SE oR Sl IS Q AdditivityMETA g als SS aSa a Column Q ColumnConstraint Q ColumnType Q CompositionMETA Q Q DBConstraint i Q a ForeignKey E Q Q ForeignKeyRole a aA MappingMETA ac S Saara Table A a ja TableConstraint e Q am ReferentialConstraint S u ala UniqueKey Q UniqueKeyRole ele elei 8 AttributeName Computation DataType yp S IdentifierRule 3 e MultiplicityRule a Si Order z S RollUpTypesToRule ee ne ele a TableName S ValidRule Tabelle 8 9 Transformationsschritte und erzeugte bzw genutzte LCD of SOL Objekte sowie genutzte Funktionen Kapitel 9 Verfeinerung des Schemas In diesem Kapitel wird der zweite Teilschritt des physischen Ent
431. l als Prim rschl ssel definiert wird ein Uni queKeyRole Objekt angelegt das als matchType eine vollst ndige bereinstimmung der beteiligten Attribute festschreibt Als Verhalten sind sowohl L sch wie nderungsweitergabe sinnvoll um Ak tualisierungen auf den Dimensionen zuzulassen Ebenso sollte die referentielle Konsistenz an dieser Stelle verz gerbar sein und auch anfangs diesen Status annehmen um Ladewerkzeugen bei nderun gen m glichst flexibles Zugreifen zu erm glichen Weiterhin m ssen die beteiligte Tabelle und die beteiligten Spalten um die Prim rschl sseleintr ge erweitert werden 5 Auf eine formalere Definition sei an dieser Stelle verzichtet 186 Kapitel 8 Relationaler Entwurf Region PrimaryKey Region ID ee UniqueKey UniqueKeyRole name Primary Key of role Name Role of primary key of table Region table Region uniqueKey multiplicity 1 isPrimary TRUE matchType MATCHTYPE_FULL_MATCH Keys deleteRule REFERENTIALRULE_CASCADE initiallyDeferred TRUE isDeferable TRUE updateRule REFERENTIALRULE_CASCADE columns Column name ID initialValue NULL valueExpression NULL identityIncrement 1 optional FALSE name Region tableTypeMETA DIMENSION Abbildung 8 13 Abbildung des Prim rschl ssels einer dimensionalen Tabelle von REMUS nach LCD of SQL Zur Formulierung der Abbildungsvorschr
432. l der Sprache nicht ver ndert wird Als Notation f r Stereotypen wird der Name des Stereotyps umschlossen von den Zeichenfolgen bzw verwendet Insgesamt werden vier Arten von Stereotypen unterschieden Gli00 Dekorative Stereotypen variieren die u ere Darstellung Notation der Sprache womit benut zerdefinierte Symbole geschaffen werden Deskriptive Stereotypen erweitern eine Sprache rein syntaktisch wodurch zu den standardisier ten Annotationen analoge Annotationen oder Sekund rklassifikationen geschaffen werden Restriktive Stereotypen pr zisieren bestehende oder schaffen neue Sprachkonstrukte Anwen dungen dieser Stereotypenklasse sind das Hinzuf gen neuer Sprachkonstrukte oder das ber lagern bestehender Konstrukte mit zus tzlichen Bedeutungen Redefinierende Stereotypen ver ndern die Bedeutung von Sprachkonstrukten wodurch die De finition einer neuen Sprache auf der Grundlage einer bestehenden Sprache m glich ist 5 4 Zusammenfassung In diesem Kapitel wurden in Abschnitt 5 1 zun chst Grundbegriffe aus dem Entwurf von Informa tionssystemen eingef hrt Anschlie end erfolgte in Abschnitt 5 2 die Vorstellung von Arbeiten mit DWH Bezug Diese behandeln entweder den gesamten Entwurfsprozess oder beziehen sich nur auf einen bestimmten Aspekt wie z B die Gewinnung des konzeptionellen Schemas Auffallend ist dass mehrere Ans tze eine Konstruktion des initialen konzeptionellen DWH Schemas aus dem Schema
433. lar Vorgehen nach Cabibbo und Torlone In CT98b wird das in Abbildung 5 7 skizzierte Vorgehen vorgeschlagen W hrend einer Analy sephase eingehender Daten werden die Anforderungen an die Datenanalyse aufgenommen interne wie externe Quellen analysiert und f r jede Quelle ein konzeptionelles Schema erstellt W hrend der Integration der Datenquellen werden diese einzelnen konzeptionellen Schemata integriert um ein einheitliches Schema aller Quellen zu haben Daran schlie t sich der Entwurf des DWH an der zun chst eine berf hrung des integrierten E R Schemas in ein konzeptionelles Schema vorsieht wobei als Notation das in Abschnitt 3 3 5 vorgestellte MD Modell zum Einsatz kommt Daran schlie t sich der logische Entwurf an der ein bertragen in z B relationale Strukturen vorsieht Als letzte Phase erfolgt eine von den Autoren als Entwurf der multidimensionalen DB bezeichnete T tigkeit die sich ihrerseits in logischen Entwurf und Implementierung unterteilt Hiermit ist die Gestaltung von Data Marts im Sinne von aggregierten Extrakten siehe Abschnitt 2 3 2 gemeint Anforderungen an 1 Datenbanken der Andere die Datenanalyse Organisation Datenquellen Auswahl der Datenquellen J Uberf hrung in ein gemeinsames konzeptionelles Modell L Analyse der Datenquellen Integration der konzeptionellen Schemata Konzeptioneller Entwurf des DWH T Logischer Entwurf des DWH Logischer Entwurf der multidimensionale
434. lassenbeschreibungen kann in HerOlc nachgelesen werden REMUS Kategorie A Metadaten AggregatedAttribute R AggregatedAttribute A M Das Attribut A der Relation R ist ein aggregiertes Attribut und hat die Multiplizit t M Fortsetzung auf der folgenden Seite 7 1 RE MUS Relational Schema for Multidimensional Purpose 121 Fortsetzung von der letzten Seite Computation C Computation P Pa bi C ist der Name einer Berechnungsvorschrift die die Parameter P bis P hat und deren Re sultat in R gespeichert wird F gibt die Formel an z B in Form eines Methodennamens ConceptualKey R ConceptualkKey A Das Attribut A ist konzeptioneller Schl ssel der Relation R Der konzeptionelle Schl ssel setzt sich aus der Menge ConceptualKey Metadaten zusammen die R referenzieren Identifier R Identifier A In der Relation R ist das Attribut A diskriminierendes Attribut Identifier Value A IdentifierValue Vi Vn Das als Identifier gekennzeichnete Attribut A hat die zul ssigen Werte V bis Vy Multiplicity R Multiplicity A1 An M In der Relation R darf die Attributkombination A1 An so oft auftreten wie die Multipli zit t M angibt ObjectType O ObjectType T D Das ObjectType Metadatum beschreibt das Objekt O genauer T gibt den Typ an D
435. ldung 3 18 dargestellt Jahr O Quartal O Filiale Stadt Region Land Monat Woche Te Verkaufszahl Anzahl Produkt Produkt gruppe Marke Hersteller Abbildung 3 18 DFM Beispielschema Zur Modellierung der Additivit t erlaubt das DFM pro Kombination aus Fakt Attribut und verbun dener Dimension die Angabe der zul ssigen Verdichtungsoperatoren Neben einer vollst ndigen Additivit t werden noch die zwei Klassen nicht und halb additiver Kennzahlen unterschieden wobei halb additive Fakt Attribute gegen ber nicht additiven mindestens in einer Dimension summierbar sind Obwohl eine Kennzahl nicht summierbar ist schlie t dies nicht aus dass Aggre gationen durch andere Operatoren erfolgen k nnen Bildet ein Attribut bez glich der Additivit t eine Ausnahme wird dies durch eine gestrichelte Linie zwischen Fakt Attribut und der Dimension im Fakt Schema gekennzeichnet Abbildung 3 19 skizziert bez des Temperatur Attributes die Tatsache dass die Aufsummierung mehrerer Datens tze nicht sinnvoll ist und stattdessen der avg Operator zur Berechnung der Durchschnittstemperatur Anwendung findet ave Wetterdaten _ Tag Woche Monat Temperatur O O O Abbildung 3 19 DFM Darstellung der Additivitat Abschlie end l sst sich anmerken dass die strenge Baumstruktur der Fakt Schemata bei der Dimensionsmodellierung lediglich die Darstellung von Mehrfachhierarchien erlaubt was die M glichkeiten erheblich einschr nk
436. le Searchable e time Preeision timePrecision TimePrecisionType g ColumnType CompositionMETA Table Table RACH name String name String c name e multiplieity dee retail c aggregated c detail CompositionMETA CompositionMETA name String multiplicity Multiplicity DBConstraint d name d body DBConstraint DBConstraint body Expression name String ForeignKey ForeignKeyRole ee role 1 ForeignKey name String table 1 columns ordered LU name table Table Column f columns f role identityIncrement Integer ForeianK name String initialValue Expression oreig ey Ge name String O7 optional Boolean valueExpression Expression Fortsetzung auf der folgenden Seite 180 Kapitel 8 Relationaler Entwurf Fortsetzung von der letzten Seite ForeignKeyRole Referential Constraint name String typeMETA RefConsType typesPK StringSet typesFK StringSet constraint ForeignKeyRole matchType MatchType multiplicity MultiplicityRange name String foreignKey ForeignKey name String f name f multipicity f matchT ype f foreignK ey f constraint ForeignKeyRole MappingMETA MappingMETA name String type
437. le A 3 LCD of SOL Objekte im Beispiel 320 Anhang A Das Beispiel Handelswelt Anhang B Evaluation In diesem Anhang ist als vertiefende Information zu der in Kapitel 12 beschriebenen Evaluation das dokumentierte konzeptionelle Datenschema dargestellt B 1 Faktklassen Abbildung B 1 zeigt die Faktklassen des Schemas und ihre Dimensionen Wichtigste Faktklasse ist Fall die einen Inzidenz bzw Sterbefall wiedergibt Zu einem solchen Fall k nnen mehrere T tigkeiten Therapien und Familienanamnesen geh ren die ebenfalls jeweils eine Faktklasse bilden F r die Auswertungen sind als Vergleichsma stab Populationen wichtig insbesondere Standardpo pulationen und Vergleichspopulationen die jeweils als eigene Faktklassen mit einer gemeinsamen abstrakten Oberklasse dargestellt sind 322 AnhangB Evaluation r lt lt Dimension gt gt Alter lt lt Dimension gt gt Ausbreitung gt m lt lt Dimension gt gt Autopsie gt lt lt Dimension gt gt C Faktor gt nr lt lt Dimension gt gt Diagnose m lt lt Dimension gt gt Diagnoseanlass lt lt Dimension gt gt Diagnosesicherung lt lt Dimension gt gt Differenzierungsgrad gt lt lt Dimension gt gt Dignitat gt lt lt Dimension gt gt Fernmetastasen lt lt Dimension gt gt Geschlecht lt lt Dimension gt gt Grundleiden lt lt Dimension gt gt Histologie gt lt l
438. le Datenmodelle gelten sollen e Viele zu Viele Beziehungen zwischen Fakten und einer Dimension PJ99 TKSO1 Dieses ist ein nur scheinbar nat rliches Konstrukt in Wirklichkeit verbirgt sich hinter der Be ziehung ein weiteres Fakt welches auch explizit modelliert werden sollte e Unsicherheit PJ99 Aussagen ber Unsicherheit oder allgemein G te der Datenqualit t sind wichtige Aspekte al lerdings sollten sie als Metadaten im Repository abgelegt werden und nicht Bestandteil der konzeptionellen Modellierung sein 26 Kapitel 3 Multidimensionale Datenmodelle 3 3 Konzeptionelle multidimensionale Datenmodelle 3 3 1 Multidimensional E R Modell In SBHD98b wird eine auf dem E R Modell basierende Erweiterung zur Repr sentation multi dimensionaler Aspekte vorgestellt Dieses als Multidimensional E R Model MERM bezeichnete Modell nimmt dabei keine tiefgreifenden Ver nderungen am E R Modell vor sondern erg nzt es um drei neue Notationselemente die jeweils Spezialisierungen existierender Entit ts bzw Beziehungstypen sind Grundgedanke dieser Vorgehensweise ist die bernahme eines etablierten Modells inklusive dessen formaler Fundierung Durch diesen Ansatz wird u a die einfachere Erweiterung bestehender For schungsergebnisse auf den multidimensionalen Fall erm glicht da nur die ben tigten Ver nderungen quasi inkrementell diskutiert werden m ssen Eine besondere Bedeutung kommt hierbei dem Aspekt der automatisc
439. lemente existieren Werkzeugunterst tzung Editor GraMMi Nein als Template f r das Zeichen werkzeug Visio Anzahl der Datenw r fel Pakten pro Schema Unbegrenzt Unbegrenzt Unbegrenzt Anzahl der Kennzahlen pro 0 bis 1 mit Kennzahlendi D Unbegrenzt Unbegrenzt o x Datenwiirfel Fakt mension unbegrenzt E La i i oy EE Sind nicht m glich Sind nicht m glich r Menge von Kennzahlattribu Menge von Kennzahlattribu Menge von Kennzahlattribu Struktur eines Fakts ten ten ten Pro Attribut kann eine Aggre Additivit t Wird nicht ber cksichtigt gierbarkeitseigenschaft ange Wird nicht ber cksichtigt E geben werden S Keine schema inh rente Un Keine schema inh rente Un ange 3 Darstellbar in Kombination gt Abgeleitete Attribute terscheidung zu normalen At terscheidung zu normalen At A aa erg mit Berechnungsvorschrift tributen m glich tributen m glich finere Striktar Keine n here Beschreibung Keine n here Beschreibung Keine n here Beschreibung der Kennzahlen der Kennzahlen der Kennzahlen K nnen im Schema darge K nnen im Schema darge K nnen im Schema darge Hierarchieebenen stellt werden stellt werden stellt werden K nnen im Schema darge K nnen im Schema darge K nnen im Schema darge a Hierarchiepfade stellt werden stellt werden stellt werden KI S E Hierarchiestruktur DAG DAG Keine Angabe 2 S Sonstige Beziehungen Assoziationen Generalisie 5 S zwischen Hierarchi
440. lle der Zugeh rigkeit zu einem mehrelementigen Element der Zerlegung Type vom Datentyp Identifier ValueTy pe zugeordnet In den Metadaten wird festgehalten dass die Relation ein Objekt vom Typ Dimension ist das Attri but ID wird als Prim rschl ssel und das Type Attribut als diskriminierendes Attribut Identifier markiert Die zul ssigen Werte f r dieses Attribut werden im Metadatum dentifier Value festgehalten indem als g ltige Werte die Namen aller an dem Zerlegungselement beteiligten nicht abstrakten Di mensionalClass Instanzen die Nachfolger der urspr nglichen Klasse des Attributs sind eingetragen werden Abbildung 7 8 verdeutlicht die Transformation f r die einelementige Teilmenge Woche und die mehrelementige Teilmenge Ort des Verkaufs lt lt DimensionalClass gt gt Ort des Verkaufs Bezeichnung Text lt lt DimensionalClass gt gt A Woche Bezeichnung WochenTyp lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Kaufhaus Filiale Pen 7 Fl che Fl chenTyp Beschreibung FilialTyp DimensionalClass Gesamtfl che Fl chenTyp name Woche isAbstract FALSE DimensionalClass name Ort des Verkaufs isAbstract TRUE parent T specialization isAbstract FALSE DimensionalClass DimensionalClass SSC DimensionalClass fd lizati x lizati
441. ls Dimension bezeichnet Detaildaten Daten mit der feinsten verf gbaren Granularit t Dimension TQualifizierende Eigenschaft eines tFakts Dimensionshierarchie Langform f r Hierarchie Dimensionalit t Anzahl qualifizierender Eigenschaften eines tFaktes Dimensionselement tObjekt innerhalb einer Dimension Diskriminierendes Attribut Attribut einer Relation oder tKlasse das zur Typunterscheidung des tTupels oder Objektes dient Dom ne Benannte Menge von Werten Drilling Zusammenfassende Bezeichnung f r Roll Up und Drill Down Drill Down Umkehrung einer FRoll Up Operation DWS Manager Administrationswerkzeug das f r die Steuerung und berwachung der einzelnen im Data Warehouse System stattfindenden Prozesse zust ndig ist Eigenschaftswert Synonym f r Elementeigenschaft Einfachverbung Jede Unterklasse erbt nur von genau einer direkten Oberklasse Elementeigenschaft Aus einem Schl sselwort dem sog Tag und einem dazugeh rigen Wert dem sog Value bestehender Erweiterungsmechanismus der UML Der Unterschied zum tStereotyp besteht darin dass durch ein Stereotyp das Metamodell um ein neues Element erweitert wird Mit n hingegen k nnen einzelne Auspr gungen bestehender Modellelemente z B eine be stimmte Operation um bestimmte Eigenschaften erweitern Entit t Individuelles Objekt der realen oder der Vorstellungswelt Sofern eine Beziehung zwischen Entit ten eine Bedeutung in der realen oder in der V
442. lt lt Dimension gt gt Alter Abbildung B 3 Konzeptionelle Modellierung Dimension Alter B 4 Dimension Ausbreitung Die Dimension Ausbreitung gibt die externe Ausbreitung des Tumors an Zul ssige Wertepaare sind 0 In Situ 1 Lokal begrenzt 2 Region re Lymphknoten Nachbarschaft 3 Fernmetasta sen 4 Systemerkrankung sowie H Fehlende Angabe Unbekannt 324 AnhangB Evaluation b lt lt DimensionalClass gt gt lt lt Dimension gt gt Ausbrei Ausbreitung gt usbreitung Bezeichnung Aufz hlungstyp Abbildung B 4 Konzeptionelle Modellierung Dimension Ausbreitung B 5 Dimension Autopsie Die Dimension Autopsie gibt Auskunft ber eine durchgef hrte Autopsie Zul ssige Wertepaare sind l Autopsie durchgef hrt 2 Autopsie nicht durchgef hrt und 9 Fehlende Anga be Sonstige e j lt lt DimensionalClass gt gt lt lt Dimension gt gt A Autopsie utopsie Bezeichnung Aufz hlungstyp Abbildung B 5 Konzeptionelle Modellierung Dimension Autopsie B 6 Dimension Beruf Die Dimension Beruf beschreibt den Beruf des Patienten in Form des vierstelligen Berufscodes nach der Klassifikation der Bundesanstalt f r Arbeit 9911 steht f r Unbekannt Berufe k nnen zu Berufsgruppen verdichtet werden Die Dimension wird von der Faktklasse Fall zur Angabe doppelt genutzt zur Angabe
443. lt Dimension gt gt Ort lt lt DimensionalClass gt gt Quartal lt lt Dimension gt gt Zeit Einkommen lt lt Dimension gt gt Artikel lt lt FactClass gt gt Einkommen Betrag Wahrung lt lt DimensionalClass gt gt Artikel lt lt Dimension gt gt Produkt lt lt Dimension gt gt Ort Einkommen AA lt lt DimensionalClass gt gt Strassenbereich Abbildung 6 30 UML Beispiel Ergebnis Schritt 6 Ebenen der feinsten Granularit t Schritt 7 Bestimme f r jede Kombination Faktattribut Dimension zul ssige Operatoren In diesem Beispiel ist es sinnvoll die Operationen SUM MIN MAX und AVG zuzulassen weil sie f r jedes Faktattribut bez jeder Dimension semantisch sinnvolle Auswertungen liefern Schritt 8 Finde f r jede Dimension weitere Klassen Aufgrund der Anforderung nach verschiedenen r umlichen und zeitlichen Kriterien ergeben sich die in Abbildung 6 31 aufgelisteten weiteren Klassen 6 5 Beispiel Handelswelt 111 lt lt DimensionalClass gt gt Jahr lt lt DimensionalClass gt gt Quartal lt lt DimensionalClass gt gt Filialoberkategorie lt lt DimensionalClass gt gt Monat Ze Ci lt lt DimensionalClass gt gt Filialkategorie Cn Keel lt lt DimensionalClass gt gt Woche lt lt DimensionalClass gt gt Tag
444. lten Die Multiplizit t zwischen zwei Hierarchieebenen ist per Definition f r einen RollUp Operator immer I zu Viele f r einen NonCompleteRollUp Operator hingegen 0 I zu Viele Dies wird ebenso in den Metadaten festgehalten wie die Menge der zul ssigen Typen f r die Verbindung die mit Hilfe der Funktion amp zur Definition siehe Seite 126 ermittelt werden Ist das Resultat von nur die Klasse selbst so wird f r die zul ssigen Typen die Konstante ALL_TYPES eingetragen Bedeutung hat dies bei der RollUp Instanz Filialkategorie weil diese ihren Ursprung in einer Unterklasse inner halb einer Vererbungshierarchie dimensionaler Klassen hatte Die RollUp Operation ist somit nur f r Filialen nicht aber f r Eintr ge vom Typ Kaufhaus m glich Daher wird nicht ALL_TYPES verwendet sondern das Metadatum Ort des Verkaufs Filialkategorie RollUp Filialkategorie Filiale ALL_TYPES Ort des Verkaufs Filialkategorie ForeignID Filialkategorie ID COMPLETE erzeugt Schlie lich wird im Metadatum der Typ der Verdichtung festgehalten Dabei ist zu beachten dass dieser Eintrag nicht nur vom urspr nglich spezifizierten Typ abh ngt Auch wenn die Spezi fikation urspr nglich eine vollst ndige Verdichtung war die ausgehende dimensionale Klasse aber eine Oberklasse besitzt so ist durch diese Verdichtung durch die Nestung als nicht vollst ndig zu deklarieren Dim
445. lter als weiteres Symbol dient der Definition von Auswahlkriterien f r Dimensionssichten Wie bereits im vorangegangenen Abschnitt soll auch hier das Beispielschema mittels der betrachteten Notation vorgestellt werden Abbildung 3 16 zeigt den Datenw rfel f r die Verkaufszahlen gt Zeit o Verkaufszahl R Zeit Hierarche I Kennzahl A Ort u Kennzahl Ort R Ort Hierarche Zeit Produkt A Produkt A Stad G Produkt Hierarche ES OG IA Produkt Al Marke A Hersteller t A Fiia e E JUUL on FELE JUU A Land i DH Abbildung 3 16 ADAPT Beispieldiagramm 32 Kapitel 3 Multidimensionale Datenmodelle Durch die m gliche Einbeziehung von Implementierungsdetails wie beispielsweise die Optimierung des Schemas durch den SQL Drill Thru Operator in die Datenmodellierung erfolgt eine f r die kon zeptionelle Entwurfsebene unerw nschte Vermischung mit logischen bzw physischen Gesichtspunk ten Problematisch f r den praktischen Einsatz ist zudem die verwirrend gro e Anzahl der Beschrei bungsobjekte die einerseits unzureichend spezifiziert GG98 und andererseits nicht eindeutig in ihrer Verwendung d h semantisch nicht sauber fundiert ist Ein ADAPT Schema unterliegt somit immer einer Interpretation In JT98 wird darauf hingewiesen dass gerade die Einordnu
446. ltidimensionalen Daten erfolgt auf dem Client Die eigentliche OLAP Datenbank wird lokal auf der Festplatte der Arbeitsstation abgelegt Diese Technik kann insbesondere erg nzend eingesetzt werden indem z B Au endienst mitarbeiter einen f r sie relevanten Teil der Daten auf ihrem mobilen Endger t zur Verf gung gestellt bekommen 4 2 Relationale Realisierungen Dieser Abschnitt besch ftigt sich mit der Darstellung unterschiedlicher multidimensionaler Konstruk te innerhalb des relationalen Datenmodells das gegen ber dem multidimensionalen Modell eine er heblich geringere Semantik besitzt Ziel ist es hierbei multidimensionale Strukturen im relationalen Modell so abzubilden dass e dom nenspezifische Aspekte wie z B festgelegte Hierarchiepfade m glichst erhalten bleiben e die bersetzung multidimensionaler Anfragen m glichst effizient geschehen kann e die Abarbeitung der bersetzten Anfragen durch das RDBMS m glichst effizient erfolgen kann e die Aktualisierung der Tabellen beim Laden und Archivieren m glichst effizient erledigt wer den kann In Abschnitt 4 2 1 wird zun chst eine Notation f r relationale Schemata eingef hrt bevor in den Ab schnitten 4 2 2 und 4 2 3 mit dem sog Schneeflockenschema und dem Sternschema die in Literatur und Praxis bekanntesten Vertreter relationaler Realisierungen vorgestellt werden Abschnitt 4 2 4 be schreibt weitere relationale Realisierungen die im Wesentlichen Varianten und
447. lueType 1 Jahr 3 JahrTyp 1 KeyType 1 Monat 3 Monats Typ 1 PLZTyp 1 Ort des Verkaufs 3 Ort des VerkaufsArtikel 6 Produktfamilie 3 Produktgruppe 3 Produktkategorie 3 Quartal 3 QuartalsTyp 1 Region 3 Staat 3 Stadt 3 Fortsetzung auf der folgenden Seite 298 Anhang A Das Beispiel Handelswelt Fortsetzung von der letzten Seite Strassenbereich 3 St ckzahlTyp 1 Tag 3 TagTyp 1 Text 1 Verkauf 8 Verkaufsbezirk 3 Verkaufszahl 8 Verkauftes Produkt 8 W hrung 1 Woche 3 WochenTyp 1 Attribute Artikel Artikelcode ArtikelcodeTyp 4 Artikel Bezeichnung Text 4 Artikel ID KeyType 3 Artikel Produktgruppe ForeignID ForeignKeyType 5 C Einkommen Betrag W hrung 8 C Einkommen Quartal ForeignID ForeignKeyType 9 C Einkommen Strassenbereich ForeignID ForeignKeyType 9 C Filialkategorie Bezeichnung Text 4 C Filialkategorie ID KeyType 3 Filialkategorie Filialoberkategorie ForeignID
448. macht eine Angabe zum Zeitpunkt des Falles Sie wird dabei in der Form Mo nat Jahr angegeben es existieren Verdichtungspfade zu den auswertungsrelevanten Hierarchiebenen Jahr und Dreijahresgruppe 336 AnhangB Evaluation lt lt DimensionalClass gt gt Dreijahresgruppe Bezeichnung Text TI lt lt RollUp gt gt Dreijahresgruppe lt lt DimensionalClass gt gt Jahr Jahr Text 4 stellig lt lt RollUp gt gt Jahr lt lt DimensionalClass gt gt Monat Monat Text 2 stellig Jahr Text 4 stellig lt lt Dimension gt gt lt lt Dimension gt gt Todeszeit Zeit Abbildung B 38 Konzeptionelle Modellierung Dimension Zeit B 40 DimensionalMapping Um den Zusammenhang zwischen der Ortsdimension von Vergleichspopulationen aus Abschnitt B 35 und der Ortshierarchie aus Abschnitt B 19 herzustellen wird zwischen den Ortsobjekten der Vergleichspopulationen und allen Hierarchieebenen der Ortshierarchie jeweils eine dimensionale Abbildung definiert Das Resultat ist in Abbildung B 39 zu sehen Als Eingabeparameter dient jeweils das Attribut Bezeichnung Resultat ist jeweils die identifizierende Kennziffer B 40 DimensionalMapping 337 lt lt DimensionalMapping gt gt Vergleichspopulation auf Bundesland g lt lt DimensionalClass gt gt Bundesland Bundeslandkennziffer Text 2 stellig Bundeslandname Text
449. malit t Aus drucksst rke Lesbarkeit Selbsterkl rbarkeit Erweiterbarkeit und Normalisierung wird infor mal beschrieben und ein erl uterndes Beispiel gegeben In Ris92 und Ris93 werden die Ideen aus BCN92 aufgegriffen und teilweise verfeinert Die Ver ffentlichungen Bru91 und RG94 nennen spezielle Regeln um relationale Schemata zu entwerfen die bestimmte Qualit tseigenschaften aufweisen Der Fokus dieser Arbeiten ist die Datenbankpraxis h ufig auftretende Situationen sind untersucht und aus diesen einige konstruktive Vorgehensweisen abgeleitet worden MS94 definiert Qualit tsaspekte die mit Hilfe einer Metrik gemessen und bewertet werden k nnen Um Schemata zu vergleichen k nnen die gemessenen Werte gewichtet werden Ziel ist es hierbei unter verschiedenen Entwurfsalternativen die beste L sung im Sinne der ge stellten Anforderungen zu finden Konkrete Qualit tsaspekte sind Einfachheit Vollst ndigkeit Flexibilit t Integration Verst ndlichkeit und Implementierbarkeit CM00 nennt einige Qualit tskriterien f r DB Schemata und fordert ein explizites Review allerdings sind die genannten Ideen auf das E R Modell beschr nkt 5 3 Weitere Aspekte des Software und Database Engineering e Im Projekt Grunds tze ordnungsm iger Modellierung GoM BRS95 BES98 wurden eine Reihe von notwendigen Richtigkeit Relevanz und Wirtschaftlichkeit und erg nzenden Klar heit Vergleichbarkeit und syst
450. me M ObjectType DataType zen 8 3 4 Schritt 2 Tabellen anlegen Zu jeder Relation im REMUS Schema wird ein Table Objekt im LCD of SOL Schema angelegt Wie exemplarisch f r die Relationen Woche und Verkauf in Abbildung 8 11 dargestellt wird der Tabellenname durch die deterministische Abbildung fdetrasiename entschieden die Metainformation des Tabellentyps in das Attribut tableTypeMETA bernommen Durch fgetr sienam ISt es m glich an dieser Stelle einen Namen f r das physische Schema zu vergeben der es z B erm glicht organisati onsinterne oder projektspezifische Namenskonventionen einzuhalten Ebenso k nnen an dieser Stelle im physischen Modell nicht erlaubte Zeichen eliminiert werden Verkauf ObjectType Relation Fact Ort des Verkaufs ObjectType Relation Dimension E Verkauf Verkauf Relation sh TableName Ort des Verkaufs TableName Ort_des_Verkaufs Table Table name Verkauf name Ort_des_Verkaufs META_tableType FACT META_tableType DIMENSION Abbildung 8 11 Abbildung der Relationen von REMUS nach LCD of SQL Abbildungsvorschrift fiir eine Relation HRelationgreate META L x ObjectType Relation Am 3 Lrabie def o 8 11 LRelationcreate M Jdetrasiename M m description Table Abbildung aller Relationen M Rrelatin RX L gt L 8 12 def M Relation R L LU H Relationcreate m m M Obj
451. mentierung Odawa Logischer Entwurf Transformationsschritt Multidimensionale Modellierung Schritt 4 Dimensionale Attribute Schritt 5 Hierarchiepfade Schritt 6 Zwischendimensionale Beziehungen a CSS Erzeuge Objekt f r den DataType Metadatum DGr e Erzeuge Objekt f r den DataType Metadatum int Erzeuge Objekt f r den DataType Metadatum integer Transformation von Data ype Metadaten erfolgreich abgeschlossen Transformation von DataClass Metadaten gestartet Transformation von DataClass Metadaten erfolgreich abgeschlossen Transformation von DimensionalClass Metadaten gestartet Transformation von DimensionalClass Metadaten erfolgreich abgeschlossen Abbildung 11 8 Masken der Applikation 11 5 Zusammenfassung 263 Au erdem existieren Dialogformulare die Benutzerinteraktion zulassen Dies tritt an den Stellen auf an denen w hrend der Transformationen in Teil II eine deterministische Funktion Ju definiert worden ist Beispielhaft ist in Abbildung 11 9 die Auswahl des Namens dimensionaler Relationen bei der Transformation eines MML Schemas in ein REMUS Schema zu sehen ODAWA Logischer Entwurf Relationennamen x Projektinformationen Projekt Musterprojekt Benzer Susanne Meier Schemaname Matos Protokolldatei Daten Projekte Musterprojekts Logs Zielschema Transformation vom 3 8 2001 Logischer Entwurf __ Bitte bennen Sie die dimensionalen Relationen
452. modells im XML Format Extensible Markup Language zu exportieren Somit wird einerseits die Erzeugung einer Dokumentation der Schemata erm glicht andererseits dient diese Schnittstelle zur Kommunikation mit anderen Werkzeugen eines DWS und 256 Kapitel 11 Implementierung r s Entwurfswerkzeug Front End Editor tar Interaktiver Entwurfsprozess Werk konzeptionelle Dok tati erkzeuge Modellierung okumentation erzeugen Reviews eintragen Abbildung Abbildung R nik Algorithmische EEGEN emma cone Ue LCD of SQL 7 framework DB Skript Schicht Notation MML nach REMUS nach ESCH f r physische Generierung nach MML REMUS LED ai SCL Annotated Schema Optimierung E N o 3 MML REMUS LCD of SQL Annotated Schema Export nalen Objektmodell Objektmodell Objektmodell Objektmodell schnittstelle lt Mappingschicht Abbildung von Objekten auf Tabellen Persistenzschicht DB Zugriffsschicht Back End i Bereich Repository Abbildung 11 3 Architektur bersicht erleichtert die Integration des Entwurfswerkzeugs in ein DWS Im Sinne der in Abschnitt 4 4 2 vorge nommenen Klassifikation der Metadatenhaltung in einem DWS unterst tzt das Werkzeug damit den Shared Repository Ansatz Das Werkzeug h lt alle seine Metadaten im lokalen Repository durch die Exportschnittstelle sind die Anbindung und der Austausch an ein zentrales Repository im DWS m glich Die
453. mplizierte Typabfragen von Tabellen entfallen AnnotatedSchema name String type SchemaType K annotated AnnotatedDimension Dimensions annotated o JI name String 0 FactAttributes type DataType AnnotatedFactAttribute RE 1 name String type DataType 7 i estimatedSize Double estimatedRows Double rollUp AnnotatedLevel projectGrowthRate Double 0 Sii projectGrowthPeriod TimePeriod names HL Doubl projectDecreaseRate Double e er i n projectDecreasePeriod TimePeriod estimatedObjects Double ar llDown Abbildung 10 8 Annotierte Schemata Ein AnnotatedSchema Objekt wird durch seinen Namen Attribut name und Schematyp Attribut type beschrieben Die Metaklasse AnnotatedFactAttribute besitzt die vier bereits aus dem LCD of SOL Metaklassendiagramm siehe Seite 165 bekannten Attribute projectGrowthRate project GrowthPeriod projectDecreaseRate und projectDecreasePeriod Zus tzlich gibt es die Attribute estimatedSize und estimatedRows Mit estimatedSize wird die gesch tzte Gr e eines Fakteintrags beschrieben dieser h ngt neben dem Datentyp auch von der Anzahl der Dimensionen ab denn jede Dimension bedeutet ein Fremdschl sseleintrag in der Fakttabelle und dieser ben tigt auch Platz Der Wert des Attributes estimatedRows beschreibt die gesch tzte Anzahl an Zeilen der Tabelle beim initialen Laden des DWH Neben Nam
454. n Dem Framework f r den physischen Datenbankentwurf dienen als grobe Basis die in Abschnitt 5 3 3 skizzierten Ans tze insbesondere RS91 so dass sich der in Abbildung 10 2 skizzierte Ablauf ergibt In einer ersten Konfigurationsphase legt der Entwickler folgende Eingaben fest die beim initialen Ausf hren dieses Entwurfsschrittes seinem Wissen ber Projekt Dom ne und Zielsystem entstam men Als statischen Aspekt des DWH ein annotiertes Schema d h ein um Informationen ber die Extension wie Volumen oder Zu und Abnahmeraten angereichertes Schema Als dynamischen Aspekt des DWH einen Workload der aus einer Menge von gewichteten Aufgaben besteht die auf dem DWH ausgef hrt werden Aufgrund des Einsatzes in der Daten analyse sind diese Aufgaben vorrangig lesende Anfragen es kann sich aber auch um Nachla deoperationen von Daten aus dem Back End Bereich in das DWH oder L schoperationen im DWH beim Archivieren handeln Eine Menge von Regeln legt fest welche Optimierungsma nahme unter welchen Bedingungen sinnvoll ist Beispiele einfacher Regeln sind Wenn ein Attribut h ufig selektiv benutzt wird und eine geringe Kardinalit t besitzt dann ist ein Bitmap Index sinnvoll oder Wenn Daten auf einer bestimmten Verdichtungsstufe h ufig angefragt werden dann ist eine Materialisierung sinnvoll In die Regeln flie t das Wissen der Entwickler ein das ihrem Erfahrungsschatz entstammt oder Empfehlungen des DBMS Herstelle
455. n CO65 Strassenbereich_FK NULL NULL FALSE FALSE TA03 UK03 3 4 10 FK17 QuadInt NULL NULL Column CO66 Tag_FK NULL NULL FALSE FALSE TA16 UK16 FK19 3 4 10 QuadInt NULL NULL Column C067 Tag_FK NULL NULL FALSE FALSE TAl8 UK18 FK21 3 4 10 QuadInt NULL NULL Column CO68 Tag_FK NULL NULL FALSE FALSE TA19 UK19 FK25 3 4 10 QuadInt NULL NULL Column CO69 Type NULL NULL FALSE FALSE TAOS String CC1 NULL 3 7 Column CO70 Typ_der_Region NULL NULL FALSE FALSE TAll 3 Bundesland Kanton NULL NULL Column CO71 Verkaufsbezirk_FK NULL NULL FALSE FALSE TA13 FK11 3 10 QuadInt NULL NULL Column CO72 Woche_FK NULL NULL FALSE FALSE TA15 FK14 QuadInt 3 10 NULL NULL Column CO73 Bezeichnung NULL NULL FALSE FALSE TA21 UK38 Text 3 5 NULL NULL Column CO74 Bezeichnung NULL NULL FALSE FALSE TA22 UK39 Text 3 5 NULL NULL Column C075 ID NULL NULL TRUE FALSE TA21 UK36 AutoIncrement 3 4 NULL NULL Column Fortsetzung auf der folgenden Seite A 3 LCD of SQL Schema Fortsetzung von der letzten Seite CO76 ID NULL NULL TRUE FALSE TA22 UK37 AutoIncrement 3 4 NULL NULL C
456. n Die zugeh rigen Symbole sind in den Abbildungen 3 14 und 3 15 dargestellt Eine aggregierende Dimension besitzt mindestens eine Hierarchie die den gew nschten Verdichtungspfad repr sentiert indem sie sich in mehrere Hierarchieebenen gliedert Die einzelnen Ebenen werden dabei direkt dem Hierarchiesymbol untergeordnet so dass in einer Dimension mehrere alternative Hierarchien existieren k nnen und Dimensionselemente nicht zwingend darin enthalten sein m ssen Partitionierende Dimensionen die auch als Versions oder Szenariodimensionen bezeichnet werden stellen verschiedene Varianten der Variablen dar wie z B Plan oder Ist Werte Besitzen Elemente eine nat rliche Ordnungsbeziehung so kann dies durch eine sequentielle Dimension ausgedr ckt werden Ein Beispiel f r diesen Dimensionstyp ist die Zeitdimension Jedes Dimensionselement einer aggregierenden oder sequentiellen Dimension kann weitere im Analyseprozess nutzbare Attribute besitzen Diese Zusatzattribute werden in einer eige nen Eigenschaftsdimension abgelegt Neben der bereits erw hnten Kennzahlendimension existiert der Tupeldimensionstyp durch den aus der Kombination von Elementen zweier Dimensionen eine neue Dimension gebildet werden kann N H Aggregierende Dimension gt lt Partitionierende Dimension DE F z Kennzahlendimension Sequentielle Dimension Pr Eigenschaftsdimension Tupeldimension Abbildung 3 14 ADAPT Dimensionstypen
457. n Datenbank Implementierung der multidimensionalen Datenbank Abbildung 5 7 Vorgehen nach Cabibbo und Torlone Die Methodik stellt einen umfassenden Rahmen mit sauberer Trennung der einzelnen Phasen dar Das konstruierende Vorgehen des konzeptionellen DWH Schemas bringt jedoch die bereits in den letz ten beiden Abschnitten genannten Probleme mit sich n mlich Verzicht auf eine v llig unabh ngige konzeptionelle Modellierung durch das fr he Einbeziehen der Datenquellen und unklares Vorgehen 62 Kapitel 5 Entwurf von Informationssystemen bei berlappender Datenbest nden in den Quellen Ebenso bleibt die Beschreibung einzelner Schritte z B logischer Entwurf und Auswahl zu realisierender Data Marts unklar Schemaentwurf nach Lechtenb rger In LecO1 wird ein auf dem Drei Ebenen Entwurf basierender Ansatz zum DWH Schemaentwurf vorgeschlagen Hierbei werden Normalformen und nderungsunabh ngigkeit als wesentliche Krite rien f r die Qualit t konzeptioneller und logischer Schemata genannt Neben der bertragung von Normalformen wie Vollst ndigkeit und Redundanzfreiheit sind auch zwei neue Normalformen f r den DWH Kontext definiert worden die die Aspekte der Additivit t d h korrekter Resultate bei Ver dichtungen und Vermeidung von NULL Werten betreffen nderungsunabh ngigkeit eines DWH soll die effiziente Wartung erm glichen insbesondere in Umgebungen mit entkoppelten Datenquel len Aufbauend auf diesen beiden
458. n Jahren 1995 bis 1999 deren Ziel die Umsetzung der in der Pi lotphase entwickelten Verfahrensweisen in Niedersachsen war um anschlie end mit der Dauerphase 12 1 Epidemiologisches Krebsregister Niedersachsen 267 des EKN beginnen zu k nnen In diese Phase fallen neben der Erprobung der Datensammlung seit 1995 auch die dauerhafte Datenspeicherung seit Anfang 1997 sowie vor allem die Konzeption und Entwicklung der zur Unterst tzung der Arbeit notwendigen Softwarewerkzeuge der in Abschnitt 12 1 4 skizzierten sog CARTools Mit Inkrafttreten des Gesetzes ber das Epidemiologische Krebsregister Niedersachsen zum 1 1 2000 begann die Aufbauphase Das Gesetz sieht vor dass das EKN in der ersten Aufbauphase zun chst systematisch Meldungen aus dem Regierungsbezirk Weser Ems erfassen soll Die vorgesehene lan desweit fl chendeckende Erfassung wird in drei weiteren Ausbaustufen bis zum 1 1 2003 umgesetzt 2001 Regierungsbezirk L neburg 2002 Regierungsbezirk Braunschweig und 2003 Regierungsbezirk Hannover 12 1 4 CARTools Die Softwarewerkzeuge im EKN Zur Unterst tzung der zuvor genannten Aufgaben ist beim Aufbau des EKN ein von OFFIS ent wickelter CARTools genannter Werkzeugkasten entstanden der diese Anforderungen abdeckt Der Werkzeugkasten enth lt insgesamt vier Komponenten e CARAMEL CARLOS Attaching Multiple Existing Local Registration Units e CARTRUST CARLOS Trusted Registration Unit Software Tool e CARELIS CARLOS Rec
459. n Typen auf der Seite des Prim r bzw Fremdschl ssels festge halten 170 Kapitel 8 Relationaler Entwurf 8 2 5 Constraints Objekte der im Bereich Constraints definierten Metaklassen die im Metamodellausschnitt in Abbildung 8 6 zu sehen sind erm glichen die Beschreibung ber die referentielle Integrit t hinaus gehender Integrit tsbedingungen Constraint schema Schema body Expression name String name String A E Column DBConstraint 0 7 constraints identityIncrement Integer A optional Boolean valueExpression Expression 1 column Table TableConstraint ColumnConstraint 1 constraints tableTypeMETA String Om 1 table 0 constraints Abbildung 8 6 LCD of SQL Metamodell Bereich Constraint Ausgangspunkt ist die abstrakte Metaklasse Constraint die aus dem OIM Teilmodell UML Core stammt W hrend name der eindeutige Bezeichner der Integrit tsregel ist definiert body die Integri t tsregel Auf eine genauere Spezifikation wie diese Beschreibung auszusehen hat wird verzichtet Sie kann z B in Boolescher Logik oder SQL Pseudocode erfolgen Je nach Typ des Bezugsobjektes der Integrit tsregel gibt es drei Unterklassen von Constraint DB Constraint TableConstraint und ColumnConstraint Diese haben keine weiteren Attribute sie unter scheiden sich lediglich in den unterschiedlichen
460. n Variante kann wiederum zwischen Bereichs und Hashpartitionierung unterschieden werden BGO1 Wahrend bei der Hashpartitionierung eine Funk tion ber die Fragmentierung der Tupel entscheidet geschieht die Bereichspartitionierung aufgrund semantischer Kriterien Im Kontext von DWH bieten sich h ufig Ort und Zeit als Kriterien zur Frag mentierung an Werden beispielsweise in einem DWH die Zahlen der letzten vier Jahre gespeichert k nnte die gesamte Faktentabelle durch Bereichsfragmentierung in vier Partitionen aufgesplittet wer den Vertikale Partitionierung bietet sich vor allem f r besonders breite Tabellen d h solche mit vielen Attributen an Im DWH kann dies f r einige Dimensionstabellen zutreffen Weil f r das Wieder zusammensetzen der Partitionen jedoch eine relativ teure 1 1 Verbundanfrage n tig ist besitzt die vertikale Partitionierung im DWH Umfeld nur eine untergeordnete Bedeutung MWM99 GMRO0 sind als zentrale Arbeiten zur Partitionierung in DWH zu nennen 4 3 3 Materialisierte Sichten Unter materialisierten Sichten wird die explizite Speicherung von Anfrageergebnissen mit dem Ziel der Beschleunigung erneuter Anfragen verstanden Aufgrund hnlicher h ufig vorkommender Anfra gen Lokalit t bei Auswertungen und einem relativ stabilen Datenbestand sind materialisierte Sich ten eine sehr effektive Optimierungsoption in DWH Rou98 GMRRO1 Wesentliche Realisierungs aspekte sind die Auswahl zu materialisierender S
461. n der multidimensionalen Datensicht Der Datenw rfel ist das Kernst ck eines ADAPT Schemas und stellt normalerweise eine einzige betriebswirtschaftliche Variable dar Im unteren Teil des Datenw rfel Symbols werden alle relevanten Dimensionen eingetragen Der Begriff Variable ist in diesem Kontext gleichbedeutend mit dem Begriff Kennzahl Eine Aufnahme der Dimensionsnamen in den Datenw rfel erscheint auf den ersten Blick berfl ssig da sp ter die ben tigten Dimensionen graphisch mit dem Datenw rfel verbunden werden In Bul96 wurde aber urspr nglich eine Trennung der Ansichten von W rfeln und Dimensionen vorgeschlagen die jedoch in der Literatur zunehmend durch eine kombinierte Darstellung ersetzt wird JT98 30 Kapitel 3 Multidimensionale Datenmodelle Existieren mehrere Variablen die dieselbe Menge von Dimensionen besitzen so k nnen sie durch einen gemeinsamen Datenw rfel dargestellt werden Die einzelnen Variablen werden dabei in eine spezielle Kennzahlendimension aufgenommen Abgeleitete Attribute werden als normale Variablen modelliert und zus tzlich mit einem Formel Symbol versehen das den Funktionsnamen und die konkrete Berechnungsvorschrift enth lt D Name GE Dimension W rfel Dimension Formel Datenquelle Abbildung 3 13 ADAPT Kernelemente F r eine zweckm ige Modellierung qualifizierender Daten besitzt ADAPT jeweils sechs verschiede ne Dimensions und Dimensionselementtype
462. n erg nzende Eigen schaften wie z B RollUp Beziehungen besitzen die durch Instanzen der RollUp Metaklasse darge stellt werden Fakten werden in der MML durch Instanzen der FactClass Metaklasse dargestellt Diese besitzt die M glichkeit der Aufnahme von Beziehungen zu Datenelementen die die nicht dimensionalen Ei genschaften eines Faktes darstellen Diese Beziehungen werden durch Instanzen der FactAttribute Metaklasse hergestellt In Erg nzung dieser quantifizierenden Eigenschaften kann jede FactClass Instanz durch zugeordnete DimensionalClass Schemaelemente qualifizierend beschrieben werden was durch die dimension Referenz zur gleichnamigen Metaklasse spezifiziert wird 6 1 5 Datenelemente Die in diesem Unterabschnitt vorgestellten Metaklassen dienen der Definition einfacher und komple xer Datentypen Ihre Einordnung in das MMI Metaklassendiagramm ist in Abbildung 6 7 zu sehen Die DataElement Metaklasse ist die Zusammenfassung der DataClass und DataType Metaklasse Jede DataElement Instanz kann in verschiedenen Instanzen der NonDimensionalProperty Metaklasse die die Attribute von FactClass DimensionalClass und DataClass Schemaelementen repr sentieren als Daten Typ eingetragen werden Die DataClass Metaklasse stellt ein komplexes Datenelement dar und erbt durch die Basismetaklas se ClassElement die Eigenschaften zum Aufbau komplex geschachtelter Datentypen Im Gegensatz zur DataClass Metaklasse werden mit Hilfe der DataT
463. n f r MML Schemata F r Reviews ungeeignete Qualit tskriterien Kriterium Erweiterbarkeit Beschreibung Sind neue Anforderungen leicht in das Schema zu integrieren Grund Kriterium ist zwar f r jedes Schema relevant denn 80 aller Softwareko sten sind Wartungskosten Dennoch kann Erweiterbarkeit nicht an einem kon zeptionellen Schema gemessen werden vielmehr kann man festhalten dass durch die MML als objektorientierte Sprache eine gute Basis f r Erweiterbar keit gegeben ist Kriterium Wiederverwendbarkeit Beschreibung Sind das Schema bzw Teile davon f r sp tere Modellierungen nutzbar Grund Obwohl Wiederverwendbarkeit im Hinblick auf Aufwandsersparnis in sp te ren Projekten bedeutend ist ist es als Kriterium in einem Review nicht ge eignet Analog zur Erweiterbarkeit bietet der Einsatz von Objektorientierung auf der konzeptionellen Entwurfsebene eine gute Basis f r Wiederverwend barkeit Kriterium Schemamanagement Beschreibung Ist eine geregelte Administration Nutzung und Fortschreibung des Schemas gew hrleistet Grund Relevanz ist zwar hoch begr ndet vor allem in der Nachvollziehbarkeit der Entwicklung Dennoch ist das Schemamanagement nicht Aspekt des konze pionellen Schemas sondern sollte vom Werkzeug oder verwendeten Reposi tory bereitgestellt werden W hrend eines Reviews k nnen h chstens korrek te Versionsnummerverwendung berpr ft werden
464. nahmen wobei jedes a A durch einen Typ und einen Ausdruck beschrieben wird Weiterhin kann jedes a A eine Menge von Kosten bestehend aus einer Kostenart und einem Ausdruck besitzen A ist die Menge aller Mengen von Optimierungsma nahmen 10 6 10 3 2 Die drei Subphasen der Optimierungsphase Unter Verwendung der im letzten Abschnitt eingef hrten Definitionen der Konfigurationsphase wer den in diesem Abschnitt die drei Subphasen der Optimierungsphase spezifiziert 240 Kapitel 10 Physische Datenbankoptimierung Phase I Selektion Aufbauend auf den Definitionen 10 1 bis 10 6 wird mit der Selektion in 10 7 die erste Subphase der Optimierungsphase definiert Sie bildet ein annotiertes Schema einen Workload eine Menge von Regeln und eine Umgebung auf eine Menge von Optimierungsma nahmen ab Physppasel SXWXRXE ZA ES 10 7 Physppaser S W R E a dr R r thenPart a Phase II berarbeitung DieUeberarbeitungsphase berarbeitungsphase berarbeitungsphase nutzt das Resultat der Selek tion aus 10 7 Unter der Annahme dass Jux ication die Modifikation einer Menge von Optimie rungsma nahmen vornimmt beschreibt 10 8 diesen Schritt PhysPnhaselt AA 10 8 def Phys PhaseIT A Jdet modification A Phase III Kompromiss Die Menge der Kostenarten T T zerf llt in zwei Teilmengen e Die Menge der zur Optimierung zu ber cksichtigenden Kostenarten Top 2 tocopt tOCOpt
465. nd Bereich auch ETL Bereich und der hier durchgef hrte Prozess entsprechend ETL Prozess ge nannt Eine weitere wichtige Aufgabe des Back End Bereichs ist die Sicherstellung der Datenqua lit t die durch ein durchg ngiges und umfassendes Datenqualit tsmanagementsystem gew hrleistet werden sollte Hin00 Hin01 HAO1 welches eine hohe G te der zu analysierenden Daten garan tiert Als physischer Zwischenspeicher dient im Back End Bereich eine als Operational Data Store ODS bezeichnete Datenbank 2 2 1 Monitore Monitore sind f r die Entdeckung von Daten nderungen neue ge nderte oder gel schte Datens tze in Quellsystemen zust ndig Um den ODS und nachfolgend auch das DWH aktuell zu halten m ssen Aktualisierungen in den Quellsystemen inkrementell in das DWS propagiert d h diesem bekannt gegeben werden Die konkrete Funktionsweise eines Monitors h ngt unmittelbar von den Charakteristika des angeschlossenen Quellsystems sowie von den Anforderungen der Analysekom ponenten ab Folgende Monitoring Strategien k nnen unterschieden werden VGD99 Trigger basiert Handelt es sich bei der Datenquelle um ein Datenbanksystem welches aktive Mechanismen in Form von Triggern unterst tzt kann das Monitoring erfolgen indem jede Datenmanipulation einen Trigger ausl st z B Post Update der das ge nderte Tupel in eine Datei oder eine andere Datenstruktur schreibt Replikationsbasiert Moderne DBMS bieten Replikationsdien
466. nd Manfred A Jeusfeld Herausgeber VLDB 97 Proceedings of 23rd International Conference on Very Large Data Bases August 1997 Athen Griechenland Seiten 156 165 Morgan Kaufmann August 1997 Literaturverzeichnis 353 BRS95 Becker J rg Michael Rosemann und Reinhard Sch tte Grunds tze ordnungsm iger Modellierung Wirtschaftsinformatik 37 5 435 445 Oktober 1995 Bru91 Bruce Thomas A Designing Quality Databases With Idef1X Information Models Dor set House Publishing 1991 BS96 Becker J rg und Reinhard Sch tte Herausgeber Handelsinformationssysteme Verlag Moderne Industrie 1996 BS97 Berson Alex und Stephen J Smith Data Warehousing Data Mining and OLAP McGraw Hill 1 Auflage 1997 Bul96 Bulos Dan A New Dimension Database Programming amp Design 6 1996 Seiten 33 37 1996 Bun01 Bundesministerium fiir Bildung und Forschung Analyse und Evaluation der Software entwicklung in Deutschland Studie 2001 Bur98 Burkett William C Database Schema Design Quality Principles http www scf usc edu wcb dmq dmqmain html 1998 CBS98 Connolly Thomas Carolyn Begg und Anne Strachan Database Systems Addison Wesley 2 Auflage 1998 CD97 Chaudhuri Surajit und Umeshwar Dayal An Overview of Data Warehousing and OLAP Technology SIGMOD Record 26 1 M rz 1997 Che76 Chen Peter P The Entity Relationship Model Toward a Unified View of Data TODS 1 1 9 36 1976
467. ndere unter dem in der Einleitung genannten Kritikpunkt gescheiterter DWH Projekte ist es w nschenswert auch die Umkehrungen der Entwurfsschritte zu spezifizieren und somit zun chst ein Reverse und anschlie end auch ein komplettes Re Engineering zu unterst tzen Eine nderung auf der konzeptionellen Entwurfsebene verlangt bisher die Transformation des gesamten Schemas Sind die nderungen oder Erweiterungen aber nur gering so w re es denk bar nur die von der nderung betroffenen Schemateile quasi inkrementell zu transformieren 13 3 Visionen im DWS Umfeld Abschlie end werden einige zuk nftige Tendenzen im Kontext von DWS aufgef hrt mit denen sich die Scientific Community und die kommerzielle Praxis in den n chsten Jahren besch ftigen werden die jedoch nicht unmittelbar im Bereich der in dieser Arbeit vorgestellten Methodik liegen Zu diesen Aufgaben sind zu z hlen Weiterentwicklung des DWH basierten Data Mining bzw die Kombination von OLAP und Data Mining als Analysetechnik Durch Zusammenf hrung dieser beiden Techniken und ihre Auswertung und Interpretation durch einen menschlichen Benutzer entsteht ein entscheidender Mehrwert bei der Analyse Ebenso ist eine Kopplung dieser beiden Techniken mit den sich zunehmend etablierenden Wis sensmanagementsystemen WMS zu erwarten Ein denkbares Szenario besteht darin dass in einem WMS abgelegte Dokumente w hrend des Analyseprozesses abgerufen werden k nnen und dabei weite
468. ndet beschreibt wann der Patient das Rauchen beendet hat Zul ssiger Wert ist neben einer Jahresangabe auch der Wert O0 f r unbekannt Raucher und Nichtraucher lt lt Dimension gt gt lt lt DimensionalClass gt gt Rauchen Rauchen beendet beendet Jahr Text 4 stellig Abbildung B 22 Konzeptionelle Modellierung Dimension Rauchen Beendet B 23 Dimension Raucherstatus Die Dimension Raucherstatus gibt Auskunft ber das Rauchverhalten des Patienten Zul ssige Werte sind 1 Nichtraucher 2 Exraucher 3 Raucher und 9 Fehlende Angabe Unbekannt B 24 Dimension Seite 331 1 d lt lt DimensionalClass gt gt lt lt Dimension gt gt Raucherstatus I Raucherstatus Bezeichnung Aufzahlungstyp Abbildung B 23 Konzeptionelle Modellierung Dimension Raucherstatus B 24 Dimension Seite Die Dimension Seite gibt die K rperseite an an der die Erkrankung aufgetreten ist Zul ssige Werte sind l Rechts 2 Links 3 Beidseits und 8 Trifft nicht zu sowie 9 Fehlende Angabe Unbekannt j f lt lt DimensionalClass gt gt lt lt Dimension gt gt Seit Seite gt elte Bezeichnung Aufz hlungstyp Abbildung B 24 Konzeptionelle Modellierung Dimension Seite B 25 Dimension Staatsangeh rigkeit Die Dimension Staatsangeh rigkeit gibt die aktuelle Staatsangeh rigkeit des Patienten an Diese besteht au
469. nenten wobei Aspekte wie etwa parallele Optionen eine Rolle spielen Als n chster Schritt erfolgt in der zweith chsten Ebene die Konfiguration der Datenbank Hierbei werden etwa Devices Tablespaces oder Logfile Optionen eingestellt Die oberste Ebene schlie lich bezieht sich auf die Optimierung der Datenbank wie z B die Bestimmung von Materialisierungen Optimierung DB Konfiguration DB Konfiguration HW BS DBMS Auswahl HW BS DBMS Abbildung 10 3 Aspekte der physischen Datenbankoptimierung Bei Bestimmung der Umgebungsparameter muss innerhalb der Abbildung 10 3 eine horizon tale Linie gezogen werden wobei alle Aspekte unterhalb der Linie als vorgegeben angesehen werden und somit als Umgebungsparameter oder Regeln modelliert werden w hrend die ober halb der Linie angesiedelten Aspekte das Resultat des Prozesses bilden Meistens werden die drei unteren Ebenen als gegeben angesehen w hrend die Ma nahmen der obersten Ebene als Ergebnis der Optimierung ermittelt werden Als letzte Eingaben sind in der Konfigurationsphase ein geeignetes Kostenmodell und ein Op timierungsalgorithmus f r die Kompromissphase festzulegen Die Gesamtheit dieser Komponenten dient als Eingabe f r die eigentliche Optimierungsphase die sich aus folgenden Subphasen zusammensetzt In der als Auswahlphase bezeichneten Phase I werden alle aufgrund der eingegebenen Parameter g nstigen Optimierungsma nahmen bestimmt Hierbei wird jede Regel
470. ner Datenbank werden alle Aspekte zusammengefasst die im weitesten Sinne mit der Korrektheit der Daten in der Datenbank zu tun haben Integrit tsbedingung Synonym f r tKonsistenzbedingung Kategorie A Metadaten tMetadaten eines TLCD of SQL Schemas die sich auf ein Objekt bezie hen Kategorie B Metadaten Metadaten eines TL CD of SQL Schemas die sich auf zwei Objekte be ziehen Kenngr e Synonym f r tFakt Kennzahl Synonym f r Faktattribut Klasse Zusammenfassung einer tKlassendefinition und der Menge der tObjekte die nach diesem Schema erzeugt wurden Klassenbibliothek Sammlung von tKlassen Klassendefinition Definition der Merkmale von Objekten Eine beschreibt die Objekte einer Klasse durch ein Schema nach dem Instanzen dieser Klasse erzeugt und manipuliert wer den Dieses Schema besteht aus dem Klassennamen sowie den tAttributen und FMethoden der Klasse Klassendiagramm Zeigt eine Menge von tKlassen und ihre tBeziehungen Komposition Spezielle Form der TAssoziation die eine Ganzes Teil Beziehung zwischen zwei Komponenten beschreibt Gegen ber einer tAggregation sind die Instanzen der als Teil be trachteten Komponente von der Ganzes Komponente abh ngig Konsistenz Beinhaltet die logische Korrektheit bzgl vorgegebener tKonsistenzbedingungen der Daten und damit die bereinstimmung des Inhaltes der tDatenbank mit der Datenbeschrei bung Konsistenzbedingung Logische Formel ber die in der
471. nes jeden Teilschritts die formale Definition der jeweiligen Transformation 124 Kapitel 7 Logischer Entwurf Zusatzinformationen T Objekte Attribute REMUS Schemaelemente Metadaten Tempor re Objekte Abbildung 7 4 Darstellung einzelner Transformationsschritte 7 2 1 Definitionen und Notationsvereinbarungen In diesem Teilabschnitt werden mit MML und REMUS Schema Ausgangs und Zielschema sowie einige w hrend der Transformation ben tigte Hilfsabbildungen definiert MML In 7 1 erfolgt zun chst die Definition eines MML Schemas Ein MML Schema ist ein Paar M S type mit i ist eine endliche nichtleere Menge von Schemaelementen ii type ist eine partielle Funktion die jedem s S seinen Typ zuweist d h type S gt FactClass DimensionalClass DataClass Fact Attribute Dimensional Attribute Data Attribute DataType Dimension RollUp SharedRollUp Dimensional Mapping Additivity Computation Generalization 7 1 Association Composition type s ern Objekttyp von s 7 2 Transformationsalgorithmus Als Eingabe der Transformation sind nur MML Schemata zugelassen die der Spezifikation gem Metaklassendiagramm und den Wohlgeformtheitseigenschaften gen gen Aus diesem Grunde wird in 7 2 die Eigenschaft G ltigkeit f r MML Schemata eingef hrt Sei M ein M
472. nference on Database Systems for Advanced Applications DASFAA April 1999 Hsinchu Tai wan Seiten 263 270 IEEE Computer Society 1999 Li Chang und Xiaoyang Sean Wang A Data Model for Supporting On Line Analytical Processing In CIKM 96 Proceedings of the Fifth International Conference on In formation and Knowledge Management November 1996 Rockville Maryland USA Seiten 81 88 ACM Press 1996 Liang Weifa und Jeffrey X Yu Revisit on View Maintenance in Data Warehouses In Wang Xiaoyang Sean Ge Yu und Hongjun Lu Herausgeber Advances in Web Age In formation Management Second International Conference WAIM 2001 Juli 2001 Xi an China Proceedings Nummer 2118 in LNCS Springer 2001 Martin Wolfgang Data Warehousing Data Mining OLAP Thomson Publishing Inter national Bonn Deutschland 1998 Mertens Holger Carsten Bange und Heiko Schinzer BARC Studie Data Warehouse BARC Business Application Research Center W rzburg Deutschland 2000 Mertens Holger Carsten Bange und Heiko Schinzer BARC Studie OLAP and Business Intelligence BARC Business Application Research Center W rzburg Deutschland 2001 Meta Data Coalition MDC Open Information Model Version 1 1 Meta Data Coali tion Homepage http www mdc com August 1999 Meta Group 1999 Data Warehouse Marketing Trends Opportunities Studie Meta Group 1999 Meta Group SPEX Business Intelligence EIS DSS and Query Tools
473. ng einer Dimensi on in einen der sechs Dimensionstypen nicht immer klar ist Besitzen aggregierende Dimensionen neben der eigentlichen Hierarchie weitere Elemente so kann sie auch einer Partitionierung entspre chen Ebenso impliziert eine sequentielle Zeitdimension mit verschiedenen Granularit tsstufen eine Aggregationshierarchie und k nnte daher auch als aggregierende Dimension verstanden werden 3 3 4 DFM Dimensional Fact Model Als weitere graphische Notation zur Modellierung von Datenstrukturen f r das DWH wird in GMR98a GMR98b das Dimensional Fact Model DFM vorgestellt Ein konzeptionelles Da tenschema unterteilt sich bei diesem Ansatz in mehrere themenorientierte Fakt Schemata deren Basiselemente Fakten Attribute Dimensionen und Hierarchien sind Im Mittelpunkt eines Fakt Schemas steht ein bestimmter zur Datenanalyse relevanter Bereich der im DFM als Fakt bezeichnet wird und zur Aufnahme von Daten eine beliebige Anzahl verschiedener Fakt Attribute besitzen kann Das Modell beschr nkt sich bei der Art von Fakt Attributen auf numerische Typen bzw Typen mit kontinuierlichem Wertebereich so dass Fakt Attribute selbst keine komplexere innere Struktur aufweisen k nnen Die graphische Darstellung von Fakten erfolgt durch ein zweigeteiltes Rechteck welches den jeweiligen Fakt Namen und eine Auflistung der Namen der einzelnen Fakt Attribute enth lt Von diesem zentralen Fakt zweigen die eine Baumstruktur bildenden Dimensionen ab Die
474. ngActions TuningActionSet Abbildung 10 9 OptimierungsmaBnahmen 10 2 4 Aufgaben und Workload Der in Abbildung 10 10 abgebildete Bereich Aufgaben und Workload stellt mittels der abstrakten Oberklasse Task Aufgaben dar die auf der Datenbank auszufiihren sind Diese werden durch die Vererbung in die speziellen Aufgabentypen ReadingTask LoadingTask und ArchivingTask unterteilt Jeder Aufgabentyp referenziert ber eine Assoziation ein Faktattribut das Gegenstand dieser Aufgabe ist Ein ReadingTask Objekt wird im Attribut levels zus tzlich durch die Menge von Hierar chieebenen charakterisiert auf die sich die Anfrage bezieht Die Lade und Archivierungsaufgaben hingegen besitzen die beschreibenden Attribute number Anzahl der zu ladenden bzw zu archivie renden Datens tze period Zeitintervall in dem die Aufgabe auftritt und timeSlot Zeitschranke innerhalb der die Aufgabe zu bew ltigen ist Die Kosten die eine Aufgabe bei Vorliegen eines bestimmten TuningActionSet Objektes verursacht werden durch die an der Beziehung zur Klasse TuningActionSet modellierten Assoziationsklasse TaskTuningActionSet angegeben Eine Menge von Aufgaben wird zu einem Workload zusammengefasst wobei den einzelnen Aufgaben innerhalb des Workloads unterschiedliche Gewichte zugeordnet werden k nnen was im Attribut weight der Assoziationsklasse WeightOfTask festgehalten wird Workload name String TaskTuningActionSet co
475. ngehen d rfen Auch hier m ssen wie bei M glichkeit II aufgrund der neu entstehenden Faktattribut Dimension Kombinationen wieder Additivity Metadaten angelegt werden was wiederum in Schritt 10 geschieht Restriktionen sind hier n tig wenn sowohl die aggregierte Klasse als auch die Detailklasse die glei chen Dimensionen besitzen siehe Anmerkung auf Seite 154 am Ende von Schritt 8 Das bertragen der Attribute entspricht der Einbettung bei einfacher Multiplizit t so dass die in 7 37 definierte Aktualisierungsfunktion f r Attributmengen wiederverwendet werden kann M glichkeit IV bertragung von Attributen und Dimensionen Dieser Ansatz stellt eine Kombination der M glichkeiten II und II dar Es werden sowohl die Attri bute wie auch die Dimensionen der aggregierten Seite auf die Detailseite bertragen Um das bertragen der Dimensionen bei den M glichkeiten II und IV zu erm glichen wird in 7 40 die Funktion 7 36 dahingehend modifiziert dass die Faktklasse der Detailseite nicht aus der Owrner Menge entfernt wird UpdateOwner CompComplex MComposition X Mowner gt Mowner UpdateOwner compComplex O def OU f name f CalcAggregated c falls cendA name O IO sonst 7 40 7 2 Transformationsalgorithmus Nach diesen Vorarbeiten kann die Transformation von einfachen wie komplexen Kompositionen wie in 7 41 und 7 42 beschrieben vorgenommen werden Hierbei gibt Jdetoomposi sion 1M Falle komple
476. ngen 24 116 118 Datenquelle 9 G341 Datenw rfel 19 G342 DBConstraint LCD of SQL 170 179 197 200 205 207 DBMS 237 Denormalisierung 45 DesignProcess 238 Detaildaten 21 G342 Deterministische Funktion 263 Dimension 19 26 29 32 34 45 74 79 92 G342 Dimension UML 92 Dimension MML 85 141 154 Dimension REMUS 122 155 176 197 200 Dimensional Fact Model 32 37 39 DimensionalAttribute UML 89 DimensionalAttribute MML 85 DimensionalClass MUML 88 89 DimensionalClass MML 79 87 88 DimensionalClass MML 79 DimensionalClass REMUS 129 Dimensionalit t 19 G342 DimensionalMapping mUML 92 DimensionalMapping MML 85 140 DimensionalMapping REMUS 122 140 176 204 205 DimensionalProperty MML 84 Dimensionshierarchie 20 92 G342 DOLAP 43 Drei Ebenen Entwurf 56 Drill Down 22 G342 Drilling 22 G342 DWS Manager 16 G342 E R Modell 25 G342 Elementeigenschaft 67 G342 Entwurfsdokument 56 72 G342 Entwurfsmethodik 55 G342 Entwurfsprozess 55 72 284 G342 Entwurfsschritt 56 G342 Environment 237 ETL Prozess G342 ExpressionType 233 Extraktion 11 skomponente 11 Anfragegesteuert 11 Ereignisgesteuert 11 Periodisch 11 Sofort 11 Index 381 Fact Constellation Schema 46 FactAttribute UML 89 FactAttribute MML 85 141 151 FactClass UML 89 FactClass MML 79 80 87 141 151 Fakt 19
477. ngsm glichkeit bietet Das Resultat der bisherigen Modellierung ist in Abbildung 6 34 zu sehen 6 5 Beispiel Handelswelt 113 lt lt DimensionalClass gt gt Jahr lt lt RollUp gt gt lt lt RollUp gt gt Jahr Jahr lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Woche Quartal DI ee lt lt RollUp gt gt lt lt RollUp gt gt Quartal Woche lt lt DimensionalClass gt gt Monat EEE m PP EI gern a lt lt RollUp gt gt Monat lt lt DimensionalClass gt gt Tag lt lt Dimension gt gt Zeit lt lt Dimension gt gt Zeit Verkauf lt lt FactClass gt gt Verkauf Betrag W hrung DJ lt lt Composition gt gt Verkauftes Produkt lt lt FactClass gt gt Verkauftes Produkt Einzelpreis W hrung lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp Anzahl St ckzahlTyp Gesamtpreis W hrung lt lt Dimension gt gt Ort lt lt Dimension gt gt Ort Verkauf lt lt Dimension gt gt Artikel lt lt DimensionalClass gt gt Artikel lt lt Dimension gt gt Produkt lt lt RollUp gt gt Produktgruppe lt lt DimensionalClass gt gt Produktgruppe lt lt RollUp gt gt Produktfamilie lt lt DimensionalClass gt gt Produktfamilie lt lt RollUp gt gt Produktkategorie lt lt DimensionalClass
478. nn Werte enthalten wenn das diskriminierende Attribut Type den Wert Kaufhaus enth lt Ort des Verkaufs Kaufhaus Flache Valid Ort des Verkaufs Type Kaufhaus feet TT Ort des Verkaufs Type Type sein Ort des Verkaufs Kaufhaus Fl che Fl che AttributeName Ort des Verkaufs Ort_des_Verkaufs Kyalid Table name Ort_des_Verkaufs tableTypeMETA DIMENSION table constraint TableConstraint name Integrity rule for table T body Fl che IS NULL OR Type IN Kaufhaus Abbildung 8 17 Abbildung von Valid von REMUS nach LCD of SQL Ein Valid Metadatum wird mittels folgender Funktion in den Ausdruck fiir des TableConstraint verwandelt fdetyatianute METAV atia gt ExpressionT ype as M Bilde Ausdruck Aufbauend auf Funktion 8 46 lassen sich die Funktionen definieren die ein TableConstraint Objekt anlegen 8 47 bzw eine Referenz auf dieses Constraint in eine bestehende Tabelle eintragen 8 48 JdetvatidRule UValidoreate METAV alid gt LTableConstraint def HValidoreate m y Integrity rule for table fdetrasiename M attribute table name 8 47 JaetValidRule M fdet ssinibute Name M attribute name TableConstraint UValidupdate METAvalid X Lr abie LTabie def LV alidy paate M t AddTableConstraint t p Integrity rule for table 8 48 m a columnSet name m
479. nnoch kann es sinnvoll sein eine weitere Dimension Geschlecht zu modellieren um potenzielle Auswertungen einfacher gestalten zu k nnen Zusammenfassend kann festgehalten werden dass die in ALW98 geforderten multidi mensionalen Normalformen aufgrund der hier aufgef hrten Gegenbeispiele weitgehend unbrauchbar sind 6 5 Beispiel Handelswelt Zur Verdeutlichung der bisher in diesem Kapitel vorgestellten Konzepte MML UML und Leitfa den wird in diesem Abschnitt eine Fallstudie vorgestellt die auch zur Demonstration der weiteren Entwurfsschritte in den Kapiteln 7 bis 10 dienen wird 6 5 1 Szenario Das in diesem Abschnitt vorgestellte Szenario soll als durchg ngiges Beispiel f r Teil II dieser Ar beit dienen Aus der F lle m glicher Beispielszenarien wurde das betriebswirtschaftliche Szenario Handelswelt gew hlt Dieses Beispiel hat sich mit einigen Variationen in der wissenschaftlichen DWH Literatur BGO1 quasi zum Standardbeispiel entwickelt weil es einerseits leicht verst ndlich und berschaubar ist andererseits aber auch ausreichend komplex um z B alle Modellierungskon strukte zu demonstrieren Bei der Wahl der betriebswirtschaftlichen Fachbegriffe wurde ferner auf bereinstimmung mit BS96 geachtet Das Szenario sei wie folgt definiert Eine in Deutschland und der Schweiz t tige Lebensmittelkette die sowohl eigene Filialen betreibt als auch in Kaufh usern t tig ist ist an einer Verkaufszahlenanaly
480. nsbe sondere k nnen hierdurch Bezeichnungsungenauigkeiten fr hzeitig entdeckt und Abh ngig keiten zwischen einzelnen Dimensionen gut dokumentiert werden In Diskurswelten in denen mehr und oder kompliziertere Verdichtungspfade vorliegen ist auch deren fr hzeitiges Erken nen durch ein explizites Schemareview zu erwarten 280 Kapitel 12 Evaluation Durch die interaktiven Schritte w hrend der Transformationen von der konzeptionellen auf die logische Entwurfsebene und von dieser auf die physische Ebene k nnen dom nenspezifische Aspekte in Kombination mit Benutzerwissen gewinnbringend in den Entwurfsprozess einflie en So konnten z B durch das in Abschnitt 7 2 9 beschriebene Herunterreichen der Dimen sionen f r die Datenanalyse geeignete Schemata erzeugt werden Weiterhin k nnen durch die interaktiven Entwurfsschritte in der Organisation oder dem Projekt vereinbarte Richtlinien wie z B Namenskonventionen angewendet werden Durch die Diskussion der Aspekte in Abschnitt 12 4 konnte die Erweiterbarkeit und nderbar keit von Schemata bei Anwendung der Methodik verdeutlicht werden Dadurch ist auch die Eignung der Methodik f r Prototyping als Vorgehensweise belegt Die Realisierung auf zwei unterschiedlichen DB Plattformen zeigt die Zielsystemunabh ngig keit der Methodik Gleiches gilt auch f r Versionswechsel auch wenn dieses im Rahmen der Evaluation nicht explizit gezeigt wurde denn bei einem Versionswechsel eine
481. nsformation von DataClass Instanzen 128 Zerlegung der Menge von DimensionalClass Instanzen 22 2 2200 130 Transformation von DimensionalClass Instanzen 131 Transformation von DimensionalAttribute Instanzen 133 Transformation von RollUp Instanzen 135 370 Abbildungsverzeichnis 7 11 7 12 7 13 7 14 7 15 7 16 7 17 7 18 7 19 7 20 7 21 7 22 7 23 7 24 71 25 8 1 8 2 8 3 8 4 8 5 8 6 8 7 8 8 8 9 8 10 8 11 8 12 8 13 8 14 8 15 8 16 Transformation von SharedRollUp Instanzen 137 Transformation von Association Instanzen zwischen DimensionalClasses 138 Aufl sen von Vererbung in FactClass Zusammenhangskomponenten 142 Berechnung der Hilfsstrukturen f r die Faktklassen 2 2 2 2 20 200 145 Aufl sen von Kompositionsbeziehungen mit einfacher Multiplizit t zwischen Fact CLASSES i HA eet ele whe Bn EE EECH 146 Abarbeitungsreihenfolge von Composition e 149 Aktualisierung der Owner und FactClassAttributes Mengen 152 Transformation von FactClass Schemaelementen 153 Transformation von FactAttribute Schemaelementen 153 Neue Additivity Metadaten 154 Aufl sen von Dimensions 0 a 155 Transformation der Additivit t aaa 156 Transformation von Berechnungsvorschriften in ein objekorientiertes Zielsystem 159 Transformation in ein objekorientiertes Zielsystem 160 Einordnung des Schrittes in den Entwurfsprozess 1
482. nsformationsvorschrift wird in 7 10 zun chst eine Struk tur zur Verwaltung der Menge der Attribut Datentyp Paare von DataClass Schemalementen defi niert Seide M DataClass Attributes d C Name x Name bezeichne die Menge der Attribut Datentyp Paare von d und ihren Vorg ngern in der Vererbungshierarchie Die Menge aller Attributes Mengen sei mit M DataClass Attributes PeZeichnet 7 10 Die Menge der Elemente in Attributes d ergibt sich aus den Attributen der Datenklasse d selber sowie von allen ihren Vorg ngern in der Vererbungshierarchie Um diese geerbten Attribute ein sammeln zu k nnen wird in 7 11 eine Abbildung definiert die Schachtelungen von DataClass Instanzen aufl st Die Abbildung ist rekursiv ihre Terminierung ist durch die Wohlgeformtheitseigen schaft WF ZF1 siehe Seite 87 gegeben die Zyklen innerhalb von DataClass Schemaelementen unterbindet CalcAttributes M Data Attribute U M DataClass M DataClass Attributes CalcAttributes s s name s type name def CalcAttributes s type U CalcAttributes a a s attribute falls s M Data Attribute A s type M DataClass falls s MpataAttribute A S type Mpatactass falls s M DataClass 7 11 7 2 Transformationsalgorithmus 129 Mit Hilfe der Abbildung CalcAttributes kann in 7 12 die Aufl sung von Generalisierungsstruktu ren zwischen DataClass Schemaelementen beschrieben werden indem f r eine DataClass
483. nshierarchien fordert muss eine solche Halbordnung existieren Gibt es mehrere Composition Instanzen mit der Eigenschaft dass ihre aggregierte Klasse nicht Detailklasse einer weiteren Komposition ist so ist innerhalb dieser Teilmenge die Abarbeitungsrei henfolge beliebig In Abbildung 7 17 ist die Reihenfolge der Behandlung der Kompositionen 1 und 2 beliebig Ebenso ist die Reihenfolge beliebig wenn zwei Kompositionen nicht ber Faktklassen auch nicht mehrstufig verbunden sind So ist im Beispiel die Abarbeitung von Komposition 4 an beliebiger Stelle m glich 150 Kapitel 7 Logischer Entwurf Der Begriff der Halbordnung wird in 7 43 formal eingef hrt Sei M M Dann ist auf MComposition eine Halbordnung definiert Ve1 c2 MComposition 1 lt C2 feb co endB name c endA name 7 43 OC Detailklasse von c ist aggregierte Klasse von ca ord Mcomposition 1 Mcomposition ord bijektiv mit oo gt ord q lt ord c Unter Verwendung der bisherigen Hilfsfunktionen und der Halbordnung werden in 7 44 die Owner und in 7 45 die Fact Attributes Mengen berechnet Sei M M Sei lt c Cn gt eine Halbordnung auf Mcomposition Owner Mpimension gt Mowner Owner d def UpdateOwner cn UpdateOwner cn 1 7 44 UpdateOwner co UpdateOwner c1 CalcOwner d Sei M M Sei lt c Cn gt eine Halbordnung auf Mcomposition FactClassAttributes Mroctctass gt M Attribut
484. nsionaler Datenmodelle ist die Klassifikation von Daten in quanti fizierende und qualifizierende Daten Fakten sind dabei Datenobjekte die sowohl quantifzierende wie auch qualifizierende Eigenschaften besitzen Die quantifizierenden Eigenschaften beinhalten f r die Organisation relevante Daten die w hrend einer Datenanalyse weitergehend untersucht werden k nnen Qualifizierende Eigenschaften dienen der n heren Beschreibung der quantifizierenden Eigenschaften wodurch diese eine Bedeu tung erhalten Ein Fakt setzt sich aus einem oder mehreren Faktattributen synonym Kennzahlen oder Ma zahlen zusammen die zumeist numerisch sind und den quantifizierenden Aspekt bestimmen Den qualifizierenden Aspekt von Fakten beschreiben die Dimensionen Dimensionen beantworten typischerweise Fragen wie Wo Wann Warum ist der Fakt aufgetreten Im Beispiel ist die Verkaufszahl ein Fakt die konkrete Anzahl verkaufter Produkte ist eine Kennzahl und das Produkt Was wurde verkauft die Filiale Wo wurde es verkauft und der Tag Wann wurde es verkauft stellen Dimensionen dar Die Anzahl der Dimensionen eines Fakts wird als seine Dimensionalit t bezeichnet Die um ein Fakt angeordneten Dimensionen spannen einen multidimensionalen Datenraum auf der als Datenw rfel oder kurz W rfel bezeichnet wird Bis zu dreidimensionalen Dieses Beispiel ist in der Literatur mittlerweile zu einem Standardbeispiel geworden In Teil II dieser Arbeit fin
485. ob der Aspekt behandelt worden ist oder nicht sie spiegeln keine inhaltliche Wertung wider Die aufgestellten Prinzipien sind nicht nur auf die Daten sondern auch auf die Prozesssicht bezogen insbesondere werden auch EPKs Ereignisorientierte Prozessketten betrachtet 66 Kapitel 5 Entwurf von Informationssystemen Entwickler entstammen Dieses f hrt h ufig zu lokal guten Realisierungen jedoch sind die Imple mentierungen f r Dritte schwer nachvollziehbar und damit nicht sehr wartungsfreundlich Bei auf tretenden Performanzproblemen zieht dies hohe Kosten in Form aufw ndiger Optimierungsma nah men leistungsf higerer Hardware oder gar dem Re Design des Systems nach sich Dieser Abschnitt nennt einige Ans tze die einen pr emptiven Weg verfolgen indem von einem Schema einem zu erwartenden Zugriffsverhalten auf die DB und einigen Randbedingungen ausgehend Optimierungs m glichkeiten ermittelt werden Das System DBDSGN In FST88 werden die am IBM San Jose Research Laboratory entwickelten Konzepte der Imple mentierung von DBDSGN einem Werkzeug zum physischen Entwurf relationaler DBen vorgestellt Ausgehend von einem aus einer Menge von SQL Anweisungen und deren Ausf hrungsh ufigkeit bestehendem Workload f r System R schl gt DBDSGN physische Konfigurationen f r eine perfor mante Realisierung vor Jede Konfiguration besteht aus einer Menge von Indizes und einer Sortierrei henfolge f r jede Tabelle Arbeit von
486. oduktfamilie lt lt DimensionalClass gt gt Produktfamilie Bezeichnung Text lt lt RollUp gt gt Produktkategorie lt lt DimensionalClass gt gt Produktkategorie Bezeichnung Text E lt lt DimensionalClass gt gt Staat Bezeichnung Text lt lt RollUp gt gt Staat lt lt DimensionalClass gt gt Region Bezeichnung Text Typ der Region Bundesland Kanton a Ee lt lt RollUp gt gt Region lt lt DimensionalClass gt gt Stadt Bezeichnung Text PLZ PLZTyp lt lt RollUp gt gt Stadt lt lt Dimension gt gt Ort Verkauf 0 Bezeichnung Text lt lt NonCompleteRollUp gt gt lt lt RollUp gt gt Region lt lt DimensionalClass gt gt Verkaufsbezirk Bezeichnung Text Verkaufsbezirk lt lt DimensionalClass gt gt Ort des Verkaufs wird gef hrt KH ZN lt lt DimensionalClass gt gt Kaufhaus Flache FlachenTyp Gesamtfl che Fl chenTyp Gef hrter Artikel lt lt DataClass gt gt FilialTyp Filialleiter Text Filialart Text I lt lt DimensionalClass gt gt Quartal Bezeichnung QuartalsTyp lt lt Dimension gt gt Zeit Einkommen lt lt FactClass gt gt Einkommen Betrag W hrung lt lt Dimension gt gt Ort Einkommen lt lt DimensionalClass gt gt Strassenbereich Bezeichnung Text lt lt RollUp gt gt Stadt Einkommen lt l
487. oduktgruppe Produktfamilie RollUp Produktfamilie ALL_TYPES ALL_TYPES 5 Produktgruppe Produktfamilie ForeignID VC Produktfamilie ID COMPLETE Quartal Jahr RollUp Jahr ALL_TYPES ALL_TYPES 5 C Quartal Jahr ForeignID Jahr ID COMPLETE Region Staat RollUp Staat ALL_TYPES ALL_TYPES 5 Region Staat ForeignID Staat ID COMPLETE Stadt Region RollUp Region ALL_TYPES ALL_TYPES 5 C Stadt Region ForeignID Region ID COMPLETE Stadt Verkaufsbezirk RollUp Verkaufsbezirk ALL_TYPES ALL_TYPES 5 Stadt Verkaufsbezirk ForeignID Verkaufsbezirk ID NONCOMPLETE Strassenbereich Stadt RollUp Stadt ALL_TYPES ALL_TYPES 5 C Strassenbereich Stadt ForeignID Stadt ID COMPLETE Tag Monat RollUp Monat ALL_TYPES ALL_TYPES 5 Tag Monat ForeignID LC Monat ID COMPLETE C Tag Woche RollUp Woche ALL_TYPES ALL_TYPES 5 C Tag Woche ForeignID Woche ID COMPLETE Verkaufsbezirk Region RollUp Region ALL_TYPES ALL_TYPES 5 Verkaufsbezirk Region ForeignID Region ID COMPLETE Shared RollUp Woche Jahr SharedRollUp
488. oduktgruppe Bezeichnung Text lt lt RollUp gt gt Produktfamilie lt lt DimensionalClass gt gt Produktfamilie Bezeichnung Text lt lt RollUp gt gt Produktkategorie lt lt DimensionalClass gt gt Produktkategorie Bezeichnung Text Bezeichnung Text T lt lt DimensionalClass gt gt Kaufhaus lt lt DimensionalClass gt gt Filiale Fl che FlachenTyp Gesamtfl che FlachenTyp Bezeichnung Text Transformation MML nach OO Objektorientiertes Schema Hierarchieinformationen Cube Verkaufszahl Bezeichnung Jahr Typ Quartal Bezeichnung QuartalsTyp Woche Bezeichnung WochenTyp Staat Bezeichnung Text Monat Region Verkaufsbezirk Bezeichnung MonatsTyp Bezeichnung Text Typ der Region Bundesland Kanton Bezeichnung Text Tag Bezeichnung TagTyp Stadt Verkauf Betrag W hrung Artikel Bezeichnung Text Artikelcode ArtikelcodeTyp Produktgruppe Bezeichnung Text Produktfamilie Bezeichnung Text Produktkategorie Bezeichnung Text Bezeichnung Text PLZ PLZTyp Ort
489. oftware Engineering und insbesondere des DB Entwurfs die in Teil II der Arbeit eine Bedeutung haben werden Teil II Entwurfsmethodik f r Data Warehouses 71 berblick Nachdem in Teil I neben einer Motivation f r die Arbeit einige Grundbegriffe eingef hrt und der State of the Art skizziert wurde folgt in Teil II die Vorstellung der konzipierten Entwurfsmethodik Diese Einleitung gibt einen berblick ber die wesentlichen Entwurfsentscheidungen der Methodik und ihren generellen Ablauf Dabei wird jeweils auf die nachfolgenden Kapitel der Arbeit verwiesen in denen die einzelnen Phasen im Detail behandelt werden Entwurfskriterien Der Methodik liegt der aus dem Entwurf konventioneller Datenbanken bekannte Drei Ebenen Entwurf zugrunde siehe Abschnitt 5 1 Erg nzend sollen besondere Aspekte eines DWH ber ck sichtigt werden W hrend der konzeptionellen Modellierung soll das multidimensionale Datenmodell Anwen dung finden Die Transformation in ein logisches relationales Datenmodell erzeugt ein analyseorientiertes Schema Existierende DBMS oder OLAP Server erfordern h ufig eine bestimmte physische Speiche rungsform der Daten z B Sternschemata so dass eine entsprechende Umstrukturierung des Schemas m glich sein muss F r analyseorientierte Datenbanken sind physische Optimierungsma nahmen wie Materiali sierungen und Indexierungen von gro er Bedeutung so dass ein Framework zur integrierten Betrachtung dieser As
490. ogies MitADAPT einer Vielzahl speziell auf die Modellierung von Datenstrukturen f r analytische Anwendungen ausgerichteter Notationselemente ist die in Bul96 vorgeschlagene Notation ADAPT Application Design for Analytical Processing Technologies ausgestattet Ziel dieser Modellie rungstechnik ist die Darstellung multidimensionaler Datenstrukturen in Verbindung mit den darauf anwendbaren Berechnungsvorschriften die z B durch einen Datenbank Server bereitgestellt werden Neben Daten und Funktionen besitzt ADAPT einige Konstrukte f r die Verkn pfung mit Datenquellen und Front End Werkzeugen Auf diese Weise kann in einem Schema bereits festgelegt werden ob der Datenzugriff interaktiv oder beispielsweise mit einem Tabellenkalkulationsprogramm erfolgen soll Die Einbeziehung der Datenquellen soll eine Vorab Optimierung des Datenschemas erm glichen indem die Datengranularit t vorgegeben wird Ein spezieller SOL Drill Thru Operator zeigt dabei an dass feinere Daten nicht gespeichert werden sondern bei Bedarf aus der Quell datenbank abgefragt werden m ssen Beide Aspekte nehmen allerdings logische bzw physische Entwurfsentscheidungen vorweg Grundlegende Elemente der ADAPT Notation sind Variablen bzw W rfel Formeln und Dimen sionen siehe Abbildung 3 13 JT98 Abgesehen von dem zus tzlich eingef hrten Datenquellen Symbol mit dem sich die Herkunft der Daten beschreiben l sst entsprechen die drei Konstrukte den entsprechenden Begriffe
491. olumn CO77 Filialkategorie_FK NULL NULL FALSE FALSE TA05 FK04 3 10 QuadInt NULL NULL Column CO78 Filialoberkategorie_FK NULL NULL FALSE FALSE TA21 FK02 3 10 QuadInt NULL NULL Column ColumnConstraint CC01 Integrity rule for attribute Type Type IN Filiale Kaufhaus CO69 7 ColumnConstraint ColumnType CTO String ArtikelcodeTyp DOUBLE_BYTE NULL NULL FALSE 1 TRUE FALSE FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE NULL ColumnType CT02 String Aufz hlungstyp Region DOUBLE_BYTE NULL NULL FAL 1 SE TRUE FALSE FALSE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL Bundesland Kanton TRUE NULL ColumnType CT03 LonglInt FlachenTyp NULL NULL NULL FALSE TRUE FALSE 1 FALSE FALSE FALSE TRUE NULL NULL 0 NULL 10 NULL gt 0 TRUE NULL ColumnType CT04 Date JahrTyp NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE TIMEPRECISION_YEARS ColumnType CT05 Date MonatsTyp NULL NULL NULL FALSE TRUE FALSE FAL 1 SE FALSE FALSE NULL NULL NULL NULL NULL NULL NULL NULL TRUE TIMEPRECISION_MONTHS ColumnType CT06 String PLZTyp NULL NULL NULL FALSE TRUE FALSE FAL
492. omit auf der Ebene der St dte eine Zusammenf hrung mit der in Abschnitt A 1 4 beschriebenen Dimension m glich ist Weil die vergleichenden Analysen der Marketingsabteilung zwischen dem Einkommen der Personen und den abgesetzten Produkten aber auch auf feingranularerer Ebene als St dten notwendig sind sind die Strassenbereiche Ziel eines DimensionalMapping Konstrukts dessen Ausgangspunkt die Verkaufsorte sind lt lt DimensionalClass gt gt Quartal Bezeichnung QuartalsTyp ee es lt lt Dimension gt gt Zeit Einkommen lt lt FactClass gt gt Einkommen Betrag W hrung Em lt lt Dimension gt gt Ort Einkommen lt lt DimensionalClass gt gt lt lt DimensionalMapping gt gt i i D ICI i pping lt lt DimensionalClass gt gt Ort des Verkaufs Geographische Abbildung Strassenbereich Bezeichnung Text Bezeichnung Text L Le a le lt lt RollUp gt gt Stadt lt lt DimensionalClass gt gt Stadt Bezeichnung Text PLZ PLZTyp Eed Abbildung A 3 Ergebnis Konzeptionelle Modellierung Subschema Einkommenszahlen mit Hierar chien und DimensionalMapping A 2 REMUS Schema 297 A 2 REMUS Schema Dieser Abschnitt gibt in Tabellenform eine Auflistung aller w hrend der Transformation des Schemas aus dem letzten Abschnitt nach dem in Abschnitt 7 2 beschriebenen Transformationsalgorithmus an fallenden REMUS Objekte Die Objekte und Attribute sind alphabetisch sortiert die Metadaten
493. on 0 generalization parent 1 1 child Association Composition GeneralizableElement el Multiplicity SE Multiplicity isAbstract Boolean NN Multiplicity endAName Nam endBName Ge 0 attribute 0 1 DataElement Abbildung 6 8 MML Allgemeine Verbindungen Die ClassConnection Metaklasse legt fest welche Beziehungstypen zwischen ClassElement Instanzen erlaubt sind Als Basismetaklasse f r die Association und die Composition Metaklasse bietet sie zudem eine einheitliche Schnittstelle f r den Zugriff auf vorhandene Beziehungen dieser Art einer ClassElement Instanz Auch wird hierdurch die Erg nzung der MML um neue Beziehungs typen bzgl der ClassElement Metaklasse erleichtert ClassElement hat keine Attribute und besitzt die beiden Referenzen endA und endB die auf die beiden in Beziehung stehenden ClassElement Schemaelemente verweisen Die Bedeutung der Enden wird durch die ClassConnection Metaklasse nicht festgelegt 82 Kapitel 6 Konzeptioneller Entwurf Die allgemeinste Art von Beziehung zwischen zwei ClassElement Instanzen wird durch die Association Metaklasse bereitgestellt Die Attribute der Association Metaklasse erlauben neben Rollenangabe der beteiligten Schemaelemente in dieser Beziehung auch die Speicherung von Multiplizit tsangaben Die Multiplizit ten dienen zur Einschr nkung der minimalen und maximalen Anzahl in Beziehung stehender O
494. on Intervallen dient der Darstellung von Aufz hlunstypen oder einge schr nkten Dom nen z B positive Integer searchable Searchable Zeigt an ob auf diesem Datentyp gesucht werden kann ist dies nicht der Fall dann ist der Wert NULL timePrecision TimePre cisionType Gibt den Granularit tsgrad eines Zeit Datentyps an Gilt nur f r Time und Un terklassen Tabelle 8 2 LCD of SQL Attribute der Metaklasse ColumnType Die abstrakte Klasse Attribute stammt aus der UML bzw aus dem OIM Teilmodell UML Extensions und repr sentiert elementare Attribute die einen Namen Attribut name und optional einen initialen 168 Kapitel 8 Relationaler Entwurf Standardwert Attribut initialValue besitzen Diese Metaklasse wird zur Metaklasse Column spe zialisiert jede Instanz von Column repr sentiert eine Spalte des relationalen Schemas d h alle ihre Werte m ssen vom gleichen Datentyp bzw der gleichen Dom ne sein der Wert einer Spalte ist die kleinste Dateneinheit die abgefragt bzw aktualisiert werden kann Das Attribut optional charakteri siert eine Spalte als nicht optional mittels valueExpression kann f r Spalten eine Berechnungsvor schrift angegeben werden Der Wert des Attributes identityIncrement gibt das Inkrement an um das eine Identit tsspalte bei Einf gen eines neuen Datensatzes erh ht wird Ist dieser Wert gr er als 0 dann wird diese Spalte als Identit tsspalte interpr
495. on Tumorfolge e 333 INHALTSVERZEICHNIS B 33 Dimension Typ des Falle 333 B 34 Dimension Validit t CC Co om n nen 334 B 35 Dimension Vergleichspopulation Ort 334 B 36 Dimension Vergleichspopulation Zeit e 334 B 37 Dimension Verstorben 335 B 38 Dimension Verwandtschaftsgrad 335 B 39 Dimension Zeit asia 2 2 0 000 ms een ea a ba ae 335 B 40 DimensionalMapping 336 Glossar 339 Literaturverzeichnis 351 Abbildungsverzeichnis 367 Tabellenverzeichnis 375 Abk rzungsverzeichnis 377 Index 379 Teil I Einleitung und Grundlagen Kapitel 1 Einleitung 1 1 Informationssysteme Ein Informationssystem IS ist ein rechnerbasiertes System zum Sammeln Manipulieren und Speichern von Daten das die Arbeit in einer Organisation unterst tzt Historisch standen zun chst datenverarbeitende Systeme auch als OLTP Systeme Online Transaction Processing bezeichnet im Mittelpunkt des Interesses die das operative Gesch ft h ufig wiederkehrender Aktionen erleich tern sollten z B Buchhaltungssysteme oder Platzreservierungssysteme bei Fluggesellschaften Die Verarbeitung von Daten findet bei solchen Systemen gr tenteils aufgrund von Benutzerinitiative statt indem gezielt Daten angefragt werden oder eine daten ndernde Transaktion durchgef hrt wird Manchmal geschieht die Nutzung auch automatisch indem zu bestimmten fest definierten Zeitpunkten sog Batch Aufgaben angesto en werden Waren datenverarbeitende
496. on gt gt Mehrling 3 Mehrling Bezeichnung Aufzahlungstyp Abbildung B 18 Konzeptionelle Modellierung Dimension Mehrling B 19 Dimension Ort Die Dimension Ort beschreibt die geographischen Verh ltnisse Die Ortsdimension wird von der Faktklasse Fall vierfach genutzt zur Bestimmung des Wohnortes des Geburtsortes und des Ortes des Aufwachsens Kleinste Einheit ist dabei ein Gebiet i d R Gemeinden es kann sich aber auch um Teilgemeinden etc handeln dies wird ber das Attribut Typ beschrieben Weiterhin wird ein Gebiet durch die Gemeindekennziffer und den Langtext bestimmt ist Darauf bauen hierarchisch Landkreise Regierungsbezirke und Bundesl nder auf wobei jede Ebene durch das hierarchische Kennziffernsystem und einen Bezeichner beschrieben wird Weiterhin besitzt die Hierarchieebene Lankreis ein Attribut Urbanisierungsgrad das einen der Werte St dtisch L ndlich und Gemischt annehmen kann lt lt DimensionalClass gt gt Bundesland Bundeslandkennziffer Text 2 stellig Bundeslandname Text T lt lt RollUp gt gt Bundesland l lt lt DimensionalClass gt gt Regierungsbezirk Regierungsbezirkkennziffer Text 3 stellig Regierungsbezirkname Text lt lt RollUp gt gt Regierungsbezirk lt lt DimensionalClass gt gt Landkreis Landkreiskennziffer Text 5 stellig Landkreisname Text Urbanisierungsgrad Ur
497. on und UML Partners UML Notation Guide Version 1 1 Object Management Group OMG Document ad 97 08 05 September 1997 Rational Software Corporation The Unified Modeling Language Version 1 3 Juni 1999 Rational Software Corporation UML Metamodel Abstract Syntax v1 3 R20 Januar 1999 Rautenstrauch Claus Modellierung und Implementierung von Data Warehouse Syste men In Scherrer W Herausgeber Vortragsband zur 10 Jahrestagung der Deut schen Oracle Anwender Konferenz 1997 DOAG97 Fellbach Deutschland Novem ber 1997 1997 Reingruber Michael und William W Gregory The Data Modeling Handbook A Best Practice Approach to Building Ouality Data Models John Wiley amp Sons Inc 1994 Rishe Naphtali Database Design The Semantic Modeling Approach Mc Graw Hill 1992 Rishe Naphtali A Methodology and Tool for Top Down Relational Database Design Data and Knowledge Engineering 10 1 259 291 1993 Roussopoulos Nick und Daniel Leifker Direct Spatial Search on Pictorial Databa ses Using Packed R Trees In Navathe Shamkant B Herausgeber Proceedings of the 1985 ACM SIGMOD International Conference on Management of Data Mai 1985 Austin Texas USA Seiten 17 31 ACM Press 1985 Ramsak Frank Volker Markl Robert Fenk Martin Zirkel Klaus Elhardt und Rudolf Bayer Integrating the UB Tree into a Database System Kernel In Abbadi Amr El Mi chael L Brodie Sharma Chakravarthy Umeshwar Dayal Nabil Kamel Gun
498. onalMapping die zwischen Klassen mit den Stereotypen DimensionalClass und FactClass bestehen k nnen Da es f r die drei RollUp und den DimensionalMapping Beziehungstypen wichtig ist in welcher Richtung die Kante zwischen zwei DimensionalClass Klassen verl uft wird f r die Darstellung der Beziehungen die Navigierbarkeitseigenschaft der UML Assoziation ausgenutzt MUML RollUp und mMUML NonCompleteRollUp Beziehungen sind somit gerichtete Beziehungen zwischen zwei DimensionalClass Klassen wobei die Beziehung nur in Richtung der als type betrachteten Klassen navigierbar ist Entsprechendes gilt f r die Dimension und Dimensio nalMapping Beziehungen Zur Unterscheidung gegen ber normalen Assoziationen werden die f nf Stereotypen Dimension RollUp NonCompleteRollUp SharedRollUp und DimensionalMapping verwendet Aufgrund der Wohlgeformtheitseigenschaften der MML vgl Abschnitt 6 1 8 ist Zyklenfreiheit der gerichteten RollUp NonCompleteRollUp und SharedRollUp Beziehungen zu gew hrleisten so dass kein unendlicher Verdichtungspfad entstehen kann Bei dimensionalen Eigenschaften wird f r die Benennung nicht das name Attribut der MMLEle ment Metaklasse verwendet sondern der Wert der propertyName Eigenschaft der PropertyConnec tion Metaklasse zugeordnet Die Bezeichnung muss daher innerhalb eines UML Schemas nicht mehr eindeutig sein um z B in verschiedenen Hierarchien gleichbezeichnete RollUps darstellen 6 2 UML Graphische Notation
499. onserhalt bezeichnet die fordert dass in der neuen Darstellungsform alle Informationen gespeichert werden k nnen die in der urspr nglichen Beschreibungsform m glich waren und Korrektheit in HS00 als Konsistenzerhaltung bezeichnet die besagt dass Einschr nkungen und Regeln der Ausgangsbe schreibung auch in der neuen Beschreibungsform respektiert werden Beim DB Entwurf hat sich dabei im Laufe der Jahre ein Drei Ebenen Entwurf etabliert der die drei Beschreibungsebenen konzeptionell logisch und physisch umfasst Begonnen wird der Drei Ebenen Entwurf mit dem konzeptionellen Entwurfsschritt in dem ein Schema aller bez des Projektziels be n tigten Informationen entworfen wird wobei m glichst vollst ndig von konkreten Software bzw DBMS Systemen und auch allen weiteren physischen Randbedingungen abstrahiert wird Anschlie Bend folgt der logische Entwurfsschritt der ein Schema der ben tigten Informationen unter Ver wendung eines konkreten Datenmodells z B relational oder objektorientiert gestaltet Es herrscht jedoch wie in der konzeptionellen Ebene gr tm gliche Unabh ngigkeit vom verwendeten DBMS oder anderen physischen Randbedingungen Schlie lich folgt der physische Entwurfsschritt in dem eine Beschreibung der Implementierung der Datenbank auf Sekund rspeicher erfolgt Diese Beschrei bung umfasst sowohl Speicherstrukturen als auch Zugriffsmethoden f r einen effizienten Zugriff auf die Datenbank Typische Beschreibun
500. optimierung beschrieben dessen Anwendung den letzten Schritt des Entwurfsprozesses bildet siehe Abbildung 10 1 Multidimensionale Modellierung 6 2 6 3 mUML Diagramm Abbildung auf die MML 6 1 Konzeptionell MML Schema Review 6 4 MML Schema qualitatsgesichert Transformation T 7 Logisch REMUS Schema Transformation in initiales Datenbankschema 8 DB Schema unabh ngig Systemabh ngige Verfeinerung 9 Physisch DB Schema systemabh ngig Physische Optimierung 10 DB Schema systemabh ngig optimiert Abbildung 10 1 Einordnung des Schrittes in den Entwurfsprozess Zun chst werden in Abschnitt 10 1 wesentliche Entwurfskriterien f r die physische Datenbankopti mierung genannt und ein berblick ber deren Ablauf gegeben In Abschnitt 10 2 wird ein Meta modell als formale Beschreibung der statischen Aspekte vorgeschlagen bevor in Abschnitt 10 3 das Optimierungsproblem formalisiert wird Darauf aufbauend wird mit einem Ausschnitt des Beispiels Handelswelt in Abschnitt 10 4 fortgesetzt wobei zun chst in 10 4 1 die Konfiguration vorgenom men wird und dann in 10 4 2 zur Verdeutlichung zwei Beispiele berechnet werden Abgeschlossen wird das Kapitel mit einer Zusammenfassung in Abschnitt 10 5 10 1 berblick und Ablauf In Abschnitt 4 5 wurde das Fazit gezogen dass eine Vielzahl von Arbeiten zu Optimierungsm glich keiten und verfahren existiert die meisten jedoch eine M glichkeit oder ein Verf
501. or Berechnungsvorschrift wie z B sum avg oder max mit der die betrachte ten Daten bei Durchf hrung einer Verdichtungs Operation zusammengefasst werden k nnen Verdichtungspfad Synonym f r Hierarchie Vererbung Beziehung zwischen Klassen durch die eine Klasse tUnterklasse die Merkmale ei ner tEinfachvererbung oder mehrerer Mehrfachvererbung anderer Klassen tOberklassen bernimmt Verteilte Datenbanken Datenbank deren Daten auf mindestens zwei Rechner verteilt sind diese sind durch ein Rechnernetz untereinander verbunden und auf jedem Rechner des Netzes stehen alle Daten zur Verf gung Verteiltes Datenbankmanagementsystem tDatenbankmanagementsystem das verteilte Daten banken verwalten kann Workload Menge von gewichteten Aufgaben die auf einer Datenbank ausgef hrt werden W rfel Kurzform f r Datenwiirfel Wiirfelzelle Kleinstes Element innerhalb eines tDatenw rfels kann durch Dimensionselemente der feinsten Granularit t adressiert werden Zelle Kurzform f r W rfelzelle 350 Glossar Zerlegung Aufteilung einer Menge in Teilmengen wobei drei Eigenschaften erf llt sein m ssen i Die leere Menge darf nicht Element der Zerlegung sein ii Die Vereinigung aller Zerlegungselemente muss wieder die Menge ergeben iii Zwei verschiedene Elemente aus der Zerlegung m ssen disjunkt sein Literaturverzeichnis AADT 96 ABHT 98 ACPT99 AFH 97 Alh98 ALW98 AM9
502. ord Linkage System e CARESS CARLOS Epidemiological and Statistical Data Exploration System Abbildung 12 1 zeigt das Zusammenspiel der Werkzeugkomponenten Jahresbericht Studien CARESS Registerstelle ee CARELIS CARTRUST Vertrauensstelle CARAMEL T Meldungen T Abbildung 12 1 CARTools Software im EKN W hrend die Werkzeuge CARAMEL und CARTRUST in der Vertrauensstelle eingesetzt werden um die dortigen Aufgaben zu unterst tzen bieten die Werkzeuge CARELIS und CARESS Software Unterst tzung f r die Registerstelle Die Komponente CARAMEL erm glicht die effiziente Anbindung heterogener EDV Melder an das EKN Die beiden Komponenten CARTRUST und CARELIS m ssen aufeinander abgestimmt sein 268 Kapitel 12 Evaluation da zwischen ihnen permanent Transfers von z B Meldungen Nachfragen oder Auskunfts und Wi derspruchangaben durchgef hrt werden Sie realisieren die durch das KRG geforderten datenschutz rechtlichen Aspekte wie z B Anonymisierung der Meldungen Kontrollnummerngenerierung sowie anonymisierten Meldungsabgleich mit Ergebnisaufbereitung CARESS bildet abschlie end das Aus wertungssystem des EKN mit dem die dauerhaft erfassten Meldungen epidemiologisch ausgewertet werden k nnen 12 2 Anwenden der Entwurfsmethodik In diesem Abschnitt wird der Ablauf der Evaluation im engeren Sinne beschrieben d h der in Teil II
503. oreign key of table Verkaufszahl from table Tag TA18 CO67 10 FR21 ForeignKey FK22 Foreign key of table Verkaufszahl from table Ort_des_Verkaufs 10 TA18 CO52 FR22 ForeignKey FK23 Foreign key of table Verkauftes_Produkt from table Artikel 10 TA19 C006 FR23 ForeignKey FK24 Foreign key of table Verkauftes_Produkt from table Ort_des_Verkaufs 10 TA19 CO53 FR24 ForeignKey FK25 Foreign key of table Verkauftes_Produkt from table Tag TA19 CO68 10 FR25 ForeignKey Fortsetzung auf der folgenden Seite A 3 LCD of SQL Schema 313 Fortsetzung von der letzten Seite FK26 Foreign key of table MTMOrt_des_VerkaufsArtikel from table Artikel 14 TA06 CO04 FR26 ForeignKey FK27 Foreign key of table MTMOrt_des_VerkaufsArtikel from table 14 Ort_des_Verkaufs TA06 CO50 FR26 ForeignKey ForeignKeyRole FRO1 Role of foreign key between tables Artikel and Produktgruppe 0 10 MATCHTYPE_FULL_MATCH FK01 RCO1 ForeignKeyRole FRO2 Role of foreign key between tables Filialkategorie and Filialoberkategorie 10 0 MATCHTYPE_FULL_MATCH FK02 RC02 ForeignKeyRole FRO3 Role of foreign key between tables Monat
504. orstellungswelt hat kann auch ein indivi duelles Exemplar einer solchen Beziehung als Entit t aufgefasst werden Entit tstyp Menge von tEntitiaten Entity Relationship Modell ERM Formale Sprache zur Beschreibung von statischen Struk turen der Anwendungswelt Es dient zumeist als Grundlage des Datenbankentwurfs von herk mmlichen Datenbanken Entwurfsdokument Resultat eines Entwurfsschrittes Entwurfsmethodik Strukturierter Ansatz der unter Verwendung bestimmter Vorgehensweisen Techniken Werkzeuge und Dokumentationen den tEntwurfsprozess einer DB unterst tzt Entwurfsprozess Abfolge von tEntwurfsdokumenten Jedes Entwurfsdokument wird mit den Mit teln eines tBeschreibungsformalismus verfasst und geh rt zu einer Beschreibungsebene Zwi schen zwei Beschreibungsebenen erfolgt ein Entwurfsschritt Entwurfsschritt Im Entwurfsprozess bergang zwischen zwei tBeschreibungsebenen ETL Prozess Prozess der die Datenverarbeitung von den tDatenquellen bis zum tData Warehouse beschreibt Mit Transformation ist dabei Datenintegration gemeint Glossar 343 Extension Konkrete Auspr gung einer Datenbank Extraktion Transformation Laden Prozess Langform f r FETL Prozess Fakt Objekt das tquantifzierende und tqualifizierende Eigenschaften besitzt Die quantifizierenden Eigenschaften beinhalten f r die Organisation relevante Daten die w hrend der Datenanalyse weitergehend untersucht werden k nnen Qualifizier
505. orzunehmen Ein im DWS gespeicherter Datensatz zu dem es eine nderung in einer Datenquelle gegeben hat darf daher nicht grunds tzlich mit den ge nderten Werten berschrieben werden Stattdessen ist der ge nderte Datensatz ggf mit einem Zeitstempel zu versehen und zus tz lich zu dem bereits veralteten Datensatz im DWS abzulegen In diesem Schritt wird ausschlie lich die Transformation von Daten behandelt nicht hingegen die Transformation von Datenstrukturen bzw Schemata Schemaintegration ist nat rlich eine entschei dende Voraussetzung f r die Datenintegration Zu diesem Thema sei auf die bereits umfassende Lite ratur z B Con97 verwiesen 2 2 4 Ladekomponente Die Ladekomponente ist f r die bertragung von konsolidierten Daten aus dem ODS in die ana lyseorientierten Strukturen des DWH zust ndig Zur technischen Durchf hrung dient dabei oft das Ladewerkzeug des jeweils zugrunde liegenden DBMS z B der Oracle SOL Loader DG98 Es kann zwischen Online und Offline Ladevorg ngen unterschieden werden AM97a Bei Online Ladevorg ngen steht das DWH auch w hrend des Ladens f r Anfragen zur Verf gung bei Offline Ladevorg ngen ist dies nicht der Fall blicherweise findet nur das initiale Laden offline statt In krementelle Updates sollten hingegen nur online durchgef hrt werden um den laufenden Betrieb des DWS nicht unterbrechen zu m ssen Das Zeitfenster f r den Ladevorgang sollte allerdings so gew hlt werden d
506. owedOperators OperatorSet maximumScale Integer computation String minimumScale Integer typesSource StringSet name String typesDestination StringSet numericPrecision Integer numericPrecisionBinary Integer range RangeType searchable Searchable Meta Data Relational Basics timePrecision TimePrecisionType Data Types CharacterType Expression MappingType MatchType MultiplicityRange OperatorSet SS Eh EG BSS ESS RangeType RefConsType ReferentialRule Searchable StringSet TimePeriod TimePrecisionType Abbildung 8 2 LCD of SQL Metamodell 166 Kapitel 8 Relationaler Entwurf 8 2 2 Relational Basics Der in Abbildung 8 3 dargestellte Bereich Relational Basics stellt mit Tabellen Attributen und Datentypen die fundamentalen Elemente des relationalen Modells zur Verf gung Schema name String schema tables 0 Table ColumnType tableTypeMETA String characterType CharacterType columnSize Long createParams String NZ domainName String ColumnSet isAutoUniqueValue Boolean isCaseSensitive Boolean estimatedRows Double isFixedLength Boolean estimatedSize Double isFixedPrecisionScale Boolean name String isLong Boolean projectGrowthPeriod TimePeriod isNullable Boolean projectGrowthRate Double isUnsignedAttribute
507. ozess des physischen Datenbank Entwurfs e 238 372 Abbildungsverzeichnis 10 14Aufgaben und Workload e 11 1 Konzeption des Werkzeugs ODAWA 1 2 ee 11 2 Resultat der Methode projectProcess der Klasse Process 2 2 2 2 2 11 3 Architektur bersicht Co Co Con nn 11 4 Abh ngigkeiten einzelner Bibliotheken 11 5 Graphische konzeptionelle Modellierung mit erweitertem Rational Rose 11 6 Um UML Unterst tzung erg nztes Rational Rose Menti 11 7 Projekt Startseite 11 8 Masken der Applikation 2 2 0 0 0000 0 en 11 9 Beispieldialog f r Interaktion 2 222 2 oo on a 12 1 CARTools Software im EKN 2 2 2 00002 ee 12 2 Beispiel f r die Ermittlung von Aussagen e 12 3 Alternative Darstellungsm glichkeiten der Faktklasse Fall 22 22 20 12 4 Darstell ngsebene 24 2 a aie el aa E 12 5 Review des konzeptionellen Schemas e 12 6 Resultat des physischen Entwurfs Schneeflockenschema f r Fall 12 7 Resultat der Schemaverfeinerung Sternschema f r ball 12 8 Bericht ra u era Dre Ra 12 9 OLAP mit dem Microsoft Cube Browser 13 1 Ablauf des Entwurfsprozesses e A 1 Ergebnis Konzeptionelle Modellierung Subschema Fakten Verkauf Verkauftes Pro dukt und Verkaufszahl 2 2 2 Comm A 2 Ergebnis Konzeptionelle Modellierung Subschema Dimension Zeit A 3 mUML Beispiel Ergebnis Konzeptionelle Modellierung Subschema Dimens
508. paate r lt 56 58Mio reR hinzu Unter Verwendung des Greedy Algorithmus erh lt man das in Tabelle 10 2 wiedergegebene Resultat Materialisierung 1 Durchlauf 2 Durchlauf 3 Durchlauf Tag Filiale Produktgruppe 1561032 Tag Stadt Produktgruppe 983064 7419 5940 Monat Stadt Produkt 847161 66645 Monat Filiale Produkt 826020 63540 0 Tag Stadt Produkt 791436 49464 0 Monat Stadt Produktbereich 788393 7877 6398 Monat Filiale Produktbereich 788374 7858 6379 Monat Stadt Produktgruppe 788335 7819 6341 Tag Stadt Produktbereich 788205 7689 6210 Monat Filiale Produktgruppe 788140 7624 6145 Kosten Nebenbedingung Speicherplatz in MByte 657 1190 1191 Kosten Nebenbedingung Updatekosten in Mio Schreibzugrif 45 45 56 57 56 581 fen Kosten Workload in Tupeln 81468 14823 8424 Tabelle 10 2 Ablauf Beispiel 2 Man sieht dass schon im dritten Durchlauf keine zu materialisierende Sicht mehr ausgew hlt wird weil die neue Nebenbedingung verletzt ist Auf analoge Weise l sst sich das Framework um Archivie rungsaufgaben erweitern denn auch in diesem Falle m ssen die materialisierten Sichten aktualisiert werden Ebenso ist es m glich neben der Materialisierung auch Indexierungen oder Partitionierungen als Optimierungsma nahmen zu ber cksichtigen 10 5 Zusammenfassung Dieses Kapitel hat den abschlie enden Schritt der physischen Datenbankoptimierung behandelt
509. pekte entworfen werden soll Neben diesen DWH spezifischen Gesichtspunkten liegen der Entwurfsmethodik einige allgemeine Aspekte zugrunde W hrend der konzeptionellen Modellierung soll das objektorientierte Datenmodell Ber cksich tigung finden weil es aufgrund seiner Ausdrucksst rke eine nat rliche Darstellung der Diskurs welt erm glicht und auch gute Basis f r eine implementationsunabh ngige Modellierung ist Nach Beendigung der konzeptionellen Modellierung soll der Entwurf teilautomatisiert fortge f hrt werden Dieses Vorgehen kombiniert die Vorteile des automatischen Entwurfs f r wie derkehrende Vorg nge mit der Ber cksichtigung von Benutzerinteraktionen an ausgew hlten Stellen an denen Kontextwissen des Designers nutzbringend eingebracht werden kann Dieses Wissen kann sich auf das verwendete System beziehen und somit technischer Natur sein oder Dom nenwissen betreffen Weil aufgrund dieser Vorgehensweise die Phase der konzeptionellen Modellierung zentrale Be deutung hat wird sie um eine explizite Qualit tssicherung des erstellten Schemas sowie einen Leitfaden zur Gewinnung konzeptioneller Schemata erg nzt Der Entwurfsprozess soll gut nachvollziehbar sein indem alle Transformationsschritte und durch Benutzerinteraktion getroffene Entscheidungen dokumentiert werden 72 Teil II berblick e Endprodukt des Entwurfsprozesses soll die Spezifikation der Implementierung sein aus der ein automatisch ausf
510. perator Aggregierbarkeit Synonym f r tAdditivitat Aggregierte Daten Mittels Aggregation ermittelte Daten Alternativer Verdichtungspfad Multiple Hierarchie die wieder zusammengef hrt wird 340 Glossar Analyse Untersuchung und Pr sentation von Daten mit Hilfe unterschiedlicher z B statistischer Methoden Analysebereich Synonym f r Front End Bereich Analysewerkzeug Softwaresystem das die Analyse unterst tzt Annotation Synonym f r tNotiz Annotiertes Schema Um statistische Informationen ber die Extension wie Volumen und Zu oder Abhnahmeraten angereichertes Schema Anteilige Verrechnung Bei einer Verdichtung kann ein Element einer tHierarchieebene zu mehre ren Elementen der n chst h heren Ebene mittels einer Berechnungsvorschrift zugeordnet wer den Archiv Datenbank Datenbank in einem tData Warehouse System in der f r die aktuelle Daten analyse nicht mehr relevante Daten abgelegt werden Assoziation Semantische Beziehung zwischen zwei oder mehreren tKlassen Objekten Typen oder anderen Elementen eines Schemas Assoziationsrolle Rolle die ein Typ oder eine tKlasse in einer tAssoziation spielt d h eine Rolle repr sentiert eine Klasse in einer Assoziation Gew hnlich befinden sich Assoziationen zwi schen zwei Klassen Eine Klasse kann aber auch eine Assoziation zu sich selbst haben in diesem Fall sind die beiden Enden der Assoziation nur durch die Rollenangabe zu unterschei den Attribut
511. pression o parameter D computation result parameter NonDimensionalProperty isOptional Boolean Abbildung 6 9 MML Computation 6 1 MML Multidimensional Modeling Language 83 Ein Computation Schemaelement beinhaltet ber die beiden Referenzen zur NonDimensionalPro perty Informationen ber die ben tigten Parameter und das resultierende Attribut Das Attribut for mula spezifiziert die zu nutzende Berechnungsvorschrift Das genaue Format der Formel ist nicht fest gelegt im Sinne einer v llig systemunabh ngigen konzeptionellen Modellierung kann dies auch eine kurze verbale Beschreibung sein Um eine Computation Instanz f r die Berechnung eines SharedRol Up oder eines DimensionalMapping zu verwenden dienen die Referenzen auf die entsprechenden Metaklassen An die Verwendung der Referenzen sind folgende Nebenbedingungen gekn pft e Sofern es sich um ein berechnetes Attribut handelt d h das Computation Objekt wird von keinem SharedRollUp und keinem DimensionalMapping Schemaelement refrenziert m ssen die owner Beziehungen der als Parameter und Ergebnis beteiligten NonDimensionalProperty Instanz auf dasselbe Schemaelement verweisen d h sie m ssen Attribute der gleichen Klasse sein e Im Falle der Verwendung f r eine SharedRollUp Instanz m ssen die Parameter mit ihrer ow ner Referenz auf den Owner des SharedRollUp und das Resultat muss auf das gleiche Element wie d
512. ptimierung beteiligter Objekte der Rahmen ge schaffen worden ist wird in diesem Abschnitt der eigentliche Prozess detailliert dargestellt Dabei werden zun chst die im vorigen Abschnitt genannten Begriffe formaler eingef hrt und das Optimie rungsproblem spezifiziert 10 3 1 Eingabe In diesem Abschnitt werden zun chst die Begriffe annotiertes Schema 10 1 Workload 10 2 Re gelmengen 10 3 Umgebung 10 4 und Kostenarten 10 5 sowie Optimierungsma nahmen 10 6 formal definiert Ein Tripel S A D Type hei t annotiertes Schema Dabei ist A die Menge der Faktattribute und D die Menge der Dimensionen 10 1 Type gibt den Schematy an S ist die Menge aller annotierten Schemata Ein endliche Menge von Paaren W t i i 1 m hei t Workload wobei jedes t eine Aufgabe und jedes die Gewichtung der i ten Aufgabe im Workload ist W ist die Menge aller Workloads 10 2 Rist eine Regelmenge RuleSet wobei jedesr R durch seinen Namen einen Wenn Teil und einen Dann Teil beschrieben wird 10 3 R ist die Menge aller Regelmengen Fist eine Umgebung Environment wobei jedese E ein DBMS und eine Menge GC globaler Nebenbedingungen umfasst 104 Dabei gelte Vgc GC ge Expression mitO gt lt gt gt E ist die Menge aller Umgebungen T ist eine endliche Menge von Kostenarten 10 5 T ist die Menge aller Mengen von Kostenarten Aist eine Menge von Optimierungsma
513. r Datengrundlage f r epidemiologische Studien 12 1 2 Struktur und Meldewege Das EKN gliedert sich entsprechend dem 1994 im Gesetz ber Krebsregister Krebsregistergesetz KRG festgeschriebenen Konzept in zwei r umlich und organisatorisch voneinander getrennte Stel len Eine Vertrauensstelle bei der die Krebsmeldungen des Landes eingehen und f r die Bearbeitung nur tempor r gespeichert werden sowie eine Registerstelle die von der Vertrauensstelle verschl ssel te Krebsmeldungen erh lt und zu einem bev lkerungsbezogenen epidemiologischen Krebsregister unter Einbeziehung weiterer Datens tze aus Totenscheinen Pathologenmeldungen u a verdichtet und auswertet 266 Kapitel 12 Evaluation Im EKN wird im Regelfall nach der Einwilligungsl sung erfasst d h der Melder holt von seinem Patienten dessen Einwilligung ein und meldet anschlie end den Krebsfall an die Vertrauensstelle des EKN Diese erfasst und codiert die eingehende Meldung pr ft diese auf Vollst ndigkeit und f hrt weitere qualit tssichernde Ma nahmen durch Bei Unklarheiten kann sich die Vertrauensstelle direkt an den Melder wenden Anschlie end werden die Meldungen anonymisiert Dazu werden die perso nenidentifizierenden Angaben verschl sselt und sog Kontrollnummern gebildet die eine eindeutige Zuordnung der Meldung zu eventuell bereits vorhandenen Meldungen im Krebsregister erm glichen jedoch keine Zuordnung zum Patienten gestatten Anhand diese
514. r Kontrollnummern wird in der Regi sterstelle die Meldung mit dem bereits vorhandenen Datenbestand abgeglichen Handelt es sich um eine Neumeldung so wird sie in den Datenbestand eingetragen Gibt es bereits Meldungen zu dem Patienten so findet eine Aktualisierung der bereits vorhandenen Meldungen statt Die Meldungen werden nach Abschluss der Bearbeitung in der Registerstelle jedoch sp testens drei Monate nach Eingang in der Vertrauensstelle gel scht Anhand der verschl sselten personenidentifizierenden An gaben kann in speziell genehmigten F llen z B f r Forschungsvorhaben unter Verwendung des bei einer dritten Stelle aufbewahrten geheimen Schl ssels eine Entschl sselung von Meldungen in der Vertrauensstelle vorgenommen werden Neben dem Meldeweg mit Einwilligung besteht im EKN weiterhin die M glichkeit ausschlie lich diagnostizierende oder begutachtende rzte ohne direkten Patientenkontakt z B Pathologen direkt in das EKN einzubeziehen Dazu wird die Krebsmeldung beim Melder in einen personenidentifizie renden und einen epidemiologischen Anteil zerlegt wobei beide Teile mit einer eindeutigen Kennung versehen werden Der personenidentifizierende Teil wird an die Vertrauensstelle gesendet die dar aus die Kontrollnummern generiert und diese an die Registerstelle weiterleitet Diese bekommt vom Melder direkt die epidemiologischen Angaben kann die Kontrollnummern anhand der eindeutigen Kennung hinzuf gen und somit die Meldung in d
515. r beiden Ma nahmen entscheidet 10 2 7 Prozess Abbildung 10 13 zeigt die Bestandteile des in Abbildung 10 2 dargestellten Optimierungsablaufs Ein Optimierungsprozess Klasse DesignProcess bekommt eine Eingabe Klasse ProcessInput die sich aus einem annotierten Schema einem Workload einer Menge von Regeln und einer Umgebung zusammensetzt Weiterhin werden als Eingabe des Prozesses diejenigen Kostenarten genannt nach denen optimiert werden soll und diejenigen die als Constraint in die Optimierung einflie en sollen Die Ergebnisse der einzelnen Phasen werden durch die Attribute result lt X gt der Klasse DesignProcess repr sentiert die Beziehung zur Klasse OptimizationAlgorithm dokumentiert den in Phase III verwendeten Optimierungsalgorithmus ProcessInput schema AnnotatedSchema workload Workload ruleSet RuleSet environment Environment typeOfCostOptimization SET OF TypeOfCostType typeOfCostConstraint SET OF TypeOfCostType DesignProcess isUsed 5 resultPhasel TuningActionSet resultPhasell TuningActionSet resultPhaselll TuningActionSet 0 isUsed uses 1 uses OptimizationAlgorithm name String description String Eaa Abbildung 10 13 Prozess des physischen Datenbank Entwurfs 10 3 Formalisierung des Entwurfsprozesses 239 10 3 Formalisierung des Entwurfsprozesses Nachdem durch Beschreibung an der physischen O
516. r dimensionalen Klassen den Datentyp F r jedes Attribut jeder DimensionalClass ist der Datentyp zu bestimmen wobei ana log zu den Faktattributen in Schritt 3 ein sprechender Bezeichner gew hlt werden sollte F r jede DimensionalClass sind die charakterisierenden Attribute mit der Schl sseleigen schaft zu markieren Ebenso kann in diesem Schritt vor allem f r nicht an der Hierarchie bildung beteiligte Attribute ein Standardwert festgelegt werden Phase IV Dimensionale Beziehungen darstellen Schritt 14 Finde Assoziationen zwischen dimensionalen Klassen Zwischen dimensionalen Klassen vorwiegend der niedrigsten Hierarchieebene die in unterschiedlichen Dimensionen sind kann es Beziehungen geben die durch eine Asso ziation zu modellieren sind Dies entspricht der Festlegung von Definitionsl cken im mul tidimensionalen Raum Schritt 15 Finde gleiche und hnliche Dimensionen Durch paarweises Vergleichen von Dimensionen die zu unterschiedlichen Fakten geh ren k nnen gleiche und hnliche identifiziert werden die Verbindungen zu unterschied lichen Faktklassen besitzen Gleich bedeutet in diesem Falle dass semantisch gleiche Di mensionen beschrieben werden und auch exakt die gleichen Hierarchiepfade vorliegen Als hnlich gelten Dimensionen die zwar das gleiche beschreiben aber verschiedene Hierarchiepfade besitzen oder unterschiedliche Ebenen der feinsten Granularit t aufwei sen In diesem Fall kann durch Modellierung eine
517. r gut optimierten Schemata weil der Hersteller eine gr tm gliche Ausnutzung der physischen Optimierungsm glichkeiten vornehmen kann Auf der anderen Seite ist man nat rlich nicht nur wie bei den beiden erstgenannten Werkzeugklassen vom logischen Modell abh ngig sondern auch vom konkreten physischen des Herstellers Als Fazit kann ber existierende Werkzeuge festgehalten werden dass diese i Allg eine E R basierte Notation verwenden und somit keine unabh ngige konzeptionelle Modellierung unterst tzen Bei Werkzeugen von DWH Anbietern wie z B Oracle fehlt au erdem die Unabh ngigkeit vom Zielsy stem Andererseits besitzen die Werkzeuge St rken in der Generierung optimierter Schemata 5 3 Weitere Aspekte des Software und Database Engineering Dieser Abschnitt f hrt aus dem Bereich Software Engineering speziell der Entwicklung von Daten banken einige Begriffe ein auf die in Teil II zur ckgegriffen wird 5 3 1 Qualit tssicherung Bei der Entwicklung von Softwaresystemen und Datenbanken spielt die Qualit tssicherung QS eine wichtige Rolle Dabei wird nach der Norm IEEE 729 unter Qualit tssicherung die Gesamtheit aller planbaren Ma nahmen und Hilfsmittel verstanden die bewusst dazu eingesetzt werden um die An forderungen an den Entwicklungs und Wartungsprozess und damit an das Softwareprodukt selbst zu erf llen Es werden dabei folgende Teilaspekte unterschieden e Konstruktive QS fasst alle technischen organisatorischen
518. rad Metrik Quote fehlender Anforderungen bez der Anforderungsdefinition oder dem Dom nenwissen eines Fachvertreters Automatisierbarkeit Nein Objektivit t Objektiv Kriterium Minimalit t Beschreibung Ist das Schema kompakt genug beschrieben Relevanz Kriterium kann wichtig sein denn Ziel der konzeptionellen Modellie rung ist ein m glichst genaues Schema Messung Durch Review eines Fachvertreters Feststellen ob gewisse Sachverhal te nicht kompakter modelliert werden k nnen z B verwandte Fakten Metrik Quote nicht redundanter Strukturen Automatisierbarkeit Nein Objektivit t Objektiv Kriterium Integrationsf higkeit Beschreibung Ist das Schema f r organisations bergreifende Standardisierun gen Modellierungen geeignet Relevanz Abh ngig vom Kontext der Organisation f r die das Schema entsteht Je st rker die Einbindung in einen wirtschaftlichen Verbund desto re levanter wird dieses Kriterium ebenso je st rker die internationale Ori entierung Messung Durch Review eines Fachvertreters Feststellen ob jeder f r ein Attribut oder Klassennamen gew hlte Begriff branchen blich oder in ternational anerkannt ist Metrik Quote des Nicht Vorhandenseins solcher Begriffe Automatisierbarkeit Bedingt z B durch Einsatz eines Thesaurus Objektivit t Objektiv Kriterium Dokumentation Beschreibung Sind alle im Schema benutzten Begriffe bzw Fachworte dokumentiert Relevanz Dokumentation ist sehr wi
519. ragen die Knoten eines solchen Gitters und die ndchst niedrigere materialisierte Sicht ist dasjenige Element der Menge ancestor das die geringsten Kosten hat Der Begriff der Kosten wird mit Hilfe einer Knotenmarkierung erreicht im Falle der Dimensionen sind das fiir jede Hier archieebene die Anzahl der Instanzen Attribut estimatedSize in der Klasse AnnotatedFactAttribute bei der Bildung des direkten Produkts werden die Gewichte der beteiligten Knoten multipliziert 244 Kapitel 10 Physische Datenbankoptimierung 10 4 2 Beispielrechnungen F r die Beispielrechnungen soll der in Abbildung 10 14 dargestellte Schemaausschnitt betrachtet werden Ort des_Verkaufs Filialkategorie Text Filialoberkategorie Text Filialart Text Filialleiter Text Flaeche FlaechenTyp Gesamtflaeche FlaechenTyp Type Text PLZ PLZTyp Stadt Text Verkaufsbezirk Text Region Text Typ_der_Region Aufz hlungstyp Region Staat Text Bezeichnung Text Artikel Verkaufszahl Tag Artikelcode ArtikelcodeTyp Anzahl St ckzahlTyp Jahr JahrTyp Bezeichnung Text Ort_des_Verkaufs_FK Text Quartal QuartalsTyp Produktgruppe Text Artikel_FK ArtikelcodeTyp N 1 Monat MonatsTyp Produktfamilie Text Tag_FK TagTyp Woche WochenTyp Produktkategorie Text Tag TagTyp Z Abbildung 10 14 Aufgaben und Workload Schema Workload Regeln und Kosten Als Regel f r das F
520. ramework soll die relativ unspezifische Aussage gelten dass alle Kombinatio nen von Hierarchieebenen in einem W rfel materialisiert werden sollen Resultat der Auswahlphase mit dieser Regel ist immer eine Menge von Optimierungsma nahmen die die Materialisierung aller Kombinationen von Hierarchieebenen d h aller Knoten des Gitters vorschl gt Die Hierarchien des Schemas aus Abbildung 10 14 in Gitternotation sind in 10 17 dargestellt Jahr lt Quartal lt Monat lt Tag und Gebiet lt Staat lt Region lt Stadt lt Filiale sowie 10 17 Produktbereich lt Produktgruppe lt Produkt Eine Funktion card die jeder Hierarchieebene ihre Kardinalit t zuordnet wird in 10 18 f r Bei spielwerte definiert card Hierarchieebenen Integer Tag gt 1460 Monat gt 48 Quartal 4 16 Jahr 4 Filiale 4500 Stadt gt 1112 Region gt 116 Staat gt 9 Gebiet gt 2 Produkt 10000 Produktgruppe 100 und Produktbereich 10 10 18 10 4 Beispiel 245 Als globale Randbedingung soll Festplattenplatz im Umfang von 1 2 GByte f r die zu materiali sierenden Sichten zur Verf gung stehen Damit k nnen die Formeln aus Abschnitt 10 3 in 10 19 initialisiert werden TOCopt An fragezeit TOCcons Speicherplatz GC Speicherplatz lt 1 2 GByte A z 0 p z Tag Monat Quartal Jahr Ao Filiale Stadt Region Staat Gebiet A p E Produkt Produktgruppe Produktbere
521. rank Maurer Herausgeber 711 Workshop Grundlagen von Datenbanken Arbeitskreis Grundlagen von Informationssystemen im GI Fachausschu 2 5 Luisenthal Deutsch land Mai 1999 Jeaner Schriften zur Mathematik und Informatik Math Inf 99 16 Sei ten 12 16 Friedrich Schiller Universit t Jena 1999 Do Hong Hai und Erhard Rahm On Metadata Interoperability in Data Warehouses Technischer Bericht Institut f r Informatik Universit t Leipzig Leipzig Deutschland Juni 2000 EKN Epidemiologisches Krebsregister Niedersachsen Krebs in Niedersachsen Jah resbericht mit den Daten von 1996 Nieders chsiches Ministerium f r Frauen Arbeit und Soziales Hannover OFFIS Oldenburg 1996 EKN Epidemiologisches Krebsregister Niedersachsen Homepage Krebsregister Nie dersachsen http www krebsregister niedersachsen de 2001 Formica Anna Hans Dietmar Gr ger und Michele Missikoff Object Oriented Data base Schema Analysis and Inheritance Processing A Graph Theoretic Approach Data amp Knowledge Engineering Journal DKE 24 2 157 181 1997 Formica Anna Hans Dietmar Gr ger und Michele Missikoff An Efficient Method for Checking Object Oriented Database Schema Correctness TODS 23 3 334 369 1998 Finkelstein Sheldon J Mario Schkolnick und Paolo Tiberio Physical Database Design for Relational Databases TODS 13 1 91 128 1988 Gardner Stephen R Building the Data Warehouse CACM 41 9 52 60 1998 Literaturverz
522. re Hintergrundinformationen liefern Heutige Front End Komponenten in einem DWS sind gr tenteils als Desktop Applikationen realisiert Hier ist zuk nftig in der Praxis eine st rkere Browser Orientierung zu erwarten Weil die Front End Komponenten umfangreiche Funktionalit t bieten z B die in Abschnitt 3 1 2 beschriebenen multidimensionalen Operationen stellt diese Migration eine besondere Heraus forderung dar Ebenso ist die Handhabung sehr gro er Datenmengen in heutigen OLAP Front End Komponenten nur unzureichend gel st Durch das Entstehen einzelner Data Marts innerhalb einer Organisation oder das Fusionieren zweier Organisationen wird h ufiger die Aufgabe zu l sen sein mehrere DWHs und somit mehrere multidimensionale Schemata zu integrieren Dies bedeutet bestehende Konzepte und Verfahren der Schemaintegration auf multidimensionale Datenmodelle zu bertragen Um die gesamten Informationsbed rfnisse einer Organisation zu befriedigen wird die Be schr nkung auf ein innerhalb der Organisation angesiedeltes DWH in Zukunft nicht mehr aus reichend sein Aus diesem Grunde werden einerseits innerhalb des Semantic Web Wor01 DWHs als Informationsquelle dienen andererseits k nnen aber auch Webdaten als DWH an geboten werden Hierbei ist die Darstellung multidimensionaler Sachverhalte mit den Aus drucksmitteln des Semantic Web zu erforschen Aber auch die Integration von Webdaten mit denen aus herk mmlichen Datenbanken stellt eine ne
523. re auch der Datenbankentwurf zu z hlen ist in Deutschland verschiedene Defizite fest Bun01 u a e Nur die H lfte aller Unternehmen die in Deutschland Software entwickeln setzen ein Vorge hensmodell ein e Durch fehlende systematische Wege zur Problemfindung k nnen Entwicklungsentscheidungen h ufig nicht nachvollzogen werden womit eine langfristige Pflege der Anwendungen nur mit gro em Aufwand m glich ist e Qualit tssicherung findet in der Regel erst in den sp ten Phasen der Softwareentwicklung statt Mit DHP 99 stellt eine weitere empirische Studie Defizite bez des Softwareentwicklungsprozesses fest In Prozessdefinitionen beschriebene Vorgehensmodelle sind h ufig zu allgemein und nicht ad quat f r die angegebene Aufgabenstellung In einem Viertel der untersuchten F lle wurde sowohl auf eine formale wie semi formale Be schreibungstechnik verzichtet es werden lediglich textuelle Beschreibungen erstellt und direkt daraus der Quellcode abgeleitet Nur in knapp der H lfte der F lle kamen CASE Werkzeuge zum Einsatz In sehr vielen Projekten wurde nur unzureichend oder gar nicht dokumentiert Eine auf den DWH Kontext fokussierende Untersuchung ist Gar98 in der als Gr nde f r das Schei tern von DWH Projekten u a mangelnde Kommunikation mit den potenziellen Benutzern und das Nichtanwenden einer bew hrten Methodik genannt werden In Kim96 werden E R basierte Daten modelle aufgrund ihrer schlechten Kommuni
524. reenwich England Proceedings Springer LNCS 2000 Sapia Carsten Markus Blaschka und Gabriele H fling GraMMi The Design and Im plementation of a Generic Metadata driven Graphical Modeling Tool In Proceedings of the of 33rd Hawaii International Conference On System Sciences HICSS 33 Janu ar 2000 Maui Hawai USA Seiten 81 88 2000 Literaturverzeichnis 363 SBHD98a Sapia Carsten Markus Blaschka Gabriele H fling und Barbara Dinter An Overview of Multidimensional Data Models for OLAP Technischer BerichtFORWISS Technical Report FR 1998 001 FORWISS M nchen Deutschland Januar 1998 SBHD98b Sapia Carsten Markus Blaschka Gabriele H fling und Barbara Dinter Extending the E R Model for the Multidimensional Paradigm In Proceedings of the International Workshop on Data Warehouse and Data Mining November 1998 Singapur 1998 SBM99 Stonebraker Michael Paul Brown und Dorothy Moore Object relational DBMSs Tracking the Next Great Wave Morgan Kaufmann 2 Auflage Oktober 1999 Sch99 Schiitte Reinhard Vergleich alternativer Ansdtze zur Bewertung der Informationsmo dellqualit t IS Architekturen 5 39 48 Oktober 1999 Sin88 Sinz Elmar J Das Strukturierte Entity Relationship Model SER Modell Angewand te Informatik 30 5 191 202 1988 Sno95 Snodgrass Richard Herausgeber The TSOL2 Temporal Query Language Kluwer Academic Publishers Boston USA Dordrecht Niederlande London Gro
525. reignKeyRole name Role of unique key of table name Role of foreign key of table Ort des Verkaufs MTMOrt_des_VerkaufsArtikel from table Artikel multiplicity 1 multiplicity 0 matchType MATCHTYPE_FULL_MATCH role deleteRule REFERENTIALRULE_CASCADE initiallyDeferred TRUE isDeferable TRUE foreignKey updateRule REFERENTIALRULE_CASCADE x mam ForeignKey name Foreign key of table MTMOrt_des_VerkaufsArtikel from table Artikel uniqueKey foreignKey keys UniqueKey name Primary Key of table Ort_des_Verkaufs isPrimary TRUE table columns Table Column name MTMOrt_des_VerkaufsArtikel name Artikel_FK DBConstraint name Database constraint between table MTMOrt_des_VerkaufsArtikel and Ort_des_Verkaufs body MTMOrt_des_Verkaufs_FK IN SELECT ID FROM Ort_des_Verkaufs WHERE Type IN Kaufhaus Filiale Abbildung 8 24 Abbildung des REMUS Metadatums Association auf das LCD of SOL Schema 206 Kapitel 8 Relationaler Entwurf Die Abbildungsvorschriften zum Anlegen der neuen Schemaelemente sind in 8 86 bis 8 89 be schrieben 8 85 stellt eine von 8 89 genutzte Hilfssfunktion zu Verf gung AsscociationRule META x Association gt ExpressionT ype Sech Multiplicity Rule m aly Integrit tsregel l LAssociationCreate ForeignKey META Association LForeignKey def H
526. reis W hrung 0 1 B W h m Produkt 1 Anzahl St ckzahlTyp etrag W hrung Dimension Dimension Dimension propertyName Herkunftsland propertyName Produkt propertyName Ort Verkauf _ Less a dimension dimension dimension owner owner owner FactAttribute FactClass endA endB FactClass propertyName Einzelpreis owner name Verkauftes Produkt name Verkauf isKey FALSE attribute isAbstract FALSE BE a EEE isAbstract FALSE isOptional FALSE egen Composition Ze attribute endAMultiplicity 0 1 attribute FactAttribute endAName hat FactAttribute propertyName Anzahl propertyName Betrag isKey FALSE isKey FALSE isOptional FALSE isOptional FALSE UpdateOwner co nosimple UpdateAttribute com position Owner Herkunftsland CalcOwner Herkunftsland _ Verkauf Owner Produkt CalcOwner Produkt _ Verkauf FactClassAttributes Verkauf CalcFactClassAttributes Verkauf U Einzelpreis W hrung FALSE 0 1 TRUE U Anzahl St ckzahlTyp FALSE 0 1 TRUE Abbildung 7 16 Aufl sen von Kompositionsbeziehungen mit einfacher Multiplizit t zwischen Fact Classes 7 2 Transformationsalgorithmus 147 Die Attribute und Dimensionen der aggregierten Seite werden hierbei auf die Detailseite bertra gen die Attribute werden entsprechend als optional gekennzeichnet und mit der Multiplizit t der Komposition versehen Die Information welc
527. rf auch unbeschr nkt sein und wird dann durch das Symbol dargestellt OperatorSet enth lt eine Menge von Verdichtungsoperatoren 6 1 3 Wurzelelement und Hilfsmetaklassen Die in Abbildung 6 5 grau hinterlegten Metaklassen sind das Wurzelelement und die Hilfsmetaklas sen MM Element name String ContextElement DataElement ConnectionElement A FactClass DimensionalClass DataClass un a ClassElement GeneralizableElement isAbstract Boolean parent 1 child specialization 0 generalization Generalization Abbildung 6 5 Wurzelelement und Hilfsmetaklassen GeneralizableElement und ClassElement o Verbindung meint an dieser Stelle die Verbindung zwischen zwei MML Instanzen unabh ngig von ihrer sp teren Darstellung d h ein Verbindungselement muss im sp teren Schema nicht unbedingt eine Kante sein 6 1 MML Multidimensional Modeling Language 79 Jede andere MMI Metaklasse erbt vom Wurzelelement MMLElement und erh lt so das Attribut na me das der Klasse einen eindeutigen Namen gibt In manchen F llen besitzt eine Untermetaklasse ein zus tzliches Namensattribut um unterschiedlichen Typen von Schemaelementen gleiche Namen geben zu k nnen Die beiden Hilfsmetaklassen GeneralizableElement und ClassElement werden f r die vereinfachte Spezifikation von Beziehung
528. rie ConceptualKey Filialkategorie Bezeichnung 4 Filialoberkategorie ConceptualKey Filialoberkategorie Bezeichnung 4 Jahr ConceptualKey Jahr Bezeichnung 4 Monat ConceptualKey Monat Bezeichnung 4 Ort des VerkaufsArtikel ConceptualKey 6 C Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Ort des VerkaufsArtikel ConceptualKey 6 C Ort des VerkaufsArtikel Artikel ForeignID Produktfamilie ConceptualKey Produktfamilie Bezeichnung 4 OC Produktgruppe ConceptualKey Produktgruppe Bezeichnung 4 Produktkategorie ConceptualKey Produktkategorie Bezeichnung 4 Quartal ConceptualKey Quartal Bezeichnung 4 Region ConceptualKey Region Bezeichnung 4 Staat ConceptualKey Staat Bezeichnung 4 Stadt ConceptualKey Stadt PLZ 4 Strassenbereich ConceptualKey Strassenbereich Bezeichnung 4 Tag ConceptualKey Tag Bezeichnung 4 Verkaufsbezirk ConceptualKey Verkaufsbezirk Bezeichnung 4 Woche ConceptualKey Woche Bezeichnung 4 Dimension Einkommen Quartal Dimension Zeit Einkommen ALL_TYPES ALL_TYPES 9 C Einkommen Quartal ForeignID Quartal ID Einkommen Strassenbereich Dimension
529. rodukt Ort Abbildung 6 29 UML Beispiel Ergebnis Schritt 5 Dimensionen Schritt 6 Bestimme f r jede Dimension die Ebene der feinsten Granularit t Die Ebenen der feinsten Granularit t ergeben sich aus den in Abschnitt 6 5 1 beschriebenen An forderungen F r die drei Faktklassen Verkauf Verkauftes Produkt und Verkaufszahl k nnen die feingranularsten Dimensionsklassen gemeinsam genutzt werden Die Faktklasse Einkommen hingegen bildet hier eine Ausnahme Um im Schema eindeutige Namen zu erreichen sind die Dimensionsbeziehungen im Gegensatz zum f nften Schritt umzubenennen Die Tatsache dass sowohl Filialen wie auch Abteilungen in Kaufh usern existieren f hrt schlie lich dazu dass auf der Ortshierarchie eine abstrakte Klasse als Ort des Verkaufs modelliert wird Das Ergebnis von Schritt 6 zeigt Abbildung 6 30 110 Kapitel 6 Konzeptioneller Entwurf lt lt Dimension gt gt Zeit lt lt DimensionalClass gt gt Tag lt lt Dimension gt gt Zeit Verkauf lt lt FactClass gt gt lt lt Dimension gt gt Verkauf Ort Verkauf lt lt DimensionalClass gt gt Betrag W hrung Ort des Verkaufs lt lt Composition gt gt Verkauftes Produkt Ee lt lt FactClass gt gt Verkauftes Produkt Einzelpreis W hrung Anzahl St ckzahlTyp Gesamtpreis W hrung lt lt FactClass gt gt Verkaufszahl Anzahl St ckzahlTyp Sl lt
530. rol of Warehouse Data In Albertas Cap linskas Herausgeber Proceedings of the 4th IEEE Internatl Baltic Workshop Baltic DB amp IS 2000 Mai 2000 Vilnius Litauen Seiten 125 139 2000 Hinrichs Holger Datenqualit tsmanagement in Data Warehouse Umgebungen In Heuer Andreas Frank Leymann und Denny Priebe Herausgeber Datenbanksyste me in B ro Technik und Wissenschaft BTW 01 Proceedings M rz 2001 Oldenburg Deutschland Seiten 187 206 Oldenburg Deutschland 2001 Holten Roland und Ralf Knackstedt Fachkonzeptuelle Modellierung von F hrungsin formationssystemen am Beispiel eines filialisierenden Handelsunternehmens In Sinz Elmar J Herausgeber Proceedings der MobiS Fachtagung Oktober 1999 Bamberg Deutschland 1999 Herden Olaf und Joachim Kieschke ODAWA Evaluation Technischer Bericht OF FIS Verfiigbar unter http odawa offis uni oldenburg de Oldenburg Deutschland Ju ni 2001 H semann Bodo Jens Lechtenb rger und Gottfried Vossen Conceptual Data Ware house Design In Jeusfeld Manfred A H Shu Martin Staudt und Gottfried Vossen Herausgeber Proceedings of International Workshop DMDW 00 Design and Mana gement of Data Warehouses Juni 2000 Stockholm Schweden 2000 Holten Roland A Framework for Information Warehouse Development Process In Arbeitsberichte des Instituts f r Wirtschaftsinformatik Nr 67 M nster Deutschland Mai 1999 Holten Roland Entwicklung e
531. rs entnommen worden sein kann Das Formulieren der Regeln umfasst auch die Sicherstellung von Vollst ndigkeit und Widerspruchsfreiheit 10 1 berblick und Ablauf 229 i Konfigurations phase Eingabewerte und Parameter Festlegung durch Entwickler Optimierungs phase Phase I Auswahlphase Auswahl aller sinnvollen OptimierungsmaBnahmen Phase II berarbeitungsphase Uberarbeitung durch Entwickler Phase Ill Kompromissphase Auswahl einer Teilmenge von OptimierungsmaBnahmen Implementierungs phase Betriebs phase Skriptgenerierung DB Objekte anlegen Erzeugung neuer Parameter Abbildung 10 2 Ablauf der physischen Datenbankoptimierung 230 Kapitel 10 Physische Datenbankoptimierung e Angaben ber die Umgebung charakterisieren das System z B DBMS oder OLAP Server auf dem implementiert werden soll An dieser Stelle muss der Entwickler entscheiden welche Informationen er als Umgebungsparameter in den Prozess einflie en lassen will und welche Informationen das Resultat des Optimierungsprozesses bilden sollen Als Hilfe dient hierbei die Klassifikation unterschiedlicher aufeinander aufbauender Aspekte der Konfiguration und Optimierung von Datenbanken in Abbildung 10 3 Als Basis steht die Auswahl von Hardware HW Betriebssystem BS und DBMS Darauf aufbauend erfolgt die Konfiguration dieser Kompo
532. rt wird Hierzu wird der Begriff des gr ten Nutzens maximal benefit eingef hrt Sei die Teilmenge T C T bereits als zu realisierende Optimie rungsma nahmen ausgew hlt dann ist der Nutzen der Optimierungsma nahme t T T relativ zu T bezeichnet als B t T wie folgt definiert costioe W T costioc W T U t B t T falls costtocg W TT costiocy W T U t gt 0 10 14 0 sonst Den gr ten relativen Nutzen weist dasjenige s T T auf f r das B s T gt B t T mit te T T und s tist Relativ bedeutet in diesem Falle relativ zur bisher gefundenen L sungsmenge T Damit l sst sich der folgende Algorithmus formulieren 1 T 2 while Vi GC gc true 3 ermittle Optimierungsmassnahme t T T mit groesstem Nutzen 4 T T Oe 5 end Algorithmus 10 1 Greedy Algorithmus Resultat ist die Menge T der zu realisierenden Optimierungsma nahmen Macht der Entwick ler von der interaktiven Eingriffsm glichkeit in Phase II Gebrauch so w rde man nicht mit einer leeren Menge starten sondern T enthielte zu Beginn die auf jeden Fall zu realisierenden Optimierungsma nahmen Die Kostenfunktion Als Leseaufgaben sollen Anfragen an ein Schema als Kombination aus Hierarchieebenen modelliert werden wobei f r jede Dimension eine Hierarchieebene bestimmt wird vergleiche Attribut levels in Abschnitt 10 2 4 Mit den f r ein DWH charakteristischen
533. rten l sst sich festhalten dass schon aus der ersten Messung sehr gute Wer te resultierten Grund hierf r ist das Vorhandensein der in Abschnitt 12 2 1 erw hnten Quellen die eine gute Spezifikation darstellen Von einer solchen nahezu optimalen Lage ist in anderen Projek ten und Kontexten sicherlich nicht immer auszugehen M glicherweise werden die Anforderungen der zuk nftigen Benutzer weniger klar sein oder es werden bei Beteiligung mehrerer Organisations einheiten gar widerspr chliche Anforderungen aufgestellt In solchen F llen kann ein Review zur Findung des richtigen Schemas beitragen 12 2 4 Logischer Entwurf Der in Abschnitt 7 2 vorgestellte Transformationsalgorithmus wurde ausgef hrt wobei an den in teraktiven Stellen die sprechenden Namen der konzeptionellen Entwurfsebene beibehalten wurden Eine wichtige Entwurfsentscheidung ist im achten Schritt bei der Transformation der Faktklassen zu treffen Hier ist ber die Aufl sung der von der Faktklasse Fall ausgehenden Kompositionen zu ent scheiden wobei M glichkeit II bertragung der Dimensionen an die Detailklasse siehe Seite 148 angewendet wurde Diese Entscheidung begr ndet sich wie folgt 272 Kapitel 12 Evaluation e M glichkeit I Vernachl ssigung der Komposition w rde zu einem Schema f hren das f r die Datenanalyse wichtige Zusammenh nge wie z B zwischen T tigkeiten und Diagnosen nicht mehr bieten w rde M glichkeit III bertr
534. ryKey i endfor endfor setName oldPrimaryKey 7 Unique key of table t name setIsPrimary oldPrimaryKey FALSE end Algorithmus 9 1 Algorithmus change PrimaryKey In den Zeilen 2 und 3 werden Verweise auf den alten Prim rschl ssel und die alte Rolle vor genommen In den Zeilen 4 und 5 wird das neue UniqueKey Objekt angelegt und als Prim rschl ssel gekennzeichnet Die in den Zeilen 6 bis 8 folgende for Schleife setzt die keys Referenz der angege benen Attribute auf den neuen Schl ssel In den Zeilen 9 bis 11 werden alle Fremdschl sseleintr ge des alten Prim rschl ssels in einen Cursor bertragen der dann in den Zeilen 12 bis 23 durchlaufen wird wobei zun chst in jeder Tabelle die alten Fremdschl sselspalten in den Zeilen 15 bis 17 gel scht werden Anschlie end wird jede referenzierte Tabelle um die Attribute des neuen Schl ssels erweitert und diese Attributkombination als Fremdschl ssel gekennzeichnet In den Zeilen 24 und 25 9 3 Verfeinerungsalgorithmen 219 wird der alte Prim rschl ssel umbenannt und die Prim rschl sseleigenschaft auf FALSE gesetzt so dass dieser Schl ssel als normaler Eindeutigkeitsschl ssel erhalten bleibt 9 3 Verfeinerungsalgorithmen Dieser Abschnitt widmet sich Verfeinerungsalgorithmen die auf die elementaren und komplexen Operatoren sowie algorithmischen Aspekte aufbauen Weil die Demonstration der Algorithmen an hand des Beispiels Handelswelt erfolgt wird
535. s 13th Intl Conference on Entity Relationship Approach ER 94 Seiten 94 111 Manchester England Dezember 1994 Springer Munneke Derek Kirsten Wahlstrom und Mukesh K Mohania Fragmentation of Mul tidimensional Databases In Roddick John F Herausgeber Database Systems 99 Proceedings of the 10th Australasian Database Conference ADC 99 Januar 1999 Auckland Neuseeland Band 21 der Reihe Australian Computer Science Communica tions Seiten 153 164 Springer 1999 O Gorman Kevin Divyakant Agrawal und Amr El Abbadi On the Importance of Tuning in Incremental View Maintenance An Experience Case Study In Kambaya shi Yahiko Mukesh K Mohania und A Min Tjoa Herausgeber Data Warehousing and Knowledge Discovery Second International Conference DaWaK 2000 September 2000 London England Proceedings Nummer 1874 in LNCS Seiten 77 82 Springer 2000 Object Management Group OMG Common Warehouse Meta Model CWM Speci fication Version 1 0 Object Management Group Homepage http www omg org Februar 2001 Oracle Inc Homepage Firma Oracle http www oracle com 2001 Oszu M Tamer und Patrick Valduriez Principles of Distributed Database Systems Prentice Hall Englewood Cliffs New Jersey USA 2 Auflage 1999 Ovum Ovum Evaluates Data Warehousing Tools and Strategies Ovum Ltd London England 1998 Pedersen Torben Bach und Christian S Jensen Multidimensional Data Modeling for Comple
536. s DimensionalMapping Objektes diese Beziehung zwischen den Dimensionen realisiert werden wenn in potenziellen Auswer tungen Vergleiche der Fakten notwendig sind mit denen sie verbunden sind Phase V Dokumentation und Strukturierung vornehmen Schritt 16 Bestimme Subschemata Um die bersichtlichkeit des Datenschemas zu gew hrleisten soll es durch Subschemata geeignet strukturiert werden Es bietet sich insbesondere an pro Dimension und zusam menh ngender Faktklassen jeweils ein eigenes Teildiagramm zu bilden Schritt 17 berpr fe die Dokumentation Als letzter Schritt ist die Dokumentation der Klassen und Attribute zu berpr fen und gegebenenfalls zu berichtigen und erg nzen Schritt 18 Iteriere F hre Iterationen durch und verfeinere das Schema Bei jeder Iteration kann zu einem beliebigen Schritt des Leitfadens zur ckgesprungen werden Tabelle 6 2 Leitfaden zum Erstellen eines Schemas 6 4 Qualit tssicherung von MML Schemata Neben dem Vorliegen eines bez Metamodell und Wohlgeformtheitsbedingungen korrekten MML Schemas ist zum Abschluss des konzeptionellen Entwurfs eine analytische Qualit tssicherung durch ein explizites Schema Review vorgesehen um zu berpr fen ob auch inhaltlich korrekt modelliert wurde Her01a Dabei sollen die zu untersuchenden Kriterien flexibel durch den Benutzer ausgew hlt werden k nnen d h die Kriterien f r
537. s bestimmten DBMS k nnen die beiden Versionen als unterschiedliche Zielsysteme aufgefasst werden Ebenso ist durch Nachhalten aller Entwurfsinformationen im Repository Nachvollziehbarkeit gew hrleistet indem jederzeit festgestellt werden kann wer welche Entwurfsentscheidung vor genommen hat Durch das Repository und die Schnittstelle des ODAWA Werkzeugs kann jederzeit Dokumen tation erzeugt werden die einzelne Schemata oder auch den Fortgang des gesamten Prozesses beschreibt Teil IV Zusammenfassung und Ausblick Kapitel 13 Zusammenfassung und Ausblick Dieses abschlie ende Kapitel gibt eine Zusammenfassung und einen Ausblick wobei in Abschnitt 13 1 zun chst die im Rahmen dieser Arbeit erreichten Ziele aufgef hrt werden Abschnitt 13 2 nennt m gliche Erweiterungen im unmittelbaren Umfeld der Entwurfsmethodik bevor in Abschnitt 13 3 etwas weitergehend zuk nftige Entwicklungen und Tendenzen im gesamten DWS Umfeld diskutiert werden 13 1 Erreichte Ziele Schon seit langer Zeit besteht in Organisationen der Wunsch neben der Unterst tzung operativer Auf gaben Informationssysteme auch zur Entscheidungsunterst tzung einzusetzen Diese Anforderung wurde in den letzten Jahren beispielsweise durch Markts ttigung im klassischen Handel oder durch Marktliberalisierung im Telekommunikationssektor verst rkt Dabei haben sich in den 90er Jahren DWHs als Basis entscheidungsunterst tzender Informationssysteme etabliert Aufgrund der st
538. s dem L ndercode und dem Land im Klartext gem der Kodierung nach der Klassifikation des Statistischen Bundesamtes 999 ist der Wert f r Unbekannt EE lt lt DimensionalClass gt gt Staatsangeh rigkeit I Staatsangeh rigkeit Staatsangeh rigkeit L ndercodeTyp Beschreibung Text Abbildung B 25 Konzeptionelle Modellierung Dimension Staatsangeh rigkeit B 26 Dimension Therapieart Die Dimension Therapieart beschreibt den Typ der Therapie Zul ssige Wertepaare sind Il Operation 2 Radiatio 3 Chemotherapie 4 Hormontherapie 5 Immuntherapie 6 Knochenmarktransplantation 7 Sonstige und 9 Fehlende Angabe Unbekannt 332 AnhangB Evaluation A lt lt DimensionalClass gt gt lt lt Dimension gt gt Th Therapieart gt erapieart Bezeichnung Aufz hlungstyp Abbildung B 26 Konzeptionelle Modellierung Dimension Therapieart B 27 Dimension Therapiestatus Die Dimension Therapiestatus gibt Auskunft ber den aktuellen Zustand der Therapie Zul ssi ge Wertepaare sind 1 Durchgef hrt 2 Nicht durchgef hrt 3 Vorgesehen und A Verweigert lt lt DimensionalClass gt gt Therapiestatus Bezeichnung Aufz hlungstyp lt lt Dimension gt gt Therapiestatus Abbildung B 27 Konzeptionelle Modellierung Dimension Therapiestatus B 28 Dimension Th
539. s eine enge Kopplung zur Datenquelle zu haben und ande rerseits k nnen verschiedene dimensionale Tabellen die Informationen in Stammdatentabellen gemeinsam nutzen Die Werkzeuge der Firma Microstrategy Mic99 setzen eine Variante des Schneeflockensche mas ein bei dem die Fremdschl ssel der h heren Hierarchieebenen nicht nur in der unmit telbar darunterliegenden sondern auch in noch tiefer liegenden Hierarchieebenen eingetragen werden wodurch bei Anfragen Verbundoperationen eingespart werden 4 3 Relationale Optimierungsm glichkeiten 47 4 3 Relationale Optimierungsm glichkeiten In einem DWH spielen Optimierungstechniken i d R eine gr ere Rolle als in OLTP DB Diese Aussage begr ndet sich in dem gro en Datenvolumen vor allem der Fakttabelle in den durch analy tische Auswertungen zu erwartenden umfangreichen multidimensionalen Auswahlbedingungen und Aggregationen sowie die h ufig vorhandene Notwendigkeit von Gruppierungen und Sortierungen f r Berichte Daneben fallen beim Nachladen des DWH gro e Datenmengen an die eine Vielzahl von nderungen bestehender Strukturen wie z B Indexen oder Materialisierungen nach sich zieht Aus diesem Grunde sind in den letzten Jahren eine Vielzahl von Untersuchungen und Ver ffentlichun gen ber die Verwendung existierender Optimierungstechniken und Erweiterungen dieser Techniken unter Ber cksichtigung von DWH Spezifika entstanden Die folgenden Abschnitte erheben keinen Anspruch auf
540. sas City Missouri USA Proceedings Seiten 3 8 ACM Press 1999 Teo90 Teorey Toby J Database Modeling and Design The Entity Relationship Approach Morgan Kaufmann 1990 Tha00 Thalheim Bernhard Entity Relationship Modeling Springer 2000 TheO1 Theodoratos Dimitri Detecting Redundant Materialized Views in Data Warehouse Evo lution Information Systems 26 5 363 381 2001 364 Literaturverzeichnis Tho97 TKSO1 TM75 TS97 Tur96 URT99 VGD99 VVS00 WB98 Wed74 Wes00 Wie00 Win99 Thomsen Erik OLAP Solutions Building Multidimensional Information Systems John Wiley amp Sons Inc 1 Auflage 1997 Tsois Aris Nikos Karayannidis und Timos Sellis MAC Conceptual Data Modeling for OLAP In Theodoratos Dimitri Joachim Hammer Manfred A Jeusfeld und Martin Staudt Herausgeber Proceedings of International Workshop DMDW 01 Design and Management of Data Warehouses Juni 2001 Interlaken Schweiz 2001 Trembly J P und R Manohar Discrete Mathematical Structures with Applications to Computer Science McGraw Hill Book Company New York USA 1975 Theodoratos Dimitri und Timos K Sellis Data Warehouse Configuration In Jarke Matthias Michael J Carey Klaus R Dittrich Frederick H Lochovsky Pericles Lou copoulos und Manfred A Jeusfeld Herausgeber VLDB 97 Proceedings of 23rd In ternational Conference on Very Large Data Bases A
541. schema aus Abschnitt 3 2 orientiert Unter Einfluss der Ergebnisse des Abschnitts 3 4 lassen sich die Eigenschaften der MML wie folgt charakterisieren e Die MML ist eine objektorientierte Sprache d h sie kennt Konzepte wie Klasse Vererbung etc Dies bildet eine gute Basis f r Erweiterbarkeit und Wiederverwendbarkeit mit ihr erstellter Schemata e F r die ad quate Beschreibung multidimensionaler Daten erfolgt in der MML die Unterschei dung qualifizierender Dimensionen und quantifizierender Fakten Datenobjekte e Fakten sind nicht auf ein einzelnes numerisches Datenelemente beschr nkt d h sie k nnen eine innere Struktur mit verschiedenen Datenobjekten und weiteren Fakten aufweisen e Bei der Gestaltung von Dimensionsstrukturen bildet ein gerichteter azyklischer Graph die Grundlage f r die Modellierung so dass dimensionale Klassen in verschiedenen Dimensio nen genutzt und somit die Datenzusammenh nge angemessen und implemetationsunabh ngig dargestellt werden k nnen ebenso sind auf diese Art und Weise alternative Verdichtungspfade darstellbar e Ist ein Datenobjekt durch eine Menge von Eigenschaften eindeutig identifiziert oder entsteht es aus anderen Datenobjekten durch die Anwendung einer Berechnungsvorschrift so K nnen auch diese Informationen explizit im Schema festgehalten werden e Die Anwendbarkeit von Verdichtungsoperatoren sum avg count etc auf quantifizierenden Datenobjekten ist nicht nur von dem zugrundelie
542. schen auf die physische Entwurfsebene beschrieben Dazu wurde zun chst in Abschnitt 8 2 das physische Metamodell LCD of SOL spezifiziert das einen gemeinsamen Kern aus dem SQL Standard und aus kommerziellen Systemen umfasst In Abschnitt 8 3 wurde die eigentliche Abbildung definiert Diese orientierte sich an den REMUS Schemaelementen wobei zun chst die Objekte und Attribute bertragen und dann die Kategorie A und Kategorie B Metadaten systematisch abgearbeitet wurden Wie schon im Entwurfsschritt von der konzeptionellen auf die logische Ebene werden gewisse Entwurfsentscheidungen mittels einer deterministischen Funktion bestimmt Dies betrifft neben der Abbildung der Datentypen und der Formulierung von Constraints und Formeln auch die Benennung von Entwurfsobjekten womit die M glichkeit des Einflie ens projekt und organisationsspezifischer Konventionen z B hinsichtlich der Namensgebung m glich wird Um die Funktionsweise der Abbildung zu verdeutlichen wird in Tabelle 8 8 festgehalten in welchem Schritt welche REMUS Schemaelemente abgearbeitet werden Tabelle 8 9 beschreibt welche LCD of SOL Objekttypen in welchem Schritt angelegt bzw manipuliert und welche deterministischen Funktionen an welcher Stelle benutzt werden Hierbei bedeutet der Eintrag C create Anlegen des Objektes und der Eintrag U update Manipulieren eines bereits in einem fr heren Schritt angelegten Objektes Ein Punkt in der Spalte einer deterministischen F
543. se Verkauftes Produkt zugeordnet sind F r eine Multiplizit tsangabe bei der der untere dem oberen Wert entspricht kann die UML Kurzform ohne Intervall darstellung verwendet werden F r das Intervall 1 1 kann somit alternativ auch nur die Zahl 1 notiert werden Kapitel 6 Konzeptioneller Entwurf lt lt FactClass gt gt Verkauf 1 verkauftes KS Produkt lt lt FactClass gt gt Verkauftes Produkt Anzahl Anzahl Einzelpreis Preis _ Gesamtpreis Preis Abbildung 6 21 UML Darstellung der Kompositionsbeziehung Die Rollenbezeichnung auf Seite der abh ngigen Klasse ist der endAName Eigenschaft der MML Metaklasse Composition zugeordnet die Bezeichnung auf der anderen Seite wird in der UML nicht genutzt Bei bereinstimmung des Namens der referenzierten Klasse mit der Bedeutung der Kom position kann auf die Angabe der Rollenbezeichnung verzichtet werden Entsprechend der Zuge h rigkeit der Rollenbezeichnung wird die Multiplizit tsangabe in das endAMultiplicity Attribut auf genommen Da jedes Objekt der abh ngigen Klasse immer zu genau einem Objekt der besitzenden Klasse geh rt gilt f r die Multiplizit tsangabe auf der Besitzerseite der implizite Wert 1 Komposi tionen d rfen gem der Wohlgeformtheitseigenschaft WF ZF2 siehe Seite 87 nicht zyklisch sein Generalisierungen Das UML Generalisierungskonstrukt wird auch in der UML f r die Beschreib
544. siere alle Filialen und Oo Materialisiere alle Filialen im Gebiet Nord Eine Realisierung von Oh w rde beide F lle abdecken anderer seits ist Og nat rlich weniger kostenintensiv Deckt Ox aber schon einen Gro teil der Anfragen an das System ab so kann ihre Realisierung durchaus sinnvoll sein 238 Kapitel 10 Physische Datenbankoptimierung DBMS ame String version String dbms 0 0 rules Rule name String priority CARDINAL TaskRule ifPart TaskConditionType SchemaRule thenPart TuningAction rules 1 0 ruleSets RuleSet name String ifPart SchemaConditionType TaskSchemaRule ifPart TaskSchemaConditionType EH Abbildung 10 12 Umgebung und Regeln e O und Oz k nnen berlappen z B O Materialisiere alle Filialen der Gebiet Ost und West und O2 Materialisiere alle Filialen der Gebiete Nord und West Eine Realisierung beider Optimierungsma nahmen w re speicherplatzintensiver als das Realisieren der Vereini gung Materialisiere alle Filialen der Gebiete Nord West und Ost e O und Oz k nnen sich widersprechen z B O Partitioniere die Fakttabelle nach Mona ten und Oy Partitioniere die Fakttabelle nach Filialen Ein solcher Konflikt muss aufge l st werden indem der Entwickler sich in der berarbeitungsphase f r eine de
545. siert werden Die folgenden Abbildungsvorschriften 8 30 bis 8 36 entsprechen bis auf diesen Unterschied 8 19 bis 8 29 aus Schritt 4 MconceptualK eycroupea SEI eine Partitionierung der ConceptualKey Metadaten die die einzelnen Komponenten eines konzeptionellen Schl ssels zusammenfasst MconceptualKeycrouped M1 Mn ist diejenige Zerlegung von MconceptualKey Mit i Vm m M miti 1 n m a m a A ii Ym Mm Mj miti j 1 n und i j m a 4 m a A iii Ym MConceptualKey m M miti 1 n 8 30 Die Definition der Abbildung faeto Kann aus 8 20 bernommen werden Die UniqueKey Objekte werden durch die Abbildungsvorschrift 8 31 angelegt UConceptual KeyCreate UniqueKey META Conceptual K eyGrouped gt LUniqueKey def HConceptualKeyCreate UniqueKey M Zu b Conceptual key of table faetrasiename M relation name FALSE fdetrasiename M relation name Jaetorder U Ee m attribute name meM NULL UniqueKey 8 31 Aktualisiert werden m ssen die am Prim rschl ssel beteiligten Spalten und die Tabelle was in den beiden folgenden Definitionen geschieht KConceptualK eyvpdate Table META Conceptual Keycrouped x Lrabie e Lrabie def HConceptual Kent pdate Table M t AddTableUniqueK ey t p Conceptual key of table 8 32 detrasiename M relation name falls t name M relation name t sonst Sdetraviename
546. sk 236 Logischer Entwurf see Abbildung MML nach REMUS 126 Ma zahl 19 siehe Kennzahl MAC Modell 35 37 39 MappingMETA LCD of SQL 171 180 202 205 Materialisierte Sicht 48 244 G345 Aktualisierung 48 Auswahl 48 MD Modell 34 37 39 MDC 51 Mehrfachhierarchie 20 25 26 38 39 117 G345 MERM 26 37 38 Messprozess G345 Messung G345 Messverfahren 65 99 G345 Metadaten 50 Manager G345 Repository 16 17 G345 G348 verwaltung 50 Administrative 17 Dom nenspezifische 17 Kategorie A 120 121 G344 Kategorie B 122 G344 Operative 17 Shared Repository 52 Standard 51 Verteilte Verwaltung 52 Zentrales Repository 52 MethodCallType 233 Methodik 71 248 Ablauf Entwurfprozesses 72 Allgemeine Aspekte 71 Entwurfskriterien 71 Metrik 65 MML 73 86 Additivity 83 156 Association 81 82 87 138 ClassConnection 81 ClassElement 76 79 81 Composition 81 82 88 141 146 Computation 82 ConnectionElement 78 81 ContextElement 79 DataAttribute 85 DataClass 80 87 88 127 DataElement 80 82 DataType 80 126 DimensionalAttribute 85 DimensionalClass 79 87 88 DimensionalMapping 85 140 DimensionalProperty 84 Dimension 85 141 154 FactAttribute 85 141 151 FactClass 79 80 87 141 151 GeneralizableElement 76 79 Generalization 82 MMLElement 76 79 NonCompleteRollUp 85 87 88 135 NonDimensionalProperty 83 84 PropertyConnection 84 RollUp 85 87 8
547. sociation M R gef U TAssociation R 7 28 EM Association 140 Kapitel 7 Logischer Entwurf 7 2 8 Schritt 7 Transformation von Inter Hierarchiebeziehungen DimensionalMapping Schemaelementen Ein DimensionalMapping Schemaelement wird wie in Abbildung 7 13 dargestellt durch Anlegen eines Metadatums f r die Berechnungsvorschrift und eines speziellen Metadatums f r das Dimensio nalMapping an sich festgehalten Objekte oder Attribute werden in diesem Schritt nicht angelegt DimensionalClass attribute DimensionalAttribute name Strassenbereich owner name Name isAbstract FALSE result lt lt DimensionalClass gt gt computation Strassenbereich property Computation Bezeichnung Text Di j j g DimensionalMapping name Berechnung von GR S propertyName Geographische Abbildung ee Geographische Abbildung computation formula Abbildung Ort des Abbildung dimensional Verkaufs nach Strassenbereich Mapping parameter lt lt DimensionalClass gt gt FR Ort des Verkaufs parameter Bezeichnung Text I DimensionalClass j 5 attribute DimensionalAttribute name Ort des Verkaufs owner Se isAbstract TRUE name Name T DimensionalMapping Objekte Attribute Metadaten Berechnung von Geographische Abbildung Computation Ort des Verkaufs Bezeichnung
548. sse Verdichtungen zus tzlich multidimensional vorh lt Abbildung 4 1 zeigt nochmals die drei Realisierungsformen Der Benutzer hat in seinem Front End Werkzeug auf jeden Fall eine multidimensionale Sicht auf die Daten Im Falle einer MOLAP oder ROLAP Realisierung wird die Anfrage vom Server in einen entsprechenden DB Zugriff umgewandelt Bei der HOLAP L sung greift der Server auf die multidimensionalen Aggregate oder falls diese die Anfrage nicht beantworten k nnen auf die relationale DB zur ck Dabei ist f r den Entwicklungsprozess der DB festzuhalten dass i d R nur die relationale DB gestaltet werden kann und die Verwaltung der multidimensionalen Aggregate vollst ndig vom HOLAP Server bernommen wird was in der Abbildung durch die etwas abgesetzte Darstellung des rechten W rfels angedeutet ist OLAP Client Front End Werkzeuge Datenbank Relationales DWH Abbildung 4 1 Realisierungsm glichkeiten MOLAP ROLAP und HOLAP Multidimensionales DWH 4 2 Relationale Realisierungen 43 Der Vollst ndigkeit halber seien an dieser Stelle auch die beiden in einigen Ver ffentlichungen vorzu findenden Begriffe DOLAP Desktop OLAP bzw COLAP Client OLAP erw hnt Dahinter verbirgt sich keine weitere grundlegende Speichertechnik sondern lediglich eine Architekturform in der kein separater OLAP Server existiert Die komplette Verarbeitung der mu
549. sspezifische Mer se a Abbildung 12 8 Bericht 12 4 Weitere Aspekte In diesem Abschnitt werden einige weitere Aspekte diskutiert die auf die Methodik Einfluss haben Zum einen sind nderungen von u eren Parametern zu nennen wie z B neue Hardwarevorausset zungen eine neue Version des DBMS oder ein anderes Zielsystem evtl mit einem anderen Daten modell F r jede dieser nderungen m sste die geeignete Stelle im Prozess identifiziert werden an der wiedereingesetzt werden soll Beispielsweise m sste bei neuen Hardwarevoraussetzungen ledig lich der Schritt der physischen Optimierung erneut durchgef hrt werden bei einem DBMS mit einem anderen Datenmodell hingegen m sste bei der Transformation von der konzeptionellen zur logischen Ebene wieder eingesetzt werden Ein anderes Kriterium sind nderungen und Erweiterungen des Schemas In diesem Falle ist das kon zeptionelle Schema entsprechend zu modifizieren und die weiteren Schritte der Methodik sind erneut durchzuf hren Schlie lich kann noch die Skalierbarkeit genannt werden Diese kann sich auf Schema oder Exten sionsgr e beziehen F r die Schemagr e empfiehlt die Methodik im Rahmen des Leitfadens siehe Abschnitt 6 3 eine Strukturierung in Subschemata bei wachsender Extensionsgr e gestaltet sich die physische Optimierung eventuell schwieriger aber in diesem Falle erlaubt die in Abschnitt 10 1 skizzierte Konfiguration die M glichkeit entsprechende Anpassung
550. st Integer i 7 type TypeOfCostType TuningActionSet name String Ze name String 1 SAFE ees AnnotatedFactAttribute ReadingTask InOutTask name String levels SET OF AnnotatedLevel number Long period TimePeriod type DataType timeSlot Long estimatedSize Double estimatedRows Double A projectGrowthRate Double projectGrowthPeriod TimePeriod projectDecreaseRate Double LoadingTask ArchivingTask projectDecreasePeriod TimePeriod Abbildung 10 10 Aufgaben und Workload 10 2 Metamodell f r den physischen Datenbankentwurf 237 10 2 5 Umgebung In Abbildung 10 11 wird die Umgebung Klasse Environment definiert die sich aus globalen Randbedingungen Klasse GlobalConstraint und dem verwendeten System Klasse DBMS zusam mensetzt Globale Randbedingungen werden durch ihren Namen Attribut name einen Ausdruck Attribut expression und die durch sie verursachte Kostenart Attribut typeOfCost beschrieben Wei terhin k nnen sie sich auf den Speicherplatz Klasse GlobalSpaceConstraint oder die Zeit Klasse GlobalTimeConstraint beziehen oder allgemeiner Natur sein Klasse GeneralGlobalConstraint Ein DBMS ist durch seine Bezeichnung und eine Versionsnummer gekennzeichnet und referenziert eine Menge von Regeln die f r diese Version des Systems g ltig sind Environment
551. ste an Diese Dienste k nnen so spezifiziert werden dass sie ge nderte Tupel in spezielle Tabellen schreiben Zeitstempelbasiert Jedem Datensatz ist ein Zeitstempel zugeordnet der im Falle einer nde rung des Datensatzes auf den Zeitpunkt der nderung gesetzt wird Anhand der Zeitstempel kann sp ter entschieden werden welche Datens tze sich nach dem Zeitpunkt der letzten Ex traktion ge ndert haben Temporale DBMS Sno95 bieten eine explizite Unterst tzung der Zeitdimension an sind aber bisher nicht ber den Forschungsstatus hinausgekommen Log basiert In diesem Fall nutzt man die F higkeit von DBMS aus vorgenommene Trans aktionen in einer Log Datei zu protokollieren Durch Analyse einer solchen Log Datei kann ermittelt werden welche Daten sich ge ndert haben Snapshot basiert Bei dieser Variante wird der Datenbestand einer Quelle in periodischen Zeitabst nden in eine Datei den sog Snapshot geschrieben Durch einen Vergleich von Snap shots Delta Berechnung k nnen nderungen identifiziert werden Da dieser Aspekt au erhalb des Fokus dieser Arbeit liegt wird in diesem Kapitel nicht n her darauf eingegangen Als Quellsysteme kommen nicht nur DBMS in Frage sondern auch Flat Files X lt ML Dokumente etc 2 2 Back End Bereich Von den vorgestellten Monitoring Strategien erfordert die Snapshot basierte Variante den gr ten Implementierungs Aufwand da sie keine vom Quellsystem bereitgestellten Dienste n
552. stemen aufgrund uneinheitlicher Terminologie nur schwer oder gar nicht vergleichbar sind e Daten in den operativen Systemen verweilen nur f r einen beschr nkten Zeitraum so dass gerade zur Entscheidungsunterst tzung wichtige Langzeitanalysen nicht m glich sind e Durch den direkten Zugriff auf die operativen Systeme ist diese Architekturform wenig flexibel gegen ber neuen Anforderungen e Durch die fehlende integrierte Sicht auf die Daten in unterschiedlichen Datenquellen sind Aus wertungen nur schwer vergleichbar e Durch die direkte Kopplung an operative Datenquellen treten technische Probleme wie Perfor manzengp sse und organisatorische Probleme wie datenschutzrechtliche Aspekte auf Aufgrund der Existenz dieser technischen Nachteile k nnen Architekturen wie die in Abbildung 1 1 skizzierte entscheidungsunterst tzende Aufgaben in Organisationen nur in eingeschr nktem Ma e unterst tzen Andererseits wuchs in den letzten Jahren der Bedarf nach Datenanalysen als Entschei dungsgrundlage betr chtlich Diese Tendenz begr ndet sich z B in der Markts ttigung im klassi schen Handel oder in der Liberalisierung des Telekommunikations und Energieversorgungsmarktes Als Anforderungen an diese Systeme sind dabei zu nennen e Flexibilit t Interaktion und Effizienz beim Analysieren e Vorliegen eines historisierten Datenbestandes Integration und Bereinigung des Datenbestandes 1 1 Informationssysteme e Verwaltung sehr gro er
553. t 8 W hrung ObjectType DataType 1 Woche ObjectType Relation Dimension 3 WochenTyp Object Type DataType A Optional Artikel Optional Artikel Bezeichnung 4 PrimaryKey Artikel PrimaryKey Artikel ID OI Einkommen PrimaryKey Einkommen Quartal ForeignID 9 Einkommen PrimaryKey Einkommen Strassenbereich ForeignID 9 Filialkategorie PrimaryKey Filialkategorie ID 3 Filialoberkategorie PrimaryKey Filialoberkategorie ID 3 Jahr PrimaryKey Jahr ID 3 C Monat PrimaryKey Monat ID 3 Fortsetzung auf der folgenden Seite A 2 REMUS Schema 303 Fortsetzung von der letzten Seite Ort des Verkaufs PrimaryKey Ort des Verkaufs ID 3 OC Ort des VerkaufsArtikel PrimaryKey Ort des VerkaufsArtikel ID 6 OC Produktfamilie PrimaryKey Produktfamilie ID 3 Produktgruppe PrimaryKey Produktgruppe ID 3 Produktkategorie PrimaryKey Produktkategorie ID 3 Quartal PrimaryKey Quartal ID 3 Region PrimaryKey Region ID 3 Staat PrimaryKey Staat ID 3 Stadt PrimaryKey
554. t So sind beispielsweise die in Abbildung 3 20 skizzierten alter nativen Hierarchiepfade und gemeinsam genutzten Hierarchieebenen die komplexe Zusammenh nge innerhalb der qualifizierenden Daten darstellen durch die Restriktion auf einen Baum nicht m glich Als positiver Aspekt des DFM ist die M glichkeit zur differenzierten Darstellung der zul ssigen Verdichtungsoperatoren zu nennen Kapitel 3 Multidimensionale Datenmodelle Jahr O Quartal Monat Woche Verkaufsbezirk Tag m salz N Verkaufszahl Anzahl Abbildung 3 20 DFM Nicht m gliche Darstellungen 3 3 5 MD Modell Multidimensional Data Model Das MD Modell Multidimensional Data Model CT98a basiert auf den beiden Konstrukten Di mension und F Tabelle Dimensionen werden dabei im Sinne der multidimensionalen Terminologie aus Abschnitt 3 1 verstanden Jede Dimension besteht entsprechend aus einer Menge von Ebenen die als Datendom nen unterschiedlicher Granularit t aufgefasst werden Innerhalb einer Dimension sind die Instanzen unterschiedlicher Ebenen durch eine Familie von Ro Up Funktionen miteinander verbunden F Tabellen schlie lich werden als Funktionen einer speziellen Kombination von Ebenen auf einer Kennzahl definiert Die graphische Notation ist in Abbildung 3 21 dargestellt Name DimName Ebene DimName Ebene Ge DimName Ebene Datentyp DimName Ebene RollUp Dimension F Tabelle Abbild
555. t weil dieses Werkzeug in der UML Modellierung etabliert ist inklusive der f r die UML ben tigten Erweiterungsmechanis men Diese Funktionalit t sollte im Projekt ausgenutzt werden anstatt die Eigenentwicklung eines Modellierungseditors auf der gr nen Wiese beginnend durchzuf hren Als Sprache zur Implemen 11 3 Konkrete Umsetzung 257 tierung bot sich aufgrund der objektorientierten Spezifikation der Metamodelle und aus Gr nden eines sauberen Software Engineerings eine objektorientierte Sprache an so dass C und Java in Betracht kamen Aufgrund der zu realisierenden Schnittstellen zum Repository und zu Rational Rose wurde schlie lich Microsoft Visual C in Version 6 0 mit der Microsoft Visual Studio Umgebung gew hlt Entwicklungsplattform war dementsprechend Microsoft Windows NT Grundlage f r die Anbindung des SQL Server als Repository ist die Standardschnittstelle ODBC durch die die Unabh ngigkeit der Implementierung von einem spezifischen DBMS gew hrleistet wird Bei der Implementierung ergeben sich aufgrund der Architektur aus Abbildung 11 3 verschiedene Themenbereiche die jeweils eine separate Bibliothek bilden GUI enth lt die Masken der Front End Komponente MML Remus LCDofSOL und AnnotatedSchema implementieren die entsprechenden Metamo delle sowie die Abbildung auf Tabellen Die Bibliothek LCDofSQL enth lt zus tzlich eine Methode refinement die die Umstrukturierung eines LCD of SOL Schemas gem d
556. t Dimension gt gt L ngste T tigkeit gt lt lt Dimension gt gt Letzte T tigkeit gt lt lt Dimension gt gt Lokalisation gt lt lt Dimension gt gt Lymphknoten gt lt lt Dimension gt gt Mehrling lt lt Dimension gt gt Ort lt lt Dimension gt gt Ort des Aufwachsens gt lt lt Dimension gt gt Ort der Geburt gt lt lt Dimension gt gt Ort des l ngsten Aufenthalts gt lt lt Dimension gt gt Qualit t gt lt lt Dimension gt gt Rauchen beendet gt lt lt Dimension gt gt Raucherstatus lt lt Dimension gt gt Seite gt lt lt Dimension gt gt Staatsangeh rigkeit lt lt Dimension gt gt Todeursache gt lt lt Dimension gt gt Todeszeit gt lt lt Dimension gt gt Tumorausbreitung lt lt Dimension gt gt Tumorbedingter Tod gt lt lt Dimension gt gt Tumorfolge gt m lt lt Dimension gt gt Typ des Falls De lt lt Dimension gt gt Validit t lt lt FactClass gt gt I lt lt Dimension gt gt Verstorben Fall lt lt Dimension gt gt Zeit a lt lt Composition gt gt Anzahl 0 oder 1 gt Therapien o delt lt lt FactClass gt gt lt lt Dimension gt gt Therapieart gt T tigkeiten lt lt Composition gt gt Therapie
557. t DimensionalClass gt gt Produktfamilie Bezeichnung Text III lt lt RollUp gt gt Produktkategorie lt lt DimensionalClass gt gt Produktkategorie Bezeichnung Text Abbildung A 3 UML Beispiel Ergebnis Konzeptionelle Modellierung Subschema Dimension Produkt A 1 MML Schema 295 A 1 4 Dimension Ort Die Dimension Ort beschreibt die Verdichtungsstufen der Orte des Verkaufs Dabei wird auf der feingranularsten Ebene zwischen Verkaufseinheiten in Kaufh user und rechtlich bzw wirtschaftlich selbst ndige Filialen unterschieden Haupthierarchiepfad ist die Verdichtung zu St dten Regionen und Staaten daneben existiert die insbesondere f r die deutschen Filialen bedeutende Zusammenfas sung zu Verkaufsbezirken Beim Verfolgen des Verdichtungspfades von den Verkaufsbezirken zu den Regionen ist zu beachten dass hierbei nur Eintr ge deutscher Verkaufsorte ber cksichtigt werden Um den Anforderungen f r die internen Auswertungen zu gen gen existiert von Filialen ausgehend ein Verdichtungspfad ber Filialkategorien zu Filialoberkategorien lt lt DimensionalClass gt gt Staat Bezeichnung Text Lo lt lt RollUp gt gt Staat lt lt DimensionalClass gt gt Region Bezeichnung Text Typ der Region Bundesland Kanton J lt lt RollUp gt gt Region lt lt DimensionalClass gt gt Verkaufsbezirk Bezeichnung Text ee lt lt RollUp gt gt Region
558. t DimensionalClass gt gt Stadt Bezeichnung Text PLZ PLZTyp lt lt DimensionalClass gt gt Filiale Beschreibung FilialTyp lt lt RollUp gt gt Filialkategorie lt lt DimensionalClass gt gt Filialkategorie Bezeichnung Text lt lt RollUp gt gt Filialoberkategorie lt lt DimensionalClass gt gt Filialoberkategorie Bezeichnung Text lt lt DimensionalMapping gt gt Geographische Abbildung Abbildung 7 7 Zerlegung der Menge von DimensionalClass Instanzen 7 2 Transformationsalgorithmus 131 F r jedes Element dieser Zerlegung wird im REMUS Schema eine Relation angelegt d h Verer bungsstrukturen zwischen dimensionalen Klassen werden durch Nestung aufgel st Dabei wird der Name durch die deterministische Funktion fdetorassName festgelegt Bei einelementigen Zerlegungs elementen bietet sich als Funktionswert der Klassennamen an bei mehrelementigen kann es bei spielsweise der Name des Wurzelelements sein Dementsprechend soll im Beispiel auch f r alle ein elementigen Zerlegungselemente der Klassenname gew hlt werden z B fdetoiass Name Woche Woche F r die dreielementige Teilmenge mit der Vererbungshierarchie bestimmt mit Faetctassname L Filiale Kaufhaus Ort des Verkaufs af Ort des Verkaufs das Wurzelelement den Namen der Hierarchieebene Jeder angelegten Relation werden die Attribute ID vom Typ KeyType und im Fa
559. t Einkommen _ lt lt Dimension gt gt JL PAS Zeit Verkauf Ee 7 lt lt FactClass gt gt lt lt Dimension gt gt i Verkauf Ort Verkauf gt Betrag Wahrung I l Dimensio lt lt Composition gt gt Zeit ES Verkauftes Produkt H d 7 lt lt FactClass gt gt Se Verkaufszahl Einzelpreis W hrung Anzahl St ckzahlTyp Gesamtpreis W hrung Anzahl St ckzahlTyp lt lt Dimension gt gt lt lt Dimension gt gt lt lt Dimension gt gt Produkt Ort I Owner FactClassAttributes Objekte Attribute Metadaten Verkauf Verkauftes Produkt Composition Verkaufszahl 0 Tempor re Objeke Owner Artikel Verkauftes Produkt Owner Ort Verkaufszahl Owner Ort Einkommen Einkommen Owner Ort Verkauf Verkauf Verkauftes Produkt Owner Produkt Verkaufszahl Owner Zeit Verkaufszahl Owner Zeit Einkommen Einkommen Owner Zeit Verkauf Verkauf Verkauftes Produkt Detail Verkauftes Produkt Verkauftes Produkt Detail Verkaufszahl Verkauftes Produkt FactClassAttributes Einkommen Betrag Wahrung TRUE 0 FALSE FactClassAttributes Verkauf Betrag Wahrung TRUE 0 FALSE FactClassAttributes Verkaufszahl Anzahl StickzahlTyp TRUE 0 FALSE FactClassAttributes Verkauftes Produkt Anzahl StickzahlTyp TRUE 0 FALSE Einzelpreis Wa
560. t Surrogaten und dann in eins ohne Surro gate vorgenommen und anhand des Beispiels Handelswelt demonstriert Die Wahl fiel auf den Typ Sternschema ohne Surrogate weil das in der Evaluation siehe Kapitel 12 eingesetzte DBMS bzw OLAP Server diesen Typ verlangt Verfeinerungsalgorithmen f r andere g ngige Schematy pen siehe hierzu auch Abschnitt 4 2 k nnen in Her01b nachgelesen werden 214 Kapitel 9 Verfeinerung des Schemas Zur Darstellung der Schemata soll in diesem Kapitel die in Abschnitt 4 2 1 eingef hrte Notation die nen 9 1 Elementare Verfeinerungsoperatoren Die in diesem Abschnitt definierten Operatoren lassen sich in die Folgenden Kategorien unterteilen denen im folgenden jeweils ein Unterabschnitt gewidmet ist e Operatoren zum Anlegen Kopieren und L schen von Objekten Abschnitt 9 1 1 e Operatoren zum Lesen und Ver ndern von Attributwerten Abschnitt 9 1 2 e Operatoren zum Hinzuf gen und L schen von Referenzen Abschnitt 9 1 3 9 1 1 Objekte anlegen und l schen Zum Anlegen von Objekten sei f r jede nicht abstrakte Metaklasse des LCD of SOL Metaklassendiagramms die in 9 1 beschriebene Methode definiert new lt Classname gt name lt attribute list gt lt reference list gt 9 1 Der Name ist dabei der eindeutige Bezeichner des Objektes die Attribute und Referenzen werden in der Reihenfolge angegeben wie in der Tupelschreibweise f r LCD of SOL Objekte in Abschn
561. t Werkzeugunter st tzung durchgef hrt wird Durch Anwenden des Framework wird ein definiertes und nachvollziehbares Vorgehen gew hrleistet Durch die Spezifikation des Metamodells und die formale Formulierung der Kompromissphase als Optimierungspro blem ist die Basis f r eine Implementierung zur Werkzeugunterst tzung gegeben Insbesondere sollte auch nachvollzogen wer den k nnen wie konkurrierende Anforderun gen oder Zielsetzungen z B schnelle An frageverarbeitung vs Speicherplatzminimie rung behandelt werden Konkurrierenden Anforderungen wird durch die M glichkeit der Festlegung unterschiedli cher Kostenarten begegnet Durch die Bestim mung zu optimierender und als Nebenbedin gung zu ber cksichtigender Kostenarten flie Den alle Aspekte in die Optimierung ein Der gesamte Prozess sollte allerdings nicht vollautomatisch durchgef hrt werden son dern an definierten Punkten sollte der Ent wickler gezielt eingreifen k nnen um hier durch Wissen ber die Dom ne oder das kon krete Projekt einzubringen die nicht im Sy stem modelliert worden sind Der Entwickler kann neben der Konfigurati on an zwei Stellen in den Ablauf eingreifen Zum einen kann er am Ende der Auswahlpha se auf jeden Fall zu realisierende Ma nahmen als gesetzt markieren zum anderen kann er vor der endg ltigen Implementierung den ge samtem Entwurfsschritt unter neuen Neben bedingungen wie z B mehr Speicherplatz wie
562. tadt ForeignID Reference Stadt ID 5 Ort des VerkaufsArtikel Ort des Verkaufs ForeignID Reference 6 C Ort des Verkaufs ID Ort des VerkaufsArtikel Artikel ForeignID Reference Artikel ID 6 Produktfamilie Produktkategorie ForeignID Reference Produktkategorie ID 5 Produktgruppe Produktfamilie ForeignID Reference Produktfamilie ID 5 Quartal Jahr ForeignID Reference Jahr ID 5 Region Staat ForeignID Reference Staat ID 5 Stadt Region ForeignID Reference Region ID 5 Stadt Verkaufsbezirk ForeignID Reference Verkaufsbezirk ID 5 Strassenbereich Stadt ForeignID Reference Stadt ID 5 Tag Monat ForeignID Reference Monat ID 5 Tag Woche ForeignID Reference Woche ID 5 Verkauf Ort des Verkaufs ForeignID Reference Ort des Verkaufs ID 9 Verkauf Tag ForeignID Reference Tag ID 9 Verkaufsbezirk Region ForeignID Reference Region ID 5 Verkaufszahl Artikel ForeignID Reference Artikel ID 9 Verkaufszahl Ort des Verkaufs ForeignID Reference Ort des Verkaufs ID 9 Verkaufszahl Tag ForeignID Reference Tag ID 9 Verkauftes Produkt Artikel Fore
563. te Attribute Metadaten Tempor re Objekte Owner Artikel Verkauftes Produkt Owner Ort Verkaufszahl Verkauftes Produkt lt lt FactClass gt gt Verkauftes Produkt Einzelpreis W hrung Anzahl St ckzahlTyp Gesamtpreis W hrung lt lt Dimension gt gt Artikel 4 Owner Ort Einkommen Einkommen Owner Owner Zeit Verkaufszahl Owner Ort Verkauf Verkauf Produkt Verkaufszahl Owner Zeit Einkommen Einkommen Zeit Einkommen lt lt FactClass gt gt Einkommen Betrag Wahrung lt lt Dimension gt gt Ort Einkommen Owner Zeit Verkauf Verkauf Detail Verkauftes Produkt Verkauftes Produkt Detail Verkaufszahl Verkauftes Produkt Attributes Einkommen Betrag W hrung FALSE 0 FALSE Attributes Verkauf Betrag Wahrung FALSE 0 FALSE Attributes Verkaufszahl Anzahl St ckzahlTyp FALSE 0 FALSE Attributes Verkauftes Produkt Anzahl St ckzahlTyp FALSE 0 FALSE Einzelpreis W hrung FALSE 0 FALSE Gesamtpreis W hrung FALSE 0 FALSE Abbildung 7 15 Berechnung der Hilfsstrukturen f r die Faktklassen 146 Kapitel 7 Logischer Entwurf Schritt 8b Aufl sen von Kompositionsbeziehungen F r die Behandlung der Kompositionen sind diese zun chst aufgrund ihrer Multiplizit t zu unterschei
564. ten Data Mart bzw DWH Projekten unter die Lupe genommen werden Ausgangspunkt der Untersuchung ist eine Befragung von knapp 100 Unternehmen des deutschsprachigen Raums die bereits Data Mart und oder DWH Projekte durchgef hrt haben Zu den Fragestellungen z hlten u a die betriebswirtschaftlichen An forderungen das Projektmanagement sowie die eingesetzten Technologien Die Ergebnisse sind in verschiedene Matrizen eingeflossen die nach Fachbereichen bis hin zur Gesch ftsf hrung bzw den Vorst nden oder nach Branchen gegliedert sind Anhand der Aufstellungen wurden die aktuellsten In formationen der jeweiligen Softwarehersteller eingeholt In einem Testcenter wurden schlie lich die erarbeiteten Anforderungen anhand von Beispiel Anwendungen durchgespielt Eine abschlie ende Befragung der Unternehmen glich die Ergebnisse der Tests mit den tats chlich eingesetzten Techno logien und Werkzeugen ab Als wesentliche Ergebnisse konnten dabei festgehalten werden e 15 der DWH Projekte wurden nie aktiv e In einigen Branchen wurde nur ein geringer Prozentsatz der betriebswirtschaftlichen Anfor derungen erf llt Als Ursachen f r die Resultate der beiden Studien werden eine Reihe von Gr nden angef hrt zu de nen neben der Problematik der Datenbeschaffung und integration auch das methodische Vorgehen genannt werden Ebenso stellt eine Studie des Bundesministeriums f r Bildung und Forschung ber die Softwareent wicklung wozu insbesonde
565. ten parallele Hierarchiepfade gebildet werden und die Verdichtung von der Woche zum Jahr ist ber das SharedRollUp Konstrukt mit einer Berechnungsvorschrift verbunden weil sich eine Woche u U auf zwei Jahre aufteilen kann lt lt DimensionalClass gt gt Jahr Bezeichnung JahrTyp a aaa lt lt SharedRollUp gt gt lt lt RollUp gt gt Jahr Jahr lt lt DimensionalClass gt gt lt lt DimensionalClass gt gt Woche Quartal Bezeichnung WochenTyp Bezeichnung QuartalsTyp k mge ENEE lt lt RollUp gt gt lt lt RollUp gt gt Quartal Woche lt lt DimensionalClass gt gt Monat Bezeichnung MonatsTyp lt lt RollUp gt gt Monat lt lt DimensionalClass gt gt Tag Bezeichnung TagTyp EE Abbildung A 7 Ergebnis Konzeptionelle Modellierung Subschema Dimension Zeit 294 Anhang A Das Beispiel Handelswelt A 1 3 Dimension Produkt Die Produkt Dimension beschreibt die Verdichtungsstufen der Artikel Die Zusammenfassung von Artikeln zu Produktgruppen familien und kategorien entspricht dem branchen blichen Sprachge brauch und h lt die Anforderungen der Beschreibung des Szenarios aus Abschnitt 6 5 1 fest lt lt DimensionalClass gt gt Artikel Bezeichnung Text Artikelcode ArtikelcodeTyp ee eee lt lt RollUp gt gt Produktgruppe 4 lt lt DimensionalClass gt gt Produktgruppe Bezeichnung Text Lepe lt lt RollUp gt gt Produktfamilie lt l
566. ter Schla geter und Kyu Young Whang Herausgeber VLDB 2000 Proceedings of 26th Interna tional Conference on Very Large Data Bases September 2000 Kairo Agypten Seiten 263 272 Morgan Kaufmann 2000 362 Literaturverzeichnis Rou98 RS91 RS99 RSS96 Ruf97 Rum93a Rum93b RW99 Saa96 SAP97 Sap99 Sap00a Sap00b SBH00 Roussopoulos Nick Materialized Views and Data Warehouses SIGMOD Record 27 1 21 26 1998 Rozen Steve und Dennis Shasha A Framework for Automating Physical Database De sign In Lohman Guy M Am lcar Sernadas und Rafael Camps Herausgeber 17th International Conference on Very Large Data Bases Proceedings September 1991 Bar celona Spanien Seiten 401 411 Morgan Kaufmann 1991 Rautenstrauch Claus und Andre Scholz Vom Performance Tuning zum Software Per formance Engineering am Beispiel datenbankbasierter Anwendungssysteme Informatik Spektrum 22 4 261 275 August 1999 Ross Kenneth A Divesh Srivastava und S Sudarshan Materialized View Maintenance and Integrity Constraint Checking Trading Space for Time In Jagadish H V und Inderpal Singh Mumick Herausgeber Proceedings of the 1996 ACM SIGMOD Inter national Conference on Management of Data Juni 1996 Montreal Quebec Kanada Seiten 447 458 ACM Press 1996 Ruf Thomas Herausgeber Scientific amp Statistical Datatbases Datenbankeinsatz in der multidimensionalen D
567. tidimensional Modeling Language Multidimensional Normal Form Multidimensional OLAP Multidimensional UML Object Constraint Language OFFIS Tools for Data Warehousing Open Database Connectivity Operational Data Store Oldenburger Forschungs und Entwicklungsinstitut f r Informatik Werkzeuge und Systeme Objektidentitat Open Information Model On Line Analytical Processing Object Linking and Embedding On Line Transaction Processing Object Management Group Qualit tssicherung Relational DBMS Relational Schema for Multidimensional Purpose Relational OLAP Semantisches Entity Relationship Modell Special Interest Group on Managament of Data Structured Query Language Transactions on Database Systems Unified Modeling Language Very Large Database World Wide Web Consortium Extensible Markup Language Index Abbildung REMUS nach LCD of SQL Abgeleitete Attribute 190 Additivity 201 AdditivityMETA 201 Additivitat 201 Association 205 207 208 Attribute 184 Column 184 185 189 192 194 197 200 202 205 207 ColumnConstraint 191 ColumnType 182 184 Composition 208 CompositionMETA 208 Computation 190 202 204 ConceptualKey 189 Datentypen 182 DBConstraint 197 200 205 207 Dimension 197 200 DimensionalMapping 204 205 ForeignKey 197 199 200 205 206 ForeignKeyRole 197 199 200 205 206 Gesamttransformation 209 Identifier 191 IdentifierValue 191 Konzeptionelle Schl
568. tikelcodeTyp Artikelcode ArtikelcodeTyp Bezeichnung Text Produktgruppe Text Produktfamilie Text Produktkategorie Text Abbildung 9 9 Handelswelt Sternschema ohne Surrogate 226 Kapitel 9 Verfeinerung des Schemas 9 4 Zusammenfassung Kapitel 9 hat sich mit der Verfeinerung von LCD of SOL Schemata befasst wobei unter Verfeinerung die Anpassung an die speziellen Anforderungen des verwendeten DBMS bzw OLAP Servers zu verstehen ist Um dieses Ziel zu erreichen wurden in Abschnitt 9 1 einige elementare Operatoren auf einem LCD of SOL Schema definiert Darauf aufbauend wurden in Kapitel 9 2 algorithmische Elemente und komplexe Verfeinerungsoperatoren definiert Kapitel 9 3 gibt konkrete Algorithmen an die ber den Umweg eines Sternschemas mit Surrogaten den in der Praxis relevanten Schema typ Sternschema ohne Surrogate definieren Die Anwendung dieser Algorithmen wird anhand des Beispiels Handelswelt demonstriert Damit liegt zu diesem Zeitpunkt der Entwicklung ein physisches Datenbankschema vor das im Hinblick auf ein konkretes Zielsystem angepasst worden ist Der bisher unbeachtete Aspekt von Optimierungsm glichkeiten z B in Form von Materialisierungen zur Beschleunigung der Anfrage verarbeitung w hrend der Datenanalyse wird im kommenden Kapitel behandelt Kapitel 10 Physische Datenbankoptimierung In diesem Kapitel wird ein Framework f r die physische Datenbank
569. tion wurde das im OFFIS und damit in einer unmittelbaren Arbeitsumgebung betriebene EKN Epidemiologische Krebsregister Nieder sachsen gew hlt Die Vorstellung von Zielen Aufbau und eingesetzter Software im EKN erfolgt in Abschnitt 12 1 Die eigentliche Evaluation d h das Durchlaufen des Entwurfsprozesses wird in Abschnitt 12 2 beschrieben Ein berblick ber das entstandene System das mit ODAWA EKN be zeichnet wird wird in Abschnitt 12 3 gegeben In Abschnitt 12 4 werden einige weitere Aspekte mit Einfluss auf die Methodik diskutiert Abschnitt 12 5 fasst die wichtigsten Erkenntnisse der Evaluation zusammen 12 1 Epidemiologisches Krebsregister Niedersachsen Dieser Abschnitt beschreibt das EKN AFHt97 ABH 98 EKNO1 wobei in 12 1 1 zun chst die grundlegenden Ziele widergegeben werden Abschnitt 12 1 2 schildert die Konzeption des EKN bevor in 12 1 3 Informationen ber Mengenger ste und erfasste Daten gegeben werden Abschnitt 12 1 4 stellt mit den CAR Tools Cancer Registry Tools die im EKN eingesetzte Software vor 12 1 1 Ziele Hauptaufgabe des EKN ist die epidemiologische Auswertung m glichst vollst ndig erfasster Krebs neuerkrankungen und sterbef lle in Niedersachsen Dabei verfolgte Ziele sind u a die Sch tzung von Inzidenz und Mortalit tsraten die Beobachtung von zeitlichen Trends bei diesen Raten die Identifikation von Teilregionen oder Zeitperioden mit auff lligen Inzidenzraten sowie die Bereitstel lung eine
570. tionierung 48 Berichtswerkzeug 15 G340 Beschreibungsebene 56 G340 Beschreibungsformalismus 56 G340 Bitmap Index 47 380 Index ClassConnection MML 81 ClassElement UML 88 ClassElement MML 76 79 81 COLAP 43 Column LCD of SQL 168 178 184 185 189 192 194 197 200 202 205 207 ColumnConstraint LCD of SQL 170 178 191 ColumnType LCD of SQL 166 172 179 182 184 Composition UML 91 94 Composition MML 81 82 88 141 146 Composition REMUS 122 147 176 208 CompositionMETA LCD of SQL 171 179 208 Computation MML 82 Computation REMUS 151 Computation REMUS 121 134 137 140 175 176 190 202 204 ConceptualKey REMUS 121 134 139 176 189 ConditionType 233 ConnectionElement MML 78 81 ContextElement MML 79 CWM 51 Data Mart 14 G341 abh ngige 14 aggregierter Extrakt 14 inhaltlicher Extrakt 14 struktureller Extrakt 14 unabh ngige 14 Data Migration 12 G341 Data Mining 15 G341 Data Warehouse 12 G341 Data Warehouse Prozess siehe Data Ware housing Data Warehouse System 9 G341 Data Warehousing G341 DataAttribute UML 89 DataAttribute MML 85 DataClass MUML 88 90 DataClass MML 80 87 88 127 DataElement MML 80 82 DataType mUML 90 DataType MML 80 126 Daten qualifizierende 19 quantifizierende 19 Datenanalyse G341 Datenbankentwurf G341 Datenintegration G341 Datenmodellanforderu
571. tribut name der MMLElement Metaklasse zugeordnet das die Verbindung innerhalb des MML Diagramms eindeutig identifiziert Auf die explizite Vergabe des Namens kann in einem UUML Diagramm verzichtet werden in diesem Fall existiert implizit ein eindeutiger Name der nicht dargestellt wird Assoziationen Das Assoziationskonstrukt der UML wird f r die Beschreibung von normalen Beziehungen zwischen m UML Klassen bernommen Assoziationen zwischen mehr als zwei Klassen die in der UML durch ein Rautensymbol dargestellt werden sind durch die MML Metaklasse Association nicht definiert und d rfen daher in einem UML Diagramm nicht verwendet werden Die Rollenbezeichnungen der zwei an der Assoziation beteiligten Klassen sind den zwei Attri buten endAName und endBName der MML Metaklasse zugeordnet die Multiplizit tsangaben 92 Kapitel 6 Konzeptioneller Entwurf entsprechend dem endAMultiplicity bzw endBMultiplicity Attribut Bei einer fehlenden Rollenbe zeichnung wird der Name der referenzierten Klasse bernommen Der Wert einer unspezifizierten Multiplizit t ist O Sichtbarkeitsangaben der Rollen werden analog der Sichtbarkeit von Attribu ten nicht ber cksichtigt Jeder Assoziation kann in der MML eine DataElement Instanz also eine DataClass bzw eine DataType Instanz zur Aufnahme zus tzlicher Assoziationsdaten zugewiesen werden Die UML bietet ein hnliches Konstrukt die sog Assoziationsklasse die
572. tsigorithm eine Funktion ist die den gew nschten Algorithmus in Abh ngigkeit von der gew hlten Strategie beschreibt Physphasertt 8 XWXRXEXTOA 10 13 d PhysPphasertt S W R E Topt Teens ef Jdet Atgorithm S W R E Topt Teons 10 4 Beispiel Um mit dem Framework zu arbeiten sind Konfigurationen und die Angabe aktueller Daten notwen dig Dementsprechend unterteilt sich das Beispiel in zwei Phasen Zun chst wird in Abschnitt 10 4 1 die Konfiguration vorgenommen die den Algorithmus der Kompromissphase und die Kostenfunktion sowie ihre Berechnung festlegt Anschlie end werden in Abschnitt 10 4 2 konkrete Daten f r einen Ausschnitt des Beispiels Handelswelt festgelegt Abschnitt 10 4 2 zeigt die Materialisierung ei nes Datenw rfels in Abschnitt 10 4 2 wird dieses Beispiel um einen konkurrierenden Schreibzugriff erweitert 242 Kapitel 10 Physische Datenbankoptimierung 10 4 1 Konfiguration Zur Konfiguration wird als Algorithmus ein elementares Greedy Verfahren vorgeschlagen ebenso wird eine einfache vorwiegend Lesekosten ber cksichtigende Kostenfunktion vorgestellt bevor dem Ansatz in HRU96 folgend die Darstellung des annotierten Schemas als Gitter erfolgt Algorithmus Als Algorithmus soll f r das Beispiel ein Greedy Ansatz dienen der die Menge gew hlter Op timierungsma nahmen sukzessiv erweitert indem die L sungsmenge immer um die im Moment am meisten einbringende L sung erweite
573. tt 6 Berechnete Attribute markieren 8 3 8 Schritt 7 Identifier IdentifierValue und Valid 8 3 9 Schritt 8 Optionale Attribute markieren 8 3 10 Schritt 9 Multiplizit ten festlegen 8 3 11 Schritt 10 Dimensionspfade anlegen 8 3 12 Schritt 11 Additivit t festlegen 8 3 13 Schritt 12 SharedRollUp markieren 8 3 14 Schritt 13 DimensionalMapping markieren 8 3 15 Schritt 14 Assoziationen anlegen 8 3 16 Schritt 15 Kompositionen markieren 8 3 17 LCD of SQL Schema Abbildung 8 9 Vorgehensweise der Abbildung von REMUS nach LCD of SQL 8 3 2 Notationsvereinbarungen REMUS Analog zu der in Kapitel 7 beschriebenen Transformation eines MML in ein REMUS Schema wird auch das bertragen in ein LCD of SOL Schema neben einer informalen Beschreibung nebst Erkl rung mit Hilfe von Abbildungen durch eine formale Beschreibung mittels mengenwertiger Abbil dungsvorschriften begleitet Dazu gelten f r REMUS Schemata die auf Seite 125 vorgenommenen Definitionen 7 5 bis 7 7 Zus tzlich werden in 8 1 einzelne REMUS Metadatentypen definiert Seit Aggregated Attribute Computation Conceptual Key Identifier Identi fier LU alue Multiplicity ObjectT ype Optional PrimaryKey Reference Valid 8 1 Additivity Association Composition Dimension Dimensional Mapping RollUp Shared RollU p
574. tte skizziert wobei eine Beschr nkung auf die Darstellung grundle gender Aspekte stattfand Weiterf hrende Details k nnen im Evaluationsbericht HKO1 nachgelesen werden Das Resultat dieses Prozesses ist ein physisches DB Schema Neben seiner Implementie rung wurde dieses Schema mit Testdaten bef llt und auf diesem Schema arbeitende Applikationen realisiert Diese als ODAWA EKN bezeichnete Software war Thema von Abschnitt 12 3 Um das Verhalten der Methodik aufzuzeigen wurden in Abschnitt 12 4 ein paar Szenarien vorgestellt die eine nderung bzw Erweiterung des Schemas nach sich ziehen bzw ein starkes Anwachsen der ver walteten Extension zur Folge haben Als wesentliche Resultate der in diesem Kapitel beschriebenen Evaluation lassen sich die folgenden Punkte festhalten e Die Anwendbarkeit der Methodik konnte nachgewiesen werden e Zusammen mit dem durchg ngigen Beispiel Handelswelt aus Teil II der Arbeit konnte die Dom nenunabh ngigkeit der Methodik nachgewiesen werden e Durch Anwendung des Leitfadens aus Abschnitt 6 3 zur systematischen Gewinnung eines kon zeptionellen Schemas l sst sich eine Schemaversion gewinnen die eine gute Vorgabe f r die weitere Diskussion mit den Fachvertretern ist W hrend dieser Diskussion bekommt das Sche ma den letzten Schliff Der Leitfaden kann somit als n tzliches Hilfsmittel gewertet werden e Das explizite Review des konzeptionellen Schemas hat sich als praktikabel erwiesen I
575. ttribute 89 ClassElement 88 Composition 91 94 DataAttribute 89 DataClass 88 90 DataType 90 Datentyp 90 Dimension 92 DimensionalAttribute 89 DimensionalClass 88 89 DimensionalMapping 92 Dimensionshierarchie 92 FactAttribute 89 FactClass 88 89 Generalisierung 94 Klassen 88 Klassendiagramm 88 NonCompleteRollUp 92 Optionalit t 90 RollUp 92 Schl sseleigenschaft 90 SharedRollUp 92 94 Spezialisierung 94 Verbindungen 91 Verdichtungsoperator 94 Vererbung 94 Nachladen 47 Nicht vollst ndige Verdichtung 21 G346 NonCompleteRollUp mUML 92 NonCompleteRollUp MML 85 87 88 135 NonCompleteRollUp REMUS 197 200 NonDimensionalProperty MML 83 84 Normalform 104 127 G346 Multidimensionale 104 Normalisierung 45 ObjectType REMUS 121 127 132 151 176 182 183 Objektorientiertes Datenmodell 158 G346 Objektrelationales Datenmodell 159 G346 384 Index OIM 51 163 164 167 170 171 OLAP Werkzeug 15 OLTP Datenbank G347 OMG 51 Optimierungsphase 239 OptimizationAlgorithm 238 Optional REMUS 151 Optional REMUS 121 134 176 194 Partitionierung 48 Bereichs 48 Hash 48 Horizontale 48 Vertikale 48 Wertebasierte 48 Zufallige 48 Physische Optimierung 228 243 AnnotatedDimension 235 AnnotatedFactAttribute 234 235 AnnotatedLevel 235 AnnotatedSchema 234 Annotiertes Schema 228 231 234 238 239 ArchivingTask 236 Auswahlphase 230 Betr
576. tungen findet eine Zusammenfassung nach laufenden Zehnergruppen gem ICD Code statt DimensionalClass Objekt Diagnosezehnergruppe lt lt DimensionalClass gt gt Diagnosezehnergruppe Zehnergruppe Text lt lt RollUp gt gt Zehnergruppe lt lt DimensionalClass gt gt Diagnose Diagnose Text Typ ICD 9 ICD 10 Beschreibung Text lt lt Dimension gt gt lt lt Dimension gt gt lt lt Dimension gt gt Diagnose Grundleiden Todesursache Abbildung B 8 Konzeptionelle Modellierung Dimension Diagnose B 9 Dimension Diagnoseanlass Die Dimension Diagnoseanlass beschreibt die Ursache der der Diagnose zugrundeliegenden Unter suchung Zul ssige Wertepaare sind 1 Beschwerden 2 Fr herkennung 3 Arbeitsmedizinische Untersuchung 4 Nachsorge Untersuchung 5 Zufallsbefund 6 Zufallsbefund bei Autopsie 7 Sonstiges und 9 Fehlende Angabe Unbekannt 326 AnhangB Evaluation lt lt DimensionalClass gt gt lt lt Dimension gt gt A Diagnoseanlass Diagnoseanlass Bezeichnung Aufz hlungstyp Abbildung B 9 Konzeptionelle Modellierung Dimension Diagnoseanlass B 10 Dimension Diagnosesicherung Die Dimension Diagnosesicherung beschreibt die Art des Diagnosenachweises Zul ssige Wer tepaare sind l Klinisch 2 Spezielle Diagnostik 3 Zytologisch 4 Histologisch
577. typen aus dem REMUS Schema werden mit Hilfe der deterministischen Funktion Jaetpatarype Auf einen der in Abschnitt 8 2 7 vorgestellten Datentypen abgebildet der urspr ngliche Name in das Attribut domainName bernommen Das Beispiel in Abbildung 8 10 zeigt den Datentyp W hrung der auf den Typ Decimal mit der Einschr nkung auf positive Werte abgebildet wird ColumnType name Integer domainName W hrung characterType NULL columnSize NULL createParams NULL isAutoUniqueValue FALSE ware n i ane DataType isCaseSensitive FALSE W hrung ObjectType Data Type i gt isFixedLength FALSE isFixedPrecisionScale TRUE isLong FALSE isNullable FALSE isUnsignedAttribute TRUE literalPrefix NULL literalSuffix NULL maximumScale gt 0 minimumScale 0 numericPrecision gt 0 range 0 searchable TRUE timePrecision NULL Abbildung 8 10 Abbildung der Datentypen von REMUS nach LCD of SQL 8 3 Abbildung von REMUS nach LCD of SOL 183 Die zugeh rige Abbildungsvorschrift f r einen Datentyp ist in 8 9 definiert die Menge UM Lrypes bezeichne alle nach Abbildung 8 8 bzw Tabelle 8 4 m glichen Datentypen HDataTypeoreate META ObjectType DataType gt UML ypes def 8 9 HDataT ypecreate m JdetDataTyve m Die Abbildung aller Datentypen eines Schemas geschieht mittels 8 10 def M DataType R L UDataTypecreate m
578. ue Herausforderung dar 13 3 Visionen im DWS Umfeld 287 Ver nderungen in den Datenquellen durch neue operative Systeme oder Stilllegung von Altsy stemen stellen einen gro en Anspruch an den Back End Prozess Somit sind hier fortgeschrit tene Konzepte f r den Datenbewirtschaftungsprozess notwendig Es ist w nschenswert dass nderungen in den Datenquellen sowohl auf Instanz als auch auf Schemaebene an das DWH propagiert werden damit temporale Abfragen w hrend der Datenanalyse angeboten werden k nnen Somit sind Konzepte f r temporale DWHs und tem porales OLAP zu entwickeln und deren effiziente Realisierung notwendig Durch stark anwachsende Datenvolumina und steigende Komplexit t der Applikationen werden zuk nftig Benutzer nicht mehr alle f r die Entscheidungsunterst tzung notwendigen Informa tionen durch eigene Analyse ermitteln k nnen Vielmehr ist schon im Vorfeld eine koordinierte Zuteilung der Daten notwendig Dieses kann beispielsweise durch sog Informationsfilter unterst tzt werden die die Benutzer durch einschr nkende Konfigurationen vor einem Infor mations berfluss bewahren 288 Kapitel 13 Zusammenfassung und Ausblick Anh nge und Verzeichnisse Anhang A Das Beispiel Handelswelt In diesem Anhang werden die Schemata des durchg ngigen Beispiels Handelswelt aus Teil II der Arbeit zusammengefasst Zun chst wird in Abschnitt A 1 das Resultat des konzeptionellen Entwurfs sc
579. ufs ForeignID ForeignKeyType 9 Verkauf Tag ForeignID ForeignKeyType 9 Verkaufsbezirk Bezeichnung Text 4 C Verkaufsbezirk ID KeyType 3 Verkaufsbezirk Region ForeignID ForeignKeyType 5 Verkaufszahl Anzahl St ckzahlTyp 8 Verkaufszahl Artikel ForeignID ForeignKeyType 9 Verkaufszahl Ort des Verkaufs ForeignID ForeignKeyType 9 Verkaufszahl Tag ForeignID ForeignKeyType 9 Verkauftes Produkt Anzahl St ckzahlTyp 8 Verkauftes Produkt Artikel ForeignID ForeignKeyType 9 Verkauftes Produkt Einzelpreis W hrung 8 Verkauftes Produkt Gesamtpreis W hrung 8 Verkauftes Produkt Ort des Verkaufs ForeignID ForeignKeyType 9 Verkauftes Produkt Tag ForeignID ForeignKeyType 9 Woche Bezeichnung WochenTyp 4 C Woche ID KeyType 3 Metadaten Additivity Einkommen Betrag Strassenbereich Additivity Ort Einkommen Einkommen 10 gt ALL Einkommen Betrag Quartal Additivity Zeit Einkommen Einkommen ALL 10 Verkauf Betrag Ort des Verkaufs Additivity Ort Verkauf Verkauf ALL 10 Verkauf Betrag Tag Additivity Zeit Verkauf
580. ufszahl Produkt Quartal 4 Abbildung 3 24 MAC Beispielschema 3 4 Vergleich der Datenmodelle 37 Das MAC Modell stellt die wesentlichen multidimensionalen Modellierungskonstrukte zur Verf gung und bietet als einziges Modell Analysepfade an Diese erweitern jedoch nicht die M chtigkeit des Modells sondern sind eher als Instrument zur Kommunikation mit potenziellen Anwendern n tz lich Teilweise besitzt das Modell berfl ssige Konstrukte wie z B Dimensionspfad die das Lesen der Schemata eher erschweren Von zweifelhaftem Wert ist auch das ALL Konstrukt denn durch Weglassen einer einschr nkenden Bedingung auf einer Dimension erh lt man immer alle Werte die ser Dimension 3 3 7 OLAP orientierte Ans tze Neben den im letzten Abschnitt vorgestellten Modellen gibt es in der Literatur eine Reihe multidi mensionaler Datenmodelle deren Fokus nicht prim r auf statische Strukturen zielt sondern vielmehr auf die Datenmanipulation ausgerichtet ist Insbesondere sind hier die Modelle von Li und Wang LW96 von Gyssens und Lakshmanan GL97 und das Modell MADEIRA Wie00 zu nennen Da diese Modelle im Rahmen dieser Arbeit aber eine untergeordnete Rolle spielen soll auf eine vertiefte Betrachtung verzichtet werden ein vergleichender berblick findet sich in Wie00 3 4 Vergleich der Datenmodelle
581. ufszahl Ort des Verkaufs ForeignID ee UniqueKeyRole name Role of primary key of table Verkaufszahl multiplicity 1 role matchType MATCHTYPE_FULL_MATCH deleteRule REFERENTIALRULE_CASCADE initiallyDeferred TRUE UniqueKey name Primary Key of table Verkaufszahl isPrimary TRUE uniqueKey keys uniqueKeys isDeferable TRUE updateRule REFERENTIALRULE_CASCADE EEN Table name Verkaufszahl tableTypeMETA FACT columns columns columns Column Column Column name Artikel ForeignKeyID name Tag ForeignKeyID name Ort_des_Verkaufs ForeignKeyID initialValue NULL initialValue NULL initialValue NULL valueExpression NULL valueExpression NULL valueExpression NULL identityIncrement 0 identityIncrement 0 identityIncrement 0 optional FALSE optional FALSE optional FALSE Abbildung 8 14 Abbildung des Prim rschl ssels einer Fakttabelle von REMUS nach LCD of SQL MPrimary Keycreate UniqueKey Role METAPrimaryK eyarouped gt LuniqueKeyRole def HPrimaryK eycreate ee b Role of primary key of table fdetrasiename M relation name 1 FULL REFERENTIALRULE_CASCADE 8 22 REFERENTIALRULE_CASCADE TRUE TRUE ab Primary key of table fuetraste name M relation name NULL UniqueKeyRole Aktualisiert werden muss das in 8 21 erzeugte UniqueKey Objekt um den
582. ugust 1997 Athen Griechenland Seiten 126 135 Morgan Kaufmann 1997 Turau Volker Algorithmische Graphentheorie Oldenbourg Verlag M nchen Deutschland Dezember 1996 Uchiyama Hidetoshi Kanda Runapongsa und Toby J Teorey A Progressive View Ma terialization Algorithm In DOLAP 99 ACM Second International Workshop on Data Warehousing and OLAP November 1999 Kansas City Missouri USA Proceedings ACM Press 1999 Vavouras Athanasios Stella Gatziu und Klaus R Dittrich The SIRIUS Approach for Refreshing Data Warehouses Incrementally In Buchmann Alejandro P Herausgeber Datenbanksysteme in B ro Technik und Wissenschaft BTW 99 Proceedings M rz 1999 Freiburg Deutschland Seiten 80 96 1999 Vetterli Thomas Anca Vaduva und Martin Staudt Metadata Standards for Data Ware housing Open Information Model vs Common Warehouse Metamodel SIGMOD Re cord 29 3 68 75 2000 Wu Ming Chuan und Alejandro P Buchmann Encoded Bitmap Indexing for Data Warehouses In Proceedings of the Fourteenth International Conference on Data En gineering Februar 1998 Orlando Florida USA Seiten 220 230 IEEE Computer Society 1998 Wedekind Hartmut On the Selection of Access Paths in a Data Base System Database Management North Holland 1974 Westerman Paul Data Warehousing Using the Wal Mart Model Morgan Kaufmann 1 Auflage 2000 Wietek Frank Intelligente Analyse multidimensionaler Daten in ei ner
583. umn Ort_des_Verkaufs Type IN Filiale name Filialkategorie ForeignID Abbildung 8 20 Abbildung des REMUS Metadatums RollUp auf das LCD of SOL Schema Die Abbildungsvorschriften zum Anlegen der drei neuen Schemaelemente zeigen 8 66 bis 8 68 H RollUpCOreate ForeignKey META RollUp LForeignKey def HRollUpCreate ForeignKey r i Foreign key of table Jdetrastenam r dimensional RelationLower name Jdetrastenam r dimensional RelationLower name 8 66 J et stirivutename T S oreignK ey name Role of foreign key in referential constraint between tables faetrablename r dimensionalRelationHigher name and fdetraniename r dimensionalRelationLower name ForeignKey 8 3 Abbildung von REMUS nach LCD of SOL 199 HRollUpCreate ForeignKey Role META RoltUp Foreign KeyRole def KRollUporeate ForeignKeyRole r Zu 4 Role of foreign key in referential constraint between tables faetrablename r dimensionalRelationHigher name and faetrablename r dimensionalRelationLower name fdet posst patuttipticity 7 MATCHTY PE_FULL_MATCH ab Foreign key of table 8 67 Jdetrastenam r dimensional RelationLower name from table fuetrabiename r dimensional RelationHigher name ab Referential constraint between table Jaetrastenam r dimensionalRelationHigher name and fdetrablename T dimensional Relation Lower name For
584. unabh ngig von den anderen unter den Eingabebedingungen ausgewertet Im allge meinen ist die Umsetzung der gesamten Menge ausgew hlter Optimierungsm glichkeiten jedoch auf grund von Umgebungsparametern wie z B zur Verf gung stehendem Speicherplatz oder zeitlicher Restriktionen nicht realisierbar Daher schlie t sich als Phase II eine interaktive Uberarbeitungspha se der Ergebnismenge der ersten Phase durch den Benutzer an Hierbei besteht die M glichkeit f r jede in der ersten Phase ausgew hlte Optimierungsma nahme zu entscheiden ob sie auf jeden Fall realisiert werden soll nicht realisiert werden oder als Kandidat f r die Kompromissphase Phase HI dienen soll Durch diesen Interaktionsschritt kann weiteres externes Wissen in den Entwurfsprozess einflie en das nicht in den Regeln abzubilden war Ebenso ist das Szenario denkbar in den Regeln nur Herstellerangaben zur Optimierung abzulegen und an dieser Stelle im Entwurf das Wissen des Entwicklers einflie en zu lassen Schlie lich folgt als dritte und letzte Subphase ein als Kompromissphase bezeichneter Abschnitt in Die gestrichelte Linie in Abbildung 10 2 steht f r die Optimierungsma nahmen die auf jeden Fall realisiert werden sollen Diese geh ren einerseits in die Ergebnismenge andererseits m ssen sie aber auch in der Kompromissphase ber ck sichtigt werden z B beim Berechnen globaler Nebenbedingungen 10 2 Metamodell f r den physischen Datenbankentwurf 231
585. unehmen Tabelle 7 3 gibt einen berblick welche Schritte des Transformationsalgorithmus welche RE MUS Objekte erzeugen welche deterministischen Funktionen benutzen und welche tempor ren Hilfsstrukturen verwenden Als Resultat ist ein logisches Schema entstanden welches in den n chsten Schritten als Eingabe f r den physischen Entwurfsprozess dient Abschnitt 7 3 schlie lich skizziert die Transformation in nicht relationale Datenmodelle Hierbei wurden lediglich rudiment re Ideenskizzen vorgestellt Zur Verfeinerung m ssen hier f r jede der drei Zielwelten Metamodelle analog zu REMUS in der relationalen Welt definiert und dann jeweils Transformationen von MML in ein solches Metamodell vergleichbar zur Transformation 7 aus Abschnitt 7 2 definiert werden 162 Kapitel 7 Logischer Entwurf Transformation Ts nema Loi Go Gel sel Go Gol sel ai Gol Gei O ca Ico co co c co O BEEE ES S888 SEERNES INR ERRRRNNIS IUSISISISISISISIS S ISIS A SISIS ISIS S s Q Ss s S S Ss QI0 FIZA aI SIS aa EN e SEI BEE BEI i SM ERR SQ SSE i DataTypes o Dimensionale Relationen S Faktrelationen S il Attribute AggregatedAttribute bell Rs ee Computation id ConceptualKey S S Identifier ZS R e bd Identifier Value e ele Multiplicity gt ObjectType S a Optional S bd bd PrimaryK
586. ung 3 21 MD Notationselemente Abbildung 3 22 zeigt anhand des Verkaufszahlen Beispiels ein Komplettes MD Schema 3 3 Konzeptionelle multidimensionale Datenmodelle 35 S Erz a N Monat Woche 8 Marke e338 gruppe e EEN Zeit Ort Produkt Verkaufszahl Zeit Tag Ort Filiale Produkt Produkt Zahl Abbildung 3 22 MD Beispielschema Als Bewertung kann festgehalten werden dass das Schema aufgrund der geringen Anzahl der Mo dellierungskonstrukte relativ bersichtlich bleibt Das Definieren sog abgeleiteter F Tabellen die in mindestens einer Dimension eine h here Ebene als die feingranularste benutzen z B ist Geplanter Absatz Zeit Monat Ort Filiale Produkt Produkt Zahl m glich erlaubt die gemeinsame Ver wendung von Dimensionen f r verschiedene F Tabellen Andererseits k nnte diese M glichkeit auch zu einer Vorwegnahme physischer Entwurfsentscheidungen in Form von Materialisierungen f hren Das fehlende graphische Symbol f r F Tabellen macht die Fakt Dimensions Zusammenh nge op tisch nicht klar andererseits kann ein Schema relativ kompakt dargestellt werden 3 3 6 MAC Multidimensional Aggregation Cube Das in TKSO1 vorgeschlagene Modell MAC Multidimensional Aggregation Cube beschreibt Da ten wie folgt Dimensionsebenen stellen m gliche Verdichtungen der Diskurswelt dar verschiedene Dimensionsebenen k nnen durch Drillingbeziehungen miteinander v
587. ung von Generali sierungen und Spezialisierungen verwendet Das Konstrukt darf gem der Wohlgeformtheitseigen schaften aus Abschnitt 6 1 8 jedoch nur zwischen Klassen mit demselben Stereotyp genutzt werden da es ansonsten m glich w re eine FactClass Klasse von einer DimensionalClass Klasse abzuleiten Dar ber hinaus m ssen Generalisierungen zyklenfrei sein Wohlgeformtheitseigenschaft WF ZF3 Ein Beispiel war in Abbildung 6 15 zu sehen 6 2 4 Verdichtungsoperatoren Die Freigabem glichkeit f r Verdichtungsoperatoren die in der MML die allowedOperators Eigenschaft der SharedRollUp und Additiviry Metaklasse bereitstellt wird in der UML Notation durch eine entsprechende Elementeigenschaft dargestellt Der Wert dieser Eigenschaft enth lt eine Liste von Attribut Operator Zuordnungen die jeweils f r ein Attribut die erlaubten Verdichtungs operatoren festlegen und folgenden allgemeinen Aufbau besitzen Attributname Operator Operators Operator F r Kompositionsbeziehungen zwischen zwei FactClass Klassen und die zu FactClass Klassen ge h renden Dimension Verbindungen kann die Elementeigenschaft Informationen dar ber enthalten welche Operatoren f r welches Attribut freigegeben sind Eine m gliche Zuweisung ist allowed Operators Attributl sum max min Attribut sum Attribut3 sum max die u a f r das Attribut Attribut die Verdichtungsoperatoren sum max und min freigibt
588. ungen k nnen unterschiedliche Typen realisiert werden Da auch Unterklassen Ausgangspunkt einer Verdichtung sein k nnen sind spezielle Verdichtungen f r spezielle Typen m glich Insbesondere sollten auch optionale Dimensions attribute definiert werden k nnen Attribute k nnen als optional gekennzeichnet wer den Tabelle 6 6 Datenmodellanforderungen an Dimensionen und ihre Erf llung in der MML Dar ber hinaus ist die MML eine objektorientierte Sprache was folgende Vorteile mit sich bringt Durch den Einsatz der Objektorientierung wird gr tm gliche Unabh ngigkeit vom Zielsystem erreicht Durch die Vielfalt der objektorientierten Konstrukte lassen sich viele Aspekte in nat rlicher dem Benutzerdenken nahen Weise modellieren Objektorientierte Schemata lassen sich einfacher in verteilte Objekt und Komponentenframe works einer organisationsweiten Entscheidungsunterst tzung integrieren Es bleibt die M glichkeit offen weitere Methoden der UML wie z B Use Cases oder Inter aktionsdiagramme in die Modellierung einzubeziehen Aufbauend auf der MML k nnen verschiedene graphische Notationen Anwendung finden wobei in Abschnitt 6 2 mit der UML exemplarisch eine Erweiterung der UML vorgenommmen wurde wobei als wesentliches Instrument zur Erweiterung das der UML inh rente Konzept der Stereotype verwendet wurde Als Hilfsmittel zur korrekten Anwendung von MML und UML wurde in Ab schnitt 6 3
589. ungsoperatoren 9 2 Komplexe Operatoren 9 3 Verfeinerungsalgorithmen 9 4 Zusammenfassung INHALTSVERZEICHNIS 10 Physische Datenbankoptimierung 10 1 berblick und Ablauf oaa 10 2 Metamodell f r den physischen Datenbankentwurf 10 3 Formalisierung des Entwurfsprozesses 10 4 Beispiel o soiien EE 3 03 AG eh ee ale a ek Se a od 10 5 Zusammenfassung 4 2 a ee he a eee ana a III Implementierung und Evaluation 11 ODAWA Eine Implementierung der Entwurfsmethodik 11 1 Konzeption 2 62 4 22 222 RoR ee a ne are 11 2 Architektur 2 2 4 8 Aer d ee Ba rar rein 11 3 Konkrete Umsetzung 11 4 Graphische Benutzungsoberfl che 2 2 Cm m nn nen 11 5 Zusammenfassung 2 ia p a aE E E E A a 12 Evaluation 12 1 Epidemiologisches Krebsregister Niedersachsen 12 2 Anwenden der Entwurfsmethodik oaaao aaa a 12 3 Das realisierte System ODAWA EKN e 12 4 Weitere Aspekt 12 5 Zusammenf ss ung s 3 ur aan RS Bea ET ren nah er A IV Zusammenfassung und Ausblick 13 Zusammenfassung und Ausblick 13 1 Erreicht Ziele 2 ade fe le we Oke here le 13 2 Erweiterungen der Methodik 13 3 Visionen im DWS Umfeld Anh nge und Verzeichnisse A Das Beispiel Handelswelt Al MME Schema ee a we ne as ae AL IREMUS Schema a 2 2 ek ee ee as hehe A 3 LCDofSOL Schema 2 2 CC om nme 227 227 231 239 241 247 249 253 253 255 256 259 263 265 265 268 276
590. unique KeyRole Kaale UniqueKeyRole ForeignKeyRole deleteRule ReferentialRule i schema initiallyDeferred Boolean roen z hem isDeferable Boolean TableConstraint Ee updateRule ReferentialRule schema name String Er 0 constraints e Ke u schema ColumnConstraint tables 0 table u or constraints 0 A Table table unique S i uniqueKey Key foreign foreign tableTypeMETA String lo al ey aggregated detail UniqueKey 7 ForeignKey isPrimary Boolean V ColumnSet FP estimatedRows Double CompositionMETA estimatedSize Double Key name String name String _ multiplicity MultiplicityRange projectGrowthPeriod TimePeriod name String projectGrowthRate Double 0 keys Keys columnSet AdditivityMETA name String 1 column 1 columns allowedOperators OperatorSet 1 Mae Column columns ordered o E g_ identityIncrement Integer Gun optional Boolean 0 1 type resur lueExpression Expression TIRE R HEX ColumnType characterType CharacterType columnSize Long V createParams String Attribut domainName String ttribute isAutoUniqueValue Boolean initialValue Expression isCaseSensitive Boolean name String isFixedLength Boolean isFixedPrecisionScale Boolean isLong Boolean isNullable Boolean MappingMETA isUnsignedAttribute Boolean name String literalPrefix String type MappingType literalSuffix String all
591. unktion bedeutet das De finieren erstmalige Auftreten in diesem Schritt Ein in Klammern gesetzter Punkt besagt dass die entsprechende Funktion in diesem Schritt auftritt aber bereits in einem fr heren Schritt der Transformation festgelegt worden ist 8 4 Zusammenfassung 211 REMUS Kategorie A Metadaten Kategorie B Metadaten dnmoaps1eys dnnoa Zurddepyfeuorsusung uorsuvwq uontsodurod UONEIIOSSY Knan ppV PITEA SIUSIIJOAU AoyAreunid jeuondg adAppoalqo Ayordny ny onyeA Joy nuep opman Aayjfendasuoy uonenduoy ayng y vpareZaIssvy Objekte BEID UU PNL u9uoneJoNy euorsuvwq sodALeeq Schritt 5 Konzeptionelle Schl ssel Schritt 6 Berechnete Attribute Schritt 7 Identifier Value Valid Schritt 8 Optionale Attribute Schritt 1 Datentypen anlegen Schritt 9 Multiplizit t Schritt 2 Tabellen anlegen Schritt 3 Attribute anlegen Schritt 4 Prim rschl ssel Schritt 10 Dimensionspfade Schritt 13 DimensionalMapping Schritt 14 Assoziationen Schritt 11 Additivit t Schritt 12 SharedRollUp Schritt 15 Kompositionen W PqIEIE u g jue USJEPEIYOTA ayelqo V a108a e J Uoyroqieqe UaIEDEIOIN g 31103378 DUIS A SNUIYFLIOSJESUOLBULIOFSUBAL Tabelle 8 8 Transformationsschritte und genutzte REMUS Objekte 212 Kapite
592. unterhalb der Objektschicht angesiedelte Mappingschicht sorgt f r die Abbildung dieser objekt orientierten Modelle auf die Speicherstrukturen des Repository Diese Mappingschicht greift jedoch nicht direkt auf das Repository zu vielmehr wird dieses durch eine weitere DB Zugriffsschicht ge kapselt Die oberhalb der Objektschicht liegende algorithmische Schicht realisiert die Transformatio nen und Abbildungen zwischen den verschiedenen Metamodellen und stellt das Framework f r die physische Optimierung zur Verf gung Ebenso ist in dieser Schicht eine Komponente zu finden die die Abbildung zwischen der graphischen Repr sentation und der MML als Sprache der konzeptionel len Modellierungsebene vornimmt Die Front End Komponenten setzen sich aus einem graphischen Editor zur Modellierung der kon zeptionellen Schemata und dem Entwurfswerkzeug im engeren Sinne zusammen Dieses bietet eine Reihe von Masken an die den Dialog mit dem Benutzer erm glichen um z B Interaktionen im Entwurfsprozess vorzunehmen Dokumentationen zu erzeugen oder die Resultate von Reviews zu verwalten 11 3 Konkrete Umsetzung Als Repository kam der Microsoft SQL Server 2000 zum Einsatz Diese Wahl ist durch die Anleh nung der Metamodelle an das OIM und die urspr nglich mit dem SQL Server 2000 ausgelieferte Implementierung des OIM begr ndet Als graphischer Editor zur konzeptionellen Modellierung wird die Professional Edition von Rational Rose98 in der Version 4 5 eingesetz
593. updateSet Table M T Ge U HPrimaryKeyupdate Table M t teT MPrimary eur pdateSet Column METAPrimaryKeycrouped x Pot Lcolumn wi Pot Lcolumn def HPrimaryKeyvpdateSet Column M C U H PrimaryK eyupdate Column M c cEC 8 28 Damit ergibt sich f r das Anlegen aller Prim rschl ssel eines Schemas M PrimaryKey R XLX METAPrimaryKeygrouped gt L d M PrimaryKey R L M Si L U Primary KeyCreate UniqueKey M U Primary KeyCreate UniqueKey Role M 8 29 OuniqueK ey OTable OCotumn U KPrimaryK EYUpdateSet UniqueKey M Oy niqueK ey U UPrimaryKeyy pdateset Tabie M OTable U UPrimaryKeyy pdateset Column M Ocolumn 8 3 7 Schritt 5 Konzeptionelle Schl ssel anlegen Die Abbildung konzeptioneller Schl ssel erfolgt hnlich zu der von Prim rschl sseln F r zu sammengeh rige ConceptualKey Metadaten d h f r eine Teilmenge bei denen der Wert in der 8 3 Abbildung von REMUS nach LCD of SOL 189 ersten Komponente gleich ist wird als eindeutiger Schl ssel ein UniqueKey Objekt angelegt Im Gegensatz zu einem Prim rschl sel in Schritt 4 wird jedoch das Attribut isPrimary auf FALSE gesetzt Auch wird f r konzeptionelle Schl ssel kein UniqueKeyRole Objekt angelegt weil mit Hilfe konzeptioneller Schl ssel keine Referenzen gebildet werden Die zugeh rige Tabelle und Spalten sind bereits in den Schritten 2 und 3 angelegt worden es m ssen jetzt lediglich die Referenzen aktuali
594. urch ihren Namen eine Beschreibung und Angabe einer Metrik definiert sind Jedes Krite rium kann durch ein oder mehrere Messverfahren Objekte der Klasse MeasuringMethod bestimmt werden Ein MeasuringMethod Objekt ist durch seinen Namen und eine Beschreibung definiert und enth lt zus tzlich die Attribute automateable gibt an zu welchem Grad das Verfahren automati sierbar ist autoDescription gibt im Falle der Automatisierbarkeit das Vorgehen an und objectivity bewertet wie objektiv subjektiv dieses Messverfahren ist Zul ssige Werte zur Beschreibung des Automatisierbarkeitsgrades sind Ja Nein und Bedingt Der Grad der Objektivit t kann mit einem der vier Werte Objektiv Relativ Objektiv Subjektiv und Relativ Subjektiv bewertet werden Aus einem oder mehreren Kriterien setzt sich ein ReviewType zusammen Hierbei ist mittels der Asso ziationsklasse ReviewTypeCriterion f r jedes der Kriterien ein Gewicht Attribut weight das gew hl te Messverfahren Referenz measure auf die Klasse MeasuringMethod und optional ein minimaler Schwellwert Attribut minimum zu definieren Ein Unterschreiten dieses Wertes soll ein Scheitern des gesamten Reviews zur Folge haben d h es handelt sich hierbei um ein K O Kriterium Ein solcher ReviewType kann als Basis mehrerer Reviews dienen die konkreten Messwerte werden als Objekte der Klasse MeasuredValue verwaltet Die rekursive Beziehung der Review Metaklasse erm
595. utzt Jedoch ist gerade bei Altsystemen die solche Dienste i Allg nicht anbieten Snapshot Monitoring h ufig die einzige anwendbare Technik zur Entdeckung von nderungen im Datenbestand 2 2 2 Extraktionskomponenten Die Extraktionskomponente einer an ein DWS angebundenen Datenquelle ist f r die bertragung von Daten in den Transformationsbereich verantwortlich Je nach verwendeter Monitoring Strategie siehe Abschnitt 2 2 1 gestaltet sich die Extraktion sehr unterschiedlich Bei der Trigger basierten Variante sind die ge nderten Tupel aus den entsprechenden Dateien auszulesen bei Verwendung der Replikationsdienste k nnen sie per SQL Anfrage aus den Replikationstabellen selektiert werden Die zeitstempelbasierte Variante erfordert lediglich die Selektion von Tupeln anhand ihres Zeitstem pels Bei der Log bzw Snapshot Variante h ngt das Vorgehen von der gew hlten Umsetzung der Log Analyse bzw des Snapshot Vergleichs ab Werden die als ge ndert identifizierten Tupel bei spielsweise in eine Datei geschrieben so ist diese Datei zu importieren Eine grundlegende Entscheidung besteht in der Festlegung welche Datenquellen bzw Ausschnitte daraus in ein DWS zu integrieren sind Diese Selektion h ngt stark von der inhaltlichen Relevanz der Datenquellen f r die geplanten Auswertungen sowie von der Qualit t der Quelldaten ab Bei der Extraktion werden die selektierten bzw durch das Monitoring als ge ndert identifizierten Daten aus den quell
596. version String Zen GlobalTimeConstraint rules 0 Rule GeneralGlobalConstraint name String priority CARDINAL thenPart TuningAction Umgebung und Regeln TuningActionCost Workload expression ExpressionType name String type TypeOfCostType TaskTuningActionSet Tal EE WeightOfTask 1 type TypeOfCostType weight Integer TuningAction Zn alles expression MethodCallType VE type TuningActionType 0 name String 1 I tuningActions A ReadingTask InOutTask TuningActionSet levels SET OF AnnotatedLevel number Long name String period TimePeriod timeSlot Long E AN Optimierungsma nahme Aufgaben und DEE Workload LoadingTask ArchivingTask name String type SchemaType gt annotated AnnotatedDimension Dimensions 7 annotated o name String 0 FactAttributes type DataType AnnotatedFactAttribute ape changeabilityElorsi i name String type DataType ee estimatedSize Double Ue estimatedRows Double rollUp AnnotatedLevel projectGrowthRate Double K N SEET projectGrowthPeriod ei Annotiertes nalen a Double projectDecreaseRate Double S A ar projectDecreasePeriod TimePeriod Schema 0 estimatedObjects Double drillDown TuningActionType TypeOfCostType ConditionType name String name String ExpressionType name String expression String name String Z keni expression String entmer e TaskConditionType name String ee validForExpression BOOLEAN val
597. visuellen Programmierumgebung und deren Anwendung in der Krebsepidemiologie Dissertation Universit t Oldenburg Deutsch land Fachbereich Informatik Verf gbar unter http docserver bis uni oldenburg de publikationen dissertation 2000 wieint00 wieint00 html M rz 2000 Winter Robert Data Warehousing Beyond Tools and Data Justification Organization and Structured Development of Data Warehousing Applications In Proceedings of 3rd Internatl Conference on Business Information Systems BIS 99 April 1999 Posen Polen Seiten 125 134 1999 Literaturverzeichnis 365 Wo099 Wor01 YG98 YKL97 ZDN97 ZGHW95 ZS99 Wood Chuck OLE DB and ODBC Developer s Guide IDG Books Worldwide 1999 World Wide Web Consortium W3C Sematic Web http www w3 org 2001 sw Sep tember 2001 Yellen Jay und Jonathan L Gross Graph Theory amp Its Applications CRC Press De zember 1998 Yang Jian Kamalakar Karlapalem und Qing Li Algorithms for Materialized View De sign in Data Warehousing Environment In Jarke Matthias Michael J Carey Klaus R Dittrich Frederick H Lochovsky Pericles Loucopoulos und Manfred A Jeusfeld Herausgeber VLDB 97 Proceedings of 23rd International Conference on Very Large Data Bases August 1997 Athen Griechenland Seiten 136 145 Morgan Kaufmann August 1997 Zhao Yihong Prasad Deshpande und Jeffrey F Naughton An Array Based Algorithm for Simultaneous
598. von Element bzw ModelElement aus dem UML Core das Attribut name mit dem der Name einer Instanz festgelegt wird Aus Gr nden der bersichtlichkeit wurde auf das Einzeich nen dieser gemeinsamen Basisklassen in Abbildung 8 2 verzichtet das geerbte Attribut ist jedoch bei den einzelnen Metaklassen aufgef hrt Auch sind bei den Auflistungen von Oberklassen nur diejeni gen aus diesem Schema dargestellt und nicht die aus anderen Informationsmodellen des OIM bzw der UML geerbten An den Stellen an denen aus diesen Quellen wichtige Attribute oder Beziehungen vererbt werden werden diese jedoch explizit genannt 8 2 Das relationale Metamodell LCD of SQL 165 Constraints Bl Referential S Referential Intearit JoinRole Constraint Sonsirait integrity oe i multiplicity MultiplicityRange body Expression 1 typeMETA RefConsType name String name String constraint typesPK StringSet A a typesFK StringSet 0 referential 0 constraints z DBConstraint Constraints ReferentialRole constraints Join matchType MatchType i name String foreign
599. welt 109 Schritt 5 Finde zu jeder Faktklasse Dimensionen Aus den Anforderungen ergibt sich dass das Verkaufte Produkt durch das Produkt und der Verkauf durch den Ort und die Zeit qualifizierend beschrieben werden Die Anzahl verkaufter Produkte erh lt die Dimensionen Zeit Ort und Produkt Das Einkommen wird durch den Ort und die Zeit genauer beschrieben so dass sich zusammenfassend die in Abbildung 6 29 gezeigten Dimensionen ergeben In dieser Abbildung sind die Dimensionen pro Faktklasse dargestellt Ob tats chlich eine gemeinsame Zeit oder Ort Dimension benutzt wird wird erst im folgenden Schritt entschieden Dann werden auch die Namenskonflikte in Form mehrerer Dimensionen mit gleichem Namen aufgel st b bg lt lt Dimension gt gt f P i Zeit P Ben Be lt lt Dimension gt gt ei r lt lt FactClass gt gt Ort EE lt lt FactClass gt gt Verkauf D Ion gt gt Betrag W hrun Produkt Verkaufszahl g g Anzahl St ckzahlTyp lt lt Compostion gt gt Verkauftes Produkt 0 lt lt FactClass gt gt lt lt Dimension gt gt Verkauftes Produkt Zeit Anzahl St ckzahlTyp Einzelpreis W hrung lt lt FactClass gt gt Gesamtpreis W hrung formula Anzahl Einzelpreis Einkommen parameter Anzahl Einzelpreis Betrag W hrung lt lt Dimension gt gt lt lt Dimension gt gt P
600. werden stellt werden KI S E Hierarchiestruktur Baumstruktur DAG DAG E 5 Sonstige Beziehungen 2 S zwischen Hierarchieebe Wird nicht unterst tzt Wird nicht unterst tzt Wird nicht unterst tzt A nen Werden durch Baumstruktur Werden durch DAG unter Werden durch DAG unter Mehrfachhierarchien S h 5 unterst tzt st tzt st tzt Alternative Verdich Sind aufgrund der Baum Werden durch DAG unter Werden durch DAG unter tungspfade struktur nicht erlaubt st tzt st tzt Anteilige Verrechnung Wird nicht unterst tzt Wird nicht unterst tzt Wird nicht unterst tzt Schl sselattribute Hierarchieebenen werden als Hierarchieebenen werden als Moelich abstrakte Objekte behandelt abstrakte Objekte behandelt amp 5 Werden pro Hierarchieebene Werden pro Hierarchieebene Werden pro Hierarchieebene Dimensionsattribute 1 angegeben angegeben angegeben 2 Unbalancierte Hierarchi K nnen im Schema nicht mo K nnen im Schema model K nnen im Schema model a en delliert werden liert werden liert werden EI N iedli jekt 5 N Obiski Sind nicht vorgesehen Sind nicht vorgesehen Sind nicht vorgesehen N Werden im Schema markiert Op toiale D mensionsat es erfolgt Je doch K Se Aiga Sind nicht vorgesehen Sind nicht vorgesehen tribute be wann ein Attribut optional ist Tabelle 3 2 Eigenschaften der konzeptionellen Datenmodelle II ODimensionsattribute werden im Dimensional Fact Model als non dimensional attri
601. wichtige Rolle spielen werden sie separat in Abschnitt 5 2 behandelt 2 5 1 DWS Manager Der DWS Manager ist ein Administrationswerkzeug das f r die Steuerung und berwachung der einzelnen im DWS stattfindenden Prozesse zust ndig ist Dazu koordiniert er insbesondere das Zu sammenspiel der beteiligten Komponenten inklusive einer angemessenen Ausnahme und Fehler behandlung Da Daten blicherweise im Batch Betrieb integriert werden w re es unpraktikabel den gesamten Integrationsprozess bei Vorliegen einer Ausnahme oder eines Fehlers anzuhalten und erst nach Behebung des Problems fortzusetzen zumindest solange das Problem lokal begrenzt ist z B im Falle der Integrit tsverletzung eines Datensatzes Stattdessen wird eine Protokollierung des Problemfalls vorgenommen und der Integrationsprozess fortgesetzt Datens tze bei denen Proble me aufgetreten sind k nnen dann sp ter manuell nachbearbeitet werden Nur f r den Fall dass die Anzahl der Ausnahmen bzw Fehler ein zuvor definiertes Limit bersteigt oder der Schweregrad des Problems eine Fortsetzung der Integration nicht zul sst z B Hardware Fehler oder fehlerhaftes Da tenformat wird der Prozess abgebrochen Dabei muss der DWS Manager ein geregeltes Anhalten und Wiederaufsetzen von Prozessen sicherstellen Weitere Aufgaben des DWS Managers sind die Unterst tzung des DWS Administrators bei der Prozessplanung und die Kommunikation mit dem DWS Administrator w hrend der Prozess
602. wurf 55 Architektur Babelfish 2 2 57 Architektur MetaMIS 58 WanD Warehouse Integrated Designer e 58 Ableitung initialer DWH Schemata aus operativen Schemata 59 DWH Entwurf mit Transformationsprimitiven e 60 Vorgehen nach Cabibbo und Torlone 61 Einordnung des Schrittes in den Entwurfsprozess e 73 Begriffsbildung Metaklasse Klasse Objekt 75 Vererbungshierarchie des MML Metaklassendiagramms 76 MML Metaklassendiagramm 2 77 Wurzelelement und Hilfsmetaklassen GeneralizableElement und ClassElement 78 MML Multidimensionaler Kontext e 80 MML Datenelemente 2 CC Comm nen 81 MML Allgemeine Verbindungen 0 20 20 0000000048 81 MME meet Ae 2 2 808 2 Bs RG ern ORAS ae a 82 MME lettre aa ae aa Ra En 83 MML PropertyConnection 84 MML DimensionalMapping 86 MML SharedRollUp 86 mUML Darstellung von Klassen 2 2 89 Abbildungsverzeichnis 6 15 6 16 6 17 6 18 6 19 6 20 6 21 6 22 6 23 6 24 6 25 6 26 6 27 6 28 6 29 6 30 6 31 6 32 6 33 6 34 6 35 6 36 6 37 7 1 7 2 7 3 7 4 7 5 7 6 UR 7 8 7 9 7 10 mUML Darstellung von abstrakten Klassen und Vererbung zwischen Klassen 89 mUML Darstellung von Attributen e 90 mUML Darstellung von Schl sseln 91 mUML FactClass Instanz mit abgeleitetem Attribut e 91 mUML Assoziationen zwischen zwei klassen 92 mUML Dimension und Roll Up Beziehungen e 93 mUML D
603. wurfs vorgenommen siehe Abbil dung 9 1 indem das im letzten Kapitel erstellte LCD of SOL Schema umstrukturiert wird Ziel dieser Umstrukturierung ist es in Abh ngigkeit vom Zielsystem ein f r die Datenanalyse optimales Schema zu erhalten Multidimensionale Modellierung 6 2 6 3 2 6 3 m UML Diagramm Abbildung auf die MML 6 1 Konzeptionell MML Schema Review 6 4 MML Schema qualitatsgesichert Transformation T 7 Logisch REMUS Schema Transformation in initiales Datenbankschema 8 DB Schema unabh ngig Systemabhangige Verfeinerung 9 Physisch DB Schema systemabh ngig Physische Optimierung 10 DB Schema systemabh ngig optimiert Abbildung 9 1 Einordnung des Schrittes in den Entwurfsprozess Dazu werden zun chst in Abschnitt 9 1 Operatoren f r ein LCD of SOL Schema definiert mit de ren Hilfe Objekte und deren Attribute sowie Referenzen gelesen und ver ndert werden k nnen In Abschnitt 9 2 werden algorithmische Aspekte pr sentiert welche in Kombination mit den Elementar operationen die M glichkeit zur Bildung komplexer Operatoren bilden Unter Verwendung von ele mentaren und komplexen Operatoren sowie den algorithmischen Elementen lassen sich schlie lich Verfeinerungsalgorithmen definieren Das im bisherigen Entwurfsprozess entstandene Schema ist vom Typ Schneeflocke mit Surrogaten siehe auch Abschnitt 4 2 In Abschnitt 9 3 wird exempla risch zun chst die Umformung in ein Sternschema mi
604. x Data In Proceedings of the 15th International Conference on Data Enginee ring ICDE M rz 1999 Sydney Australien Seiten 336 345 IEEE Computer Society 1999 Literaturverzeichnis PMR99 PS94 QW97 Rah94 Rah01 Rat97a Rat97b Rat99a Rat99b Rau97 RG94 Ris92 Ris93 RL85 RMF 00 Peralta Veronika Adriana Marotta und Raul Ruggia Designing Data Warehouses Through Schema Transformation Primitives In Conceptual Modeling ER 99 18th International Conference on Conceptual Modeling Demonstration and Posters ER 99 Proceedings November 1999 Paris Frankreich Seiten 13 14 1999 Pagel Bernd Uwe und Hans Werner Six Software Engineering Addison Wesley Bonn Deutschland 1994 Quass Dallan und Jennifer Widom On Line Warehouse View Maintenance In Peck ham Joan Herausgeber SIGMOD 1997 Proceedings ACM SIGMOD International Conference on Management of Data Mai 1997 Tucson Arizona USA Seiten 393 404 ACM Press 1997 Rahm Erhard Mehrrechner Datenbanksysteme Addison Wesley Bonn Deutsch land 1 Auflage 1994 Rahm Erhard Vorlesungsskript Data Warehouse Institut fiir Informatik Universitat Leipzig Leipzig Deutschland April 2001 Rational Software Corporation und UML Partners Object Constraint Language Specifi cation Version 1 1 Object Management Group OMG Document ad 97 08 08 Septem ber 1997 Rational Software Corporati
605. y This is due to the fact that operational systems are developed to support specific standardized business transactions while the data warehouse has to support ever changing individual decisions in a dynamic business setting Win99 Dies zeigt dass die heutige Praxis des DWH Entwurfs aufgrund des bernehmens existierender Ent wurfsmethodiken h ufig defizit r ist u a wird die konzeptionelle Modellierung stiefm tterlich behandelt werden physische Optimierungsma nahmen meistens isoliert betrachtet anstatt in Kosten Nutzenanalysen systematisch koordiniert zu werden wird die Koordination des Metadatenmanagements durch Verwendung propriet rer lokaler Re positories nicht umfassend genug gehandhabt weisen existierende Werkzeuge eine geringe Offenheit in Form von Schnittstellen auf fokussieren existierende Ans tze auf genau ein Zielsystem Die folgenden Ergebnisse verschiedener Studien sollen diesen Zustand belegen So scheitern laut ei ner Studie der Meta Group in der Praxis viele Projekte vollst ndig und 40 aller auf diesem Gebiet angesiedelten Projekte sind als teilweise gescheitert zu klassifizieren Met99b In Dat99 hat das Unternehmen DATA MART Consulting in Zusammenarbeit mit der TU Darmstadt 3In dieser Dom ne ist auch das Beispiel der im Rahmen dieser Arbeit durchgef hrten Evaluation angesiedelt 1 2 Motivation eine Studie erarbeitet in der Theorie und Realit t bei bereits realisier
606. ype IN Filiale Kaufhaus ID PKTyp Abbildung 9 6 Handelswelt Spalten und Tabellenconstraints 222 Kapitel 9 Verfeinerung des Schemas Weiterhin besitzen die dimensionalen Tabellen jeweils einen konzeptionellen Schl ssel In der Tabelle Artikel ist es das Attribut Artikelcode in Stadt das Attribut PLZ und in allen anderen Tabellen jeweils das Attribut mit dem Namen Bezeichnung Abbildung 9 7 zeigt die entsprechende Notation Artikel ID PKTyp Stadt Artikelcode ArtikelcodeTyp Region_FK FKTyp Bezeichnung Text Verkaufsbezirk_FK FKTyp Produktgruppe_FK FKTyp Bezeichnung Text PLZ PLZTyp ID PKTyp Unique Key Artikelcode Unique Key PLZ Filialoberkategorie Bezeichnung Text ID PKTyp Unique Key Bezeichnung Abbildung 9 7 Handelswelt Konzeptionelle Schl ssel 9 3 2 Sternschema mit Surrogaten Das in diesem Abschnitt vorgestellte Schema ist ein Sternschema mit Surrogaten d h im Unterschied zum Ausgangsschema aus dem letzten Abschnitt sind alle Tabellen innerhalb einer Dimensionen zu einer Tabelle denormalisiert Die Verbindung zwischen einer solchen dimensionalen Tabelle und einer Fakttabelle wird ber ein Surrogat realisiert Zur Umformung eines Schneeflockenschemas mit Surrogaten in ein Sternschema mit Surrogaten dient der Algorithmus 9 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
607. ype MetaklasseDataType MML DataType MML elementare Datentypen festgelegt so dass keine weiteren Strukturierungsmittel wie bei spielsweise Generalisierungen erlaubt sind Das von der MMLElement Basismetaklasse geerbte na me Attribut enth lt den Namen des Datentyps Durch die Beziehung zur Association Metaklasse kann einer Assoziation zwischen zwei MMLElement Instanzen eine DataElement Instanz f r die Speicherung weiterer das Association Objekt erg nzender Daten genutzt werden 6 1 MML Multidimensional Modeling Language 81 NonDimensionalProperty property Dat isOptional Boolean A FactAttribute DimensionalAttribute DataAttribute T FH attribute 10 1 owner DataType DataClass Association enaAMultipichiy Multiplicity V 1 STERN eh Gd attribute DataElement type endBName Name Abbildung 6 7 MML Datenelemente 6 1 6 Allgemeine Verbindungen Die ConnectionElement Metaklasse bildet den Ausgangspunkt f r alle Verbindungsm glichkeiten zwischen Schemaelementen in einem MML Schema Der f r diesen Abschnitt relevante Teil des MML Metaklassendiagramms ist in Abbildung 6 8 zu sehen ClassElement ConnectionElement endB gu ClassConnection Generalization 1 endA 1 connectionB 0 connectionA E specializati
608. yte Warehousing mit Oracle In Scherrer W Herausgeber Vortragsband zur 12 Jahrestagung der Deutschen Oracle Anwender Konferenz 1999 DOAG99 Seiten 324 333 Fellbach Deutschland November 1999 B hnlein Michael und Achim Ulbrich vom Ende Using the Conceptual Data Models of the Operational Information Systems for the Construction of Initial Data Warehouse Structures In Sinz Elmar J Herausgeber Proceedings der MobiS Fachtagung 1999 Bamberg Deutschland Oktober 1999 B hnlein Michael und Achim Ulbrich vom Ende Deriving Initial Data Warehouse Structures from the Conceptual Data Models of the Underlying Operational Information Systems In DOLAP 99 ACM Second International Workshop on Data Warehousing and OLAP November 1999 Kansas City Missouri USA Proceedings Seiten 12 16 ACM Press 1999 Becker J rg Lars Ehlers und Reinhard Sch tte Grunds tze ordnungsm iger Modellierung Konzeption Vorgehensmodelle technische Realisierung Nutzen http www wi uni muenster de is mitarbeiter isresc resc_Statutstagung pdf 1998 Beeri Catriel Anna Formica und Michele Missikoff Inheritance hierarchy design in object oriented databases Data amp Knowledge Engineering Journal DKE 30 3 191 216 Juli 1999 Bauer Andreas und Holger G nzel Herausgeber Data Warehouse Systeme Archi tektur Entwicklung Anwendung dpunkt Verlag 2001 Becker J rg und Roland Holten Fachkonzeptuelle Spezifikation von
609. zeptioneller Entwurf Im Bereich Multidimensionaler Kontext werden mit FactClass und DimensionalClass die f r die mul tidimensionale Modellierung charakteristische Unterscheidung qualifizierender und quantifizierender Daten vorgenommen Diese beiden Metaklassen sowie die komplexe Datentypen anbietende Meta klasse DataClass erben von der gemeinsamen Oberklasse ClassElement die Eigenschaft der Klasse und somit die F higkeit Vererbungen aufbauen zu k nnen Die Verkn pfungen zwischen gleich oder verschiedenartigen Schemaelementen werden durch In stanzen von Unterklassen der ConnectionElement Metaklasse realisiert Hierbei wird nochmals zwi schen Allgemeinen Verbindungen und auf den multidimensionalen Kontext ausgerichteten Properties unterschieden W hrend die Allgemeinen Verbindungen typische objektorientierte Konstrukte wie z B Generalisierung Assoziation und Komposition zur Verf gung stellen dienen die im Bereich Properties definierten Metaklassen der Darstellung multidimensionaler Sachverhalte z B dem Auf bau von Hierarchiestrukturen Abbildung 6 4 zeigt neben den eigentlichen Metaklassen auch die zugeh rigen Metadatentypen For mulaExpression Multiplicity Name und OperatorSet W hrend FormulaExpression und Name ledig lich Zeichenketten darstellen enth lt eine Multiplicity Instanz eine Menge verschiedener Multiplizi t tsangaben der Form min max die als min max geschrieben werden Die maximale Multiplizi t t da
610. ziationsrolle Rotation Umfasst das Drehen eines Datenwiirfels so dass dem Benutzer eine spezifische Sicht angezeigt wird Zudem beinhaltet der Begriff das Ein und Ausblenden von Dimensionen Beim Ausblenden einer Dimension werden die dargestellten Daten geeignet verdichtet siehe TAggregation Satz Ein ist eine logische oder physische Einheit von Daten Schema Die mit den Mitteln eines Datenmodells festgelegte Struktur einer Datenbank Schl ssel Attribut oder Attributkombination womit Elemente Entit ten oder Objekte in einer Menge von Elementen ausgezeichnet werden k nnen Schneeflockenschema Relationale Repr sentation multidimensionaler Daten wobei diese in Fakt und Dimensionstabellen gespeichert werden und die Dimensionstabellen normalisiert sind Sicht Spezifischer Ausschnitt der Daten einer Datenbank Slice and Dice Benutzergesteuerte Erforschung eines Datenbestandes Der Anwender kann w h rend dieses Vorganges Teile eines tDatenwiirfels selektieren Datenwerte taggregieren oder transformieren unterschiedliche tDatenw rfel miteinander verkn pfen oder einen W rfel aus verschiedenen Perspektiven betrachten Spezialisierung Definition einer neuen Klasse als Unterklasse einer oder mehrerer anderer Klas sen tOberklassen Aufgrund der tVererbung besitzt die neue Klasse alle Merkmale ih rer Oberklassen In ihrer tKlassendefinition k nnen jedoch zus tzliche Merkmale definiert tErweiterung oder geerbte
611. ziehungen Innerhalb der DimensionalClass Instanzen einer Dimension sind Hierarchiepfade zu bil den Dabei ist f r jede Beziehung zu pr fen ob sie als RollUp oder SharedRollUp zu realisieren ist Im letzteren Fall ist eine geeignete Berechnungsvorschrift zu definieren Schritt 11 Finde f r die dimensionalen Klassen weitere Attribute Jede DimensionalClass ist in Hinblick auf weitere beschreibende Attribute zu untersu chen die nicht unmittelbar f r die Hierarchiebildung eingesetzt werden Dabei sollte das allgemein in der Objektorientierung eingesetzte Prinzip der strengen Koh sion Each at tribute value should represent a fact about the object the whole object and nothing but the object befolgt werden Ein Spezialfall dieser Attribute sind abgeleitete Attribute An dieser Stelle kann ein Re Design von Schritt 9 notwendig werden wenn man feststellt dass sich zwei Klassen eventuell doch st rker bzw weniger stark als urspr nglich ange nommen unterscheiden Schritt 12 Bestimme Abh ngigkeiten zwischen Attributen in dimensionalen Klassen Im Gegensatz zu den abgeleiteten Attributen sind an dieser Stelle inhaltliche Abh n gigkeiten zwischen Attributen zu identifizieren und in Form von Constraints in OCL Notation festzuhalten Fortsetzung auf der folgenden Seite 98 Kapitel 6 Konzeptioneller Entwurf Fortsetzung von der letzten Seite Schritt 13 Bestimme f r die Attribute de
612. zw Ra auf F und P sind Prim r und Fremdschl ssel ber die die Beziehung definiert ist S gibt an ob es sich um eine nicht vollst ndige Verdichtung handelt SharedRollUp ty Re SharedRollUp S Ti Ts C O Zwischen den dimensionalen Relationen R und Ra ist ein Verdichtungspfad mit anteiliger Verrechnung mit dem Namen definiert Die Mengen T und To z hlen die zul ssigen Ty pen der Relationen R bzw Ra auf C gibt die Berechnungsvorschrift an die Menge O die zul ssigen Verdichtungsoperatoren Tabelle 7 2 REMUS Kategorie B Metadaten 7 2 Transformationsalgorithmus 123 7 2 Transformationsalgorithmus Hauptziel der Transformation eines MML ein REMUS Schema ist das Erhalten w hrend der konzeptionellen Modellierung verwendeter objektorientierter und multidimensionaler Aspekte W hrend der Transformation muss jeder MML Schemaelementtyp behandelt werden wobei die in Abbildung 7 3 dargestellte Reihenfolge der Abarbeitung gew hlt wird Zun chst werden in den beiden ersten Schritten Datentypen und klassen behandelt dann folgt in den Schritten 3 bis 7 die Transformation von dimensionalen Klassen mit ihren Attributen und Hierarchiestrukturen Schritt 8 sorgt f r das bertragen der Faktklassen inklusive Faktattributen bevor die letzten beiden Schritte 9 und 10 durch Transformieren der Dimensionseinstiege und zul ssigen Verdichtungsoperatoren f r die Verbindung von dimensionalen

Download Pdf Manuals

image

Related Search

Related Contents

    Black Box 10Gb/s SC/LC 1.0m  Sandberg UTP Cable  MLR500/MLR750 Rolling Garage Door Opener  Combi (E) CP plus ready  User Manual - Snap-on  Manuel d`utilisation  FAX-408    

Copyright © All rights reserved.
Failed to retrieve file