Home
Entwicklung eines wissensbasierten Assistentensystems
Contents
1. 00 84 4 Lernen einer Charakterisierung von Schatzern 86 4 1 Szenario 2 onen 88 4 2 Modellierung 22 22 2 Como ee 90 4 2 1 Modellierung der Dateneigenschaften 2 2 2 22m en 91 4 2 2 Modellierung der Bewertungskriterien 2 2 2 20er 92 4 2 3 Modellierung der Kategorien 2 2 2 2 on une 93 4 3 Repr sentationen der Modellierung 2 2 2 nn run 97 4 3 1 Repr sentationen der Dateneigenschaften 2 2 2222 98 4 3 2 Repr sentationen der Sch tzergebnisse 2 2 2 22m en 101 4 3 3 Repr sentationen der Kategorien f r die Dateneigenschaften und Sch tzergebnisse 2 ee 102 4 3 4 Repr sentation der Eignungen und Empfehlungen 103 4 4 Evaluierung des erstellten Modells 2 2 on non n nen 107 4 5 Lernaufgabe l ou 112 4 6 Lernl ufe 2 oo 2 one 114 4 7 Auswahl einer Regelmenge 2 2 on Con onen 114 4 8 Bewertungskriterien 2 0 none 120 4 9 Analyse der gelernten Regeln 2 2 2 2 2 on on nee 121 4 9 1 Vollst ndigkeit 2 2 Como onen 122 4 9 2 Korrektheit 2 2 oo Comm ee 123 4 9 3 Redundanz 2 2 2 moon nenn 124 4 9 4 Lange der Regeln 2 2 0 2 0 00 00 0000000004 124 4 9 5 Abgedeckte Instanzen 2 0 2 a 125 4 9 6 Komprimierungsgrad 2 2 2 Co oo nen 126 4 10 Einbinden der Regeln in das WBS 2 nn nme 126 5 Das Symbol Level Modell des WBS CORA 129 5 1 Spezifikation der Systemarchitektur 2 2 2 2 oo nn n nn 130 5 1 1 Ergono
2. 164 KAPITEL 6 BEWERTUNG UND EINORDNUNG DES SYSTEMS CORA Expertenwissen imulationsstudien Knowledge Engineer Programmierer Analyse Beratungs Erkl rungs komponente komponente Abbildung 6 1 Wissensakquisition f r CORA 165 e Wird eine Homogenit t der Zielgruppe vorausgesetzt oder kann das System unterschied lich gro e Vorkenntnisse ber cksichtigen e Automatisiert das System den Entscheidungsproze oder ber t es den Anwender ledig lich Wie bereits mehrfach erw hnt werden f r die Benutzung des Systems CORA nur geringe Statistik Kenntnisse vorausgesetzt Da aber f r die Durchf hrung einer Fall Kontroll Studie generell die Unterst tzung durch eine Statistikerin empfehlenswert ist siehe 3 1 sollte auch ber cksichtigt werden da das System von Statistikerinnen verwendet wird Daraus ergibt sich also eine relativ inhomogene Zielgruppe In diesem Zusammenhang wird h ufig die Individualisierbarkeit von statistischer Software ge fordert siehe Steinecker 1990 Bei der Entwicklung von CORA wurde darauf geachtet da Hilfen f r unge bte Benutzer zur Verf gung stehen diese aber den Ablauf der Analyse nicht behindern falls sie nicht ben tigt werden Eng mit diesem Aspekt ist auch der Autorit ts grad des Systems verbunden Nach Meinung der Autorin sollte ein Benutzer in jedem Fall auch die M glichkeit haben alle Entscheidungen letztenendes selber zu treffen auch wenn das Ziel ein
3. 106 Kluwer Academic Publishers Boston 1986 Rothmann 1986 Rothman K J Modern Epidemiology Little Brown and Company Bos ton 1986 Schlesselmann 1982 Schlesselmann J J Case Control Studies Design Conduct Analysis Oxford University Press New York Oxford 1982 Schreiber et al 1993 Schreiber G Wielinga B Breuker J Hrsg KADS A principled Approach to Knowledge Based System Development Academic Press London 1993 Shapiro et al 1979 Shapiro S Slone D Rosenberg L Kaufmann D W Stolley P D Miettinen O S Oral Contraceptive Use in Relation to Myocardinal Infarction Lancet Nr 1 5 743 747 1979 Steinecker 1990 Steinecker J Individualisierbare statistische Software oder warum stati stische Expertensysteme nicht das Ende des Weges auf der Suche nach intelligenterer statistischer Software markieren Volkswirtschaftliche Schriftenreihe Band 9 Lit Verlag Miinster 1990 Strugholtz 1993 Strugholtz H Statistische Verfahren zur Homogenit tsanalyse in ge schichteten Kontingenztafeln Dissertation Fachbereich Statistik der Universit t Dort mund 1993 Tarone 1985 Tarone R E On Heterogeneity Tests based on Efficient Scores Biometrika Nr 72 5 91 95 1985 174 LITERATURVERZEICHNIS Turner et al 1975 Turner K J Baldo B A Hilton J M N IgE Antibodies to Dermato phagoides Pteronyssimus House Dust Mite Aspergillus Fumigatus and Betalacto
4. Mithilfe des in MOBAL integrierten Lernverfahrens RDT werden aus dieser Wissensbasis Re geln ber die oben beschriebenen Zusammenh nge zwischen der Datenlage und dem Verhalten der Sch tzer des gemeinsamen Odds Ratios gesucht Die besten Regeln aus der gelernten Regelmenge k nnen f r eine Charakterisierung der Sch tzer verwendet werden Zusammenfassend k nnen also folgende Phasen der Wissensakquisition festgemacht werden e die Modellierung der Dateneigenschaften und Bewertungskriterien e die Modellierung der Kategorieneinteilung e die Repr sentation des Modells e die Evaluierung des Modells e das Lernen einer Charakterisierung von Schatzern e die Auswahl einer Regelmenge und e die Analyse der Lernergebnisse Es f llt auf da die einzelnen Phasen hier vollst ndig getrennt werden und der Akquisiti onsproze damit linear statt zyklisch erscheint Ich m chte an dieser Stelle deutlich machen da das nur f r die Beschreibung der Wissensakquisition gilt nicht f r die durchgef hrte Wissensakquisition selbst Die Beziehungen zwischen den Phasen werden in Abbildung 4 1 dargestellt Die Pfeile deuten m gliche Revisionen an 88 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Es sind eine ganze Reihe von Ans tzen zur Modellierung verfolgt worden die hier nicht in ihrer chronologischen Abfolge beschrieben werden sondern es wird auf den Ansatz fokussiert der sich am Ennde als der g nstigste herausgestellt hat
5. Unsi cherheiten festzustellen die sich auf die Qualit t der im System vorhandenen statistischen 166 KAPITEL 6 BEWERTUNG UND EINORDNUNG DES SYSTEMS CORA Expertise auswirken k nnen Der Einsatz des maschinellen Lernens wird in diesem Rahmen als Chance zur Verbesserung des Wissens gesehen die zumindest in den oben erw hnten Systemen bislang unber cksichtigt geblieben ist Kapitel 7 Zusammenfassung und Ausblick Im Rahmen dieser Arbeit ist ein benutzerfreundliches Computersystem entwickelt worden das Anwender statistischer Methoden speziell bei der Analyse geschichteter 2x2 Kontingenztafeln unterst tzt Diese Unterst tzung basiert sowohl auf einem relativ umfangreichen Hilfesystem als auch insbesondere auf einer Beratungskomponente die einen geeigneten Sch tzer f r das gemeinsame Odds Ratio empfiehlt F r die Konstruktion dieser Beratungskomponente wurde auf Methoden aus der K nstlichen Intelligenz zur ckgegriffen Mithilfe des Systems MOBAL wurde eine Wissensbasis modelliert die eine zur Untersuchung der Eigenschaften von geeig neten Sch tzern durchgef hrte Simulationsstudie repr sentiert In dieser Wissensbasis konnte durch maschinelles Lernen eine Reihe von Regeln entdeckt werden die von den Dateneigen schaften auf das Verhalten der Sch tzer schlie en Diese Regeln wurden dann zur Beratung der Benutzer in das System CORA eingebunden Die hier gemachten Erfahrungen mit einem solchen Ansatz zeigen da der Einsatz
6. oo Coon 2 1 1 Sichtweisen der Knowledge Acquisition 2 1 2 Prinzipien der KADS Methodologie 2 2 2 2 nme 2 1 3 Die KADS Modelle 2 2 Con onen 2 1 4 Modellierung der Expertise 2 2 2 om oo nn 2 1 5 Modellierung der Kooperation 2 2 2 2 mn n en 2 1 6 Diskussion 2 2 Co oo onen 2 2 MOBAL 2 oo onen 2 2 1 MOBALs Wissensrepr sentation 22 2 2 Cr nn nn 2 2 2 Das Rule Discovery Tool RDT 2 2 22 2 2 3 Das Rule Restructuring Tool RRT 2 22 22 2 2 4 Der Modellierungs und Lernzyklus 0 2 2 5 Diskussion 2 oo Como 2 3 Delphi ObjectVision 2 222 2 Co oo 2 3 1 Formulare und Komponenten 2 2 2 oo rn 2 3 2 Eigenschaften von Komponenten 2 2 2 Cm onen 2 3 3 Ereignisbehandlungen 2 Co Con 2 3 4 Entwicklungswerkzeuge 2 2 0 002 020 eee 2 3 5 Projekte nana ee 2 3 6 Entwicklung einer Windows Hilfe 0 0 0 2 3 7 Erfahrungen mit Delphi soaa 3 Knowledge Level Modelle des WBS CORA 3 1 Organisationsmodell 3 2 Anwendungs und Aufgabenmodell 10 11 15 19 23 25 25 29 32 33 35 35 36 37 38 39 39 40 43 INHALTSVERZEICHNIS V 3 3 Expertisenmodell Model of Expertise auaa a 51 3 3 1 Sachbereichswissen Domain Knowledge oaoa 52 3 3 2 Inferenzwissen Inference Knowledge 2 2 2 2222 68 3 3 3 Aufgabenwissen Task Knowledge 2 2 2 71 3 4 Kooperationsmodell Model of Cooperation
7. 0 05 0 07 0 09 0 11 0 13 0 15 0 17 0 19 0 21 0 23 0 05 0 15 0 25 0 35 0 45 0 55 0 65 0 75 0 85 0 95 Tabelle 3 8 Simulationsdesign 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 1 te Situation Dokumentation Anzahl Situationen 1000 Anzahl Tafeln 2 Psi 1 000 Tafel N1 N2 Pi P2 1 20 60 0 20000 0 20000 2 30 90 0 30000 0 30000 Ergebnisse Anzahl der verworfenen Situationen 6 Anteil der verworfenen Situationen 7 494E 04 Schaetzer Mean std MSE Bias Neg Mantel Haenszel 1 05524 0 01385 0 19475 0 05524 0 Woolf 1 07759 0 01393 0 19994 0 07759 0 Breslow Liang 1 09289 0 01501 0 23391 0 09289 0 New Jackknife 0 99379 0 01281 0 16422 0 00621 0 New Jackknife 2 1 07214 0 01362 0 19074 0 07214 0 Woolf Jackknife 1 15193 0 01733 0 32350 0 15193 0 Abbildung 3 4 Dokumentation der Simulationsstudien 68 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Beschreibung von Situationen mit den gleichen Eigenschaften f r alle oder bestimmte Sch tzer zu finden die diese vom Rest der Situationen abgrenzt Durch die Vielzahl der variierten Pa rameter ist dies recht problematisch Hier hat sich gezeigt da komplexere Abh ngigkeiten auf diese Weise schwer zu entdecken sind So ist es schon sehr aufwendig f r alle Kombina tionen den Einflu von zwei Dateneigenschaften auf die Sch tzergebnisse zu kontrollieren In der Praxis werden daher h ufig Vermutungen die aufgrund von Erfahrungen oder aus theo retischen berlegungen ents
8. Damit wird sowohl eine Parallele als auch ein wesentlicher Unterschied zum System CORA deutlich CORA kann hnlich wie es f r SETUP gefordert wird durch die enthaltene sta tistische Expertise Empfehlungen zur Methodenauswahl geben Jedoch handelt es sich hier lediglich um einen einstufigen Entscheidungsproze Die Datensituation wird nur zu einem Zeitpunkt berpr ft und daraufhin eine Empfehlung gegeben Die Modellierung eines kom plexen Inferenzprozesses ist damit nicht erforderlich Die statistische Expertise in der Be ratungskomponente von CORA beschr nkt sich also auf einen teilweise wesentlich kleineren Bereich als in anderen Ans tzen die in der Regel mehrstufige komplexe Entscheidungsprozesse in Form von statistischen Strategien unterst tzen Eine weitere Parallele zwischen dem System SETUP und CORA besteht darin da beide zur Generierung einer Methodenempfehlung datenabh ngiges Wissen zugrunde legen Im Unter schied dazu wird beispielsweise im Rahmen des Systems PANOS siehe Wittkowski 1985 datenunabh ngig eine geeignete Methode ausgew hlt Hier werden statistische Methoden zu Methodenklassen zusammengefa t und diese dann mit den abgeleiteten Problemtypen in Be ziehung gesetzt Ein weiteres entscheidendes Kriterium ist die Kommunikation mit dem Benutzer Eines der ersten statistischen Expertensysteme das dem Anwender eine grafische Benutzeroberfl che unter Windows bietet ist das bereits erw hnte System ESTES Dieses
9. Design Design Parameter Werte f r Design Parameter Confounder Klasseneinteilungen f r Confounder Sammlung Werte f r Design Parameter Confounder Fall Kontroll Studiendaten 72 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Kontingenztafelanalyse Bei der Kontingenztafelanalyse sind die Schichtung die Homogenit tsanalyse die Sch tzung des gemeinsamen Odds Ratios und die Unabh ngigkeitstests zu unterscheiden Dabei ist zu beachten da die Durchf hrung der Unteraufgaben relativ unabh ngig von einander erfolgt in der Weise da die Durchf hrung einer Aufgabe die Durchf hrung einer anderen nicht bedingt So kann beispielsweise auch wenn dieses Vorgehen wenig sinnvoll zu sein scheint auf eine Schichtung oder auf eine Homogenit tsanalyse verzichtet werden Des weitern kann z B die Durchf hrung eines Unabh ngigkeitstests auch vor der Sch tzung des Odds Ratios erfolgen Task Kontingenztafelanalyse Ziel Aufschlu ber den Zusammenhang von Risikofaktor und Krankheit Input Methoden Daten Daten einer Fall Kontroll Studie Output Odds Ratio Testentscheidungen Control Terms Methoden 1 Methoden zur Schichtung Methoden 2 Methoden zur Homogenit tsanalyse Methoden 3 Methoden zur Sch tzung des Odds Ratios Methoden 4 Methoden f r Unabh ngigkeitstests p Wert 1 Wert zwischen 0 und 1 Ma f r die Homogenit t der individuellen Odds Ratios p Wert 2 Wert zwischen 0 und 1 Ma f r die Unabh ngigkeit
10. S 767 800 1989 Haux 1986 Haux R Expert Systems in Statistics Fischer Stuttgart 1986 Hennekens et al 1977 Hennekens C H Rosner B Jesse M J Drolette M E Speizer F E A Retrospective Study of Physical Activity and Coronary Deaths International Journal of Epidemiology Nr 6 S 243 246 1977 Herczeg 1986 Herczeg M Eine objektorientierte Architektur f r wissensbasierte Benut zerschnittstellen Dissertation Universit t Stuttgart 1986 Hietala 1986 Hietala P How to Assist an Inexperienced User in the Preliminary Analysis of Time Series First Version of the ESTES Expert System Proceedings COMPSTAT 1986 S 295 300 Physika Verlag Heidelberg 1986 Hoover et al 1980 Hoover R N Strasser P H Artificial Sweeteners and Human Bladder Cancer Lancet Nr 1 S 837 840 1980 Jida et al 1986 Jida J Lemaire J Expert Systems and Data Analysis Package Manage ment Proceedings COMPSTAT 1986 S 251 258 Physika Verlag Heidelberg 1986 Karbach 1989 Karbach W Entwurfsmethodiken f r wissensbasierte Systeme In Cristal ler T Hrsg Koordiniertes System von Werkzeugen f r die Konstruktion und den Betrieb von Expertensystemen S 241 284 GMD Studien Sankt Augustin 1989 Kelsey et al 1978 Kelsey J K Dwyer T Halford T R Bracken M B Maternal Smoking and Congenital Malfunctions An Epidemiological Study Journal of Epidemiology and Community Health Nr 32 5 102
11. Verhalten des Programms Wiedererkennungsleistungen steigern die Akzeptanz bzw die Affinit t zum Programm F r das System CORA wird daher sowohl eine innere Konsistenz also die Konsistenz innerhalb des Systems als auch eine u ere Konsistenz d h die Konsistenz in bezug auf andere Systeme gefordert CORA l uft unter der grafischen Oberfl che Microsoft Windows Auch wenn einige Ele mente von Windows nicht psychologischen Kriterien entsprechen liegt es nahe CORA den von Microsoft empfohlenen Standards anzupassen Die standardisierten Windows Anwendungen verleiten den Benutzer zum intuitiven Vorgehen im Rahmen des Pro gramms d h die Anforderungen des Programms k nnen so intuitiv erfa t werden Adaptierbarkeit Assistentensysteme werden von Benutzern mit unterschiedlichem Wis sensstand bedient Sie m ssen daher in der Lage sein einem unge bten Benutzer m glichst einfach und eing ngig gen gend Informationen zur Verf gung zu stellen so da der Anwender entsprechende Entscheidungen f llen kann Andererseits mu dem ge bten Benutzer die M glichkeit gegeben werden das Programm schnell und ohne f r ihn berfl ssige Anweisungen bedienen zu k nnen berfl ssige Aktionen und redun dante Mehrfachabfragen wirken sich demotivierend aus ver rgern den Anwender und erschweren die Akzeptanz des Programms hnliches gilt f r die Benutzerinformati on wichtig ist bei entsprechend breit gef cherter Benutzerqualifi
12. alle Tools die gleiche Repr sentation verwenden Im folgenden Abschnitt wird diese Wissensrepr sentation vorgestellt Anschlie end wird das Tool von MOBAL beschrieben das im Rahmen dieser Arbeit vorwiegend verwendet wurde Dabei handelt es sich um das in das System integrierte Lernverfahren RDT Rule Discovery Tool das in einer vorhandenen Wissensbasis Regeln entdecken kann Mithilfe eines weite ren Tools n mlich des Rule Restructuring Tools RRT das im darauffolgenden Abschnitt vorgestellt wird kann eine gelernte oder eingegebene Regelmenge analysiert und gegebenfalls neu strukturiert werden 2 2 1 MOBALs Wissensrepr sentation Die Wissensrepr sentation von MOBAL baut auf einer sortierten Hornklausellogik erster Stufe auf die allerdings negierte Literale sowohl in den Pr missen als auch der Konklusion erlaubt Zur Beschr nkung der Komplexit t wird die Verwendung von Funktionssymbolen ausgeschlossen Das Sachbereichswissen wird durch Fakten Regeln Regelmodelle Metapr dikate und wei 26 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA eq _ _ equal unifiable equal ne _ _ not equal 1t _ _ lower than gt _ _ greater than ge _ _ greater equal le _ _ lower equal add _ _ _ addition sub _ _ _ subtraction prod _ _ _ mulitplication div _ _ _ division Tabelle 2 1 Built In Pradikate teres Metawissen sowie durch Sorten und eine Pradikattopologie dargestellt Diese Wissens elemente werden nun
13. also das gleiche Verhalten aufweisen Der KADS Ansatz wendet sich damit von der traditionellen Transfer sichtweise ab Die Wissensakquisition des KADS Ansatzes umfa t im wesentlichen drei Phasen n mlich die Wissenserhebung nach der die Daten in einer informellen Form vorliegen die Interpretation der Daten innerhalb eines konzeptionellen Rahmens sowie die Umsetzung dieser Konzeptua lisierung auf einen symbolischen Level In der Modellierungssicht wird das wissensbasierte System als operationales Modell gesehen das das gew nschte Verhalten aufweist d h ein Verhalten das dem des Experten entspricht System und Experte k nnen aber nicht in allen Punkten quivalent sein das System hat F higkeiten die dem Experten fehlen beispielsweise das Speichern sehr gro er Datenmengen Andererseits kann der Gedankengang Reasonning Process des Experten nicht vollst ndig explizit gemacht und f r die Probleml sung durch das System verwendet werden Der Experte liefert in dieser Sichtweise lediglich die Zw nge f r die Funktionalit t des Systems Der Knowledge Engineer mu in einem konstruktiven Proze Modellierungsentscheidungen treffen um die einzelnen Verhaltensweisen zu einem einheitlichen System zusammenzuf gen Gr nde warum die Modellierung im Rahmen der Wissensakquisition erforderlich ist liefert Morik 1989 Es wird festgestellt da die Expertise nicht in Form eines Modells vorliegen mu Oft besteht die Kompetenz ei
14. da die Schich ten gleichm ig in die vorhandenen Kategorien fallen Betrachtet man aber eine Konstellation in der beide Schichten 20 F lle umfassen so wird die zweite Katego rie nicht verwendet weil beide Schichten in die Kategorie f r kleine Fallanzahlen eingeordnet werden Es handelt sich somit um eine unbalancierte Aufteilung der Fallanzahlen in die Kategorien Der Gini Koeffizient hier abgek rzt durch GK wird folgenderma en berechnet GK FEDER Kl 1 i p _ h wobei K und I i yo h a di K Anzahl der Schichten 5 Summe der Auspr gungen der Eigenschaft in der Kategorie i z B die Summe der Fallanzahlen f r die Kategorie viele F lle H Anzahl der Schichten in der i ten Kategorie und A Hi B Anzahl der Kategorien Die Werte f r den Gini Koeffizienten liegen zwischen 0 und 1 Ist der Wert des Koeffizienten 0 so handelt es sich um eine vollst ndig gleichm ige Aufteilung in die vorhandenen Kategorien Wenn der Gini Koeffizient den Wert 1 erreicht ist die Aufteilung sehr unbalanciert Damit k nnen drei neue Dateneigenschaften f r die Fall Kontroll Studien abgeleitet werden n mlich e die Balanciertheit der Fallanzahlen in einer Parameterkonstellation e die Balanciertheit der Gr e des Verh ltnisses der Kontrollen und F lle und e die Balanciertheit der Lage der Expositionswahrscheinlichkeiten Durch die ersten beiden Eigenschaften wird indirekt auch die Balanciertheit
15. darin bestehen ein Faktum in das System einzugeben und die dadurch neu inferenzierten Fakten zu untersuchen Bevor die erste Lernphase beginnen kann m ssen Regelmodelle siehe oben in das System eingegeben und die Parameter insbesondere das beschriebene Akzeptanzkriterium vorgege ben werden sofern nicht die Standardparametereinstellungen verwendet werden sollen Es ist blich die Wissensbasis in ein Lern und ein Testset zu unterteilen Mit dem Lernset Trainingsmenge werden die Lernl ufe durchgef hrt w hrend das Testset dazu dient die gelernte Regelmenge zu validieren H ufig sind Anwendungen dadurch gekennzeichnet da nur eine begrenzte relativ kleine Anzahl von Beispielen vorliegt Aus diesen Beispielen sol len dann Regeln gelernt werden die sp ter auftretende Situationen korrekt behandeln Die Zerlegung in ein Test und Lernset ist in diesen F llen problematisch Eine M glichkeit die sich hier anbietet ist das Ziehen einer Beispielmenge mittels einer Cross Validation siehe Breiman et al 1984 Auf diese Weise wird die Beispielmenge in eine bestimmte Anzahl v gleich gro er Mengen unterteilt Es werden dann v Lernl ufe durchgef hrt wobei jeweils eine der Mengen als Testset und alle anderen als Lernset verwendet werden Die gelernten Regeln m ssen dann auf das Testset angewendet werden wobei man die Ergebnisse anschlie end mit der korrekten Klassifikation vergleicht Aber auch dieses Vorgehen kann sich bei sehr g
16. hlt werden Als Schaltfl chen gibt es einfache Schalter Schalter die mit Symbolen und Text versehen werden und kleinere Schalter mit Symbolen die zur Konstruktion einer Systemleiste verwendet werden k nnen 2 3 2 Eigenschaften von Komponenten Alle Komponenten von Delphi sind Objekte die sich durch eine Reihe von Eigenschaften auszeichnen Der sogenannte Objektinspektor von Delphi siehe Abb 2 9 links erm glicht das Anpassen der Darstellung und des Verhaltens der Komponenten der Anwendung Die Eigenschaften der im Formular gew hlten Komponente werden im Objektinspektor angezeigt und k nnen w hrend der Programmentwicklung als Initialeigenschaften eingestellt werden Diese Eigenschaften k nnen w hrend der Programmausf hrung durch den Quelltext ge ndert werden Im weiteren werden einige Eigenschaften vorgestellt die f r viele Komponenten anzugeben sind Die wichtigste Eigenschaft ist der Name einer Komponente der sie f r das zugrundelie gende Programm identifizierbar macht Davon zu unterscheiden ist die Eigenschaft Caption die die Beschriftung der Komponente enth lt Hier d rfen beliebige Zeichenketten inkl Leer zeichen verwendet werden Eigenschaften die das Aussehen der Komponenten beeinflussen sind beispielsweise Color Font Borderstyle und hnliches Die Gr e und Positionierung der Komponenten wird durch die Eigenschaften Width und Height bzw Left und Top best
17. rzesten Relation Chains von Variablen die in P auftreten kleiner ist als das Minimum aller k rzesten Relation Chains von Variablen die in den anderen Pr missen vorkommen 2 2 MOBAL 31 F r jedes Tool des Systems MOBAL gibt es eine Reihe von Parametern mit denen der Benutzer die Arbeitsweise des Tools beeinflussen kann Der wohl wichtigste Parameter fiir das Rule Discovery Tool ist das Akzeptanzkriterium Sowohl fiir die partiellen Hypothesen als auch fiir die Hypothesen die vollstandig instanziiert sind wird ein Test durchgefiihrt der entscheidet ob die Hypothese weiter instanziiert werden mu bzw akzeptiert werden kann falls es sich nicht um eine partielle Hypothese handelt oder ob sie verworfen wird Die Entscheidung wann eine Hypothese verworfen bzw akzeptiert werden soll wird vom Benutzer durch das Akzeptanzkriterium bestimmt Dazu werden folgende Werte berechnet pos ist die Anzahl der Instanzen f r die die Konklusion der Hypothese erf llt ist wenn diese Instanzen in die Pr missen eingesetzt werden Damit handelt es sich also um die Anzahl der positiven Beispiele f r die Hypothese neg ist die Anzahl der Instanzen f r die die Konklusion der Hypothese negiert vorliegt wenn die Pr missen mit ihnen instanziiert sind neg bezeichnet damit die Anzahl der negativen Beispiele der Hypothese pred ist die Anzahl der Instanzen f r die die Konklusion nicht in der Wissensbasis zu finden ist wenn die Pr missen m
18. zweitkleinsterbias B S Der gr te Bias des Mittelfelds ist damit der zweitgr te Bias der kleinste Bias des Mittelfelds ist der zweitkleinste Bias insgesamt Die letzten beiden Schritte werden daraufhin noch einmal wiederholt um auch den dritt gr ten und drittkleinsten Bias zu ermitteln situation S amp bias S Z B amp unknown kleinsterbias B S amp unknown gr terbias B S amp unknown zweitkleinsterbias B S amp unknown zweitgr terbias B S mittlererbias_2 B S 4 3 REPR SENTATIONEN DER MODELLIERUNG 105 situation S amp max_of B mittlererbias_2 B S MaxB drittgr terbias B S situation S amp min_of B mittlererbias_2 B S MinB drittkleinsterbias B S Damit ist f r den Bias nun eine Reihenfolge der Werte f r jede Situation entstanden Die Regelmenge f r den MSE ist v llig analog zu bilden Da bislang nur eine Reihenfolge der Werte besteht das Ziel aber eine Reihenfolge der Sch tzer ist werden nun den Sch tzern entsprechend ihren Werten R nge zugeordnet bias S Z B amp kleinsterbias B S rangbias S Z 1 bias S Z B amp zweitkleinsterbias B S rangbias S Z 2 bias S Z B amp drittkleinsterbias B S rangbias S Z 3 bias S Z B amp drittgr terbias B S rangbias S Z 4 bias S Z B amp zweitgr terbias B S rangbias S Z 5 bias S Z B amp gr terbias B S rangbias S Z 6 Die erste Regel besagt beispielsweise folgendes Wenn ein Sch
19. Das System ist allerdings so flexibel da ein er fahrener Benutzer die Reihenfolge selbst bestimmen und auch ggf Schritte auslassen kann Die Anforderungen an das System die sich aus konstruktionsorientierter Sicht ergeben sind die einfache nderbarkeit und die rasche Erstellbarkeit die durch die Verwendung des Tools Delphi erf llt werden k nnen siehe Abschnitt 5 2 5 1 SPEZIFIKATION DER SYSTEMARCHITEKTUR 133 Human Computer Interface grafische Oberfl che Analysekomponente Hilfesystem Beratungskomponente Schichtung Programmbenutzung Empfehlungen Aufbereitung Analysekomponente Pilotstudie Analysen Beratungskomponente stat Hintergrund Abbildung 5 1 Das System CORA 5 1 2 Aufbau des Systems Zur Umsetzung der im vorangegangenen Abschnitt und im Anwendungsmodell aufgestellten Anforderungen an das System CORA ist der in Abbildung 5 1 gezeigte Aufbau des Systems konzipiert worden Die Abbildung macht deutlich da den beratenden und unterst tzen den Aspekten des Systems gro e Bedeutung zugemessen wird Die Beratungskomponente des Systems die auf den durch den wissensbasierten Ansatz gelernten Regeln basiert enth lt zus tzliche Informationen f r den Anwender die im Rahmen eines konventionellen Hilfesys tems nicht zu finden sind Die Analysekomponente enth lt alle im Anwendungsmodell aufgef hrten Methoden die im Rahmen der Kontingenztafelanalyse relevant sind Ein
20. Delphi ist der Nachfolger des Tools ObjectVision siehe Borland 1991 mit dem eine erste Implementie rung des Systems CORA vorgenommen wurde 36 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Abbildung 2 9 Die Benutzeroberfl che von Delphi 2 3 1 Formulare und Komponenten Formulare stehen im Mittelpunkt der Anwendungen die mit Delphi entwickelt werden Eine Anwendung besteht aus einem Hauptformular und einer Reihe von untergeordneten Formu laren Ein Formular ist eine Komponente einer bestimmten Klasse TForm die wiederum andere Komponenten enthalten kann Es kann wie eine Zeichenfl che verwendet werden in dem hierauf Komponenten plaziert und ausgerichtet werden um einzelne Teile der Benut zerschnittstelle zu entwickeln Das Hauptformular der Anwendung und dessen Komponenten kommunizieren mit anderen Formularen und deren Komponenten Die Visual Component Library VCL von Delphi enth lt die zur Verf gung stehenden Kom ponenten Dieser Library k nnen eigene Komponenten hinzugef gt oder es k nnen Kompo nenten aus ihr gel scht werden indem die mit den Komponenten verbundenen Unit Dateien hinzugef gt bzw entfernt werden Die grafische Benutzeroberfl che von Delphi siehe Abb 2 9 zeigt eine Komponentenpalette an die die zur Verf gung stehenden Komponenten darstellt Komponenten schlie en sowohl alle sichtbaren Bestandteile einer Anwendung ein wie z B Dialogelemente und Schaltfl chen als auch die w hren
21. Die Metapher des Flaschenhalses kann laut Morik 1989 auf zwei Weisen interpretiert wer den e Das Expertensystem wird als Flasche angesehen in die das Wissen hineingebracht wer den mu oder e der Experte wird mit einer Flasche verglichen wobei das Problem darin besteht das Wissen aus ihm herauszuholen In lteren Expertensystemen wie z B in MYCIN siehe Buchanan et al 1984 sind alle Wissensarten Sachbereichswissen Aufgabenwissen etc in der gleichen Datenstruktur re pr sentiert worden n mlich als Produktionsregeln Zur Unterst tzung der Knowledge Acqui sition sind Tools entwickelt worden die die Funktion eines Trichters bernehmen um das Expertensystem mit Wissen zu f llen Diese Tools k nnen aber M ngel die durch den Re pr sentationsformalismus des Expertensystems entstehen nicht kompensieren Neuere Entwicklungen konzentrierten sich darauf Expertensystemshells mit Repr sentations konstrukten zu entwickeln die den Konzepten des Experten entsprechen Ein Scheitern des Transfers wird dann auf den falschen Repr sentationsformalismus zur ckgef hrt Systeme wie OPAL siehe Musen 1989 erm glichen das direkte Eingeben des Expertenwissens in das System Diesem System liegt aber bereits eine abgeschlossene Modellbildung zugrunde d h es existiert ein fertiges Modell des Sachbereichs hier die Krebstherapieplanerstellung bevor die Wissensakquisition gestartet wird Beiden Ans tzen MYCIN und OPAL i
22. Fiir die Dateneigenschaften sind zusatzlich einige Be rechnungen notwendig da nicht alle relevanten Eigenschaften direkt aus den Simulationsdaten abgelesen werden k nnen Die Klassifikation teilt sowohl die Dateneigenschaften als auch die Bewertungskriterien f r die Sch tzergebnisse in Kategorien ein Anschlie end werden f r die se kategorisierten Dateneigenschaften und Bewertungskriterien Repr sentationen gesucht so da die Simulationsdaten in Form einer Faktenmenge dargestellt werden k nnen Verteilung der Aufgaben Task Distribution Da nur einer der vier Hauptaufgabenbereiche n mlich die Kontingenztafelanalyse vom wis sensbasierten System unterst tzt wird werden die weiteren drei Bereiche also die Datener hebung sowie die Simulationsstudien und ihre Auswertung hier nicht erw hnt Abbildung 3 8 zeigt die Verteilung der Aufgaben f r die Schichtung Die Auswahl und Ent scheidungsaufgaben sind dem Benutzer des Systems zugeordnet Allein die Ausf hrung der ausgew hlten Methode wird durch das System geleistet Diese Aufgabenverteilung entspricht einer konventionellen Verteilung d h der Benutzer hat die Kontrolle das System ist passiv hnlich verh lt es sich mit dem Subtask Homogenit tsanalyse siehe Abb 3 9 Die Ausf hrung und ein Vorschlag zur Interpretation des Ergebnisses wird vom System ber nommen die Auswahl einer Methode und die endg ltige Entscheidung bleibt dem Benutzer vorbehalten Diese Rollenverteilu
23. Form einer lokalen Regelmenge erfol gen Somit werden unterschiedliche Methoden zur Umsetzung des Systemkonzepts verbunden um das gew nschte Ziel zu erreichen Im Hinblick auf eine Minimierung der Anforderungen an die Benutzung des Systems CORA scheint eine Anwendung die auf PC s unter Microsoft Windows l uft optimal Besondere Bedeutung hat auch die Einbeziehung des Zielgruppenprofils Vom Benutzer des Systems CORA werden weder Kenntnisse in Bezug auf die Programmbenutzung noch umfas sende Statistik Kenntnisse verlangt Im Organisationsmodell wurde bereits erw hnt da eine Kooperation von Medizinerinnen und Statistikerinnen in der Praxis nicht immer stattfindet Durch die Einf hrung des Systems wird diese Problematik nicht gel st die Medizinnerinnen die bislang auf die Unterst tzung durch Statistikerinnen verzichtet haben werden ihr Verhalten wahrscheinlich nicht ndern F hren sie die Analyse ihrer Daten aber mithilfe des Systems CORA durch statt beispielsweise mit Standard Softwarepaketen der Statistik so k nnen sie von dem im System vorhandenen Know How profitieren und die Ergebnisse ihrer Analyse dadurch u U verbessern Vorteilhaft ist auch da sie sich nicht in ein komplexes System einarbeiten m ssen Problematisch bleibt aber weiterhin da schon die Design Phase die vom System nicht un terst tzt wird fehlerhaft durchgef hrt worden sein kann wenn auf die Unterst tzung einer Statistikerin verzichtet wird Diese Fe
24. Gesundheitsforschung entworfen und durchgef hrt Sie dienen u a zur qualitativen sowie quantitativen Erfassung von Risikofaktoren f r Gesundheitssch den gro er Bev lkerungsgrup pen Da sowohl solche Risiken als auch die Gesundheitssch den h ufig in Kategorien erfa t werden k nnen die Beobachtungen zur weiteren Analyse in sogenannten Kontingenztafeln zusammengefa t werden Im Rahmen einer Auswertung solcher Kontingenztafeln stehen verschiedene konkurrierende statistische Methoden u a zur Absch tzung des Risikos einer Erkrankung zur Verf gung Von diesen Verfahren sind in der Regel die theoretischen statistischen Eigenschaften bekannt Da es sich dabei aber meist um asymptotische Resultate handelt werden typischerweise Si 45 46 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Statistische Medizinische Aufgaben Statistische Aufgaben FKS r l l l l gt Analyse I I gt j 7 _ _ ___ _ r 071 a I Einsatz des WBS Einsatz von Maschinellem Lernen L __ J LL Simulationsstudie Fall Kontroll Studie Benutzer Abbildung 3 1 Organisationsmodell mulationsstudien entworfen und durchgef hrt um einen Eindruck ber das finite Verhalten der Verfahren zu erhalten In dieser Arbeit wird eine Auswertung solcher Studien mithil fe eines wissensbasierten Ansatzes vorgestellt der auf Methoden der K nstlichen Intelligenz basiert Mithilfe des maschinellen Lernens wird eine Charakterisierun
25. Kovariablendatensatzes Abbildung 5 12 Algorithmus zur Schichtung Der R ckgabewert der Funktion ist ein neues Datenobjekt von Typ TDaten das den geschich teten Datensatz enth lt Die Funktion Schichtung ist relativ komplex der Algorithmus wird in Abbildung 5 12 grob skizziert Damit ist die Schichtung durch die erste Methode abgeschlossen W hlt der Anwender die zweite Methode durch den Befehl Mit Intervallbildung im Hauptmen aus so wird das Formular DigIntervallSchichtung aufgrufen Das Formular ist in Abbildung 5 13 dargestellt Es teilt sich in vier wesentliche Teile die durch Gruppierungselemente zusammengefa t sind Die Gruppierung mit der berschrift Kovariable siehe Abbildung 5 13 links oben stellt Informationen ber die gerade bearbeitete Variable bereit n mlich den Namen sowie den kleinsten und gr ten Wert der Auspr gungen dieser Variable Die Maxima und Minima der Kovariablen aus dem Datensatz werden mithilfe einfacher Funktionen berechnet Das Feld das den Namen der Kovariable anzeigt ist ein Auswahlfeld in dem alle Namen der im 5 2 DESIGN DER SYSTEMKOMPONENTEN Abbildung 5 13 Das Formular DlgIntervallSchichtung 151 152 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Datensatz vorhandenen Kovariablen stehen Der Anwender sucht hier die gew nschte Variable aus Abh ngig von dieser Auswahl ndern sich die Werte der anderen Felder Rechts neben dieser Gruppierung werden
26. MP2 werden auf diese Weise f nf Regeln ausgew hlt unbalanciert_verh_kf S amp viele_schichten S gute_empfehlung S jk kleines_oddsratio S amp unbalanciert_verh_kf S empfehlung S jk kleine_expo S amp wenig_schichten S 118 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN empfehlung S jk gini_verh_kf_balanciert S amp oddsratio_gleich_eins S empfehlung S jk gini_expo_unbalanciert amp kleines_oddsratio S empfehlung S jk F r das Metapr dikat MP3 ergeben sich die folgenden sechs Regeln oddsratio_gleich_eins S amp viele faelle S amp wenig_schichten mittlere_empfehlung S jk kleines_oddsratio S amp viele faelle S amp wenig_schichten mittlere_empfehlung S jk mittel_schichten S amp oddsratio_gleich_eins S amp viele_faelle S gute_emfehlung S jk viele_schichten S amp oddsratio_gleich_eins S amp viele_faelle S gute_emfehlung S jk wenig_schichten S amp oddsratio_gleich_eins S amp sehrviele_faelle S gute_emfehlung S jk gini_faelle mittelbalanciert S amp grosse_differenz_expo S amp grosses_oddsratio S schlechte_empfehlung S mh Schlie lich gibt es noch sieben Regeln die von einer Kombination von vier Dateneigenschaften auf die Empfehlung eines Sch tzers schlie en viele_schichten S amp kleines_oddsratio S amp viele_faelle S amp kleine_expo S gute_empfehlung S jk mittelvie
27. Pr dikaten als auch von Sorten d h der Argumente der Pr dikate in die Wissensbasis eingehen Nach Durchf hrung dieser Schritte besteht die Wissensbasis aus Fakten die die konkreten Werte f r die Eigenschaften und Ergebnisse repr sentieren F r die Umsetzung der abgeleite ten Dateneigenschaften m ssen einfache Regeln in die Wissensbasis eingegeben werden Nach der Repr sentation der Werte aus den Simulationsstudien sind in einem dritten Schritt auch die gebildeten Kategorien zu repr sentieren Dazu ist die Faktenbasis wiederum durch die Ein gabe entsprechender Regeln zu erweitern Liegen schlie lich die kategorisierten Sch tzergeb nisse in der Wissensbasis vor so kann die Umsetzung der Modellierung der Eignungen durch entsprechende Regeln erfolgen F r die Empfehlung mu die zu bildende Rangfolge ebenfalls durch die Eingabe einer Regelmenge umgesetzt werden Die Repr sentation der Eignungen und Empfehlungen ist komplexer als die Ableitung neuer Dateneigenschaften oder die Kate gorienbildung Die entstandene Regelmenge wirkt auf den ersten Blick etwas undurchsichtig und umst ndlich Sie f hrt dazu da eine ganze Reihe von Fakten abgeleitet werden die aber nachdem man die gew nschten Ergebnisse gewonnen hat nicht mehr ben tigt werden In den folgenden Unterabschnitten werden nun die gerade festgelegten Schritte f r den Aufbau der Wissensbasis beschrieben 98 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN 4 3 1
28. Regelmodelle kann die Suche im Hypothesenraum eingeschr nkt werden denn sowohl Spezialisierungen von akzeptierten als auch von nicht akzeptierten Hypothesen m ssen nicht weiter betrachtet werden Spezialisierungen von ak zeptierten Hypothesen sind redundant sie enthalten berfl ssige Informationen Spezialisie rungen von verworfenen Hypothesen k nnen nicht mehr erf llt werden da durch weitere 30 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Spezialisierung die Anzahl der positiven Beispiele f r die Hypothese immer kleiner wird Nur im ersten Fall wird die Suche im Hypothesenraum weiter fortgesetzt Weitere Einschr nkungen des Hypothesenraumes werden durch die Pr dikattopologie und die Sorten vorgenommen Darauf wird an dieser Stelle nicht weiter eingegangen siehe dazu Morik et al 1993 F r die Erzeugung der Hypothesen werden sukzessive die Pr dikatvariablen eines Regelmo dells instanziiert Auch f r teilweise instanziierte Hypothesen partielle Hypothesen wird berpr ft ob die Hypothese durch weiteres Instanziieren was gerade einer Spezialisierung entspricht noch akzeptiert werden kann Die Reihenfolge der Instanziierung der Pr dikatva riablen ist von besonderer Bedeutung Zur Festlegung der Reihenfolge wird nun der Begriff der Relation Chain eingef hrt Sinnvolle Regeln zeichnen sich u a dadurch aus da alle Literale im Rumpf einer Klausel mit dem Kopf dieser Klausel in Verbindung stehen Die Rumpf
29. Risikofaktor darstellt und mit dem betrachteten Risikofaktor assoziiert ist Der Einflu des Confounders mu ausgeschaltet werden da allein die Erh hung der Erkran 54 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA kungswahrscheinlichkeit bei Exposition durch den Risikofaktor bewertet werden soll Ber ck sichtigt man vorhandene Confounder nicht so kann das Ergebnis der Analyse verf lscht wer den Dies sei anhand des folgenden Beispiels illustriert Man m chte den Einflu des Alkoholkonsums auf die Entstehung eines Herzin farkts untersuchen Es ist bekannt da Rauchen einen Einflu auf das Herzin farktrisiko hat und auch mit dem Alkoholkonsum insofern in Verbindung steht als da starker Alkoholkonsum h ufig einen starken Tabakkonsum nachsichzieht Wird der Confounder Rauchen nicht ber cksichtigt so kann der Zusammenhang zwischen dem Alkoholkonsum und dem Herzinfarkt stark bersch tzt werden Es gibt verschiedene M glichkeiten den Einflu dieser St rgr en zu eliminieren Diese seien hier jedoch nur kurz aufgez hlt Durch 1 m Matching k nnen Confounder bereits im Design der Studie ber cksichtigt werden indem man die Kontrollen so ausw hlt da zu jedem Fall m Kontrollen existieren die bzgl der Confounder die gleichen Merkmale aufweisen wie der entsprechende Fall Andere M glichkeiten bestehen darin die Studie auf eine bzgl der Con founder homogene Population einzuschr nken oder den Einflu der Confound
30. System eingebunden werden soll Die Regeln unterscheiden sich in ihrer G te so da hier nur die besten Regeln ausgew hlt werden sollen F r diese Aus wahl die im folgenden beschrieben wird spielt die Aussagekraft der Konklusionspradikate sowie die Redundanz innerhalb der Regelmenge eine Rolle Da schon fiir die Empfehlungspradikate eine ganze Reihe von Regeln gelernt werden konnten und diese eine h here Aussagekraft besitzen als die Regeln fiir die Eignungspr dikate werden ausschlie lich diese f r die endg ltige Regelmenge in Betracht gezogen Da f r das Metap dikat MP1 keine Regeln gelernt werden konnten enth lt die Auswahlmenge keine Regeln die von einer Dateneigenschaft auf die Empfehlung eines Sch tzers schlie en Im folgenden werden nun die mit den Metapr dikaten MP2 bis MP4 gelernten Regeln betrachtet Das gr te Problem bei der Regelauswahl ist hier die Redundanz in der Regelmenge siehe auch 4 9 3 H ufig decken verschiedene Regeln dieselben Situationen ab Diese Redundanzen k nnen mithilfe des Tools RRT entdeckt werden Zur Verdeutlichung betrachte man folgendes Beispiel Man hat die Regeln 1 oddsratio 1 S amp viele_faelle S amp wenig_schichten S mittlere_empfehlung jk i S 2 oddsratio 1 5 amp viele_faelle S amp gini_faelle_balanciert S mittlere_empfehlung jk_ii S Die beiden Regeln unterscheiden sich nur in der dritten Pr misse Durch jede Regel werden die Parameterkonste
31. System legt den Schwer 163 punkt auf die Dialog und Erkl rungskomponente Es wird ein sogenanntes Visual Lexikon implementiert das neben der M glichkeit zur Erl uterung von Resultaten auch elementare Konzepte des Sachbereichs erkl rt siehe Steinecker 1990 Seite 59 W nscht der Anwender beipielsweise eine Erkl rung des Begriffs Saisonalit t dann wird neben einer verbalen Definition eine saisonale Zeitreihe erzeugt Dabei werden sowohl die Werte der Reihe angegeben als auch eine graphische Darstel lung der Zeitreihe produziert Auf Wunsch k nnen weitere saisonale Reihen ange zeigt werden Dar ber hinaus wird es ihm erm glicht die erzeugten Zeitreihen zu sichern und als Arbeitsdaten einer eigenen Analyse zuzuf hren Auch in CORA kann eine Erl uterung elementarer Begriffe durch das Hilfesystem abgerufen werden Dar ber hinaus wird ein Einblick in die Analysephilosophie erm glicht Die gerade zitierten Leistungsmerkmale des visuellen Lexikons von ESTES k nnen aber nicht erf llt werden d h das Hilfesystem hat hier einen statischen Charakter Dagegen funktionieren die Beratungs und Erklarungskomponente von CORA datenabh ngig Zun chst wird mithilfe der Regeln die von den Dateneigenschaften auf das Verhalten der Sch tzer schlie en ein geeigneter Sch tzer empfohlen Die Erkl rungskomponente macht diese Auswahlentscheidung des Systems transparent indem die relevanten Eigenschaften der vom B
32. auch auf die Hilfetexte Von Bedeutung ist hierbei da der Textumfang gering gehalten wird und insbesondere die Abs tze k rzer sind als bei gedrucktem Text Texthervorhebungen sollten sparsam eingesetzt werden Es empfiehlt sich nur zwei bis drei Schriftgr en zu verwenden einen gr eren Schriftgrad der dem aktuellen Fensterschlagwort zugeordnet wird sowie einen kleineren Schriftgrad f r den weiteren Text Die Aufgliederung des Textes in ein Schlagwort als Kurzfassung des Fensterinhaltes und den eigentlichen Text beruht auf lern und ged chtnispsychologischen berlegun gen Durch das Schlagwort werden bestimmte inhaltsbezogene Assoziationen beim Le ser geweckt die die Aufmerksamkeit auf einen bestimmten Inhalt richten Fehlerhafte Interpretationen des folgenden Textes k nnen so reduziert werden Aus gestaltpsycholo gischen berlegungen werden in allen Bildschirminhalten zusammengeh rige Elemente gruppiert und vom Rest separiert Dialogorientierte Benutzerf hrung Die Benutzerf hrung geschieht im Rahmen des Assistentensystems CORA interaktiv Dadurch soll die Benutzung des Programms er leichtert werden Insbesondere erm glicht es Anwendern mit unterschiedlichem statisti schen Wissensstand das Programm ad quat einzusetzen Zur Unterst tzung der Benutzer wird der grobe Ablauf des Programms vom System geleitet Damit werden unerfahrene Benutzer die nicht mit dem genauen Ablauf der Analyse vertraut sind unterst tzt
33. bereits erw hntes Problem besteht darin da mehrere Sch tzer einen minimalen Gesamtrang haben k nnen Es wird dann der Sch tzer ausgew hlt der einen kleineren Wert f r den Bias hat Diese Auswahl kann durch folgende Regel erreicht werden situation S amp bestersch tzer S Z1 amp besterschatzer S Z2 amp ne Z1 22 amp rangbias S Z1 RB1 amp rangbias S Z2 RB2 amp le RB1 RB2 besterschatzerneu S Z1 Gibt es mehr als zwei Sch tzer die einen minimalen Gesamtrang besitzen so gibt es auch f r diese Klassifikation mehrere Sch tzer Die Regelmenge mu dann auf hnliche Weise noch einmal erweitert werden Aus Gr nden der bersichtlichkeit wird hier auf eine genaue Be schreibung verzichtet Es wird im folgenden davon ausgegangen da nur zwei Sch tzer einen minimalen Rang besitzen Anschlie end wird f r jede Situation genau eine Empfehlung eines Sch tzers ermittelt indem falls es nur einen besten Sch tzer gibt dieser empfohlen wird erste Regel oder falls es in der Situation mehrere solcher Sch tzer gibt und einer davon als bestersch tzerneu klassifiziert worden ist dieser empfohlen wird zweite Regel bestersch tzer S Z amp unknown bestersch tzerneu S Z1 empfehlung S Z besterschatzerneu S Z empfehlung S Z Damit ist die Umsetzung der Empfehlung abgeschlossen Der zweite Teil des Abschnitts diskutiert nun wie die Eignung eines Sch tzers berechnet wer den kann Die Idee besteht
34. den Modellierungszyklus unterst tzt sollte dem Benutzer bei der Durchf hrung dieser Revisionen assistieren Nach dem Sloppy Modeling Prinzip ist daher keine Trennung des Knowledge Level Modells und des im System repr sentierten Modells notwendig Die Zwischenrepr sentationen sollten in das System integriert sein siehe Abbil dung 2 3 und so eine sofortige Evaluation erm glichen Dieser Aspekt des Sloppy Modeling Ansatzes entspricht der grundlegenden Idee des Rapid Prototyping Ein System das diesen Anspr chen gerecht wird ist das Modellierungssystem MOBAL siehe 2 2 2 1 2 Prinzipien der KADS Methodologie Der KADS Ansatz kann durch zwei Hauptprinzipien die dem Konstruktionsproze f r WBS zugrunde liegen charakterisiert werden e das Prinzip der Zwischenmodelle Multiple oder auch Intermediate Models und e das Prinzip der Modellierung auf dem Knowledge Level 2 1 KADS 11 Das zweite Prinzip erlaubt das Probleml sungswissen auf einer implementationsunabh ngi gen Ebene zu beschreiben Grundlage hierf r bilden die Ebenenmodelle der Wissensreprasen tation siehe Newell 1982 Der Knowledge Level ist dadurch charakterisiert da er keine Struktur besitzt Bei der ber tragung in den Symbol Level mu diese erst hinzugef gt werden Mit dem Knowledge Level kann das rationale Verhalten eines Systems beschrieben werden d h es kann angegeben wer den warum das System der Agent eine bestimmte Handlung ausf hrt unabh
35. der Anzahl der Kontrollen ausgedr ckt 4 2 2 Modellierung der Bewertungskriterien Ausgehend von den zwei grundlegenden Bewertungskriterien dem Bias und dem MSE k nnen hnlich wie bei der Modellierung der Dateneigenschaften weitere Kriterien zur Beur teilung der Sch tzergebnisse abgeleitet werden Es kann eine Rangfolge der Sch tzer gebildet 4 2 MODELLIERUNG 93 werden und die beiden Einzelkriterien k nnen zu einer Gesamteignung eines Sch tzers in einer Situation zusammengefa t werden Die Berechnung dieser Gesamteignung h ngt mit der Ka tegorieneinteilung von Bias und MSE zusammen und wird daher erst nach der Modellierung der Kategorien in 4 2 3 detailliert erl utert Neben der Beurteilung der Sch tzer durch die absoluten Werte f r Bias und MSE k nnen die relativen Werte f r diese Kriterien eingef hrt werden Die Bewertung anhand dieser Kriteri en erwies sich aber als ung nstig und wurde daher sp ter wieder verworfen Die Motivation f r ihre Einf hrung bestand darin da es vom statistischen Gesichtspunkt h ufig als pro blematisch angesehen wird nur den absoluten Bias und MSE zu betrachten In den Simula tionsdaten gibt es gro e Unterschiede bzgl der absoluten Bewertungskriterien zwischen den Parameterkonstellationen Diese sind auf die unterschiedliche Gr e des gemeinsamen Odds Ratios zur ckzuf hren d h da bei einem gro en zu sch tzenden Odds Ratio der absolute Bias und MSE in der Regel gr er sind a
36. der Methoden HelpJump und HelpContext die von Delphi bereitgestellt werden Die Methode HelpJump const JumpID string Boolean erh lt als Parameter einen Kontext String und zeigt den mit diesem Kontext String verbundenen Hilfebildschirm aus der Hilfedatei an Ist der Eigenschaft HelpFile zuvor keine Hilfedatei zugewiesen worden so gibt HelpJump False zur ck sonst True hnlich arbeitet auch die Methode HelpContext Context THelpContext Boolean die aber als Parameter die Kontextnummer erh lt Eine Kontextnummer kann durch die Eigen schaft HelpContext fast allen Komponenten der Delphi Anwendung zugewiesen werden Ist in der Anwendung eine Komponente selektiert so wird nach Bet tigen von ein der Kontextnummer entsprechender Hilfebildschirm angezeigt Auf diese Weise k nnen kontext sensitive Hilfen realisiert werden 2 3 7 Erfahrungen mit Delphi Wie bereits zu Anfang des Abschnitts erw hnt wurde ist die Implementierung zun chst mit dem Tool ObjectVision erfolgt Aufgrund einiger Schw chen dieses Systems wurde dann auf das System Delphi zur ckgegriffen Beiden Tools ist gemeinsam da sie die schnelle Entwicklung eines Prototypen f r das WBS sehr gut unterst tzen k nnen Die Gestaltung einer Oberfl che ist damit v llig problemlos und erste Ergebnisse sind sofort sichtbar F r die beiden wesentlichen Aspekte in der Kon struktion dieses WBS n mlich f r die Modellierung
37. die Confounder durch die Schichtung kontrolliert werden konnten wird zur Zeit weitestgehend dem Benutzer berlas sen Wie in Abschnitt 3 3 1 anhand eines Beispiels gezeigt wurde k nnen Fehlentscheidungen an dieser Stelle jedoch gravierende Folgen haben so da eine Beratung f r den Benutzer in dieser Hinsicht ebenfalls sinnvoll erscheint Es bleibt aber zu beachten da das System so konzipiert ist da es erst nach Abschlu des Designs und der Datenerhebung f r die Fall Kontroll Studie eingesetzt wird Damit kann der sogenannte Fehler dritter Art Kimball 1957 nicht ausgeschlossen werden d h da die M glichkeit besteht die richtige Antwort auf die falsche Frage zu erhalten Das System sollte solche Grenzen der zur Unterst tzung der Anwender vorhandenen statistischen Ex pertise deutlich aufzeigen indem es beispielsweise auf m gliche Gefahren und Fehlerquellen hinweist Allerdings war mit der Konzeption dieses Systems zu keinem Zeitpunkt der An spruch verbunden die Konsultation eines Statistikers berfl ssig zu machen Eine pers nliche Beratung kann und soll ein derartiges Computersystem nicht ersetzen Die f r ein solches System relativ kurze Entwicklungszeit konnte neben der Beschr nkung der im System vorhandenen statistischen Expertise nur durch die Verwendung eines Ent wicklungstools wie Delphi erreicht werden Delphi vereinfacht die Erstellung einer komplexen 169 grafischen Benutzeroberfl che aber e
38. eine Reihe unterschiedlicher Auspr gungen untersucht werden z B weitere Auspr gungen f r das Odds Ratio zwischen 1 und 1 7 F r Simulationsstudien die nicht mit diesem Ansatz ausgewertet werden und lediglich einen groben Vergleich von Sch tzern liefern sollen sind die gew hlten Auspr gungen ausreichend Um aber Empfehlungen bzw Charakterisierungen zu lernen w ren wesentlich umfangreichere Simulationen erforderlich Weitere berlegungen betreffen die Vollst ndigkeit der Regelmenge in der Anwendung auf 4 9 ANALYSE DER GELERNTEN REGELN 123 reale Fall Kontroll Studien Es stellt sich dabei die Frage wie oft der Fall eintritt da keine Regel angewendet werden kann weil die Dateneigenschaften durch keine Regel abgedeckt werden k nnen d h es ist die Frage wieviele m gliche Datensituationen nicht abgedeckt werden k nnen Es ergibt sich hier theoretisch eine sehr gro e Anzahl Dabei mu aber auch ber cksichtigt werden wie oft diese Konstellationen der Daten in der Praxis tats chlich vorkommen Untersucht man beispielsweise die Datensituationen mit einer kleinen Anzahl von F llen so stellt man fest da es keine Regel f r diese Eigenschaft gibt Solche Situationen kommen in der praktischen Anwendung aber eher seltener vor als Situationen mit vielen F llen Zudem werden Studien mit kleinen Fallanzahlen nicht unbedingt mittels einer Kontingenztafelanalyse ausgewertet Da die Simulationstudien gerade f r die P
39. eine objektive Zeitmessung jedoch nahezu unm glich 4 9 Analyse der gelernten Regeln In den folgenden Abschnitten werden die Regeln ausgewertet die in dem oben beschriebenen Lernszenario entdeckt werden konnten Dabei werden die in 4 8 aufgelisteten Bewertungskri terien zugrunde gelegt 122 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN 4 9 1 Vollst ndigkeit Die aus den in 4 7 beschriebenen 24 Regeln bestehende Regelmenge deckt insgesamt 40 der Beispiele ab Damit gibt es also f r 97 der 240 Parameterkonstellationen eine Beschreibung durch eine Regel die einen Sch tzer f r diese Situation empfiehlt Die Abdeckung von 40 k nnte auf einfache Weise erh ht werden Dazu m ten die Katego rieneinteilungen ge ndert werden so da weniger Werte f r die Parameter in einer Kategorie zusammengefa t werden Wenn mehrere Auspr gungen einer Dateneigenschaft in einer Kate gorie existieren k nnen Situationen die sich nur durch diese Eigenschaft unterscheiden nicht mehr getrennt werden Gibt es beispielsweise zwei Situationen die sich lediglich durch die Anzahl der F lle insofern unterscheiden als die eine Situation beispielsweise 20 die andere durchschnittlich 30 F lle pro Schicht hat und fallen 20 und 30 in eine Kategorie so sind die Beschreibungen der Situationen gleich Kommt es also vor da in solchen Situationen unterschiedliche Sch tzer am besten geeignet waren kann hierf r keine Regel gelernt werden Durch
40. end erfolgt eine Modellierung von Kategorien in die die Dateneigenschaften und die Bewertungskriterien eingeteilt werden Sowohl die Eigenschaften als auch die Bewertungen sind numerisch Die Kategorien bestehen daher aus Intervallen die die konkreten Werte f r die Eigenschaften und Bewertungen zusammenfassen und so von diesen Werten abstrahieren 4 2 1 Modellierung der Dateneigenschaften Aus den im Szenario beschriebenen Parametern k nnen eine Reihe weiterer Dateneigenschaf ten abgeleitet werden Eine als wichtiger Einflu faktor auf das Verhalten der Sch tzer ange sehene Dateneigenschaft ist das Verh ltnis von Kontrollen und F llen Desweiteren ist auch die Differenz des maximalen Werts der Expositionswahrscheinlichkeiten und des minimalen Werts von besonderem Interesse Beide Eigenschaften k nnen auf einfache Weise aus den Grundeigenschaften berechnet werden Zu beachten ist da es sich bei den Eigenschaften Fallanzahl Kontrollenanzahl Verh ltnis von Kontrollen und F llen und den Expositionswahrscheinlichtkeiten um Eigenschaften der einzelnen Schichten handelt Besteht ein Datensatz aus zehn Schichten gibt es damit zehn unterschiedliche Werte f r die Fallanzahl die Anzahl der Kontrollen etc Die Dateneigenschaften k nnen also in zwei Gruppen eingeteilt werden 1 Eigenschaften f r die gesamte Parameterkonstellation und 2 Eigenschaften die sich auf die Schichten einer Situation beziehen Die Beschreibung einer Parameterko
41. genannt da sie Informationen zwischen Benutzer und System bertragen Die Verteilung der Aufgaben auf die Agenten resultiert in einem Modell kooperativer Probleml sung bei dem Benutzer und System zusammen ein Ziel erreichen Das konzeptuelle Modell Expertisenmodell Kooperationsmodell Das Kooperations und Expertisenmodell liefern zusammen eine implementationsunabh ngi ge Spezifikation des Verhaltens des zu bildenden Systems Das konzeptuelle Modell stellt eine abstrakte Beschreibung der Objekte und Operationen des Systems zur Verf gung die in einer nat rlichen Sprache ausgedr ckt wird Damit kann das konzeptuelle Modell als Grund lage f r die Kommunikation zwischen Experte und Wissensingenieur dienen und verbindet Ph nomene der realen Welt mit dem kognitiven Modell des Beobachters Das Designmodell Das Designmodell beschreibt die Wissensrepr sentationstechniken die verwendet werden um die Elemente des konzeptuellen Modells zu implementieren und damit das spezifizierte Ver halten zu realisieren Es ist also ein Modell auf dem Symbol Level Hier m ssen auch die im Anwendungsmodell beschriebenen Anforderungen an Geschwindig keit sowie an Hard und Software ber cksichtigt werden Der Vorteil der Trennung in konzeptuelles Modell und Designmodell liegt darin da der Wissensingenieur bei der Entwicklung des konzeptuellen Modells nicht auf den Repr senta tionsformalismus achten mu Der Rahmen f r die Modellierung der Ex
42. mehrere Formulare dieses Typs erzeugt und ge ffnet werden Somit k nnen durch den Aufruf mehrerer Formulare eine Reihe von Tafeln gleichzei tig betrachtet werden Die Anordung dieser Formulare kann durch den Anwender per Hand oder mithilfe der Befehle aus dem Men punkt Fenster erfolgen Welche Tafel im Formular angezeigt werden soll wird durch den Anwender im Feld Tafelnummer angegeben Die Formulare vom Typ TTafeln sind zweiseitige Formulare Die zweite Seite zeigt die zur 154 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Abbildung 5 15 Formular Tafeln Tafel geh renden Sch tzungen des individuellen Odds Ratios der Varianz und eines Kon fidenzintervalls an Einige Optionen f r die Berechnungen stehen ber Auswahlfelder zur Verf gung Die Formulare Odds Ratios und Nullzellen geben einen berblick ber alle individuellen Odds Ratios des Datensatzes und ber vorhandene Nullzellen also unbesetzte Felder in den Tafeln Die drei wesentlichen Analyseschritte die Homogenit tsanalyse die Sch tzung des gemeinsa men Odds Ratios und der Unabh ngigkeitstest sind in ihrer Struktur v llig gleich aufgebaut W hlt der Anwender einen entsprechenden Befehl aus dem Men punkt Analyse aus so er scheint ein folgenderma en konzipiertes Formular Es gibt zwei Gruppierungselemente die die Formulare in unterschiedliche Bereiche aufteilen In der oberen Gruppierung wird die Prozedur f r den jeweil
43. r die Benutzeroberfl che die mit ObjectVision nicht oder nur in sehr aufwendiger Weise m glich gewesen sind Als bislang einziger Schwachpunkt des Tools Delphi in der Version 1 0 kann hier das noch nicht ganz fehlerfreie Hilfesystem und die d rftige Dokumentation festgehalten werden Gren zen f r die Anwendbarkeit des Systems wurden in diesem Rahmen noch nicht erreicht im Ge genteil es bleiben hier viele Features des Systems Delphi wie beispielsweise das Datenbank Tool ungenutzt Kapitel 3 Knowledge Level Modelle des wissensbasierten Systems CORA KADS die in Abschnitt 2 1 vorgestellte Methodik zur Konstruktion wissensbasierter Systeme wird in dem folgenden Kapitel zur Spezifikation des Systems CORA verwendet Der KADS Ansatz fa t die Wissensakquisition als einen Modellierungsproze auf der die Erstellung einer Reihe von Modellen einschlie t Dieses Kapitel besteht aus der Beschreibung der von KADS geforderten Knowledge Level Modelle f r das System CORA die in Abschnitt 2 1 3 eingef hrt worden sind Die bertragung dieser Modelle auf eine symbolische Ebene wird in Kapitel 5 erl utert 3 1 Organisationsmodell Der folgende Abschnitt liefert eine Beschreibung des Umfelds in dem das wissensbasierte System CORA eingesetzt werden soll Wie bereits in der Einleitung kurz erw hnt soll das System die Analyse von Fall Kontroll Studien unterst tzen Diese Studien werden vorwiegend im Bereich der Epidemiologie also der
44. schnitt ber Sorten Sorten Durch Argument Sorten wird die Objektmenge des Sachbereichs in Klassen eingeteilt In der Deklaration eines Pr dikats k nnen Sorten festgelegt werden pred lt Sorte_l gt lt Sorten gt Damit wird angegeben welcher Sorte die an der jeweiligen Argumentstelle des Pr dikats auftretenden Terme angeh ren Sorten k nnen auch vom System aus einer gegebenen Fak tenmenge erzeugt werden Topologie W hrend die Sorten die Objekte des Sachbereichs einteilen strukturiert die Topologie die Pr dikate Der Benutzer kann eine Topologie erstellen indem er die Pr dikate nach semanti schen Merkmalen in Gruppen Topologieknoten einteilt Aus dieser Einteilung ergibt sich ebenso wie aus der Sorteneinteilung eine Beschr nkung des durch die Regelmodelle aufgespannten Hypothesenraums von RDT es d rfen nur topologie und sortenvertr gliche Pr dikate in die Pr dikatvariablen eingesetzt werden 2 2 MOBAL 29 2 2 2 Das Rule Discovery Tool RDT Der Lernalgorithmus RDT siehe auch Kietz et al 1991 leitet aus einer Menge von Fakten Regeln ab die diese beschreiben bzw Zusammenh nge aufzeigen Die gelernten Regeln k nnen ggf weitere Fakten die noch nicht eingegeben wurden ableiten und so noch nicht beobachtete Situationen beschreiben Als Eingabe erh lt RDT eine Menge von Fakten Regelmodellen und Parametern siehe un ten Der durch die Regelmodelle aufgespannte Hypothesenraum wird vo
45. structure Pilotstudie Daten Pilotstudiendaten Methodenempfehlung Ausw hlen Daten Pilotstudiendaten Analysieren Pilotstudiendaten Methode Pilot Odds Ratio Expositionswahrscheinlichkeiten Klassifizieren Pilot Odds Ratio Expos Design Parameter klassifizierte Daten Assistieren Regelmenge klassifizierte Daten Empfehlung Erkl ren Empfehlung Erkl rung 78 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Unabhangigkeitstest Das Ziel eines Unabhangigkeitstests ist es eine Aussage dartiber zu treffen ob das gemeinsame wahre Odds Ratio von eins verschieden ist ist zu treffen Als Input dienen unterschiedliche statistische Tests und die Daten der Fall Kontroll Studie Der Output ist hnlich wie f r die Homogenit tsanalyse ein Ma das die Unabh ngigkeit zwischen Risikofaktor und Krank heit beschreibt Diese Teststatistik wird dann noch geeignet standardisiert so da man den sog p Wert erh lt Anders als bei der Homogenit tsanalyse wird dem Anwender eine Test entscheidung hier vom System mitgeteilt Task Unabh ngigkeitstest Ziel Aussage ber Unabh ngigkeit zwischen Risikofaktor und Krankheit Input Methoden Daten ungeschichtet bzw bereits geschichtet Output Testentscheidung Y 1 oder Y 4 1 Task structure Unabhangigkeitstest Daten Methoden Testentscheidung Auswahlen Methoden Methode Ausfiihren Daten Methode Teststatistik Standardisierung Teststatistik p Wert E
46. tungskomponente Werden die Datens tze ge ffnet bzw erzeugt so wird das entsprechende Formular aufgerufen Die Formulare bestehen lediglich aus einer Titelzeile die den Dateina men anzeigt und einer Memokomponente siehe Abschnitt 2 3 die den Datensatz zeilenweise im oben beschriebenen Datei Format darstellt siehe Abb 5 4 In diesen Formularen k nnen die Datens tze ver ndert werden d h der Anwender kann die Dateien editieren und die ge nderten Daten abspeichern Dieser Vorgang kann auch ohne das ffnen einer Datei durchgef hrt werden und zwar durch die Befehle DateilNeu und Pilotstudie Neu Die Datenformulare bleiben solange ge ffnet bis die entsprechende Datei geschlossen wird 140 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Werden weitere Formulare ge ffnet so ist das Datenformular als Symbol weiterhin vorhanden und kann wieder dargestellt werden Alle Formulare die der Anwender im Rahmen der Beratungs und Analysekomponenten auf rufen kann werden im Hauptformular der Anwendung plaziert Abh ngig vom Typ der For mulare sind gegebenenfalls mehrere verschiedene Formulare gleichzeitig sichtbar Au erdem gibt es sogenannte Children Formulare die selbst mehrmals erzeugt werden k nnen siehe 5 2 3 Die Oberfl chen f r die Beratungs und Analysekomponente des Systems werden in den folgenden Abschnitten zusammen mit den zugundeliegenden Prozeduren und Funktionen vorgestellt 5 2 2 Design der Beratu
47. tzer Z in einer Situation S einen Bias B hat der in dieser Situation als kleinster Bias klassifiziert wurde so wird diesem Sch tzer in der Situation der Rang 1 zugeordnet Ebenfalls analog hierzu wird die Rangfolge bez glich des MSE gebildet Damit entstehen die beiden einzelnen Rangfolgen die im Anschlu zu einer Gesamtrangfolge zusammengefa t werden Das Zusammenfassen geschieht mithilfe einer einfachen Regel die die Summe der beiden einzelnen R nge durch das Built In Pr dikat add berechnet rangbias S Z RB amp rangmse S Z RM amp add RB RM RS gesamtrang S Z RS Hat ein Schatzer Z in einer Situation S damit beispielsweise den kleinsten Bias Rang 1 und den gr ten MSE Rang 6 so ergibt sich ein Gesamtrang von 7 Der Sch tzer der den minimalen Gesamtrang in der Situation hat wird ausgesucht und ist damit der beste Sch tzer in dieser Parameterkonstellation Die Regel die den Wert f r den minimalen Gesamtrang einer Situation sucht benutzt wieder den autoepistemischen Operator min_of situation S amp min_of RS gesamtrang S Z RS MRS mingesamtrang MRS S 106 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Eine weitere Regel mu nun den bzw die Sch tzer mit diesem minimalen Gesamtrang ausw hlen und als besten Sch tzer klassifizieren gesamtrang S Z RS amp mingesamtrang RS S bestersch tzer S Z Ein im Rahmen der Modellierung
48. von Me thoden aus der KI durchaus geeignet ist detailliertere Ergebnisse aus Simulationsstudien zu gewinnen und in dieser Hinsicht die Qualit t der Auswertung zu erh hen Nicht nur durch das maschinelle Lernen selbst sondern gerade durch die Modellierung des Wissens und die Inspektion vorhandener oder eingegebener Regeln konnte die Auswertung umfassend verbes sert werden Auch wenn die in Abschnitt 2 2 5 erw hnten Effizienzprobleme die Arbeit mit dem System MOBAL erschwert haben so waren die Erfahrungen dennoch insgesamt positiv Die Begr ndung liegt insbesondere u a darin da die Experten die eigene Vorgehensweise bei der Auswertung von Simulationsstudien in diesem Ansatz wiedererkannt haben und die Schritte der Modellierung der Expertise daher nachvollziehen konnten Ein weiterer Vorteil des hier verfolgten Ansatzes zur Auswertung von Simulationsstudien ist darin zu sehen da nun ohne zus tzlichen Mehraufwand auch wesentlich umfangreichere Simulationsstudien ausgewertet werden k nnen w hrend f r eine Auswertung per Hand die vorliegende Simulationsstudie mit 240 Parameterkonstellationen bereits sehr komplex ist 167 168 KAPITEL 7 ZUSAMMENFASSUNG UND AUSBLICK Umfassendere Simulationsstudien w ren jedoch wichtig um zu besseren Regeln zu gelangen die ein breiteres Spektrum an m glichen Datensituationen abdecken Desweiteren ist durch die Modellierung der Simulationsstudien deutlich geworden da es auch sinnvoll ist
49. von Risikofaktor und Krankheit Aufgabenstruktur Kontingenztafelanalyse Daten Odds Ratio Schichtung Daten Methoden 1 Daten Homogenit tsanalyse Daten Methoden 2 p Wert 1 Odds Ratio Schatzung Daten Methoden 3 p Wert 1 Odds Ratio Unabhangigkeitstest Daten Methoden 4 p Wert 2 Da alle Aufgaben mit Unterst tzung des wissensbasierten Systems durchgef hrt werden folgt nun eine genauere Vorstellung der einzelnen Subtasks 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 13 Schichtung Die Durchf hrung der Unteraufgabe Schichtung ist wie bereits erw hnt optional kann aber auch wiederholt durchgef hrt werden Input der Schichtung sind die Fall Kontroll Studiendaten sowie Methoden zur Schichtung Der Output sind die geschichteten Daten Ein erster Auswahl Task der also auf die oben beschriebene primitive Inferenz zur ckgreift betrifft die Kovariablen Es mu vom Benutzer angegeben werden welche Kovariablen bei der Schichtung ber cksichtigt werden sollen Die nicht ber cksichtigten Kovariablen werden f r die weitere Analyse gestrichen Der zweite Subtask ist die Auswahl einer der im Sachbereichswissen beschriebenen Metho den zur Schichtung Nur falls die Intervallschichtung ausgew hlt wurde m ssen im n chsten Schritt Intervalle f r die angegebenen Kovariablen bestimmt werden Das Ausf hren der Schichtung erzeugt einen neuen Datensatz der im letzten Schritt anhand eines geeigneten Homogenit tstests b
50. wird die Empfehlung eingeteilt in eine sehr gute Empfehlung eine gute Empfehlung eine mittere Empfehlung und eine schlechte Empfehlung 96 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Schichtanzahl S Odds Ratio U wenige Schichten mittlere Anzahl an Schichten viele Schichten sehr viele Schichten Fallanzahl wenige F lle mittel viele F lle viele F lle sehr viele F lle Verh ltnis K F balanciert mittel balanciert unbalanciert Lage der Expo sitionswahrschein lichkeiten unterer Rand zentriert oberer Rand sehr kleiner Bias kleiner Bias mittlerer Bias gro er Bias S lt 5 5 lt S lt 10 Odds Ratio 1 kleines Odds Ratio 10 lt S lt 50 50 lt S mittleres Odds Ratio 2 lt WV lt 7 gro es Odds Ratio 7 lt VU wenige Kontrollen K lt 5 5 lt K lt 20 20 lt K lt 100 100 lt K F lt 5 5 lt F lt 20 20 lt F lt 100 100 lt F mittel viele Kontrollen viele Kontrollen sehr viele Kontrollen Balanciertheit Gk 0 1 lt Gk lt 0 5 0 5 lt GKh lt 1 V lt 1 25 balanciert 1 25 lt V lt 3 3 lt V mittelbalanciert unbalanciert Differenzen der Expositionswahr scheinlichkeiten E lt 0O3 kleine Differenz 03 lt FE lt 0 7 0 7 lt E gro e Differenz B lt 0 005 sehr kleiner MSE 0 005 lt B lt 0 05 kleiner MSE 0 05 lt B lt 0 5 mittlerer MSE 0 5 lt B gro er MSE M lt 0 01 0 01 lt M lt 0 1 0 1 lt M lt 1l 1 lt M Tabelle 4 1 Kateg
51. 107 1978 172 LITERATURVERZEICHNIS Kietz et al 1991 Kietz J U Wrobel S Controlling the Complexity of Learning through Syntactic and Task Oriented Models Arbeitspapiere der GMD Nr 503 Sankt Augustin 1991 Kimball 1957 Kimball W A Errors of the Third Kind in Statistical Consulting Journal of the American Statistical Association Nr 57 S 133 142 1957 Kleinbaum et al 1982 Kleinbaum D G Kupper L L Morgenstern H Epidemiologic Re search Principles and Quantitative Methods Lifetime Learning Publications Belmont California 1982 Li et al 1979 Li S H Simon R M Gart J J Small Sample Properties of the Mantel Haenszel Test Biometrika Nr 66 S 181 183 1979 Linos et al 1980 Linos A Gray J E Orvis A L Kyle R A O Fallon W H Kurland L T Low Dose Radiation and Leukemia New England Journal of Medicine Nr 302 S 1101 1105 1980 Mantel Haenszel 1959 Mantel N Haenszel W Statistical Aspects of the Analysis of Data from Retrospective Studies of Disease Journal of the National Cancer Institute Nr 22 5 719 748 1959 Morik 1989 Morik K Sloppy Modeling In Morik K Hrsg Knowledge Representation and Organization in Machine Learning S 107 134 Berlin Springer Verlag 1989 Morik et al 1993 Morik K Wrobel S Kietz J U Emde W Knowledge Acquisition and Machine Learning Theory Methods and Applications Academic Press London San D
52. 5 4 zu entnehmen ist gibt es acht Men punkte Unter Datei findet der Anwender die Befehle zum Erstellen ffnen Drucken und Schlie en der Dateien sowie zum Schlie en der Anwendung Der Men punkt Pilotstudie enth lt die Befehle zum Erstellen Erzeugen durch das Sys tem ffnen Speichern und Schlie en der beiden Datens tze f r die Pilotstudie Au erdem 5 2 DESIGN DER SYSTEMKOMPONENTEN Abbildung 5 4 Das Hauptformular der Anwendung CORA 137 138 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA kann die Beratungskomponente des Systems mit dem Befehl Empfehlung aufgerufen wer den Die Schichtung umfa t die Befehle f r den Aufruf der zur Verf gung stehenden Methoden und das Speichern und Schlie en der erzeugten Datei Die beiden n chsten Men punkte geh ren ebenfalls zur Analysekomponente Unter Tafeln finden sich drei Befehle mit denen unterschiedliche Sichten auf die Daten aufgerufen werden k nnen Es handelt sich dabei um die einzelnen Kontingenztafeln sowie einen berblick ber die Nullzellen und die individuellen Odds Ratios Die wichtigsten Analyseschritte sind unter dem Men punkt Analyse angeordnet die Ho mogenit tsanalyse die Sch tzung f r das Gemeinsame Odds Ratio und der Unabh ngig keitstest Mit dem vierten Befehl Ergebnisprotokoll kann ein Protokoll der durchgef hrten Analyseschritte angezeigt werden Der Punkt Fenster enth lt Befeh
53. 5 zentriert und c weit auseinanderliegend und um 0 5 zentriert Die Konstellationen lassen sich nun durch die folgenden Eigenschaften beschreiben a kleine_differenz_expo und kleine_expo b kleine_differenz_expo und zentrierte_expo und c grosse_differenz_expo und zentrierte_expo Daraus ist ersichtlich da es jeweils 90 Parameterkonstellationen mit den Eigenschaften a und c und 60 mit der Eigenschaftskombination b gibt 112 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN gini_expo 240 gini_expo_balanciert 130 gini_expo_mittel_balanciert 80 gini_expo_unbalanciert 30 Tabelle 4 12 Balanciertheit der Expositionswahrscheinlichkeiten gini_faelle 240 gini_verhaeltnis_kf 240 gini_faelle_balanciert 150 gini_verhaeltnis_kf_balanciert 120 gini_faelle_mittel_balanciert 90 gini_verhaeltnis_kf_mittel_balanciert 120 gini_faelle_unbalanciert 0 gini_verhaeltnis_kf_unbalanciert 0 Tabelle 4 13 Balanciertheit der Fallanzahlen und des Verh ltnisses von F llen und Kontrollen Abschlie end werden nun noch die Balanciertheitseigenschaften analysiert F r die Expositi onswahrscheinlichkeiten verteilen sich die Situationen wie in Tabelle 4 12 dargestellt auf die drei Kategorien F r die beiden anderen Balanciertheitseigenschaften werden keine Situationen in die Kategorie unbalanciert eingeteilt siehe Tabelle 4 13 4 5 Lernaufgabe Der Output der Lernphase soll in einer Charakterisierung der Sch tzer bzgl der kate
54. 84 Carlsen et al 1986 Carlsen F Heuch I EXPRESS An Expert System Utilizing Stan dard Statistical Packages Proceedings COMPSTAT 1986 S 265 270 Physika Verlag Heidelberg 1986 DIN 1984 Normenausschu Informationsverarbeitungssysteme im DIN Bildschirmar beitspl tze Grunds tze der Dialoggestaltung DIN Entwurf 66234 Teil 8 Deutsches In stitut f r Normung 1984 Gart 1962 Gart J J On the Combination of Relative Risks Biometrics Nr 18 S 601 610 1962 Gale et al 1982 Gale W A Pregibon D An Expert System for Regression Analysis Pro ceedings of the 14th Symposium on the Interface of Computer Science and Statistics S 110 117 Springer Verlag New York 1982 170 LITERATURVERZEICHNIS 171 Gale 1986 Gale G Artificial Intelligence and Statistics Addison Wesley Reading London 1986 Gale 1987 Gale W A Knowledge based Knowledge Acquisition for a Statistical Consul ting System International Journal of Man Machine Studies Nr 26 5 55 64 1987 Gebhardt 1988 Gebhardt F Statistische Fragestellungen bei einem XPS zur explorativen Datenanalyse GMD Studien Nr 137 Sankt Augustin 1988 Hauck 1987 Hauck W W Estimation of a Common Odds Ratio In MacNeill I B Um phrey G J Biostatistics 5 125 149 Reidel Publishing Company 1987 Hauck 1989 Hauck W W Odds Ratio Inference from Stratified Samples Communications in Statistics Theory and Methods Nr 18
55. A b s t r a k t 1 o n Begriffs Logische ebene Ebene System Linguistische modell Ebene Implementations Ebene Realisation Abbildung 2 8 Phasen und Ebenen in KADS Schreiber et al 1993 werden Der Grund hierf r liegt darin da das konzeptuelle Modell nicht operational ist d h das Verhalten kann nicht vorgezeigt werden Dieser Nachteil des KADS Ansatzes hat sich hier als besonders gravierend herausgestellt Ein funktionaler Prototyp des WBS der mithilfe der Systeme MOBAL und Delphi erstellt werden konnte hat sich als bessere Basis f r die Kommunikation mit den Experten erwiesen als das konzeptuelle KADS Modell Desweitern ist aufgefallen da der Schritt vom konzeptuellen Modell zum Designmodell sehr schwer f llt Es kann schlecht festgestellt werden ob das Knowledge Level Modell tats chlich durch das operationale Modell realisiert wird Dadurch da das konzeptuelle Modell n her an die Begriffswelt des Experten ger ckt ist wird der Abstand zum Designmodell gr er Die Sprachkonstrukte der Knowledge Level Modelle m ssen weitesgehend intuitiv interpretiert werden da eine formale Grundlage fehlt Die Vorschl ge die f r das Structure Preserving Design siehe Schreiber et al 1993 Seite 124 130 gemacht werden konnten in dieser Arbeit nur teilweise umgesetzt werden 2 2 MOBAL 25 2 2 MOBAL MOBAL siehe Morik et al 1993 ist ein System zur Wissensmodellierung das auf den Pri
56. Alkoholkonsum Herz infarkt Tabelle 3 6 Gesamttafel Nichtraucher Raucher Alkoholkonsum Alkoholkonsum Herz ja Herz infarkt nein infarkt x Uv 1 00 1 00 Tabelle 3 7 Geschichtete Tafeln 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 61 durchgef hrt werden Das Ziel eines solchen Tests ist es eine Aussage ber die Unabh ngig keit von Risikofaktor und Krankheit zu machen Als Ergebnis dieses Tests erh lt man eine Teststatistik die im Rahmen der Analyse von zentraler Bedeutung ist Neben der reinen Feststellung anhand des statistischen Tests ob ein Zusammenhang vorliegt oder nicht ist man nat rlich auch an einer quantitativen Aussage ber den Grad dieses Zusammenhangs interessiert Dazu kann ein gemeinsames von dem Einflu des Confounders bereinigtes Odds Ratio gesch tzt werden Bei einer Reihe von Sch tzern werden dazu die individuellen gesch tzten Odds Ratios in geeigneter Weise zusammengefa t In dem Fall da der Confounder durch die Schichtung tats chlich kontrolliert wurde sind die theoretischen individuellen Odds Ratios alle gleich dem gemeinsamen Odds Ratio Y Man spricht dann von der Homogenit t der individuellen Odds Ratios Die Homogenit t der individuellen Odds Ratios kann nun durch eine Homogenit tsanalyse berpr ft werden Wird die Hypothese Ho Y Yg W durch einen geeignet gew hlten statistischen Test nicht verworfen so ist dies ein Hinweis auf eine vorliegen
57. Anklicken ausgew hlt werden Abh ngig von dieser Auswahl ndert sich die Liste der auszuw hlenden Elemente f r den Stichprobenumfang der Pilotstudie F r die geschichtete Zufallsauswahl bietet die Liste die Werte 10 20 90 an Im anderen Fall besteht die aufklappbare Liste aus den nat rlichen Zahlen von eins bis zum Stichprobenumfang des angegebenen Ge samtdatensatzes Im Unterschied zur Methodenliste ist hier das Eingeben eines ggf nicht in der Liste befindlichen Wertes durch den Anwender m glich Durch Anklicken des OK Schalters dieses Formulars wird abh ngig von der Methodenaus wahl die Prozedur Erzeuge Pilotdaten Einfach bzw Erzeuge_Pilotdaten_Geschichtet 5 2 DESIGN DER SYSTEMKOMPONENTEN 141 Abbildung 5 6 Das Formular DigStichprobenmodus aufgerufen Als Parameter erhalten beide das Objekt GesamtDaten vom Typ TDaten in das die Werte aus der angegebenen Gesamtdatei eingelesen werden Der zweite Parameter ist f r die erste Prozedur der ausgew hlte Stichprobenumfang also ein Integer Wert f r die zweite Prozedur wird ein Single Wert bergeben Dieser wird aus der Eingabe des Anwenders ab geleitet So wird z B der Wert 10 der in der Auswahlliste noch als String vorliegt in den Single Wert 0 10 umgewandelt Die beiden Algorithmen f r die Prozeduren werden in den Abbildungen 5 7 und 5 8 vorgestellt Der zweite Schritt in der Erzeugung der Datens tze wird durch den Aufruf der Prozedur Entferne_Nullzeilen durchg
58. DER SYSTEMKOMPONENTEN 143 Input Daten Anzahl der Schichten K Beobachtungsanzahl in der k ten Schicht N k k 1 Anteil der Beobachtungen f r die Pilotdaten p Output Pilotdaten Analysedaten Analysedaten Daten Pilotdaten leerer Datensatz for k 1 to K do begin B k N k n k N k p neue Beobachtungsanzahl f r die Pilotdaten end Ablauf for k 1 to K do begin for i 0 to n k 1 do begin Generiere eine ganzzahlige Zufallszahl z aus 1 BL k Streiche die Beobachtung z aus den Analysedaten Fuge die Beobachtung z in den Pilotdatensatz ein BLk BLk 1 neue Beobachtungsanzahl der Analysedaten end end Abbildung 5 8 Die geschichtete Zufallsauswahl 144 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Abbildung 5 9 Erste Seite des Empfehlungsformulars Abbildung 5 10 Zweite Seite des Empfehlungsformulars 5 2 DESIGN DER SYSTEMKOMPONENTEN 145 Zur Generierung der Empfehlung sind folgende Schritte erforderlich e die Berechnung der Eigenschaften der Analyse und der Pilotdaten e die Bewertung dieser Eigenschaften und e die Auswahl einer passenden Regel aus einer integrierten Regelmenge F r den ersten Schritt gibt es einfache Funktionen wie z B die Funktion AvFallanzahl Daten TDaten Single die aus dem bergebenen Datenobjekt die durchschnittliche Fallanzahl berechnet Etwas komplexer ist die Berechnung der Gini Koeffizienten f r die Balanciertheitseigenschaften Als Erge
59. Entwicklung eines wissensbasierten Assistentensystems zur Analyse von Fall Kontroll Studien Ursula Robers betreut von Prof Dr Katharina Morik und Prof Dr Iris Pigeot K bler Juli 1995 Diplomarbeit am Fachbereich Informatik der Universit t Dortmund Vorwort An erster Stelle m chte ich meinen beiden Betreuerinnen Prof Dr Katharina Morik und Prof Dr Iris Pigeot K bler f r ihr gro es Interesse und das Engagement bei der Betreuung dieser Arbeit danken Insbesondere danke ich Frau Pigeot K pbler als Leiterin des Projekts CORA in dessen Rahmen diese Arbeit entstanden ist f r die hervorragende Zusammenarbeit und das in mich gesetzte Vertrauen Desweiteren gilt mein besonderer Dank Ursula Sondhau der wissenschaftlichen Mitarbeiterin im CORA Projekt die durch eine Reihe von wertvollen Vorschl gen und Ideen sowie durch stete Gepr chsbereitschaft diese Arbeit in besonderem Ma e gef rdert hat Auch den anderen Mitarbeitern des Projekts sowie den Teilnehmern des Diplomandensemi nars sei herzlich gedankt Essen im Juli 1995 Ursula Robers II Zusammenfassung Das Thema der vorliegenden Diplomarbeit ist die Entwicklung eines Systems das eine statisti sche Analyse bestimmter epidemiologischer Studien sog Fall Kontroll Studien erm glicht Da f r diese Analyse umfangreiche Kenntnisse statistischer Verfahren und ihrer Eigenschaften erforderlich ist diese aber in der Regel von Epidemiologen durchgef hrt wird
60. II Sch tzer JK_i und Breslow Liang keine gelernten Regeln keine gelernten Regeln Tabelle 4 14 Lernl ufe 116 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Zielpr dikat MP AK sehrgute_empfehlung MP3 pos gt 0 9 total pos total gute_empfehlung pos gt 0 9 total mittlere_empfehlung schlechte_empfehlung pos total sehrgute_eignung pos total alle Eignungspradikate gute_empfehlung pos total mittlere_empfehlung pos total schlechte_empfehlung pos total Ergebnis Bemerkungen keine gelernten Regeln neun gelernte Regeln Lernzeit 30044 Sekunden Regeln f r Jackknife Schatzer JK 18 gelernte Regeln Lernzeit 31223 Sekunden Regeln f r Jackknife Schatzer JK 24 gelernte Regeln Lernzeit 32678 Sekunden Regeln f r Jackknife Schatzer JK eine gelernte Regel Lernzeit 29452 Sekunden Regel fiir Mantel Haenszel Schatzer ca 750 gelernte Regeln nicht vollstandig ausgewertet nicht durchgef hrt keine gelernten Regeln ca 80 Regeln Regeln fiir Jackknife und Woolf Jackknife Schatzer ca 100 Regeln Lernlauf wurde abgebrochen 12 Regeln Regeln fiir Mantel Haenszel Schatzer konnten nicht durchgef hrt werden Tabelle 4 15 Lernl ufe Hier wurde bereits entschieden da diese Pr dikate nicht weiter betrachtet werden sollen siehe 4 7 Der Lauf wurde nach ca einw chiger Laufzeit abgebrochen Die Lernl ufe konnten aufgrund von Effizienzproblemen siehe oben nic
61. Liste dar Schl sselworte die in der Dialogbox Suchen aufgef hrt werden oberes Fenster Bestimmt die Reihenfolge der Topics wenn der Benutzer die lt und gt Schalter benutzt Tabelle 2 3 Fu noten und ihre Funktionen Die Hilfeprojektdatei ist ein Textfile mit den Endung hpj das u a folgende Bestandteile umfa t FILES Dieser Abschnitt ist der einzige obligatorische Teil der Projektdatei Er legt fest welche Themendateien zu dem Hilfesystem geh ren sollen OPTIONS In diesem Abschnitt k nnen einige Optionen angegeben werden z B CONTENTS Der Kontext String des Inhaltsverzeichnisses also das Thema das durch das Anklicken des Schalters Inhalt aufgerufen wird kann hiermit bestimmt werden TITLE Ein Titel f r das Hilfesystem kann angegeben werden COMPRESS Mit dieser Option wird der Kompressionsgrad der compilierten Hilfe datei bestimmt MAP Hier k nnen die Kontext Strings mit einer Kontextnummer verkn pft werden BITMAP Die zu dem Hilfesystem geh renden Grafikdateien k nnen in diesem Anschnitt angegeben werden 2 3 DELPHI OBJECTVISION 43 Einbinden eines Hilfesystems in eine Delphi Anwendung ber die Eigenschaft HelpFile des Objekts Application also der Anwendung kann eine Hilfedatei hlp f r die Anwendung angegeben werden Der Aufruf des Hilfesystems mu nicht ber die recht umst ndliche Funktion WinHelp aus Windows API erfolgen Einfacher ist die Verwendung
62. M gliche Alternativen bleiben zum Teil unerw hnt oder werden im Einzelfall nur kurz angesprochen Wird beispielsweise in 4 2 3 von einer alternativen Modellierung der Kategorieneinteilung gesprochen so ist zu beachten da diese erst nach der Repr sentation dieses Modells verworfen wurde Die Repr sentationen f r die verworfenen Modellierungen werden aus Gr nden der Lesbarkeit aber nicht dargestellt Ebenso verh lt es sich mit den unterschiedlichen Repr sentationsm glichkeiten des Modells Erst nach der Evaluierung des Lernvorgangs stand fest welche Repr sentation hier geeigneter war Dennoch werden die Lernl ufe nur f r eine Repr sentation beschrieben Das hei t f r die Beschreibung der jeweils n chsten Phase werden die endg ltigen abge sehen davon da die Modellierung generell ein unendlicher Proze ist Ergebnisse der vor ausgegangenen Phase zugrunde gelegt Die Durchf hrung der Revisionen die im Laufe der Wissensakquisition notwendig geworden sind wird vollst ndig durch das System MOBAL unterst tzt so da das System in allen beschriebenen Phasen eingesetzt werden konnte Im anschlie enden Abschnitt wird zun chst das Szenario f r die Modellierung beschrieben Darin werden die grundlegenden Elemente des Sachbereichs festgelegt Abschnitt 4 2 geht auf die Modellierung der Dateneigenschaften der Bewertungskriterien und die Modellierung der Kategorien ein In 4 3 wird die Repr sentation der modellierten Simulations
63. PONENTEN 153 Input Daten Position der betrachteten Kovariable untere Intervallgrenze obere Intervallgrenze Positionen der insgesamt betrachteten Kovariablen Anf geposition Output geschichtete Daten Ablauf for K 0 to Anzahl der Zeilen im Datensatz do begin Suche alle Zeilen f r die die Auspr gungen der betrachteten Kovariable innerhalb des angegebenen Intervalls liegt F ge diese Zeile in den geschichteten Datensatz an der durch die Anf geposition bestimmte Stelle ein Schichte diesen neuen Datensatz mithilfe der Funktion Schichtung Abbildung 5 14 Algorithmus zur IntervallSchichtung den zeigen ob diese Vorgehensweise sinnvoll ist oder besser das Ausgangsdatenobjekt nicht die Datei direkt berschrieben wird Die weiteren Elemente der Analysekomponente werden im folgenden berblickartig vorge stellt Bevor man die Informationen aus den Daten zusammenfa t und analysiert k nnen die ein zelnen Tafeln untersucht werden Unter dem Men punkt Tafeln gibt es die Unterpunkte Einzelne Tafeln Odds Ratios und Nullzellen die verschiedene Sichten auf die Daten anbieten Mit dem ersten Befehl wird ein Formular vom Typ TTafeln siehe Abbildung 5 15 aufgerufen das die einzelnen Schichten des Datensatzes in Form von 2x2 Kontingenztafeln darstellt Es kann jeweils eine Tafel angesehen werden Da es sich bei diesem Formular um ein sogenanntes Children Formular handelt k nnen
64. Repr sentationen der Dateneigenschaften F r die Repr sentation der Dateneigenschaften werden zwei Alternativen vorgestellt von denen die zuerst beschriebene sp ter weiterverwendet wird Die zweite Repr sentation wird lediglich angegeben um zu verdeutlichen da jeweils mehrere M glichkeiten bestehen Der Leser sollte dadurch eine Vorstellung davon bekommen welche Entscheidungen hier getroffen werden m ssen In der ersten Repr sentation gibt es f r jede schichtunabh ngige Dateneigenschaft ein zwei stelliges Pr dikat An der ersten Stelle steht die Situationsnummer Sie ist ein eindeutiger Bezeichner f r die Parameterkonstellation aus der Simulationsstudie An der zweiten Stelle im Pr dikat stehen die Auspr gungen der Eigenschaften also die Werte des Odds Ratios die Anzahl der Schichten oder die Differenz der Expositionswahrscheinlichkeiten Es ist sinnvoll die Pr dikatnamen so zu w hlen da sie auf die jeweils repr sentierte Eigenschaft deuten Folgende Pr dikate werden konstruiert oddsratio lt situationsnummer gt lt groesse gt schichtanzahl lt situationsnummer gt lt anzahl gt dif ferenz_expo lt situationsnummer gt lt dif ferenz gt Ebenso werden die durch den Gini Koeflizienten berechneten Werte f r die Balanciertheit der schichtabh ngigen Eigenschaften repr sentiert Hier entehen die drei Pr dikate balanciertheit_faelle lt situationsnummer gt lt gk gt balanciertheit_verh
65. Simulationsstudie und zwar f r gro e Expositionswahrschein lichkeiten Diese treten zwar in den einzelnen Schichten auf der Durchschnitt f llt jedoch nie in diese Kategorie sondern h chstens in die Kategorie zentriert z B wenn die Expositions verhaeltnis_kf 1360 durchschnitt_verhaeltnis_kf 240 unbalanciert_verhaeltnis_kf 40 mittel_balanciert_verhaeltnis_kf 200 balanciert_verhaeltnis_kf 0 Tabelle 4 9 Verh ltnis von F llen und Kontrollen 4 4 EVALUIERUNG DES ERSTELLTEN MODELLS 111 expo 1360 durchschnitt_expo 240 kleine_expo 90 zentrierte_expo 150 grosse_expo 0 Tabelle 4 10 Expositionswahrscheinlichkeiten differenz_expo 240 kleine_differenz_expo 150 mittlere_differenz_expo 0 grosse_differenz_expo 90 Tabelle 4 11 Differenzen der Expositionswahrscheinlichkeiten wahrscheinlichkeit in der ersten von zwei Schichten 0 2 und in der zweiten 0 8 betr gt Kleine Durchschnittswerte treten dagegen in Situationen mit f nf Schichten auf wenn z B alle f nf Werte zwischen 0 2 und 0 3 liegen Es ergibt sich die in Tabelle 4 10 gezeigte Aufteilung Die Differenz der maximalen und minimalen Expositionswahrscheinlichkeiten einer Schicht ist in 150 Situationen klein in den weiteren 90 gro siehe Tabelle 4 11 In der Beschreibung des Simulationsdesigns vgl 3 3 1 wurden drei Konstellationen f r die Binomialwahrscheinlichkeiten genannt a nahe zusammenliegend und kleiner als 0 5 b nahe zusammenliegend und um 0
66. Squared Error also der mittlere quadratische Fehler Ein weiteres Kriterium das in der Simulationsstudie ebenfalls angegeben wurde ist die Stan dardabweichung die aber wie in 3 3 1 schon erw hnt aus dem Bias und dem MSE berechnet werden kann und daher nicht mehr zus tzlich zur Beurteilung herangezogen wird Die hier aufgef hrten Dateneigenschaften und Bewertungskriterien k nnen direkt aus der Dokumentation der Simulation abgelesen werden 4 2 Modellierung Dieser Abschnitt umfa t die Modellierung des Sachbereichswissen dessen Rahmen im Szena rio festgelegt worden ist Dazu erfolgt zun chst die Modellierung der Dateneigenschaften Mit den in 4 1 beschriebenen Eigenschaften k nnen zwar alle Parameterkonstellationen vollst ndig beschrieben werden es k nnen dar ber hinaus aber noch eine Reihe weiterer Eigenschaften bestimmt werden die sich aus den schon beschriebenen ableiten lassen Die Berechnung die ser zus tzlichen Eigenschaften wird als sinnvoll erachtet da so die Charakterisierung der Sch tzer die auf diesen Dateneigenschaften basiert an Ausdrucksf higkeit gewinnt Anschlie end werden die Kriterien modelliert die zur Bewertung der Sch tzergebnisse her angezogen werden Dazu wird die getrennte Bewertung durch den Bias und den MSE die im Szenario angedeutet wurde zu einer Gesamteignung jedes Sch tzers und zu einer Empfehlung eines Sch tzers in einer Situation zusammengefa t 4 2 MODELLIERUNG 91 Abschlie
67. TELLTEN MODELLS 109 JK WJK W MH JKli BL insg sehr_kleiner_mse 29 28 28 28 28 28 169 kleiner_mse 74 74 76 74 75 73 446 mittlerer_mse 84 86 85 85 84 86 510 grosser_mse 53 52 51 53 5353 315 Tabelle 4 5 Einteilungen der Sch tzer f r den MSE schichtanzahl 240 wenig_schichten 80 mittel_schichten 80 viele_schichten 80 sehr_viele_schichten 0 Tabelle 4 6 Schichtanzahlen len Schichten siehe Tabelle 4 6 Andere Auspragungen fiir die Schichtanzahl werden nicht berpr ft Die vorhandenen Anzahlen stehen damit jeweils stellvertretend f r eine ganze Kategorie Da es sich um eine Studie aus dem Large Strata Modell handelt gibt es kei ne Konstellation mit sehr vielen Schichten Die Kategorie wurde jedoch mit aufgenommen um f r solche Situationen in einer eventuell durchzuf hrenden Simulationsstudie mit einem dementsprechenden Design vorbereitet zu sein Bei der Einteilung der Gr e des Odds Ratios werden alle Kategorien untersucht Allerdings gibt es in drei Klassen jeweils nur eine Auspr gung die hier zugrunde liegt F r die Klas se oddsratio 1 wird ein Wert von 1 f r kleines_oddsratio ein Wert von 1 7 f r mittleres_oddsratio die Werte 3 5 und 5 und f r gro es_oddsratio schlie lich ein Wert von 10 berpr ft F r jeden gew hlten Wert werden 48 Konstellationen untersucht so da es 96 Situationen mit einem mittleren Odds Ratio gibt siehe Tabelle 4 7 F r die Fallanzahlen der einzelnen Sch
68. TISE 55 Altersgruppe 25 29 30 34 35 39 40 44 45 49 Rauchen OC MI Ctrl MI Ctrl MI Ctrl MI Ctrl MI Ctrl Nein Ja 0 25 0 13 0 8 1 4 3 2 Nein 1 16 0 175 3 153 10 165 20 155 1 24 Ja 1 25 1 10 1 11 0 4 0 1 pro Tag Nein 0 79 5 142 11 119 21 130 42 96 gt 25 Ja 3 12 8 10 3 7 5 1 3 2 pro Tag Nein 1 39 7 73 19 58 34 67 31 50 Tabelle 3 1 Beispiel fiir einen Ausgangsdatensatz der Anzahlen fiir die exponierten und nicht exponierten Falle und Kontrollen Eine zweite M glichkeit einen Datensatz zu schichten besteht darin f r bestimmte Kovariablen neue bzw gr ere Intervalle f r ihre Auspr gungen anzugegeben Zur Verdeutlichung der Schich tung soll das folgende Beispiel dienen Man betrachte die in der Tabelle 3 1 dargestellten Daten einer Fall Kontroll Studie siehe Shapiro et al 1979 die den Einflu der Einnahme von oralen Kontrazeptiva auf den Herzinfarkt untersucht Die erhobenen Kovariablen sind der Tabakkonsum und das Alter In diesem Datensatz liegen die Confounder Rauchen eingeteilt in drei Klassen und das Alter eingeteilt in f nf Klassen vor Soll der Tabakkonsum nun nicht mehr beriicksichtigt werden so erhalt man den in Tabelle 3 2 gezeigten Datensatz Hier wurde also die erste Methode der Schichtung angewendet Dadurch da die Kovariable Rauchen nicht mehr ber cksichtigt wird mu zwischen der ersten dritten und f nften bzw zweiten vierten und sechsten Zeile des Ausgangsdatensatzes nicht mehr unte
69. Z MP2 E1 E2 E S Z amp EL Sit amp E2 Sit E Sit Z MP3 E1 E2 E3 E S Z El Sit amp E2 Sit amp E3 Sit E Sit Z MP4 E1 E2 E3 E4 E S Z amp EL Sit amp E2 Sit amp E3 Sit amp EA Sit E Sit Z MP5 E1 E2 E3 E4 E5 E S Z amp EL Sit amp E2 Sit amp E3 Sit amp E4 Sit amp E5 Sit gt E Sit Z Mithilfe der Pr dikate durch die das S Z instanziiert wird kann die Variable Z in der Kon klusion gebunden werden siehe Abschnitt 2 2 Mit dem ersten Metapr dikat werden zun chst Dateneigenschaften gesucht die alleine ausreichen um einen bestimmten Sch tzer zu empfeh len Anschlie end werden Kombinationen von zwei drei vier und f nf Eigenschaften gesucht Es ist sinnvoll dieser Modellierung eine Closed World Assumption zugrunde zu legen Es sollen m glichst wenige bzw keine neuen Fakten aus den gelernten Regeln gefolgert werden da alle korrekten Empfehlungen und Eignungen bereits in der Wissensbasis vorliegen Wird in einer bestimmten Situation ein Sch tzer empfohlen so f hrt das Ableiten einer weiteren Empfehlung f r diese Situation zu einer inkorrekten Wissensbasis Ebenso ist z B das Ableiten einer guten Eignung f r einen Sch tzer in einer Situation als inkorrekt zu bewerten wenn f r diesen Sch tzer hier bereits eine andere Eignung beispielsweise eine sehr gute Eignung festgestellt wurde Optimal sind also die Regeln mit einem neg bzw pred Wert von null Daher wu
70. abh ngt Eine L sung dieses Problems besteht in der Durchf hrung einer Pilotstudie Eine Pilotstudie ist wie bereits kurz erw hnt eine Fall Kontroll Studie kleineren Umfangs unter ansonsten gleichen Bedingungen d h die Design Parameter Tafelanzahl und das Verh ltnis von Kontrollen und F llen bleiben unver ndert gegen ber der Fall Kontroll Studie Daten f r Pilotstudien lassen sich am einfachsten da durch erhalten da man einen kleinen Teil der Fall Kontroll Studiendaten f r diese Studie verwendet Sie k nnen dann nicht mehr f r die eigentliche Auswertung der Fall Kontroll Studie verwendet werden Damit besteht der offensichtliche Nachteil dieses Vorgehens in der Reduktion der Datenbasis Es gibt mehrere Methoden zur Erzeugung eines Pilotdatensatzes z B die einfache und die geschichtete Zufallsauswahl Die einfache Auswahl zieht eine Stichprobe mit einem vorgegebe nen Umfang aus den Originaldaten Die geschichtete Auswahl zieht einen bestimmten Anteil aus jeder Schicht der Originaldaten Als Output entstehen jeweils zwei neue Datens tze die Pilotdaten und die neuen Fall Kontroll Studiendaten aus denen die Pilotdaten entfernt wor den sind Die Pilotdaten werden mit einer geeigneten Methode analysiert Die Analyse umfa t hier die Sch tzung des gemeinsamen Odds Ratios und die Berechnung der Expositionswahrscheinlich 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 17 keiten f r diese Daten Sowohl diese Ergebnisse al
71. acht Die Homogenit tsanalyse wird im Rahmen des Systems nur explorativ genutzt d h da der berechnete p Wert als Indikator f r oder gegen die Annahme der Homogenit t angesehen wird Dabei sprechen gro e p Werte f r die Ho mogenit tsannahme Die Testentscheidung ist damit auch nicht zwingend f r den Benutzer d h selbst bei abgelehnter Homogenit tsannahme kann ein gemeinsames Odds Ratio gesch tzt werden Der dritte Task die Entscheidung des Benutzers mu also nicht dem Vorschlag des Systems entsprechen Falls der p Wert kleiner als 0 1 ist wird vorgeschlagen die Homogenit tshypothese abzulehnen 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 75 Task Homogenit tsanalyse Ziel Aussage ber die Homogenit t der individuellen Odds Ratios Input Methoden Daten Output Teststatistik p Wert Control Terms Vorschlag Vorschlag ber die Annahme oder Ablehnung der Homogenit t Entscheidung Annahme oder Ablehnung der Homogenit t Task structure Homogenitatsanalyse Daten Methoden Teststatistik p Wert Ausw hlen Methoden Methode Ausf hren Daten Methode Teststatistik Standardisierung Teststatistik p Wert Erkl ren p Wert Vorschlag Entscheiden p Wert Vorschlag Entscheidung Odds Ratio Sch tzung Die Odds Ratio Sch tzung kann als zentrale Aufgabe der Kontingenztafelanalyse angesehen werden Ihr Output ist das gesch tzte Odds Ratio Als Input ben tigt dieser Task die geschich tenten Daten d
72. aeltnis lt situationsnummer gt lt gk gt balanciertheit_expo lt situationsnummer gt lt gk gt F r die weiteren Eigenschaften gilt da sie in den einzelnen Schichten einer Situation un terschiedlich sind In die Pr dikate f r diese Eigenschaften mu daher ein drittes Argument eingef gt werden in dem die Schichtnummer angegeben wird Sie zeigt an zu welcher Schicht der Situation die Auspr gungen dieser Eigenschaften geh ren Es ergeben sich damit die Pr dikate fallanzahl lt situationsnummer gt lt schichtnummer gt lt anzahl gt kontrollenanzahl lt situationsnummer gt lt schichtnummer gt lt anzahl gt exposition lt situationsnummer gt lt schichtnummer gt lt wert gt verh_k f lt situationsnummer gt lt schichtnummer gt lt wert gt 4 3 REPR SENTATIONEN DER MODELLIERUNG 99 Sollen f r diese vier Eigenschaften die Durchschnittswerte angegeben werden so bietet sich die Repr sentation durch folgende Pr dikate an durchschnitt_fallanzahl lt situationsnummer gt lt anzahl gt durchschnitt_kontrollenanzahl lt situationsnummer gt lt anzahl gt durchschnitt_exposition lt situationsnummer gt lt wert gt durchschnitt_verh_k f lt situationsnummer gt lt wert gt Einige Werte f r die Dateneigenschaften k nnen nicht direkt aus der Dokumentation der Simulationsdaten bernommen werden Es handelt sich hierbei um die abgeleiteten Eigen schaf
73. ahlengenerators unter Zugrundelegung der jeweiligen Parameterkonstel lation die Eintr ge in den Zellen der Kontingenztafeln als Realisationen entsprechend bino mialverteilter Zufallszahlenvariabeln erzeugt F r jeden Lauf wird dann anhand der einzelnen Verfahren das gemeinsame Odds Ratio gesch tzt sowie die Standardabweichung und der Bias berechnet Die 1000 Sch tzergebnisse der Simulationsl ufe werden im Anschlu gemittelt Die Mittelwerte der gesch tzten Odds Ratios k nnen dann jeweils mit dem tats chlichen Wert verglichen werden Die Bewertungsma e sind der Bias also die Abweichung des gesch tzten Werts vom tats chlichen der MSE d h der mittlere quadratische Fehler und die Standard abweichung Dabei gilt da der MSE sich gerade ergibt als Summe aus der quadrierten Standardabweichung also der Varianz und dem quadrierten Bias Damit liefert die Standard abweichung keine zus tzliche Information Die Abbildung 3 4 zeigt den Aufbau der Dokumentation Es wurden f r jede Situation die Pa rameter beschrieben und die jeweiligen Ergebnisse der Sch tzer bzgl der Bewertungskriterien dokumentiert In der dargestellten Simulationsstudie wurden also sechs Sch tzer verglichen n mlich der Mantel Haenszel und der Woolf Sch tzer der Breslow Liang Sch tzer also der Typ I ge jackknifte Mantel Haenszel Sch tzer der Jackknife Sch tzer Typ II New Jackknife ba sierend auf dem Mantel Haenszel Sch tzer ein weiterer Jackknife Sch tz
74. alten der einzelen Schatzer Input Simulationsdaten Dokumentation Output Regelmenge Aufgabenstruktur Auswertung von Simulationsstudien Simulationsdaten Dokumentation Regelmenge Modellierung Simulationsdaten Faktenmenge Entwurf Faktenmenge Metapradikate Zielpradikate Akzeptanzkriterien Lernlaufe Durchfiihrung Lernlaufe Regeln Auswahl Bewertung Regeln Bewertungskriterien Bewertung durch XP Regelmenge Die Modellierung kann in weitere Unteraufgaben zerlegt werden n mlich in die Bestimmung der relevanten Dateneigenschaften die Berechnung von abgeleiteten Dateneigenschaften das Bilden von Kategorien und die Reprasentation Das Ziel der Modellierung ist der Aufbau einer Faktenmenge aus der mithilfe des Systems MOBAL RDT die oben beschriebenen Regeln gelernt werden k nnen 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 81 Task Modellierung Ziel Aufbau einer Wissensbasis Input Simulationsdaten Output Wissensbasis Control Terms Kategorien Kategorien f r die Dateneigenschaften und Bewertungskriterien Aufgabenstruktur Modellierung Simulationsdaten Faktenmenge Auswahl Simulationsdaten Dateneigenschaften Bewertungskriterien Klassifikation Dateneigenschaften Bewertungskriterien Kategorien Reprasentation Kategorien Simulationsdaten Wissensbasis Das Ziel des ersten Subtasks ist die Bestimmung von relevanten Dateneigenschaften und der zur Beurteilung dienenden Kriterien
75. angreich ist die Probleml sungsexpertise des Systems Basiert die Expertise auf datenabh ngigem oder datenunabh ngigem Wissen Dialogkomponente Ist der Dialog nat rlichsprachlich men gesteuert oder wird er ber eine Kommando sprache oder eine grafische Benutzeroberfl che gesteuert Erkl rungskomponente Sind die Entscheidungen des Systems f r den Anwender transparent Hat das System die F higkeit zu unterrichten d h kann der Anwender aus der Pro gramm benutzung eine Expertise erwerben 160 161 e Wissensakquisition Besitzt das System eine Komponente zur Wissensakquisition Hat das System die F higkeit vom Anwender zu lernen Zu dem erstgenannten Kriterium ist anzumerken da sich das System CORA auf einen re lativ kleinen Bereich der Statistik beschr nkt n mlich auf die Analyse geschichteter 2x2 Kontingenztafeln der Anwendungsbereich jedoch nicht eingeschr nkt wird Wenn auch da von ausgegangen wird da das System typischerweise in der Epidemiologie eingesetzt wird so sind doch ebenfalls andere beispielsweise psychologische oder konomische Untersuchungen mithilfe des Systems m glich Das Hilfesystem geht allerdings auf diese Anwendungsbereiche nicht in gleichem Ma e ein wie auf epidemiologische Aspekte Fast alle bekannten statistischen Expertensysteme machen ebenfalls starke Einschr nkungen bez glich der zur Verf gung stehenden Methoden Als eines der fr hen Systeme soll hier beispielswei
76. at sich im Laufe der Modellierung nicht oder nur kaum ge ndert Dazu geh ren z B die Kategorien f r das gemeinsame Odds Ratio Die bestehende Einteilung wird bereits bei der Beschreibung des Designs der Simulationsstudie durch die Expertin motiviert siehe 3 3 1 Andere Kategorien insbesondere die f r den Bias und den MSE wurden h ufig ge ndert F r diese Parameter ist es wichtig eine m glichst gute Trennung der Sch tzer zu erhalten Daher wurde bei diesen Parametern weniger auf eine inhaltlich motivierte Einteilung Wert gelegt 4 2 MODELLIERUNG 95 im Gegensatz zu der Kategorisierung der Dateneigenschaften sondern vorwiegend untersucht mit welchen Werten f r die Kategoriegrenzen die gew nschte Aufteilung der Sch tzer durch gef hrt werden kann So kommt man dann zu einer Einteilung die einen Bias von 0 05 bereits als einen mittleren Bias klassifiziert Inhaltlich gesehen ist ein solcher Bias sicher noch als sehr klein zu bezeichnen Diese strenge Einteilung wirkt sich nat rlich auf die daraus ent stehende Gesamteignung und auch auf die Einteilung der Empfehlungen aus Daher ist es wichtig sp ter bei der Verwendung der gelernten Charakterisierung deutlich zu machen da eine sehr strenge Einteilung zugrunde gelegen hat Nachdem nun die Kategorien f r die Bewertungskriterien Bias und MSE gebildet worden sind kann die Modellierung der kategorisierten Eignungen f r die Sch tzer erfolgen Hierf r k nnen die Ein
77. ation_in_schicht lt situationsnummer gt lt schichtnummer gt lt fallanzahl gt lt kontrollenanzahl gt lt exposition gt lt verhk f gt Das Beispiel zeigt die Dateneigenschaften der ersten Situation in dieser Repr sentation Es gibt 1360 Schichten in der repr sentierten Simulationsstudie 4 3 REPR SENTATIONEN DER MODELLIERUNG 101 parameterkonstellation sit_1 1 0 2 0 1 1 0 1 25 75 2 5 3 konstellation_in_schicht sit_1 1 20 60 0 2 3 konstellation_in_schicht sit_1 2 30 90 0 3 3 Um alle Situationen in dieser Repr sentation zu charakterisieren sind 240 Fakten f r das erste Pr dikat und 1360 f r das zweite notwendig d h 1600 Fakten also wesentlich weni ger als in der ersten Repr sentationsvariante Allerdings sind die Fakten un bersichtlicher geworden da sich die Stelligkeit der Pr dikate erh ht hat Aus der im Beispiel vorgestellten Wissensbasis l t sich schwerer ablesen da das Odds Ratio 1 0 betr gt und es in der ersten Schicht 20 F lle gibt 4 3 2 Reprasentationen der Sch tzergebnisse Die Beschreibung der Repr sentation der Sch tzergebnisse stellt hnlich wie im vorangegan genen Abschnitt zwei Alternativen vor von denen die erste weiter verfolgt wird Wie schon erw hnt erfolgt hier nur der erste Teil der Umsetzung der Sch tzergebnisse also nur die Repr sentation der einfachen Bewertungskriterien Bias und MSE In der ersten Repr sentationsvariante gibt es f r diese beide
78. ationsmodell vorgestellt Aufgabenmodell Aufteilung und Verteilung der Aufgaben Im Aufgabenmodell werden die Aufgaben in kleinere Unteraufgaben zerlegt und dann an die Agenten verteilt Zur Durchf hrung der Task Decomposition werden von den KADS Autoren folgende Heuris tiken vorgeschlagen 20 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Aufgabenmodell Aufgabenzerlegung Abh ngigkeiten Aufgabenverteilung Aufgaben f r Aufgaben f r Benutzer das System Transferaufgaben Expertisen Kooperations modell modell Abbildung 2 6 Rollen der Kooperationsanalyse nach Schreiber et al 1993 2 1 KADS 21 Objektzerlegung Object Decomposition Kann der Output eines Tasks in mehrere Teile zerlegt werden so k nnen diese Teile von unterschiedlichen Unteraufgaben produ ziert werden Diese Aufteilung wird auch als Zielzerlegung bezeichnet Eine effiziente Aufgabenzerlegung zeigt sich in der Anzahl der Beziehungen zwischen den Unteraufgaben Je weniger Verbindungen bestehen desto weniger Kooperation und damit Kommunikationsaufwand ist erforderlich Objektverfeinerung Object Refinement Sind in dem Output einer Aufgabe unter schiedliche Abstraktionsstufen festzustellen so k nnen m gliche Unteraufgaben aus ei ner Reihe von Verfeinerungsschritten bestehen Funktionale Sequenzierung Funktional Sequencing Die funktionale Sequenzierung zerlegt die Aufgaben nach funktionalen Kriterien in eine Reihe v
79. atur der Modellierung wird so im KADS Ansatz kaum ber cksichtigt Die Modellierungssichtweise nach dem Sloppy Modeling Prinzip Im Sinne von Sloppy Modeling kann die Knowledge Acquisition als Modellierung wie in Ab bildung 2 2 dargetellt werden Die Modellierung ist hier ein zyklischer kein linearer Proze Der Zyklus kann in drei Phasen unterteilt werden In der ersten Phase wird der Rahmen Framework f r das Modell festgelegt Es wird bestimmt welche Aspekte des Sachbereichs relevant sind und die zugrundeliegende Syntax und Semantik wird spezifiziert Damit sind das Vokabular der Beschreibung von Ph nomenen und semantische Beziehungen zwischen Kon zepten Eigenschaften und Zust nden bestimmt In der n chsten Phase wird dieser Rahmen und damit als Beispiele f r die Task Performance aufgefa t werden 10 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Sach bereich unterst tzt durch das System Abbildung 2 3 Operationales Modell als Ergebnis der Wissensakquisition nach Morik 1989 mit Fakten und Regeln gef llt d h es werden weitere Beobachtungen repr sentiert K nnen Beobachtungen nicht dargestellt werden so mu der Rahmen revidiert werden Die dritte Phase widmet sich der Evaluierung des Modells indem die Konsistenz und Vollst ndigkeit des Modells berpr ft wird Dabei kann die Revision einzelner Fakten und Regeln aber auch die Revision grundlegender Annahmen notwendig werden Ein System das
80. besonders schlechte Fignungen von Sch tzern genauer zu untersuchen um dem Benutzer so Negativempfehlungen im Sinne von Warnungen mitteilen zu k nnen In diesem Zusammenhang sollte die Expertise durch weitere Regeln erg nzt werden die sich nicht nur aus der Auswertung von Simulationsstudien ergeben sondern z B auf asymptotischen Eigenschaften der Verfahren beruhen oder sich direkt aus der Berechnung ergeben also zum Teil datenunabh ngige Eigenschaften ber cksichtigen Die hierf r notwendige Erg nzung der Regelmenge ist im Rahmen dieses Ansatzes problemlos m glich Erg nzend zu diesen berlegungen sei im folgenden zudem auf m gliche Erweiterungen der zugrundeliegenden statistischen Expertise hingewiesen So k nnten Zielsetzungen f r zuk nf tige Arbeiten dahingehen die anderen in der Analyse geschichteter 2x2 Kontingenztafeln vor handenen Auswahlentscheidungen wie z B die Auswahl eines geeigneten Homogenit ts oder Unabh ngigkeitstests ebenfalls zu unterst tzen Prinzipiell kann der beschriebene Ansatz auf solche Entscheidungsprozesse bertragen werden Im Rahmen der vorliegenden Arbeit konnte dieser Aspekt jedoch nicht ber cksichtigt werden so da sich die Beratung auf die Auswahl eines Sch tzers f r das gemeinsame Odds Ratio beschr nkt Auch bez glich der Schichtung ist eine bessere Unterst tzung des Benutzers durch weitere Hilfen vorstellbar Die relativ schwierige Entscheidung ob davon ausgegangen werden kann da
81. bh ngigkeit von Risikofaktor und Krankheit vom System mitgeteilt siehe Abb 3 12 Allerdings nur falls dies vom Benutzer gew nscht wird 84 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Unabh ngigkeitstest Methode standar ent ausf hren ausw hlen disieren scheiden USER SYSTEM SYSTEM SYSTEM Abbildung 3 12 Verteilung der Aufgaben f r Unabh ngigkeitstests 3 4 Kooperationsmodell Model of Cooperation Aus den Abh ngigkeiten zwischen den Unteraufgaben und der Zuordnung dieser Unterauf gaben zu den Agenten Benutzer und System folgt die Kooperation die von den Agenten zu leisten ist Abh ngigkeiten zwischen Unteraufgaben weisen auf Informationen hin die zwi schen System und Benutzer transferiert werden m ssen Diese werden auch als Ingredients bezeichnet Im allgemeinen ist der Agent der ein solches Objekt produziert auch sein Besitzer d h er hat die Kontrolle ber dieses Objekt F r die Kooperation mu dann die Initiative bestimmt werden Initiative bedeutet da dieser Agent die Kommunikation ausgel st hat Die Kooperation wird durch die Beschreibung der Transfer Tasks dargestellt F r die Kontingenztafelanalyse ergeben sich eine Reihe von Transfer Tasks Ein wesentlicher Transfer Task wurde in der Beschreibung des Aufgabenwissens v llig ausgelassen Es handelt sich dabei um die Hilfen die vom Benutzer des Systems angefordert werden k nnen und damit also Provide Tasks sind Da sie allerdings g
82. bniswerte dieser Funktionen wer den Werte zwischen 0 und 1 geliefert Diese Eigenschaften werden nicht als Felder des Da tentyps TDaten implementiert da sie nur an dieser Stelle ben tigt werden Zur Sch tzung des gemeinsamen Odds Ratios der Pilotdaten wird der Mantel Haenszel Sch tzer ver wendet d h auf die gegebenenfalls nullzellenkorrigierten Pilotdaten wird die Funktion Berechne MantelHaenszel Daten TDaten Single aus der Analysekomponente des Systems angewendet Die mithilfe dieser Funktionen berechneten Werte f r die Dateneigenschaften der Analyse und der Pilotdaten werden entsprechenden Feldern zugeordnet z B Fallanzahl Text FloatToStr AvFallanzahl AnalyseDaten Damit wird der in einen String umgewandelte R ckgabewert der Funktion AvFallanzahl vom Typ Float als Text des Feldes Fallanzahl dargestellt F r die Bewertungen werden die Werte der gerade erw hnten Felder herangezogen Sobald sich der Wert eines Feldes ndert d h das Ereignis OnChange eintritt wird eine entsprechende Prozedur aufgerufen die den Wert beurteilt und einem weiteren Feld zuweist z B procedure TDlgEmpfehlung FallanzahlChange Sender TObjekt begin if StrToFloat Fallanzahl Text lt 5 then KFallanzahl Text klein else if StrToFloat Fallanzahl Text lt 20 then KFallanzahl Text mittel else if StrToFloat Fallanzahl Text lt 100 then KFallanzahl Text gro else KFallanzahl Text sehr gro e
83. bt es eine Reihe von Qualit tsmerkmalen bez glich derer die Regelmenge berpr ft werden kann Dazu geh ren sowohl semantische als auch syntaktische Kriterien wie z B die Anzahl der Regeln und die Anzahl der Literale als syntaktische Merkmale sowie z B die durchschnittliche Anzahl abgedeckter Instanzen als semantisches Kriterium Desweiteren werden Statistiken ber die H ufigkeiten von Pr dikaten Fakten Regeln und Sorten sowie Erkl rungen zur Coverage bestimmter Fakten und Regeln angeboten Zu einer Regel k nnen beispielsweise alle Fakten aus der Wissensbasis angezeigt werden die von ihr abgedeckt bzw nicht abgedeckt werden F r ein gegebenes Faktum kann auch untersucht werden warum es von der entsprechenden Regel abgedeckt bzw nicht abgedeckt wird Dazu wird vom System dargestellt welche Pr missen f r das Beispiel erf llt sind und welche nicht erf llt werden k nnen so da der Benutzer beispielsweise m gliche Fehler oder Inkonsistenzen in der Wissensbasis entdecken kann Im Anschlu an die Analyse der aktuellen Struktur gibt es drei Wege f r eine Restrukturierung der Regelmenge die durch das Tool RRT unterst tzt werden e das Entfernen von redundanten Regeln siehe auch 4 7 e das Gl tten der Inferenzstruktur sowie e das Deepening der Inferenzstruktur Durch das Gl tten werden Konzepte durch ihre Definitionen ersetzt w hrend beim Dee pening Pr missen einer Regel durch ein Konzept zusamme
84. chichten S amp grosses_oddsratio s amp sehrviele_faelle S amp zentrierte_expo S amp kleine_differenz_expo S mittlere_empfehlung S jk wenig_schichten s amp grosses_oddsratio S amp viele_faelle S amp unbalanciert_verh_kf S amp grosse_differenz_expo S schlechte_empfehlung S w_jk mittelviele_schichten s amp zentrierte_expo S amp kleine_differenz_expo S amp grosses_oddsratio S amp viele_faelle S schlechte_empfehlung S jk_ii 120 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN wenig_schichten S amp grosses_oddsratio S amp viele_faelle S mittel_balanciert_verh kf S amp unknown kleine_expo S schlechte_empfehlung S woolf Fiir diese Regeln gibt es keine negativen bzw vorhergesagten Empfehlungsfakten Im Rahmen dieser Uberpriifung ergab sich auch die Regel wenig_schichten S amp grosses_oddsratio S amp viele_faelle S amp unbalanciert_verhkf S amp kleine_differenz_expo S amp zentrierte_expo S schlechte_empfehlung S b1 die durch das Hinzuf gen einer Eigenschaft entstanden ist Hierf r sind ebenfalls keine Ge genbeispiele vorhanden Daher wird auch diese in die Auswahlmenge bernommen In der durch die berpr fung von Regeln entstandenen Regelmenge ergeben sich nat rlich keine Redundanzen da mit den besten Eigenschaften begonnen und bereits beschriebene Situationen nicht weiter betrachtet wurden Die ausgew hlte Regelmenge besteht dam
85. chst wird die erste Methode n her betrachtet Durch den Aufruf des Befehls Ohne Intervallbildung wird das Formular DlgSchichtung angezeigt siehe Abbildung 5 11 Dieses Formular ist mithilfe einer Formularschablone von Delphi der Schablone Auswahldialog siehe 2 3 entworfen worden Die Schablone besteht aus zwei Listen die links stehende Liste enth lt die noch zur Auswahl stehenden Elemente die Liste auf der rechten Seite zeigt die ausgew hlten Elemente an Es gibt vier Schalter l gt und lt mit denen ein markiertes Element bzw alle Eintr ge in die entsprechende Richtung verschoben werden 5 2 DESIGN DER SYSTEMKOMPONENTEN 149 Abbildung 5 11 Formular DlgSchichtung k nnen Zus tzlich enth lt die Schablone die drei Standardschalter OK Abbruch und Hilfe die auf allen Formularen plaziert werden die eine Eingabe des Benutzers erfordern Diese Formularschablone wird komplett bernommen lediglich einige Beschriftungen werden hinzugef gt bzw ge ndert Beim Aufruf des Formulars wird die i te Zeile der links pla zierten Liste mit dem Namen der i ten Kovariable aus dem zugrundeliegenden Datensatz Daten Kovariable i initialisiert i 1 Daten AnzahlKov Die rechts stehende Liste ist zu diesem Zeitpunkt leer Der Anwender kann die Kovariablen die im Rahmen der Schich tung ber cksichtigt werden sollen also die Schichtungsvariablen von der linken Seite in die rechte Lis
86. cht Niz i 1 K e die Anzahl der Kontrollen in der i ten Schicht No i 1 K e die Expositionswahrscheinlichkeit der Kontrollen in der i ten Schicht poi i 1 K wobei z B bei der Festlegung der Anzahlen der F lle und Kontrollen gleichzeitig auch das Verh ltnis dieser Stichproben vorgegeben wird Das Design von Simulationsstudien orientiert sich an zwei asymptotischen Modellen dem Large Strata und dem Sparse Data Modell die bei der Diskussion der asymptotischen Ei genschaften der Odds Ratio Sch tzer zugrunde gelegt werden Dabei zeichnet sich das Large Strata Modell Modell I durch eine feste Anzahl von Tafeln aus w hrend die Stichpro benumf nge der F lle und Kontrollen pro Tafel gegen unendlich streben Im Sparse Data Modell Modell II sind dagegen die Stichprobenumf nge konstant w hrend die Anzahl der Tafeln gegen unendlich strebt Bei der genauen Festlegung der Parameterkonstellationen einer Simulationsstudie sollten zwei Gesichtspunkte ber cksichtigt werden So sollten die Parameter zum einen so gew hlt werden da damit m glichst interessante Aspekte aufgezeigt werden Zum anderen sollten sie aber auch gerade typische f r die Praxis relevante Konstellationen abdecken 64 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Die Fragestellungen die in einer solchen Simulationsstudie untersucht werden sind beispiels weise e Gibt es eine berlegenheit eines Sch tzers in Abh ngigkeit von der Anzahl d
87. chtigt worden sind beein flussen sie die Ursache Wirkungsbeziehung zwischen dem Risikofaktor und der Krankheit innerhalb einer Schicht nicht mehr 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 57 Altersgruppe 25 29 30 34 35 39 40 44 45 49 Rauchen OC MI Ctrl MI Ctrl MI Ctrl MI Ctrl MI Ctrl Nein Ja 0 25 0 13 0 8 1 4 3 2 Nein 1 16 0 175 3 153 10 165 20 155 Ja Ja 4 37 9 20 4 18 5 5 3 3 Nein 1 118 12 215 30 177 55 197 73 146 Tabelle 3 4 Erfassung des Tabakkonsums als dichotome Gr e Gibt es eine gro e Anzahl von Confoundern f hrt das h ufig zu sehr kleinen Schichtumf ngen In solchen F llen bieten sich als Alternativen zur Confounderkontrolle auf der Ebene der Datenanalyse logistische und loglineare Modelle an die hier nicht nicht weiter betrachtet werden Der Einflu von Confoundern die im Rahmen der Datenerhebung nicht ber cksichtigt wur den d h ber die keine Angaben erfa t wurden kann nat rlich auch in der Datenanalyse nicht mehr korrigiert werden Die in der Fall Kontroll Studie beobachteten Daten werden in Tabellen sog 2x2 Kontingenztafeln Vierfeldertafeln dargestellt Dabei gibt es vier Tabelleneintr ge Felder jeweils ein Feld f r exponierte F lle nicht exponierte F lle exponierte Kontrollen und nicht exponierte Kontrollen Werden zus tzlich Confounder ber cksichtigt so wird f r jede Auspr gung dieser Confounder eine Kontingenztafel aufgestellt Angenommen der Confounder liegt in K Auspr gu
88. d der Programmausf hrung unsichtbaren Elemente wie z B System Timer die Zeitintervalle bereitstellen die an Ereignisse angeh ngt werden k nnen 2 3 DELPHI OBJECTVISION 37 Aus der Komponentenbibliothek k nnen komplette Dialogelemente ausgew hlt werden z B Dialoge zum ffnen oder Speichern von Dateien Weitere vordefinierte Dialoge sind die Font und Farbauswahldialoge die Dialogfenster zum Drucken und zum Einstellen des Druckers sowie Dialoge zum Suchen und Ersetzen Diese Dialogelemente entsprechen den Windows Standards H ufig verwendete Komponenten sind beispielsweise Felder Men s Elemente zur Beschrif tung Tabellen und Elemente zur Gruppierung von Komponenten und Grafiken Es k nnen eine Reihe von Feldarten unterschieden werden Editier und Memofelder erlauben die Anzeige eines ein bzw mehrzeiligen Bereichs in dem Textzeilen angezeigt und vom Anwender eingegeben oder ge ndert werden k nnen Weiter gibt es Felder und Listen die auszuw hlen de Optionen f r den Anwender in unterschiedlicher Form bereitstellen Gruppierungselemen te werden h ufig zur Erstellung von Symbolleisten und Statuszeilen verwendet indem z B Schalter zu einer Schalterleiste zusammengefa t werden Zu den neueren Windows Elementen geh ren die Arbeitsblattregister die es erm glichen einem Formular das Aussehen von Sei ten zu geben Durch die Seitenregister am oberen oder unteren Rand k nnen die Seiten ausgew
89. d ein Bild Editor die hier nicht weiter beschrieben werden F r die Erstellung von Datenbankanwendungen stehen weitere Tools zur Verf gung 2 3 5 Projekte Ein vollst ndiges Projekt eine Anwendung besteht aus allen Dateien die zur Erstellung der Zielanwendung ben tigt werden e Projektdatei DPR 40 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA e Unit Datei PAS e Formulardatei DFM e Quelltextdatei f r Units ohne Formular PAS Diese Dateien werden im folgenden n her erl utert Zu jedem Projekt existiert eine Projektdatei In dieser Datei werden Informationen zu den Unit und Formulardateien des Anwendungsprojekts gef hrt Sie wird zu Beginn der Pro grammentwicklung durch Delphi erstellt und w hrend der Entwicklung des gesamten Projekts verwaltet Die Datei enth lt den Projektnamen eine Uses Anweisung in der die Units des Projekts und deren zugeordnete Formulare aufgelistet sind und einen Programmblock der den Quelltext zur Ausf hrung der Anwendung und Aktivierung des Hauptformulars enth lt F r jedes Formular wird eine eigene Unit Datei und eine Formulardatei erzeugt Die Unit Datei enth lt Object Pascal Quelltext also die Ereignisbehandlungen die die Funktionalit t der Komponenten bestimmen Zu Beginn besteht diese Datei aus dem Interface und dem Implementation Abschnitt und dem Programmblock mit dem Quelltext f r die Initialisierung Durch das Einf gen von Komponenten mit ihren zugeh ri
90. damit der Konstruktion wissensbasier ter Systeme steht im Rahmen von KADS der Knowledge Akquisition Proze Die Erkenntnis da eine Modellierung des Expertenwissens stattfinden mu ist von zentraler Bedeutung und widerspricht der Transfersichtweise die dem Rapid Prototyping zugrunde liegt Der KADS Knowledge Acquisition and Documentation System 6 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Ansatz baut auf zwei grundlegenden Prinzipien auf e der Einf hrung von Zwischenmodellen und e der Einf hrung eines Knowledge Level Modells das vom Symbol Level getrennt wird Im folgenden Abschnitt werden zun chst die Sichtweisen der Wissensakquisition n mlich die Transfersichtweise die Modellierungssichtweise des KADS Ansatzes und die Modellie rungssichtweise des Sloppy Modeling Ansatzes siehe Morik 1989 vorgestellt In dem an schlie enden Abschnitt werden die beiden grundlegenden Prinzipien der KADS Methodologie erl utert In 2 1 3 findet sich ein kurzer berblick ber die einzelnen Modelle Das wichtigste Modell das Expertisenmodell wird in 2 1 4 detailliert beschrieben Danach folgt ein Ab schnitt ber die Modellierung der Kooperation zwischen dem Benutzer und dem System die im Rahmen der Entwicklung wissensbasierter Systeme einen besonderen Stellenwert besitzt Eine Diskussion des KADS Ansatzes schlie t dieses Kapitel ab 2 1 1 Sichtweisen der Knowledge Acquisition Als das zentrale Problem der Konstruktio
91. dardm ig beim ffnen eines Analysefensters angezeigt werden 5 2 DESIGN DER SYSTEMKOMPONENTEN Abbildung 5 18 Das Formular zur Sch tzung des gemeinsamen Odds Ratios 157 158 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA 5 2 4 Design des Hilfesystems F r die Implementierung des Hilfesystems wird das Programm Windows Help siehe 2 3 6 verwendet Es gibt zwei Themendateien rtf Files eine Datei die die statistischen und teil weise auch epidemiologischen Themen umfa t und eine Themendatei in der das Programm und seine Benutzung erl utert wird Die erste Datei ist nicht im Rahmen der Diplomarbeit erstellt worden Sie wird von einer Statistikerin konzipiert und geschrieben Daher wird nur die zweite Themendatei im folgenden kurz vorgestellt Die Themendatei enth lt ca 25 Topics Das erste Topic ist ein gemeinsames Inhaltsverzeichnis von dem aus Themen der beiden Themendateien erreichbar sind Dieses Inhaltsverzeichnis kann ber den Befehl Hilfe Inhalt des Hauptmen s aufgerufen werden Ein einf hrendes Topic gibt einen berblick ber das System Hier wird erl utert wie das System aufgebaut ist was es leistet und wie es eingesetzt werden kann Ein weiteres Topic beschreibt den Ablauf der Analyse mit dem System CORA Dabei werden alle Men befehle des Hauptformulars kurz vorgestellt Die Beratungskomponente bedarf ebenfalls einer ausf hrlichen Erl uterung die im Rahmen des Hauptformulars abgerufen werden ka
92. darin den vier Kategorien fiir Bias und MSE die Zahlen von eins bis vier zuzuordnen wie es auch schon in Tabelle 4 2 in Abschnitt 4 2 3 durchgefiihrt worden ist Diese Zahlenwerte k nnen addiert werden und in eine kategorisierte Gesamteignung um gesetzt werden Durch folgende Regeln wird der kleinsten Kategorie der Wert 1 der gr ten der Wert 4 zugeordnet Mu te die gerade erw hnte Wiederholung des Vorgangs durchgef hrt werden so sind auch hier weitere Regeln notwendig 4 4 EVALUIERUNG DES ERSTELLTEN MODELLS 107 sehr kleiner bias S Z bewertung bias S Z 1 kleiner_bias S Z bewertung_bias S Z 2 mittlerer_bias S Z bewertung_bias S Z 3 grosser_bias S Z bewertung_bias S Z 4 Die Bewertung des MSE erfolgt analog Anschlie end werden durch die folgende Regel beide Bewertungen addiert und so zu einer Gesamtbewertung zusammengefa t bewertung_bias S Z Bb amp bewertung mse S Z Bm amp add Bb Bm Bs bewertung S Z Bs Im n chsten Schritt m ssen die in Tabelle 4 2 aufgestellten Kriterien f r die Stufenbildung der Eignung umgesetzt werden Dazu werden folgende Regeln eingegeben bewertung S Z B amp eq B 2 sehr_gute_eignung S Z bewertung S Z B amp ge B 3 amp le B 4 gute_eignung S Z bewertung S Z B amp ge B 5 amp le B 6 mittlere_eignung S Z bewertung S Z B amp ge B 7 schlechte_eignung S Z Damit hat man die kategorisierte Eignung repr sentiert In einem let
93. de Homogenit t der individuellen Odds Ratios In diesem Fall k nnen die Informationen aus den K Kontingenztafeln zu einem Sch tzer f r das gemeinsame Odds Ratio kombiniert werden Zur Sch tzung des gemeinsamen Odds Ratios sind eine Reihe von Verfahren bekannt Es existieren iterative und nicht iterative Sch tzer Die aufwendiger zu berechnenden iterativen Sch tzer beruhen auf dem Maximum Likelihood Prinzip In der Praxis einfacher zu handha ben sind nicht iterative Sch tzer von W Bei diesen Sch tzern handelt es sich um gewichtete Mittel der empirischen Odds Ratios Hier seien die bekanntesten Punktsch tzer von Y kurz vorgestellt Der Woolf Sch tzer siehe Woolf 1955 summiert die logarithmierten gesch tzten Odds Ratios und gewichtet sie mit den Inversen ihrer gesch tzten Varianzen yo Xu 1 Nu Xu 1 Xoi 1 Noi Xoi logV log yw T i A Mai 1 Nu Xii 1 Xi 1 Noi Xoi Der Mantel Haenszel Schatzer siehe Mantel Haenszel 1959 ist ein gewichtetes artithme tisches Mittel der individuell gesch tzten Odds Ratios W wobei als Gewichte die Inversen ihrer gesch tzten Varianzen unter der zus tzlichen Annahme W Vy 1 verwendet werden A DE Xl Noi Xoi Ni Yun SS Vizi Nii Xi Xo0i Ni Da diese Sch tzer verzerrt sind ist es sinnvoll ein Verfahren zur Verzerrungsreduktion an zuwenden wie etwa das sogenannte Jackknife Prinzip Durch die Anwendung dieses Prinzips
94. der Expertise und f r die Gestaltung einer benutzerfreundlichen Oberfl che existiert daher jeweils eine Grundlage zur Kommunikation mit den Experten in Form eines operationalen Modells in MOBAL bzw eines Prototypen implementiert mit Delphi Dieser Aspekt ist f r beide Seiten sehr motivationsf rdernd und hat wesentlich zum Gelingen der Arbeit beigetragen Mit dem Tool ObjectVision haben sich dennoch einige Probleme ergeben die nun kurz dar gestellt werden Durch die immer gr er werdende Komplexit t des Systems CORA stellte es sich als extrem nachteilig heraus da Object Vision ber keinen integrierten Debugger verf gt Die Fehlersuche gestaltete sich daher oft au erst problematisch Das Konzept ber Dynamic Link Libraries DLLs auf eigene Funktionen zuzugreifen die in Turbo Pascal bzw C geschrieben wurden erh hte die Flexibilit t des Systems Es gab 44 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA aber h ufig Schwierigkeiten mit der bergabe dieser Funktionen die wegen der mangelnden Transparenz des Systems teilweise schwer zu l sen waren Diese Probleme konnten s mtlich durch den Einsatz des Systems Delphi gel st werden Die Struktur des Tools ist f r den Anwender wesentlich transparenter Der direkte Zugriff von Delphi auf Turbo Pascal erwies sich als flexibler im Vergleich zum DLL Konzept Au erdem ergaben sich durch eine erweiterte Komponentenbibliothek einige neue Gestal tungsm glichkeiten f
95. der vorhandenen Kovariablen Die Namen sind Strings die durch ein Leerzeichen zu trennen sind Die weiteren Zeilen der Datei bestehen aus den eigentlichen Daten zuerst wer den die Auspr gungen der Kovariablen angegeben die letzten vier Werte der Zeile i geben die Anzahlen der exponierten F lle a der nicht exponierten F lle b der exponierten Kontrollen c und der nicht exponierten Kontrollen d in der Schicht i wieder F r die Kovariablen die nicht in Intervallen angegeben werden f llt jeweils der zweite Wert weg der sonst die obere Grenze darstellt Sowohl die Werte f r die Kovariablen als auch die Tafelwerte sind Flie kommazahlen vom Typ Single Dies ist auch f r die Tafelwerte bei denen es sich eigentlich um Anzahlen handelt notwendig da Nullzellenkorrekturen durchgef hrt werden k nnen z B eine Addition von 0 5 auf alle Zellenwerte Der Datensatz aus Tabelle 3 4 wird damit beispielsweise zu dem in Abbildung 5 2 dargestellten ASCI File Im System werden die Daten in der nun beschriebenen Datenstruktur gehalten Es wird ein Datentyp TDaten mit der in Tabelle 5 3 vorgestellten Deklaration entworfen Die Methoden deklarationen sind in der Tabelle nicht aufgef hrt Es gibt also sieben Felder die die Eigenschaften des Datenobjekts enthalten Durch die Metho de Einlesen die dem Objekttyp zugeordnet ist werden die Werte aus der Datei in die Felder des Objekts eingelesen Eine weitere Methode Schreibe_Memo schreibt die E
96. die Durchf hrung an und erh lt als Ergebnis eine Methodenempfehlung f r die Fall Kontroll Studie Es ist also ein Advice Task in Form eines Provide Tasks Der zweite Transfer ist die Methodenauswahl Hier liegt wieder ein kombinierter Present und Obtain Task vor d h die zur Auswahl stehenden Sch tzer werden aufgelistet Kapitel 4 Lernen einer Charakterisierung von Sch tzern aus Simulationsstudien Dieses Kapitel beschreibt eine M glichkeit zur Auswertung von Simulationsstudien die mit dem Ziel durchgef hrt wurde eine Charakterisierung von Sch tzern zu lernen speziell von Sch tzern des gemeinsamen Odds Ratios in geschichteten Kontingenztafeln Hierbei wird ein wissensbasierter Ansatz verfolgt der auf einer Verbindung von systemunterst tzter Modellie rung und maschinellem Lernen beruht d h das akquirierte Wissen wird modelliert und neues Wissen kann entdeckt werden Im Unterschied zum blichen Knowledge Engineering basiert dieser Ansatz nicht allein auf dem Wissen der Bereichsexperten sondern wird vorwiegend aus den in 3 3 1 beschriebenen Simulationsstudien gewonnen Es wird eine Wissensbasis modelliert die eine Operationali sierung der Ergebnisse der Simulationsstudien darstellt Aus dieser Wissensbasis wird dann eine Charakterisierung der Sch tzer in Form einer Menge von Regeln gelernt F r die syste munterst tzte Modellierung und das maschinelle Lernen wird das System MOBAL eingesetzt das wie bereits in 2 2 erw hn
97. die Kategorieneinteilung f r weitere Simulationsstudien aufrecht zu halten ist So sollte die Kategorieneinteilung erm glichen da Studiendaten sowohl aus dem Large Strata Modell als auch aus dem Sparse Data Modell in die gebildeten Kategorien ein geteilt werden k nnen Da hier beispielsweise nur eine Studie der das Large Strata Modell zugrunde liegt betrachtet wurde gibt es u a keine Situationen die eine sehr gro e Anzahl von Tafeln besitzen Dennoch wurde eine Kategorie hierf r gebildet da eine sp tere Einbezie hung von Studien aus dem Sparse Data Modell ohne nderungen der Kategorieneinteilungen m glich sein sollte Dieser Proze der Kategorienbildung soll hier nicht dargestellt werden Es wird im folgen den lediglich die endg ltig gew hlte Einteilung vorgestellt siehe Tabelle 4 1 Diese Tabelle gibt die Einteilung f r die Dateneigenschaften und die Bewertungskriterien wieder F r die Durchschnittswerte gilt die gleiche Einteilung wie f r die Werte in den einzelnen Schichten d h sowohl die Anzahl der F lle der Kontrollen und ihr Verh ltnis und die Expositionswahr scheinlichkeiten in den einzelnen Schichten als auch die durchschnittlichen Werte hierf r wer den gem Tabelle 4 1 bewertet F r die Kategorienbildung der Werte des Gini Koeflizienten gibt es eine Einteilung die f r alle drei oben genannten Balanciertheitseigenschaften einheit lich ist F r einige Parameter war die Kategorienbildung unproblematisch und h
98. die in dem Datensatz vorhandenen Intervalle f r die ausgew hlte Kovariable dargestellt In der Gruppierung Eingabe der Intervalle gibt der Benutzer die unteren und obe ren Grenzen f r die Intervalle an Jedes Intervall mu durch Anklicken des Berech nen Schalters best tigt werden Die Ereignisbehandlung f r das Anklicken dieses Schal ters besteht aus der Berechnung der Werte die im vierten Gruppierungsfeld angezeigt wer den n mlich den neu gebildeten Intervallen der Berechnung der Parameter der Funktion Intervallschichtung und ihrem Aufruf sowie dem L schen der eingegebenen Grenzen Die Funktion IntervallSchichtung wird also f r jedes zu bildende Intervall aufgerufen Sie ben tigt folgende Parameter das Datenobjekt ein Array mit den Positionen der zu ber ck sichtigenden Variablen analog zur Funktion Schichtung die Position der Kovariablen f r die Intervalle angegeben werden und einen Parameter der angibt an welcher Zeilenposition die neuen Schichten im Datensatz angef gt werden m ssen Die Zeilenposition wird durch die aktuelle Anzahl der Schichten des Output Datenobjekts dieser Funktion bestimmt Bei jedem Aufruf der Funktion werden also neue Schichten an den Datensatz angef gt Dieser Algorithmus wird in Abbildung 5 14 skizziert Ist die Schichtung der Daten abgeschlossen unabh ngig davon ob dies mit oder ohne Bil dung von Intervallen erfolgte wird der erzeugte Datensatz in einem hnlichen Formular wie de
99. dizinischen Hintergrunds als auch statistisches Wissen Speziell f r die Datenanalyse sind jedoch sehr umfangreiche statistische Kenntnisse erforderlich die eben falls d h neben dem fachspezifischen Wissen bei der Interpretation der gewonnenen statisti schen Ergebnisse eine nicht unbedeutende Rolle spielen Da Epidemiologinnen in der Regel haupts chlich eine medizinische Ausbildung haben ist eine Kooperation mit Statistikerinnen w nschenwert Im Idealfall arbeiten Statistikerinnen und Medizinerinnen von Beginn an zusammen Die Sta tistikerin entwirft unter Ber cksichtigung der Fragestellung und der u eren Umst nde ein Studiendesign auf dessen Grundlage die Medizinerin die Datenerhebung durchf hrt Die ge sammelten Daten werden dann von der Statistikerin geeignet analysiert Entscheidet man sich hier f r die Durchf hrung einer Kontingenztafelanalyse so wird die Statistikerin gegebenen falls die in der Literatur beschriebenen Ergebnisse von Simulationsstudien untersuchen bzw sogar selbst eine Simulationsstudie durchf hren sofern sie nicht ber gen gend Erfahrung in der Analyse von Kontingenztafeln verf gt Werden die Daten der Fall Kontroll Studie auf diese Art erhoben und analysiert handelt es sich um eine komplexe Aufgabe die vielschichtige Kenntnisse erfordert In der Praxis ist aber h ufig zu beobachten da Statistikerinnen erst nach abgeschlossener Datenerhebung hinzugezogen werden Im Extremfall wird auf die Unterst tz
100. dreiseitigen Formular angezeigt Auf der ersten Seite sie he Abbildung 5 9 erh lt der Anwender die Information welcher Punktsch tzer und welche Biaskorrektur durch das System f r die Analyse der Daten in der Analysekomponente vorge schlagen werden sowie Informationen ber den Eignungsgrad des Sch tzers siehe 4 2 2 und die Nummer der Regel aus der die Empfehlung abgeleitet wird Die zweite Formularseite siehe Abbildung 5 10 zeigt die Eigenschaften der Analysedaten an n mlich die Anzahl der Tafeln die durchschnittliche Fallanzahl die Balanciertheit der Fallanzahlen das durchschnittliche Verh ltnis von F llen und Kontrollen sowie die Balan ciertheit dieses Verh ltnisses Hier werden die konkreten Werte f r die Eigenschaften und ihre Bewertungen d h die kategorisierten Eigenschaften angezeigt Die letzte Formularseite f hrt die Eigenschaften auf die aus den Pilotdaten berechnet werden also die gesch tzte Gr e des gemeinsamen Odds Ratios die durchschnittliche Expositions wahrscheinlichkeit und ihre Balanciertheit sowie die Differenz zwischen der maximalen und minimalen Expositionswahrscheinlichkeit Auch diese Eigenschaften werden bewertet Die Eigenschaften die der Empfehlung zugrunde liegen also als Pr missen in der angewende ten Regel vorkommen werden auf den beiden gerade beschriebenen Formularseiten markiert Im folgenden wird nun die Implementierung der Beratungskomponente genauer betrachtet 5 2 DESIGN
101. durch Regelmodelle kritisch Es kann vorkommen da keine zufrie denstellenden Regeln gelernt werden k nnen da die richtigen Metapr dikate nicht angege ben wurden Eine gewisse Vorstellung von dem Lernziel sollte daher vorhanden sein um die gew nschten Ergebnisse nicht zu verfehlen In dem hier zugrundeliegenden Sachbereich stellte sich dieser Aspekt als v llig unproblematisch heraus siehe Kapitel 4 Wie bereits aus fr heren Erfahrungen deutlich geworden ist stellt die Gr e der Wissensbasis ein erhebliches Problem f r das System dar Dies bezieht sich sowohl auf das Tool RDT als auch auf Operationen zur Modellierung der Wissensbasis z B das Entfernen von Regeln Abgesehen von diesem teilweise aber sehr gravierenden Problem wurde der Einsatz von MOBAL auch durch die Experten als sehr positiv bewertet Durch die Verwendung der Tools konnte die Modellierung umfassend unterst tzt werden Die Repr sentation des operationalen Modells erwies sich als durchaus angemessen f r die Kommunikation mit den Experten 2 3 Delphi ObjectVision Zur Implementierung des wissensbasierten Systems wurde ein objektorientierter Ansatz gew hlt der auf das Softwarewerkzeug Delphi siehe Borland 1994 zur ckgreift Delphi ist eine integrierte Entwicklungsumgebung IDE die die Konstruktion von Microsoft Windows Anwendungen unterst tzt Delphi baut auf Komponenten auf die in Klassenbibliotheken f r den Benutzer zur Verf gung stehen
102. e 12 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Organisations Anwendungs modell modell Aufgaben modell Kooperations Expertisen modell modell Konzeptuelles Modell Abbildung 2 4 Hierarchie der Zwischenmodelle in KADS nach Schreiber et al 1993 2 1 KADS 13 Konstruktion eines WBS kann zu Ver nderungen in der Organisation f hren Vorhersagen wie die Einf hrung des WBS die Organisation ver ndern wird Feedback und Technology Assessment geh ren daher zum Organisationsmodell Das Anwendungsmodell Das Anwendungsmodell umfa t eine Problem und Funktionsanalyse Es definiert das Pro blem das durch den Einsatz des Systems gel st werden soll und beschreibt die Funktionen des Systems in der Organisation Au erdem werden die externen Zw nge die bei der Entwicklung des Systems ber cksichtigt werden m ssen dargestellt Unter diesen Rahmenbedingungen werden beispielsweise Anforde rungen an die Geschwindigkeit und Effizienz oder bestimmte Hard und Software verstanden Aufgabenmodell Im Aufgabenmodell wird festgelegt wie die Funktion des Systems die im Anwendungsmodell spezifiziert wurde durch die Ausf hrung einer Reihe von Tasks Aufgaben wahrgenommen werden kann Es wird daher eine Relation zwischen einer Funktion und mehreren Tasks herge stellt Dabei kann eine Funktion ein Ziel auf mehreren alternativen Wegen erreicht werden Welche Alternative die g nstigste ist h ngt von den Chara
103. e t Werte bis zu 2 ein In der Simlationsstudie wird aber lediglich der Wert 1 7 berpr ft Da keine Situationen mit einem Odds Ratio von 1 8 oder 2 beschrieben durch die kategorisierten Dateneigenschaften nicht die konkreten Werte 124 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN untersucht werden darf eine Korrektheit von 93 in der praktischen Anwendung der Regeln sicher nicht angenommen werden Eine bliche Vorgehensweise ist die Korrektheit durch eine Auswertung der ersten Anwendun gen des Systems zu untersuchen Dieses Vorgehen ist hier nicht m glich da die Korrektheit in der realen Anwendung nicht beurteilt werden kann Die zwei M glichkeiten die sich anbieten sind die Einteilung der vorhandenen Simulationsstudie in ein Lern und ein Testset siehe 2 2 oder die Durchf hrung weiterer Simulationsstudien da hier die Korrektheit berpr ft werden kann Die Einteilung in ein Lern und Testset h tte vermutlich keine wesentlichen Ver nde rungen der Bewertungen erbracht Der Mehraufwand f r die Durchf hrung der Lernl ufe ist aber erheblich wenn man z B eine 240 fache Cross Validation zugrunde legt so da jeweils ein Beispiel als Testset fungiert Eine Cross Validation die ein Lern und Beispielset mit bei spielsweise jeweils 120 Situationen vorsieht und daher weniger Aufwand bedeutet kann hier nicht durchgef hrt werden da es nicht in erster Linie um eine Bewertung der Regeln geht sondern die Regeln selb
104. e beispielsweise SAS wird die Verwendung von komplexen Verfahren immer einfa cher Jedoch f hrt die Benutzung dieser Systeme durch Wissenschaftler ohne Expertenwissen aus der Statistik h ufig zu Fehlentscheidungen Die Fehler betreffen hier neben der Aus wahl der Verfahren auch die Interpretation der Ergebnisse Au erdem wird durch mangelnde Vertrautheit mit den zur Verf gung stehenden Methoden h ufig auf Altbew hrtes zur ck gegriffen obwohl der Einsatz eines anderen Verfahrens in der gegebenen Situation vielleicht g nstiger w re Selbst bei dem Einsatz ad quater Methoden k nnen bei Nichtbeachtung des statistischen Hintergrunds Fehler entstehen In Gebhardt 1988 wird auf folgendes Problem hingewiesen Da es f r einen gegebenen Datensatz nicht nur eine einzige M glichkeit der stati stischen Auswertung gibt besteht die Gefahr da der Benutzer mehrere Analysen durchf hrt und sich dann die passenden Ergebnisse heraussucht und die anderen ignoriert Daraus ergibt sich die Forderung nach Systemen die mittels zus tzlichem Wissen eine sinn volle Anwendung statistischer Methoden unterst tzen Zudem m ssen die Auswertungssys 2 KAPITEL 1 EINLEITUNG teme die Interpretation der Ergebnisse durch abrufbare Hilfestellungen f r den Anwender verdeutlichen F r die Konstruktion von Systemen die diesen Anforderungen entsprechen wurde bereits h ufig der Einsatz von Methoden aus der K nstlichen Intellig
105. e benutzerfreudliche grafische Oberfl che bietet dem Anwender einen einheitlichen den Software Standards entsprechenden Zugriff auf alle Systemkomponenten 5 1 3 Die zentralen Objekte des Systems Datenstrukturen f r die Fall Kontroll Studiendaten Das zentrale Konzept des Sachbereichs sind die Daten der durchgef hrten Fall Kontroll Studie Diese m ssen f r die Bearbeitung durch das System bestimmten Bedingungen gen gen Es k nnen bis zu f nf Kovariablen in der Analyse ber cksichtigt werden Die Werte f r diese Kovariablen k nnen sowohl in Intervallen als auch als einzelne Werte angegeben werden Die Daten m ssen in Form eines ASCH Files mit der Endung dat vorliegen Es ist das in Tabelle 5 1 dargestellte Format einzuhalten ak ist ein Integer Wert zwischen eins und f nf der die Anzahl der vorhandenen Kovaria 134 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA ak ai Name ky Name kax Wertl 1 k Wertl 2 k Wertl 1 kar Wertl 2 kar ay bi c d k Wert2 1 k Wert2 2 k Wert2 1 kar Wert2 2 kar a2 b2 ca da k Wert3 1 k Wert3 2 k Wert3 1 kar Wert3 2 kar a3 63 c3 d3 Wertn l k Wertn 2 ky Wertn l kar Wertn 2 kar Gn bn En dn Tabelle 5 1 Format der ASCII Datei blen angibt ai ist die Anzahl der Kovariablen f r die Intervalle angegeben werden Diese Kovariablen m ssen in der Datei zuerst aufgelistet werden In der n chsten Zeile stehen die Namen
106. e nicht sinnvolle Anwendung statistischer Methoden zu verhindern auf diese Weise nicht immer erreicht werden kann F r restriktive Systeme die die Entscheidungen selbst tref fen besteht die Gefahr da der Benutzer die der Statistik eigene Unsicherheit untersch tzt die auch durch intelligentere Systeme nicht behoben werden kann Ein Beispiel f r ein relativ autorit res System ist das bereits erw hnte PANOS siehe Wittkowski 1985 Seite 365 Das Expertensystem w hlt durch den Vergleich zwischen externem Problem und implizitem Problemtyp eine Methode aus und ruft diese automatisch auf In Gebhardt 1988 findet man zu diesem Aspekt den Hinweis Die allgemeine Gefahr bei DV Anwendungen die erst recht f r das vielen Be nutzern geheimnisvolle Feld der Statistik betrifft ist die weit verbreitete Com putergl ubigkeit Das Expertensystem sollte daher auch die begrenzte eigene F higkeit der Probleml sung hinreichend zum Ausdruck bringen Diese Forderung wird aber von autorit ren Systemen die den Entscheidungsproze automa tisieren in der Regel kaum erf llt In diesem Zusammenhang soll noch einmal der Aspekt des maschinellen Lernens erw hnt werden Wie insbesondere in Kapitel 4 deutlich wird ist durch das maschinelle Lernen kei ne vollst ndige Automatisierung oder Objektivierung des Wissenserwerbs zu erwarten was aber f lschlicherweise h ufig angenommen wird Auch hier sind eine ganze Reihe von
107. ef hrt die die unbesetzten Zeilen einer Datei streicht Die so erzeugten Datens tze liegen in den Objekten AnalyseDaten und PilotDaten vor Mit hilfe der Methode Schreibe_Memo die innerhalb des Objekttyps TDaten deklariert ist werden die Datens tze als Zeilen von Strings umgeformt und in die entsprechenden Memofelder die als Parameter bergeben werden geschrieben Damit ist die Erzeugung der Daten abgeschlos sen F r den n chsten Schritt ist das Vorhandensein dieser Datens tze unbedingt erforderlich Sollen diese nicht durch das System erzeugt werden k nnen auch bestehende Dateien ge ffnet oder Datens tze innerhalb des Systems neu geschrieben werden Das zentrale Element der Beratungskomponente ist die Empfehlung eines Punktsch tzers f r das gemeinsame Odds Ratio Diese kann nach dem Erstellen oder ffnen der erforderlichen Datens tze im Men punkt Pilotstudie mit dem Befehl Empfehlung aufgerufen werden 142 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Input Daten Gesamtanzahl der Beobachtungen N Stichprobenumfang der Pilotdaten n Output Pilotdaten Analysedaten Ablauf Analysedaten Daten Pilotdaten leerer Datensatz for i 0 to n 1 do begin Generiere eine ganzzahlige Zufallszahl z aus 1 N i Streiche die Beobachtung z aus den Analysedaten Fuge die Beobachtung z in den Pilotdatensatz ein end Abbildung 5 7 Die einfache Zufallsauswahl Die Empfehlung wird in einem
108. ein eine Beratungskomponente und ein Hilfesystem sowie die benutzerfreundliche grafische Oberfl che werden als zentrale Einheiten des Systems betrachtet siehe 5 1 2 Der Aufbau des Systems ist im Rahmen dieser Arbeit bereits mehrfach angedeutet worden und wird daher hier nur kurz diskutiert Schlie lich geht dieser Abschnitt auf die zentralen Objek te des Systems ein indem die Datenstrukturen f r die Fall Kontroll Studiendaten vorgestellt werden 5 1 1 Ergonomische Anforderungen an das System und ihre psychologi schen Implikationen Computerprogramme insbesondere interaktive Assistentensysteme wirken auf allen Ebenen psychologischen Erlebens und Verhaltens Daraus lassen sich entsprechende Forderungen an die Gestaltung und Strukturierung des Systems ableiten Diese werden im folgenden kurz diskutiert 5 1 SPEZIFIKATION DER SYSTEMARCHITEKTUR 131 Konsistenz Konsistenz bedeutet da gleiche Vorg nge durch gleichartige Interaktionen be wirkt werden Der Dialog sollte daher den Erwartungen der Benutzer entsprechen die sie aus Erfahrungen mit Arbeitsabl ufen mitbringen und die sich w hrend der Benutzung des Systems bilden Uneinheitliches Dialogverhalten zwingt den Benutzer zu starker An passung an wechselhafte Durchf hrungsbedingungen seiner Arbeit und kann unn tige Belastungen mit sich bringen siehe DIN 1984 Sind Benutzerf hrung und Aussehen erwartungskonform wird ein Programm eher akzeptiert als bei erwartungswidrigem
109. eine feinere Kategorieneinteilung ist eine Vollst ndigkeit von 100 erreichbar sp tes tens dann wenn jede Kategorie einer in der Simulationsstudie untersuchten Auspr gung f r die Dateneigenschaft entspricht Eine solche Einteilung ist nat rlich nicht sinnvoll Die Kategorieneinteilung wurde im Anschlu an diese Auswertung noch einmal berpr ft insbesondere die Einteilungen f r das mittlere Odds Ratio und f r gro e Differenzen der Expositionswahrscheinlichkeiten Bez glich der Expositionswahrscheinlichkeiten k nnten bei spielsweise durch eine Einteilung in gro e und sehr gro e Differenzen die die Werte 0 9 und 0 6 trennt eine Reihe von zus tzlichen Regeln gelernt werden Dieser Vorschlag wurde jedoch von den Experten abgelehnt da die bestehende Einteilung als ad quater betrachtet wurde Insgesamt l t sich hierzu sagen da der Sachbereich auf die Ver nderung der Kategorienein teilung sehr sensibel reagiert Das zeigt sich darin da auch relativ geringe nderungen der Dateneigenschaften das Verhalten der Sch tzer stark beeinflussen k nnen Wenn aber Katego rien gebildet werden die die leichten Variationen der Dateneigenschaften in unterschiedliche Kategorien teilen so steht in dieser Simulationsstudie am Ende jeweils nur noch eine unter suchte Auspr gung stellvertretend f r eine ganze Kategorie Daraus ergibt sich die Forderung nach umfassenderen Simulationsstudien so da auch f r solche kleinen Kategorien noch
110. eines Pr dikats f r jede der schicht unabh ngigen Eigenschaften und Bewertungen vorgeschlagen F r das Odds Ratio sieht die Repr sentation der Kategorien damit folgenderma en aus oddsratio_kategorie lt situationsnummer gt lt kategorie gt An der zweiten Stelle des Pr dikats oddsratiokategorie stehen dann Konstanten die die 4 3 REPR SENTATIONEN DER MODELLIERUNG 103 Zugeh rigkeit der Situation zu einer bestimmten Kategorie ausdr cken z B die Konstante gro die andeuten soll da das Odds Ratio in der entsprechenden Situation in die Kategorie gro es Odds Ratio f llt F r die schichtabh ngigen Eigenschaften ergeben sich damit dreistellige Pr dikate hier z B f r die Fallanzahlen fallanzahl_kategorie lt situationsnummer gt lt schichtnummer gt lt kategorie gt F r alle anderen Dateneigenschaften und auch f r die Bewertungskriterien k nnen diese Re pr sentationsweisen analog bernommen werden indem immer das Argument in das die kon kreten Werte f r die Eigenschaften bzw die Bewertungen geschrieben werden weggelassen wird erste Repr sentation oder durch die Kategorie ersetzt wird zweite Repr sentation Zur Aufteilung in die Kategorien k nnen entsprechende Regeln eingegeben werden f r das Odds Ratio beispielsweise oddsratio S 0R amp gt OR 7 gro es_oddsratio S bzw oddsratio S 0R amp gt OR 7 oddsratio_kategorie S gro je nachdem welche Repr s
111. eln zu entnehmen sind f r den Benutzer weitestgehend transparent Es ist zu berlegen ob weitere Informationen wie z B die Anzahl der von der Regel abgedeckten Pr missen sichtbar gemacht werden sollen In 4 10 wurde betont da es Situationen gibt in denen mehr als eine Regel anwendbar ist Daher sollte eine bestimmte Abfragereihenfolge nicht nur f r die Pr missen sondern auch f r die Regeln eingehalten werden Das hei t die Suche im Entscheidungsbaum wird gestoppt falls eine erste Regel angewendet werden kann Dieses Verhalten wird in den if Abfragen durch die Turbo Pascal Prozedur Exit erreicht die den Aufruf einer Prozedur stoppt Exit wird in den then Teilen der Prozedur Empfehlung aufgerufen in denen eine Konklusion einer Regel repr sentiert wird F r die Codierung der in 4 7 vorgestellten 24 Regeln die 87 Pr missen enthalten werden 35 if Abfragen ben tigt die eine Verschachtelungstiefe von bis zu f nf besitzen Im folgenden wird ein Ausschnitt der Prozedur Empfehlung dargestellt if KFallanzahl Text sehr gro then begin RelAvFall Checked True if KExpos Text zentriert and KDifferenz Text klein then begin RelExpo Checked True 148 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA RelDiff Checked True if KTafelanzahl Text klein then begin RelTafel Checked True Punktempfehlung Text Mantel Haenszel Biaskorrekturempfehlung Text Jackknife II Ei
112. en daher mehrere Schichten vor so kann fiir jede Schicht ein individuelles Odds Ratio berechnet werden F r die i te Schicht ergibt sich P zu i 1 poi u Pe Fai poill pii Die individuellen Odds Ratios Y k nnen durch die empirischen Odds Ratios U gesch tzt werden mit v X1i No Xoi Xo Ni Xu Der Effekt einer Schichtung wird deutlich wenn man das auf den ungeschichteten Tafeln basierende mit den W s vergleicht Zur Illustration sei erneut auf das erste Beispiel zur ck gegriffen Ohne eine Schichtung hat die anfangs bereits nur inhaltlich erw hnte Untersu chung des Zusammenhangs von Alkoholkonsum und Herzinfarkt die in Tabelle 3 6 dargestellten Ergebnisse erbracht also ein mehr als zweimal h heres Herzin farktrisiko bei Alkoholkonsum Wird diese Kontingenztafel geschichtet bzgl des Confounders Rauchen so ergeben sich die Tafeln aus Tabelle 3 7 Die individuel len Odds Ratios weisen hier auf die Unabh ngigkeit von betrachtetem Risikofaktor und Krankheit hin Geht man davon aus da der Confounder durch die Schichtung erfolgreich kontrolliert wurde ist man nun daran interessiert eine Aussage ber den Zusammenhang zwischen dem Risi kofaktor und der Krankheit zu treffen Dazu kann u a ein sogenannter Unabh ngigkeitstest Es handelt sich hierbei um einen hypothetischen Datensatz der aus Schlesselmann 1982 bernommen worden ist 60 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA
113. endigeres Design und eine komplexere Analyse erfordern Zu den beobachtenden Studien z hlen auch die Fall Kontroll Studien mit deren Hilfe der Einflu eines potentiellen Risikofaktors auf die Entstehung einer Krankheit analysiert werden kann Es gibt eine Reihe bekannter Untersuchungen die in Form von Fall Kontroll Studien durch gef hrt worden sind beispielsweise wurden e der Einflu des Rauchens der Mutter auf angeborene Mi bildungen des Kindes siehe Kelsey et al 1978 e der Einflu von Allergien auf den pl tzlichen Kindstod siehe Turner et al 1975 e den Einflu k rperlicher Aktivit t auf den Herzinfarkt siehe Hennekens et al 1977 e der Einflu von Strahlung auf Leuk mie siehe Linos et al 1980 e und der Einflu von k nstlichem S stoff auf Blasenkrebs siehe Hoover et al 1980 untersucht Fall Kontroll Studien sind im Gegensatz zu Kohortenstudien retrospektive Studien d h die Probanden weisen die zu untersuchende Krankheit bereits auf w hrend in Kohortenstudien von gesunden Personen ausgegangen und die Entstehung einer Erkrankung beobachtet wird Die Auswahl der Probanden h ngt in diesen Studien im wesentlichen von der Exposition 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 53 Krankheit Risikofaktor Einflu Assoziation Confounder Abbildung 3 3 Assoziation von Krankheit Risikofaktor und Confounder bzgl des Risikofaktors ab Insbesondere bei seltenen Krankheiten mit
114. enerell verf gbar und in einem eigenst ndigen Hilfesystem vorhanden sind werden sie nicht in der Beschreibung der einzelnen Aufgaben erw hnt Die meisten Erkl rungen und Beratungen sind ebenfalls Provide Tasks da sie vom Benutzer angefordert werden Die Initiative liegt bei dem Benutzer w hrend das System die angefor derte Information besitzt Auswahlen sind vorwiegend Obtain Tasks da eine Entscheidung des Benutzers vom System angefordert wird Gleichzeitig sind es auch Present Tasks da die Auswahlm glichkeiten durch das System angezeigt werden Die Schichtung enth lt zwei Auswahl Tasks Sie bestehen jeweils aus einem Present Task und einem Obtain Task Die pr sentierten Ingredients sind f r die erste Auswahl die zur Verf gung stehenden Methoden zur Schichtung bei der zweiten Auswahl sind es die Confounder die dem 3 4 KOOPERATIONSMODELL MODEL OF COOPERATION 85 Datensatz zugrunde liegen Die Ingredients der Obtain Tasks sind die ausgew hlte Methode bzw die ausgew hlten Confounder Der n chste Transfer Task ist die Klassifikation der Con founder Es handelt sich hier um einen Obtain Task die Ingredients sind Intervalle f r die einzelnen Confounder Im Rahmen der Homogenit tsanalyse gibt es nur einen Transfer Task die Erkl rung des p Werts Sie wird vom Benutzer angefordert und ist daher ein Provide Task F r die Odds Ratio Sch tzung kann die Pilotstudie als ein Transfer Task angesehen werden Der Benutzer fordert
115. entation verwendet werden soll Die Regeln schlie en von dem konkreten Wert f r das Odds Ratio OR auf die Kategorie indem der Wert mithilfe der Built In Pr dikate auf seine Gr e untersucht wird Ist der Wert OR hier gr er als sieben so leiten die Regeln das entsprechende Faktum ab Da die abgeleiteten Eigenschaften sp ter f r das Lernen wichtig sind ist es ggf vorteilhaft die erste Repr sentation zu verwenden Auf diese Weise kann das Konstantenlernen umgan gen werden das zu Problemen f hren kann siehe PG 205 1993 4 3 4 Repr sentation der Eignungen und Empfehlungen Die Umsetzung der Sch tzergebnisse wurde bislang auf die Repr sentation der beiden Be wertungskriterien Bias und MSE beschr nkt Im folgenden werden die daraus abzuleitenden Eignungen und Empfehlungen in der Wissensbasis repr sentiert Dieses erfolgt erst an dieser Stelle da die Eignung auf den Kategorien f r Bias und MSE beruht Zun chst wird nun vorgestellt wie durch die Eingabe einiger Regeln eine Reihenfolge der Sch tzer aufgebaut werden kann diese geeignet zusammengefa t wird und daraus der beste Sch tzer einer Situation abgeleitet wird Der zweite Teil des Abschnitts beschreibt die Regel 104 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN menge die die Eignung aus den Kategorieneinteilungen f r den Bias und den MSE ableitet Nimmt man in einem letzten Schritt dann die kategorisierten Eignungen und Empfehlungen zusa
116. enutzer eingegebenen Daten angezeigt werden Eine Erkl rung in Form einer Beantwortung von Fragen ist allerdings nicht realisiert Daher ist ein Unterrichten des Anwenders nur begrenzt komfortabel Den umgekehrten Aspekt also das Unterrichten des Systems betont das oben bereits erw hnte System REX bzw das darauf aufbauende System STUDENT Hier bestand das Ziel darin statistische Strategien durch den Benutzer zu lernen also neues Wissen aus der Anwendung des Systems zu akquirieren Dieses Vorhaben konnte jedoch in diesem System nicht vollst ndig realisiert werden Ein unmittelbares Unterrichten ist in CORA aufgrund der Trennung von Wissensakquisition und eigentlichem System nicht m glich Der Wissenserwerb findet in einer externen Wissensbasis mit Unterst tzung des Systems MOBAL statt Lediglich das Ergebnis ist in Form einer Regelmenge in das System CORA integriert Soll das System mit weiterem Wissen ausgestattet werden bzw das vorhandene Wissen revidiert oder verbessert werden beispielsweise durch die Auswertung weiterer Simulationsstudien so mu die Wissensbasis in MOBAL erweitert bzw revidiert werden und die durch neue Lernl ufe gewonnenen Regeln in die Beratungskomponente von CORA aufgenommen werden siehe dazu auch Abbildung 6 1 Neben den oben genannten Kriterien sollen im weiteren einige Aspekte diskutiert werden die auf den Benutzer des Systems eingehen e Welche Zielgruppe wird durch das System angesprochen
117. enz gefordert Insbesondere durch Verfahren die den Modellierungsproze f r Expertenwissen unterst tzen kann das not wendige Wissen f r solche Systeme aufbereitet und verwendbar gemacht werden Es k nnen damit wissensbasierte Systeme entwickelt werden die sich von der ersten Expertensystem Generation vor allem durch die Wissensmodellierung unterscheiden Den bereits ab Mitte der achtziger Jahre konstruierten Expertensystemen f r statistische Probleme siehe Kapitel 6 liegt eine damals weit verbreitete Transfersichtweise der Wissensakquisition zugrunde die davon ausgeht da das Expertenwissen mithilfe geeigneter Tools vorwiegend Expertensys temshells problemlos vom Experten in das System bertragen werden kann Da sich diese Systeme nicht durchsetzen konnten kaum ein solches XPS wird in der Praxis in gr erem Umfang verwendet mag wohl auch an dieser Fehleinsch tzung liegen Der im Rahmen dieser Arbeit vorgestellte Ansatz versucht dieses Problem durch eine Beto nung der Modellierungsphase des Wissens zu l sen Der Modellierungsproze wird durch ein System unterst tzt das den manuellen Wissenserwerb mit dem maschinellen Lernen verbin det Diese Kombination erm glicht da zus tzliches Wissen also Wissen das nicht bereits in Form eines Modells vorliegt aus Beobachtungen abgeleitet werden kann Das vorliegende System CORA ist mit einer Komponente zur Beratung von Benutzern bez glich der Me thodenauswahl ausgestat
118. er Fall Kontroll Studie und Methoden also die Sch tzer siehe Abschnitt 3 3 1 Die Entscheidung des Homogenit tstests geht indirekt als Input in diese Aufgabe ein Die drei Tasks die hier zusammen die Odds Ratio Sch tzung ausmachen sind die Pilotstu die eine Methodenauswahl und die Ausf hrung der Sch tzung Dabei bedarf die Pilotstudie weiterer Erl uterung durch eine Zerlegung in ihre Unteraufgaben 76 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Task Odds Ratio Sch tzung Ziel Aussage ber den Zusammenhang von Risikofaktor und Krankheit Input Daten Methoden ggf p Wert Output Odds Ratio Control Terms Pilotstudiendaten Teilmenge der Fall Kontroll Studiendaten Methodenempfehlung geeigneter Sch tzer f r die vorliegende Datensituation Task structure Odds Ratio Sch tzung Daten Methoden p Wert Odds Ratio Pilotstudie Daten Pilotstudiendaten Methodenempfehlung Auswahlen Methoden Methode Ausfihren Daten Methode Odds Ratio Das Ziel das mit der Durchfiihrung einer Pilotstudie verfolgt wird ist die Entscheidungsun terst tzung f r die Methodenauswahl in der Fall Kontroll Studie Wichtige Einflu faktoren auf die Sch tzergebnisse sind die Gr e des Odds Ratios und die Gr e der Expositionswahrscheinlichkeiten Da beide Gr en aber unbekannt sind kann nur auf eine Sch tzung zur ckgegriffen werden Problematisch ist hier da so die Auswahl des Sch tzers von der Sch tzung selbst
119. er Schichten K oder der Gr e des Odds Ratios Y e Gibt es eine berlegenheit eines Sch tzers in Abh ngigkeit von Ny und No e Hangt die Eignung eines Sch tzers mit den Expositionswahrscheinlichkeiten zusammen e Gibt es Kombinationen dieser Eigenschaften die die Eignung des Sch tzers beeinflussen Ein typisches Design f r eine Monte Carlo Studie die sich am Modell I also dem Large Strata Modell orientiert ist in der Tabelle 3 8 dargestellt Aus der folgenden Beschreibung des Simulationsdesigns die hier haupts chlich aus Pigeot 1989 bernommen wurde also vom Bereichsexperten stammt k nnen Hinweise auf die Kategorieneinteilungen siehe 4 2 3 gewonnen werden Die vorliegende Simulationsstudie untersucht das Verhalten einiger nicht iterativer Sch tzer f r das gemeinsame Odds Ratio Eine der zentralen Annahmen die dem Simulationsaufbau zugrunde liegen beinhaltet die Homogenit t der Odds Ratios Y k 1 K Da sich die Studie am Modell I orientiert sind die Anzahlen der 2x2 Tafeln relativ klein Sie liegen in dem vorgestellten Design bei 2 5 und 10 F r das gemeinsame Odds Ratio werden die Werte 1 1 7 3 5 5 und 10 untersucht Zur Begr ndung der Wahl dieser Werte wird in Pigeot 1989 Seite 101 folgendes angegeben Diese Festlegung des Parameters W l t Schl sse dar ber zu ob a die Sch tzer den Fall der Unabh ngigkeit von Risikofaktor und Krankheit erkennen Y 1 b ob sie auf einen leichten Zusa
120. er erst auf der Ebene der Datenanlyse auszuschalten Confounder k nnen aber auch erst sp ter n mlich auf der Ebene der Datenanalyse ber ck sichtigt werden siehe unten Analyse von Fall Kontroll Studien Um eine Aussage ber den Grad der Assoziation zwischen dem potentiellen Risikofaktor und der Entstehung der Krankheit machen zu k nnen ist eine umfangreiche statistische Analyse der erhobenen Daten notwendig Eine M glichkeit bietet dazu die Durchf hrung einer Kontingenztafelanalyse Wurden Confounder im Design der Fall Kontroll Studie nicht ber cksichtigt so betrifft der erste Schritt der Analyse die Kontrolle der Confounder Eine Methode hierzu ist die Schich tung der Daten bzgl der Confoundervariablen Eine Schichtung wird durchgef hrt indem man die Gruppe der F lle bzw der Kontrollen anhand der Auspr gungen der Confounder variablen in disjunkte Teilmengen Schichten zerlegt Handelt es sich bei den Confoundern nicht um diskrete Variablen oder sind deren Auspr gungen weiter zusammenzufassen k nnen zun chst Klassen gebildet werden Um einen gegebenen Datensatz zu schichten besteht zum einen die M glichkeit nicht re levante Kovariablen aus dem Datensatz auszusuchen Dadurch k nnen ggf Schichten die sich nur in den Auspr gungen dieser nicht mehr betrachteten Kovariablen unterscheiden zu sammengefa t werden Das Zusammenfassen dieser Schichten geschieht durch die Addition 3 3 EXPERTISENMODELL MODEL OF EXPER
121. er vom Typ I New Jackknife 2 der aus dem logarithmierten Mantel Haenszel Sch tzer berechnet wird sowie der Typ I gejackknifte Woolf Sch tzer Die Sch tzer werden im folgenden durch MH W BL JK JK und W_JK abgek rzt Auswertung von Simulationsstudien Die gew nschte Charakterisierung der Sch tzer kann ber die Dateneigenschaften erfolgen Bei der Auswertung wird zun chst nach Abh ngigkeiten gesucht die von einer Dateneigen schaft auf eine Eignung eines Sch tzers schlie en Solche Regeln sind zu bevorzugen da sie sehr viele Datensituationen abdecken Im weiteren k nnen dann komplexere Abh ngigkeiten untersucht werden H ufig werden die Simulationsergebnisse durch Hinsehen ausgewertet Es wird versucht eine Die Berechnung dieses Jackknife Sch tzers basiert auf dem logarithmierten Mantel Haenszel Sch tzer 66 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA 1 0 1 7 3 5 5 0 10 0 20 60 30 90 20 70 30 80 20 60 25 75 30 90 35 105 40 120 20 55 25 85 30 80 35 95 40 135 0 20 0 80 0 45 0 55 0 20 0 22 0 25 0 28 0 30 0 20 0 40 0 50 0 60 0 80 0 45 0 48 0 50 0 52 0 55 0 20 0 22 0 24 0 26 0 28 0 30 0 32 0 34 0 36 0 38 10 0 20 0 25 0 30 0 40 0 45 0 55 0 60 0 70 0 75 0 80 0 40 0 42 0 44 0 46 0 48 0 52 0 54 0 56 0 58 0 60 Zus tzliche Werte f r poi 1 K 0 05 0 15 0 05 0 95 0 05 0 07 0 09 0 11 0 13 0 05 0 25 0 50 0 75 0 95 K 10
122. erbundenen Ereignisbehandlungsroutinen werden nicht aufgerufen Wird ein Befehl des Men s mit den Pfeil Tasten ausgew hlt so wird dieser in der Statuszeile kurz beschrieben Das Haupt oder Rahmenformular enth lt weitere f r den Anwender nicht st ndig sichtbare Komponenten Sie werden bei Bedarf aufgerufen Hierbei handelt es sich vor allem um ei 5 2 DESIGN DER SYSTEMKOMPONENTEN 139 Abbildung 5 5 Dialog zum ffnen einer Datei ne Reihe von Dialogen zum ffnen Speichern und Drucken von Dateien Der Benutzer des Systems kann wie bereits erw hnt f r die verschiedenen Komponenten des Systems unter schiedliche Datens tze verwenden Mithilfe der gerade erw hnten Dialoge kann der Anwender diese Datens tze aus Dateien einlesen ffnen einen Datensatz als Datei abspeichern oder ihn ausdrucken Bei diesen Dialogen siehe z B Abbildung 5 5 handelt es sich um Komponenten aus der Delphi Bibliothek Sie entsprechen den Dialogen in anderen Windows Applikationen Durch das Setzen einiger Eigenschaftswerte k nnen sie der Anwendung angepa t werden Es wird beispielsweise ein Filter definiert so da nur Dateien mit der Endung dat ge ffnet werden k nnen Es gibt drei Formulare die die unterschiedlichen Datens tze anzeigen ein Formular das den Datensatz der Analysekomponente enth lt ein Formular das gegebenenfalls den geschichte ten Datensatz zeigt und schlie lich ein Formular mit den beiden Datens tzen f r die Bera
123. eren Betrachtet man die Konstruktionsprinzipien der einzelnen Sch tzer genauer so sind einige Gr nde f r solche unterschiedlichen Verhaltensweisen sofort ersichtlich So k nnen etwa bei Jackknife 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 63 Sch tzern vom Typ I Probleme auftreten wenn nur wenige Tafeln Schichten vorhanden sind da die Anzahl der Tafeln die Anzahl der Pseudowerte festlegt Eine genauere Untersuchung der finiten Eigenschaften m glichst in Abh ngigkeit der die Datenlage bestimmender Parameter ist analytisch i a nicht m glich so da zur Beurteilung des finiten Verhaltens oft Simulationsstudien durchgef hrt werden Design und Durchf hrung von Simulationsstudien Simulationsstudien Monte Carlo Studien werden entworfen und durchgef hrt um die fini ten Eigenschaften von Sch tzern beurteilen zu k nnen und um verschiedene konkurrierende Verfahren zu vergleichen Insbesondere neu entwickelte Sch tzer k nnen auf diese Weise de taillierter untersucht werden Im Rahmen des Simulationsdesigns zur Untersuchung von Sch tzern des gemeinsamen Odds Ratios wird der wahre Wert des gemeinsamen Odds Ratios vorgegeben so da die Abweichung der Sch tzer von diesem Wert beurteilt werden kann Damit wird implizit die Homogenit t der individuellen Odds Ratios vorausgesetzt Weitere Parameter die im Simulationsdesign festgelegt werden m ssen sind e die Anzahl der Tafeln K e die Anzahl der F lle in der i ten Schi
124. eringer Beispielanzahl als problematisch er weisen siehe 4 9 Von besonderer Bedeutung ist in dieser Arbeit daher die Validierung der 34 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Regeln durch die Experten bzw durch die reale Anwendung der Regeln F r die Validierung der gelernten Regeln die zur Lernphase geh rt m ssen Kriterien auf gestellt werden anhand derer die Qualit t der Regeln bewertet werden kann Ergibt diese Analyse da kein zufriedenstellendes Ergebnis erreicht werden konnte m ssen die vorher getroffenen Entscheidungen gegebenenfalls revidiert bzw korrigiert werden Einige der m gli chen Ansatzpunkte f r Revisionen sind 1 Modellierungsentscheidungen z B e Sind alle relevanten Elemente des Sachbereichs ber cksichtigt worden e Sind ggf Kategorieneinteilungen ung nstig gew hlt worden 2 Repr sentationsentscheidungen z B e Welche Elemente werden als Pr dikate repr sentiert welche als Sorten 3 Auswahl geeigneter Metapr dikate e Wurde das gew nschte Lernergebnis verfehlt weil die Wahl der Metapr dikate ung nstig war 4 Wahl des Akzeptanzkriteriums e H tten mit einem strengeren schw cheren Akzeptanzkriterium bessere Lerner gebnisse erzielt werden k nnen Revisionen k nnen mit Unterst tzung des Systems MOBAL durchgef hrt werden Eine wich tige Operation ist dabei z B das L schen von Regeln Hier kann es sich beispielsweise um Regeln handeln die eine ung n
125. erpr ft wird Das Ziel der berpr fung ist es festzu stellen ob der betrachtete Confounder durch die Schichtung tats chlich kontrolliert werden konnte Ist das nicht der Fall so kann der urspr ngliche Datensatz erneut geschichtet wer den indem ggf Schichten zusammengefa t oder neu gebildet werden bzw mehr Confounder ber ck cksichtigt werden 74 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Task Schichtung Ziel Einflu von Confoundern ausschalten Input Methoden input Daten Output Output Daten Control Terms Input Daten geschichtete oder ungeschichtete Daten Output Daten geschichtete Daten Kovariablen Confoundervariablen geh ren zum Datensatz Auspr gungen Werte f r Kovariablen Intervalle Klassen f r Werte der Kovariablen Entscheidung Entscheidung ob die Kontrolle der Confounder als erfolgreich angesehen wird Task structure Schichtung Daten Methoden Daten Ausw hlen Kovariablen Kovariablen Ausw hlen Methoden Methode Klassifizieren Auspr gungen Intervalle Ausf hren Daten Intervalle Methode Daten berpr fung Daten Entscheidung Homogenit tsanalyse Das Ziel der Homogenit tsanalyse ist es eine Aussage ber die Homogenit t der Odds Ratios zu erhalten Als Ma hierf r wird der p Wert eines geeignet ausgew hlten statistischen Tests berechnet Dieser Wert wird auf Wunsch erkl rt d h es wird ein Vorschlag ber die Annahme oder Ablehnung der Homogenit t gem
126. erschiedene Punktsch tzer zwischen denen der Be nutzer w hlen kann F r die Varianzsch tzung des Mantel Haenszel Punktsch tzers stehen die Jackknife Varianz erster und zweiter Art siehe Pigeot 1989 die Breslow Breslow Liang die Hauck und die Robins Breslow Greenland Varianz sowie die symmetrischen Va rianzen der letzten vier Versionen zur Auswahl siehe Hauck 1987 F r den Woolf Sch tzer k nnen die Jackknife Varianzen erster und zweiter Art siehe Pigeot 1989 sowie die Woolf Varianz siehe Gart 1962 berechnet werden Die Konfidenzintervalle k nnen symmetrisch oder schief ber die log Transformation berechnet werden F r den Unabh ngigkeitstet bietet CORA den Benutzerinnen die folgenden vier Testmethoden an den Mantel Haenszel Test mit und ohne Stetigkeitskorrektur den Cochran Test und den Woolf Test siehe Hauck 1989 und Li et al 1979 f r Stetigkeitskorrekturen Unter dem gerade beschriebenen Gruppierungselement befinden sich die Schaltfl chen dieses Formulars Die Berechnen Schaltfl che dient zur Best tigung der oben getroffenen Aus wahl und ruft die Funktionen zur Berechnung der Analyse bzw Testergebnisse auf Diese werden im unteren Gruppierungsbereich des Formulars angezeigt Die Abbildung 5 18 zeigt exemplarisch das Formular f r die Sch tzung des gemeinsamen Odds Ratios Mithilfe des Befehls Optionen Standardanalyse kann der Anwender einstellen welche Pro zeduren stan
127. g von einigen in der Kontingenztafelanalyse zu verwendenden statistischen Methoden gewonnen die von den Da teneigenschaften der Fall Kontroll Studie auf die Eignung der Methoden schlie t In der Organisation sind eine Reihe von Aufgabenbereichen zu unterscheiden siehe auch Abb 3 1 In das direkte Umfeld des Systems CORA geh ren e das Design und die Durchf hrung der Datenerhebung f r die Fall Kontroll Studien e die Analyse von Fall Kontroll Studien mittels einer Kontingenztafelanalyse e das Design und die Durchf hrung von Simulationsstudien und e die Auswertung von Simulationsstudien Au erdem sind in der Organisation noch zwei weitere Aufgabenbereiche zu finden n mlich e die Herleitung der statistischen Verfahren und 3 1 ORGANISATIONSMODELL 47 e die Untersuchung ihrer theoretischen Eigenschaften Diese beiden Bereiche sind aber f r das wissensbasierte System lediglich von geringem Inter esse und werden daher im weiteren nur am Rande behandelt Eine detaillierte Beschreibung des Sachbereichswissens aus den vier Hauptaufgabenbereichen erfolgt im Abschnitt 3 3 1 In der Organisation des Systemumfelds ist die Interdisziplinarit t der Aufgabenbereiche von zentraler Bedeutung Eine Reihe von Aufgaben erfordert die Kooperation von Experten bzw die Vereinigung von unterschiedlichen Wissensbereichen in einem einzelnen Experten Das Design der Fall Kontroll Studie also die Planung der Datenerhebung verlangt sowohl Kenntnisse des me
128. gabenbereiche die sich mit den Simulationsstudi en besch ftigen dienen zur Entwicklung der erw hnten Beratung dieim Rahmen des Systems 50 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA vom Anwender aufgerufen werden kann Durch die Beratung wird der Benutzer des wissens basierten Systems bei der Auswahl einer geeigneten Methode zur Risikosch tzung im Rahmen der Kontingenztafelanalyse unterst tzt Sie basiert auf einer Charakterisierung der Sch tzer die in Form einer Regelmenge durch die Auswertung der Simulationsstudien vorliegt Die Re geln schlie en von den Eigenschaften der Daten also den Daten der Fall Kontroll Studie auf eine Eignung der Sch tzer Zur Erzeugung einer Empfehlung wird u a anhand der Pilotstudi endaten berpr ft ob Regeln existieren die eine Aussage ber die vorliegende Datensituation machen Gibt es entsprechende Regeln so kann dem Benutzer die aus diesen Regeln abgelei tete Eignung der Sch tzer mitgeteilt werden Die Benutzerfreudlichkeit des Systems zeichnet sich damit also durch drei Aspekte aus n mlich durch die benutzerfreundliche Oberfl che das Hilfesystem und zus tzlich durch ei ne Beratungskomponente zur Empfehlung geeigneter Methoden Zur Umsetzung des dritten Aspekts wurde es als sinnvoll erachtet auf Techniken zur Konstruktion wissensbasierter Sys teme zur ckzugreifen Damit kann die Wissenserhebung die Modellierung und die flexible Einkodierung des ben tigten statistischen Wissens in
129. gel betr gt jeweils eins 4 9 ANALYSE DER GELERNTEN REGELN 125 Allgemein gilt nat rlich da generellere Regeln vorteilhaft sind da sie mehr Instanzen ab decken k nnen Aber wegen der in 4 9 3 angesprochenen Bedenken ist es ggf vorzuziehen die unterschiedlichen Pr missen der redundanten Regeln alle zu einer Regel zusammenzufassen Man betrachte dazu das folgende Beispiel Die beiden Regeln aus Abschnitt 4 7 also 1 oddsratio 1 S amp viele_faelle S amp wenig_schichten S mittlere_empfehlung jk i S 2 oddsratio 1 5 amp viele_faelle S amp gini_faelle_balanciert S mittlere_empfehlung jk_ii S kann man zu der Regel oddsratio 1 S amp viele_faelle S amp wenig_schichten S amp gini_faelle_balanciert S mittlere_empfehlung jk i S zusammenfassen Diese Regel enth lt vier Pr missen und ist spezieller als die beiden Regeln einzeln Der Vorteil dieser l ngeren Regeln ist da ihre Korrektheit in der realen Anwendung ver mutlich besser ist da sie ber cksichtigen da die Zusammenh nge zwischen bestimmten Dateneigenschaften die in der Simulationsstudie gelten in der Anwendung der Regeln auf echte Daten nicht mehr gegeben sind Die Regelmenge wird aber zun chst nicht ge ndert 4 9 5 Abgedeckte Instanzen Im Durchschnitt werden pro Regel vier Instanzen abgedeckt d h eine durchschnittliche Regel beschreibt vier Parameterkonstellationen aus der Simulationsstudie Das Akzeptanzk
130. gen Ereignisbehandlungsroutinen wird der Quelltext teilweise automatisch von Delphi aber auch manuell durch den Benutzer erweitert Bei der Formular Datei handelt es sich um eine Bin rdatei die nur in der Formularansicht durch die Visualisierung des Formulars und seiner Komponenten sichtbar gemacht werden kann Es ist keine direkte nderung am Quelltext dieser Datei durch den Benutzer vorgesehen Mithilfe von Units die nicht zu einem Formular geh ren k nnen beispielsweise Bibliotheken mit mathematischen Funktionen importiert oder separat compilierbare Units nicht visueller Objekte erstellt werden 2 3 6 Entwicklung einer Windows Hilfe Ein Hilfesystem stellt dem Benutzer Online Informationen ber eine Anwendung zur Verf gung Es kann aus der Applikation heraus gestartet werden und erscheint somit f r den Benutzer als Teil der Anwendung F r den Entwickler ist das Hilfesystem dagegen eine selbst ndige Windows Anwendung die wie jedes andere Programm unabh ngig von anderen benutzt werden kann Das Hilfesystem besteht aus Text und Grafiken die in Form eines Hilfefensters ber die An wendung gelegt werden k nnen Die Hilfethemen sind als Hypertext miteinander verkn pft Sie enthalten Kreuzreferenzen zu verwandten Themen so da durch Anklicken eines Sprung begriffs in Form eines hervorgehobenen Textst cks Hotspot die Beschreibung dieses Themas 2 3 DELPHI OBJECTVISION 41 aufgerufen wird Diese Spr nge k nnen ein neues H
131. genauer erl utert Fakten Fakten bilden die Grundlage einer Wissensbasis Durch sie k nnen Relationen Eigenschaften und Konzeptzugeh rigkeiten Begriffe ausgedr ckt werden Fakten k nnen sowohl vom Be nutzer eingegeben als auch durch die Inferenzmaschine siehe Morik et al 1993 abgeleitet werden Ein Faktum besteht aus einem n stelligen Pr dikat das auf konstante Terme angewendet wird pred Term Term Es werden vier Wahrheitwerte verwendet True False Unknown und Contradictory Fak ten k nnen vom Benutzer negiert oder nicht negiert eingegeben werden Die Fakten die dem System noch nicht zur Verf gung stehen werden als Unknown interpretiert d h es wird keine Closed World Assumption getroffen da diese einer inkrementellen Erstellung des Mo dells im Wege steht Treten in der Wissensbasis Fakten in negierter und nicht negierter Form gleichzeitig auf so haben sie den Status Contradictory Die erforderlichen Pr dikate k nnen durch den Benutzer deklariert werden siehe Abschnitt Sorten Zus tzlich werden in MOBAL auch sogenannte Built In Pr dikate und Auto epistemische Operatoren zur Verf gung gestellt siehe Tabellen 2 1 und 2 2 2 2 MOBAL 27 max_of lt variable gt lt proposition gt lt maximum gt min_of lt variable gt lt proposition gt lt minimum gt sum_of lt variable gt lt proposition gt lt sum gt count lt proposition gt lt number gt unknow
132. glo bulin in Sudden Infant Death Syndrome British Medical Journal Nr 1 5 357 360 1975 Wittkowski 1985 Wittkowski K Ein Expertensystem zur Datenhaltung und Methoden auswahl f r statistische Anwendungen Dissertation Fakult t Mathematik und Informa tik der Universit t Stuttgart 1985 Woolf 1955 Woolf B On Estimating the Relation between Bloodgroups and Disease An nals of Human Genetics Nr 19 5 251 253 1955
133. gn bzw Entwurfsmodell auf dem Symbol Level Der Designproze besteht aus folgenden Schritten e der Auswahl eines Architekturparadigmas beispielsweise eines ob jekt orientierten oder funktionalen Ansatzes e der Spezifikation der Architektur e der Auswahl geeigneter Repr sentationstechniken e der Auswahl einer Softwareumgebung d h einer Programmiersprache eines Tools Li braries etc und e der Implementierung Die Auswahlentscheidungen ber die Architektur und Repr sentationstechniken sind bereits angedeutet worden F r die Implementierung des Systems ist ein objekt orientierter Ansatz gew hlt worden der in bestimmten Bereichen auch durch funktionale Teile erg nzt worden ist siehe 5 1 3 Damit kommen in diesem System sowohl die im vorangegangenem Kapitel beschriebenen wissensbasierten Methoden zum Einsatz als auch eher konventionelle Software Techniken Erst durch die Kombination dieser beiden Ans tze k nnen alle Anforderungen an das System erf llt werden Durch die Verwendung des Tools Delphi kann eine den g ngigen Softwarestandards ent sprechende benutzerfreundliche Oberfl che auf sehr einfache Weise implementiert werden 129 130 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Diese Softwareumgebung ist in diesem Fall auch geeignet die im Rahmen des wissensba sierten Ansatzes gelernten Regeln zu repr sentieren Erste Ideen ber eine PROLOG bzw C Schnittstelle auf eine in PROLOG implementierte W
134. gnung Text Regelnummer Text R7 Exit end else 5 2 3 Design der Analysekomponente Da die Implementierung dieser Komponente bis auf die Schichtung nicht vollst ndig zu der vorliegenden Diplomarbeit geh rt und gr tenteils von einer Statistikerin durchgef hrt wor den ist konzentriert sich dieser Abschnitt auf die Schichtung und erw hnt die Homogenit ts analyse die Sch tzung des gemeinsamen Odds Ratios der individuellen Odds Ratios mit der Aufbereitung der Daten in Form von Tafeln und den Unabh ngigkeitstest nur kurz Es gibt eine Hauptdatei die als Grundlage f r die Analysekomponente dient Da die Schich tung einen gegebenen Datensatz ver ndert und nicht die Datei selbst kann der erzeugte Datensatz als Datei abgespeichert werden Die Elemente der Analysekomponente k nnen durch die Befehle die unter den Men punkten Schichtung Tafeln und Analyse zu finden sind aufgerufen werden Der Men punkt Schichtung enth lt die Unterpunkte Mit Intervallbildung und Ohne Intervallbildung sowie Befehle zum Speichern und Schlie en des geschichteten Datensatzes Die mit den beiden ersten Befehlen verkn pften Aktionen werden nun beschrieben Wie bereits in 3 2 erw hnt wurde stellt das System zwei Methoden zur Schichtung der Daten bereit eine Schichtung durch das Weglassen von Kovariablen und eine Schichtung durch das Bilden neuer gr erer Intervalle f r die Kovariablen Zun
135. gorisier ten Dateneigenschaften bestehen Dabei werden die schichtabh ngigen Dateneigenschaften nicht mehr herangezogen Weiterhin soll auch die Anzahl der Kontrollen unber cksichtigt bleiben da diese durch die Eigenschaften Fallanzahl und das Verh ltnis von F llen und Kon trollen schon ausreichend bestimmt ist Damit verbleiben also neun Dateneigenschaften Mit der Kategorieneinteilung f r diese Eigenschaften ergeben sich 22 unterschiedliche Merkmale der Daten deren Einflu auf die Sch tzergebnisse festgehalten werden soll Die Charakterisierung kann sowohl aus Regeln ber die bewerteten Eignungen der Sch tzer als auch ber die bewerteten Empfehlungen bestehen Zudem sollte auch ber die unbewertete Empfehlung gelernt werden Damit ergeben sich neun Zielpr dikate ber die zu lernen ist Charakterisierungen einer Eignung oder Empfehlung k nnen auf unterschiedlich vielen Da tenmerkmalen basieren Durch die Komplexit t die durch die Kombinationsm glichkeiten der Eigenschaften gegeben ist sollen die Regeln maximal aus einer Kombination von f nf 4 5 LERNAUFGABE 113 Dateneigenschaften aufgebaut werden Zur Durchf hrung der Lernl ufe werden geeignete Metapr dikate siehe 2 2 1 konstruiert Da die Repr sentation die den Kategorienamen im Pr dikatnamen hat ausgew hlt wurde gibt es nur einstellige Pr dikate f r die Dateneigenschaften Folgende Metapr dikate wurden verwendet MP1 E1 E S Z amp Ei Sit E Sit
136. h der Einf hrung der wesentlichen Konzepte und Begriffe des Sachbe reichs im Aufgabenwissen des Expertisenmodells siehe Abschnitt 3 3 3 detailliert beschrie ben Dar ber hinaus werden in diesem Abschnitt externe Forderungen wie beispielsweise Hard und Softwarevoraussetzungen festgehalten Abschlie end wird in einer Art Technology Assessment der Einflu den die Konstruktion des Systems haben wird vorausgesagt und bewertet Das zu erstellende wissensbasierte System soll den im Organisationsmodell erw hnten Auf gabenbereich Analyse von Fall Kontroll Studien unterst tzen genauer den gesamten Proze einer Kontingenztafelanalyse bestehend aus der Schichtung der Daten der Homogenit tsana lyse der Sch tzung des gemeinsamen Odds Ratios und der Durchf hrung von Unabh ngig 3 2 ANWENDUNGS UND AUFGABENMODELL 49 Kontingenztafelanalyse Homogenitats Odds Ratio Unabhangig Schichtung analyse Schatzung keitstest Abbildung 3 2 Aufgabenzerlegung fiir die Kontingenztafelanalyse keitstests Damit ergibt sich die in Abb 3 2 dargestellte Zerlegung der Aufgaben fiir die Kon tingenztafelanalyse Der genaue Ablauf dieses Prozesses wird im Rahmen des Sachbereichs bzw des Aufgabenwissens in den Abschnitten 3 3 1 und 3 3 3 dargetellt Alle Verfahren die zur Analyse des Datensatzes notwendig sind werden innerhalb des Systems implementiert und sollen von einer einheitlichen grafischen und benutzerfreudlich gestalteten Oberfl c
137. he aufrufbar sein Es wird auf keine vorhandene statistische Auswertungssoftware zuriickgegrif fen Wichtig ist da dem Anwender ein Hilfesystem zur Verf gung steht das einerseits die Benut zung des Programms erkl ren soll andererseits auch die inhaltlichen statistischen Aspekte ausf hrlich darstellt Das Design von Fall Kontroll Studien und die Datenerhebung werden nicht unterst tzt Vor aussetzung zur Anwendung des Systems ist also das Vorliegen eines geeigneten Datensatzes Aus diesem Datensatz kann mithilfe des Systems CORA ein Datensatz f r eine Pilotstu die erstellt werden Anhand der Daten der Pilotstudie wird eine erste Analyse der Daten durchgef hrt Diese Analyse l t Schl sse ber die Dateneigenschaften zu die zur Auswahl einer geeigneten Regel d h zur Empfehlung einer statistischen Methode herangezogen werden k nnen Da die Daten der Pilotstudie dann nicht zur eigentlichen Datenauswertung verwendet werden d rfen wird zur Erstellung der Originaldatensatz in zwei Datens tze unterteilt die Pilotdaten und die Analysedaten Als Methoden f r die Aufteilung werden vom System eine einfache und eine geschichtete Zufallsauswahl zur Verf gung gestellt Der Analysedatensatz wird f r die Durchf hrung der Kontingenztafelanalyse verwendet der Pilotdatensatz dient zu sammen mit dem Analysedatensatz als Grundlage f r eine im folgenden genauer vorgestellte Beratung der Anwender Die im Organisationsmodell erw hnten Auf
138. heraus da es bersicht licher ist diese Berechnungen funktional zu definieren da auf diese Weise die Komplexit t des Objekttyps TDaten berschaubar bleibt Diese Funktionen sind nun in einer Reihe unter schiedlicher Units definiert Das Datenobjekt wird als Parameter bergeben 5 2 Design der Systemkomponenten Die im Abschnitt 5 1 2 vorgestellten Komponenten des Systems werden im folgenden aus einem Implementationsblickwinkel betrachtet Dabei werden vor allem die konzeptionellen Designaspekte betont aber auch einige Implementierungsdetails herausgegriffen und genauer vorgestellt 5 2 1 Design der Benutzerschnittstelle Das Sytem CORA l uft wie bereits mehrfach erw hnt unter der grafischen Oberfl che MS Windows Die Benutzerschnittstelle besteht aus einer Reihe von Formularen die mithilfe des Tools Delphi siehe 2 3 erstellt worden sind Das Hauptformular der Anwendung siehe Abb 5 4 setzt sich zusammen aus einer Titellei ste einer Men zeile einer Leiste mit Schaltfl chen f r h ufig verwendete Befehle des Men s Symbolleiste und einer Statuszeile in der kurze Informationen und Hilfen zum aktuellen Systemkontext angezeigt werden Der Hauptteil in der Mitte des Formulars enth lt keine f r den Benutzer sichtbaren Komponenten Hier werden die aufzurufenden Unter Formulare plaziert Von zentraler Bedeutung f r die Entwicklung der Benutzerschnittstelle ist das Hauptmen der Anwendung Wie auch aus der Abbildung
139. hler k nnen auch durch eine korrekte Analyse im Sinne von Garbage In Gabage Out nicht mehr behoben werden Im Idealfall ist auch nach der Einf hrung des Systems eine Kooperation von Medizinerinnen und Statistikerinnen schon deswegen zu empfehlen damit solche Designfehler vermieden werden k nnen 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 51 Wirkliche nderungen k nnen sich also nur in der Analysephase ergeben Waren vorher Me dizinerinnen mit geringen Statistik Kenntnissen hier in jedem Fall auf statistische Hilfe ange wiesen so wird nun eventuell eine Verschiebung der Aufgabenverteilung zu beobachten sein Nachdem die Statistikerin zur Durchf hrung einer Kontingenztafelanalyse geraten hat kann eine Epidemiologin die Analyse gegebenenfalls selber ausf hren wobei weiterhin zumindest zur Interpretation der Ergebnisse ein Dialog mit Statistikerinnen mehr als w nschenswert w re Es ist aber durchaus auch denkbar da die Analyse weiterhin von Statistikerinnen durch gef hrt wird F r Statistikerinnen die ber wenig Erfahrung in der Kontingenztafelanalyse verf gen kann auch hier der Einsatz des Systems ratsam sein Es ist aber zu beachten da die Flexibilit t durch das System eingeschr nkt werden kann es wird lediglich eine bestimmte Auswahl an Methoden zur Verf gung gestellt Nur wenn die Statistikerin diese Auswahl akzep tiert wird sie das System anwenden Die mit der Kontingenztafelanalyse h ufig besch ftigten Stati
140. hoher Latenzzeit ist eine Untersuchung mittels einer Kohortenstudie ung nstig F r die Datenerhebung in Fall Kontroll Studien ben tigt man eine abgegrenzte Population erkrankter sowie nicht erkrankter Personen Auch bei seltenen Krankheiten kann so eine aus reichend gro e Anzahl an F llen sichergestellt werden Aus der Population wird jeweils eine Stichprobe vom Umfang N f r die F lle bzw No f r die Kontrollen gezogen N1 No IN Ny und No sind Parameter f r die im Rahmen des Designs Werte festzulegen sind Au er dem werden die Probanden hinsichtlich der Exposition untersucht X bzw Xo bezeichnet die Anzahl exponierter Personen in der Stichprobe der F lle bzw der Kontrollen d h die Anzahl der Personen die dem Risikofaktor ausgesetzt sind Die Anzahl exponierter Personen wird als binomialverteilt angenommen d h da jede Person unabh ngig von den anderen mit einer Wahrscheinlichkeit von p exponiert ist wenn sie zur Gruppe der F lle geh rt bzw mit Wahrscheinlichkeit po wenn sie zur Gruppe der Kontrollen geh rt Die Expositi onswahrscheinlichkeiten sind also unbekannte Parameter und werden nicht durch das Design festgelegt Neben dem eigentlichen Risikofaktor gibt es dritte Gr en sog Confounder die einen Einflu auf die Entstehung einer Krankheit haben k nnen siehe Abbildung 3 3 Ein Confounder ist eine diskrete oder stetige zuf llige Einflu gr e die f r die interessierende Krankheit einen zus tzlichen
141. ht durchgef hrt werden 4 7 AUSWAHL EINER REGELMENGE 117 Odds Ratios Schichtanzahl Fallanzahl Exposition Differenz der Expos Verh ltnis von Kontrollen und F llen Balanciertheit der Fallanzahlen Balanciertheit der Expositionen Balanciertheit der Verh ltisse OND Ge on m Tabelle 4 16 Bewertung Reihenfolge der Dateneigenschaften wurde im Simulationsdesign festgelegt da bei einer kleinen Anzahl an Schichten stets gleichm ig ber die Schichten verteilte Fallanzahlen vorliegen Umgekehrt gilt auch da gleichm ig verteilte Fallanzahlen nur in Situationen mit wenig Schichten vorkommen Daraus folgt da beide Pr missen die gleiche Bedeutung haben Eine ganze Reihe solcher Zusammenh nge haben dazu gef hrt da sehr viele redundante Regeln gelernt wurden Hier wird nun eine Auswahl vorgestellt die jeweils nur eine Regel aus einer solchen redundanten Menge in die endg ltige Regelmenge aufnimmt Das Krite rium f r die Auswahl ist eine Bewertung der Dateneigenschaften gem Tabelle 4 16 die folgenderma en eingesetzt werden kann gibt es redundante Regeln die die gleichen Situa tionen abdecken so werden die Bewertungen der Pr missen addiert und die Regel mit der niedrigsten Gesamtbewertung wird ausgew hlt Im obigen Beispiel hat die erste Regel eine Bewertung von 1 3 2 6 und f r die zweite Regel ergibt sich 1 3 7 11 Damit wird die erste Regel in die Auswahlmenge aufgenommen F r das Metapr dikat
142. i mangelnder statistischer Qualifikation fehlerhafte Analysen nicht ausgeschlossen sind Ein Beispiel f r Systeme die eine Programmierung durch eine grafische Benutzeroberfl che ersetzen ist das Programm Statistica Auch hier handelt es sich um ein sehr komplexes Programmpaket mit dem eine Reihe von statistischen Auswertungen durchgef hrt werden k nnen Ein sich daraus ergebender Vorteil des Systems ist die gro e Flexibilit t Nachteilig ist aber da auch hier relativ hohe Anforderungen an die Statistik Kenntnisse der Benutzer gestellt werden Aber gerade durch die einfache Bedienung des Systems wird es h ufig von Anwendern eingesetzt die nur gelegentlich eine statistische Analyse durchf hren und daher ber wenig diesbez gliche Erfahrungen verf gen Durch die Konstruktion eines wissensbasierten Systems wird versucht in diese komplexe Organisation unterst tzend einzugreifen Die Auswirkungen die die Einf hrung des Systems auf diese Organisation voraussichtlich haben wird werden im Anwendungsmodell siehe 3 2 beschrieben 3 2 Anwendungs und Aufgabenmodell Der folgende Abschnitt beschreibt die Anforderungen an das System bez glich seiner Funk tionalit t Es wird angedeutet welche Aufgaben durchzuf hren sind um diese Funktionalit t zu erreichen Das Aufgabenmodell wird damit in diesem Abschnitt nur sehr grob umris sen die weitere Zerlegung der Unteraufgaben sowie die Zuweisung dieser Aufgaben an die Agenten wird erst nac
143. i wird zun chst die Zerlegung der bereits erw hnten vier Hauptaufgabenbereiche in Unteraufgaben vorgestellt Die Zerlegung f r den Aufgabenbereich der vom WBS unterst tzt wird also die Kontingenztafelanalyse wird detailliert beschrieben und die Verteilung der Unteraufgaben an 52 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA die Agenten System und Benutzer vorgestellt Es handelt sich in diesem Abschnitt also um eine Kombination aus dem fortgef hrten Aufgabenmodell und dem Aufgabenwissen 3 3 1 Sachbereichswissen Domain Knowledge Im folgenden werden die vier f r das WBS relevanten Aufgabenbereiche die Datenerhebung die Kontingenztafelanalyse die Simulationsstudien und die Auswertung dieser Simulations studien beschrieben Design und Durchf hrung der Datenerhebung Die Epidemiologie ist entstanden aus der Untersuchung von Epidemien wie beispielsweise der Cholera Heute besch ftigt man sich hier vor allem mit der Untersuchung der Verteilung von Krankheiten physiologischen Variablen und sozialen Krankheiten in menschlichen Bev lke rungsgruppen sowie mit den Faktoren die diese beeinflussen Der Schwerpunkt der Forschung liegt damit in der Erfassung m glicher Ursache Wirkungsbeziehungen wobei sowohl positive als auch negative Assoziationen untersucht werden k nnen Aus ethischen Gr nden sind oft keine experimentellen Studien durchf hrbar Es mu daher auf beobachtende Studien ausgewichen werden die h ufig ein aufw
144. iche Aufgabenverteilungen realisiert werden m ssen Die Verteilung der Aufgaben zwischen Mensch und System ist in der Regel einfacher Um die speziellen F higkeiten von Mensch und System zu nutzen werden die Aufgaben die den ge sunden Menschenverstand ben tigen dem Benutzer zugeordnet w hrend Aufgaben die ein Hier zeigt sich auch die top down Vorgehensweise in der Aufgabenzerlegung 22 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA hohes Ma an Informationsmanagement Wiederholung oder bekannten Routinen beinhalten dem System zugeordnet werden Wird eine Unteraufgabe sowohl dem Benutzer als auch dem System zugeordnet so kommen daf r mehrere Gr nde in Betracht e die Unterteilung ist nicht fein genug Insufficient Refinement es gibt alternative Verteilungen der Aufgaben es findet eine parallele Ausf hrung von Aufgaben statt um die Ergebnisse vergleichen zu k nnen oder e ein Agent gibt Instruktionen an einen ausf hrenden Agenten Ist die Verteilung der Aufgaben abgeschlossen so mu f r alle Aufgaben die dem System zugeordnet worden sind entschieden werden ob sie mit konventionellen Ans tzen bearbei tet werden k nnen oder ob sie wissensintensiv sind Im letzteren Fall sollten Knowledge Enigineering Techniken zum Einsatz kommen Dann k nnen diese Aufgaben mithilfe der in 2 1 4 beschriebenen Modellierung der Expertise analysiert werden Kooperationsmodell Im Kooperationsmodell
145. ichten gibt es 1360 Fakten aus denen die durchschnitt lichen Fallanzahlen pro Schicht also 240 Fakten berechnet werden Die Einteilung in die Kategorien siehe Tabelle 4 1 ergibt die in Tabelle 4 8 vorgestellten Ergebnisse Bei der Ein teilung der durchschnittlichen Fallanzahlen zeigt sich da zwei Kategorien unbenutzt bleiben n mlich die f r wenige und mittelviele F lle Das h ngt wiederum mit dem der Simulations studie zugrundeliegenden Modell zusammen Aus dem Verh ltnis von F llen und Kontrollen pro Schicht 1360 Fakten wird das durch 110 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN oddsratio 240 oddsratio 1 48 kleines_oddsratio 48 mittleres_oddsratio 48 grosses_oddsratio 48 Tabelle 4 7 Odds Ratios faelle 1360 durchschnitt_faelle 240 sehr_viele_faelle 150 viele_faelle 90 mittelviele_faelle 0 wenig_faelle 0 Tabelle 4 8 Fallanzahlen schnittliche Verh ltnis berechnet das sich gem Tabelle 4 9 auf die Situationen verteilt Das h ufig vorkommende Verh ltnis von 1 3 f llt in die Kategorie mittel_balanciert Alle ande ren Verh ltnisse geh ren zur Kategorie unbalanciert Ein balanciertes Verh ltnis tritt nicht auf daim Design davon ausgegangen wurde da in realen Situationen in der Regel wesentlich mehr Kontrollen als F lle zur Verf gung stehen Auch f r die durchschnittliche Expositionswahrscheinlichkeit gibt es f r eine der drei Katego rien keine Auspr gung in dieser
146. ie m ssen dann die H ufigkeiten der weiteren Dateneigenschaften berpr ft werden F r gro es Odds Ratio ergibt sich z B da in acht der neun Regeln mit der Pr misse gro es_oddsratio 4 10 EINBINDEN DER REGELN IN DAS WBS 127 Odds Ratio 22 Schichtanzahl 20 Fallanzahl 18 Exposition 12 Differenz Expos Verh ltnis K F Balance Expos Balance Verh ltnis Balance F lle FP oN Tabelle 4 17 H ufigkeiten der Dateneigenschaften die Fallanzahl eine Rolle spielt Da keine andere Eigenschaft h ufiger vorkommt soll die Fallanzahl als zweite Eigenschaft abgefragt werden Eine der Regeln mit der Pr misse gro es_oddsratio ber cksichtigt die Fallanzahl nicht Auf der gleichen Ebene wie die Abfrage der Kategorien f r die Fallanzahl k nnen also die Eigenschaften die in dieser Regel vorkommen berpr ft werden Auf diese Weise wird die gesamte Regelmenge analysiert Man erh lt damit den ausschnitts weise in der Abbildung 4 3 vorgestellten Entscheidungsbaum der die Abfragereihenfolge der Dateneigenschaften festlegt Im Rahmen der Anwendung der Regeln kann es vorkommen da mehrere Regeln auf eine Datensituation angewendet werden k nnen d h die Situation erf llt die Pr missen mehrerer Regeln Zwar ist die extensionale Redundanz bez glich des Beispielsets ausgeschlossen siehe 4 9 3 aber da die Regeln nur einen Teil der Dateneigenschaften abfragen ist es nicht ausge schlossen da auf diese Weise f r eine Situati
147. iego New York 1993 Musen 1989 Musen M Automated Generation of Model Based Knowledge Acqusition Tools Research Notes in Artificial Intelligence Pitman London 1989 Naeve et al 1987 Naeve P Steinecker J SETUP Statistisches Expertensystem mit TWAICE und P STAT Bericht Nr 172 der Fakult t f r Wirtschaftswissenschaften Universit t Bielefeld 1987 Nelder 1987 Nelder J A AI and Generalized Linear Modelling An Expert System for GLIM In Phelps B Hrsg Interactions in Artificial Intelligence and Statistical Me thods Gower Verlag Aldershot 1987 Newell 1982 Newell A The Knowledge Level Artificial Intelligence Nr 18 S 87 127 1982 LITERATURVERZEICHNIS 173 Pigeot 1989 Pigeot I Sch tzer des gemeinsamen Odds Ratios in geschichteten Kontin genztafeln Dissertation Fachbereich Statistik der Universit t Dortmund 1989 Plotkin 1970 Plotkin G D A Note on Inductive Generalization In Meltzer B Michie D Hrsg Machine Intelligence Nr 5 S 153 163 Edinburgh Univ Press Edinburgh 1970 Plotkin 1971 Plotkin G D A Further Note on Inductive Generalization In Meltzer B Michie D Hrsg Machine Intelligence Nr 6 5 101 124 Edinburgh Univ Press Edin burgh 1971 PG 205 1993 Projektgruppe 205 Endbericht Fachbereich Informatik der Universit t Dort mund 1993 Quinlan 1986 Quinlan J R Induction of Decision Trees Machine Learning Nr 1 S 81
148. igen Analyseschritt ausgew hlt d h im Homogenit tsformular wird die Metho de f r die Homogenit tsanalyse bestimmt im Formular f r die Sch tzung des gemeinsamen Odds Ratios werden der Punktsch tzer und zugeh rige Biaskorrekturen Modifikationen ein geeigneter Varianzsch tzer die Methode zur Berechnung von Konfidenzintervallen und die berdeckungswahrscheinlichkeit ausgew hlt im Formular f r den Unabh ngigkeitstest wird die Testprozedur und das gw nschte Signifikanzniveau durch den Anwender angegeben Die Art der Auswahl ist in allen drei Formularen identisch die Namen der zur Verf gung stehenden Prozeduren bzw die Werte f r die Niveaus stehen in Form von aufklappbaren Listen zur Auswahl Im Rahmen der Homogenit tsanalyse gibt es f nf Testmethoden Dazu geh ren der nicht iterative Woolf Test siehe Woolf 1955 der Breslow Day Test siehe Breslow Day 1980 der MW Test und der MW Score Test siehe Strugholtz 1993 sowie 5 2 DESIGN DER SYSTEMKOMPONENTEN 155 Abbildung 5 16 Formular Odds Ratios 156 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Abbildung 5 17 Formular Nullzellen der approximative Tarone Test siehe Tarone 1985 Die Punktsch tzung des gemeinsamen Odds Ratios kann innerhalb des Systems mithilfe des Woolf sowie des Mantel Haenszel Sch tzers und den gejackkniften Versionen dieser Sch tzer durchgef hrt werden siehe 3 3 1 Insgesamt ergeben sich damit also sechs v
149. igenschaften des Datenobjekts in eine als Parameter bergebene Memokomponente Diese Memokomponente siehe 2 3 hat das gleiche Format wie die oben beschriebene ASCII Datei Auf diese Weise k nnen die Daten wieder zur ck in eine Datei geschrieben werden In der Anwendung werden eine Reihe von Instanzen des Typs TDaten erzeugt n mlich e die Daten f r die Analysekomponente des Systems 5 1 SPEZIFIKATION DER SYSTEMARCHITEKTUR 135 Rauchen 001 25 16 141 37 118 000 13 175 12 20 215 3 8 153 30 18 177 10 4 165 55 5 197 20 2 155 73 3 146 Abbildung 5 2 ASCH File zum Datensatz aus Tabelle 3 4 TDaten class TObject Dateiname String AnzahlKov Integer AnzahlSchichten Integer Stichprobenumfang Single Zelle Array a d 1 100 of Single Kovariable Array 1 5 of String KovWert Array 1 100 1 5 1 2 of Single Abbildung 5 3 Der Datentyp TDaten 136 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA e die Daten f r die Beratungskomponente also der Pilotdatensatz und der Analysedaten satz sowie e die Daten die durch m gliche Schichtungen entstehen Alle Berechnungen der Punkt und Varianzsch tzer der Homogenit ts und Unabh ngig keitstests die Schichtung und die Erzeugung der Pilotdaten greifen auf die Daten zu und bearbeiten sie Es erscheint zun chst sinnvoll die Prozeduren und Funktionen f r die Berech nungen dem Objekt als Methoden zuzuordnen Es stellte sich aber
150. iko gut Liegt eine Unabh ngigkeit zwischen Risikofaktor und Krankheit vor so nehmen sowohl W als auch das relative Risiko den Wert eins an Da P und Po unbekannt sind mu das Odds Ratio W geeignet gesch tzt werden Man betrachte dazu die Wahrscheinlichkeit im Falle einer Erkrankung exponiert zu sein p P E D und die Wahrscheinlichkeit exponiert zu sein wenn keine Erkrankung vorliegt po P E D Es kann nun das Bayessche Theorem angewendet werden wonach gilt da P B A P A P Ay B a N P BA P A P B A2 P A2 wobei A Aa und B stochastische Ereignisse und A und Aa komplement re Ereignisse sind F r die oben definierte bedingte Wahrscheinlichkeit P gilt daher P E D P D _ Pi _ _PLEID P D P E D P D P E D P D P fi SIE i 1 P P E De P D und somit Nach einer allgemeinen Formel f r bedingte Wahrscheinlichkeiten P AN B P A B P B gilt P P END 1 P P EnDe Durch analoge Umformungen erh lt man die Gleichungen 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 59 p P DNE po P D NE Py P E lt ND und 1 p P DNE 1 p P Den ke 1 P P kenDe Daher gilt _ P 1 Po _ pill po Po l Pi po 1 pr Die Wahrscheinlichkeiten p und po k nnen durch die beobachteten H ufigkeiten gesch tzt werden so da sich das gesch tzte Odds Ratio U ergibt zu g XWo Xo Xo N X1 Wurden nun Confounder beriicksichtigt und lieg
151. ilfethema aufrufen oder lediglich ein Pop up Window anzeigen das eine kurze Beschreibung eines Begriffs oder Befehls enth lt Die Hilfedatei wird gebildet aus Themendateien darunter eine Themendatei die ein Inhalts verzeichnis enth lt Grafikdateien und einer Hilfeprojektdatei Eine Themendatei besteht aus den formatierten Texten f r die Hilfethemen und speziellen Steuercodes und Fu noten Die Grafikdateien enthalten Bitmaps und Metafiles die in den Hilfethemen angezeigt werden k nnen Die Hilfeprojektdatei enth lt alle Informationen die der Microsoft Windows Help Compiler f r die Umwandlung der Themen und Grafikdateien in eine bin re Hilferessour cendatei ben tigt Die Ressourcendatei mit der Endung hlp kann mithilfe des Programms Windows Help ge ffnet und angezeigt werden Im weiteren werden die Themendateien und die Projektdatei n her beschrieben Ist die Er stellung des Hilfesystems abgeschlossen mu die Einbettung in die Anwendung erfolgen so da die Hilfe von hier aus gestartet werden kann Das Einbinden eines Hilfesystems in eine Delphi Anwendung wird daher im Anschlu erl utert Themendateien Jede Themendatei enth lt ein oder mehrere Themen Topics Ein Topic ist eine Einheit von Informationen die durch das Programm Windows Help angezeigt wird Eine Themendatei wird erstellt indem mithilfe eines Texteditors die notwendigen Steuercodes eingef gt werden oder einfacher durch eine Textvera
152. immt Die Eigenschaft Enabled die f r alle Dialogelemente zur Verf gung steht steuert die Reak 38 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA tion der Komponente auf Maus Tastatur und Timer Ereignisse Das Setzen von Visible macht die Komponente zur Laufzeit sichtbar bzw unsichtbar Zur Konstruktion von kontext sensitiver Hilfe kann f r alle Elemente ein HelpContext an gegeben werden Bei Aktivierung der Hilfe wird dann das durch den Kontext angegebene Hilfe Thema angezeigt 2 3 3 Ereignisbehandlungen Im Anschlu an die Erzeugung von Formularen mit passenden Komponenten werden Freignis behandlungsroutinen f r die Komponenten erzeugt so da die Komponenten auf Ereignisse reagieren k nnen die w hrend der Ausf hrung des Programms auftreten Die verwendete Sprache f r solche Routinen ist Object Pascal Object Pascal basiert auf der Sprache Tur bo Pascal Version 7 0 Es sind lediglich einige Sprachkonstrukte hinzugef gt worden siehe Borland 1994 Mit der Seite Ereignisse des Objektinspektors k nnen Routinen erzeugt werden Diese werden aufgerufen sobald ein Ereignis eintritt Ereignisse sind Benutzeraktionen oder Ereig nisse im System die die Anwendung erkennen kann Alle Komponenten haben verschiedene Ereignisse auf die sie reagieren k nnen wie beispielsweise ein Mausklick auf die Komponente oder das Aktivieren Schlie en Doppelklicken und Erstellen der Komponente Ei
153. in der Konstruktion eines WBS und hebt den Proze von der Entwicklung konventioneller Systeme ab Aus diesem Grund wird die Modellierung der Expertise im folgenden n her erl utert Der KADS Ansatz geht davon aus da verschiedene generische Wissensarten unterschieden werden k nnen Dabei wird ber cksichtigt welche Rolle sie im Probleml sungsproze ber 16 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA nehmen Diese Wissenstypen k nnen auf verschiedenen Ebenen dargestellt werden die nur eine begrenzte Interaktion haben Eine Unterscheidung zwischen dem Sachbereichswissen Domain Knowledge und dem Kon trollwissen wird h ufig vorgenommen In KADS erfolgt aber eine weitergehende Einteilung nach epistemischen Gesichtspunkten Danach gibt es folgende Aufteilung 1 Sachbereichswissen Domain Knowledge Es besteht aus statischem Wissen das eine deklarative Theorie des Sachbereichs beschreibt 2 Inferenzwissen Inference Knowledge Es handelt sich um die erste Art von Kontroll wissen das primitive Inferenzen spezifiziert die im Sachbereich vorkommen 3 Aufgabenwissen Task Knowledge Dieses Wissen repr sentiert die elementaren Auf gaben Probleml sungsmethoden die aus den primitiven Inferenzen zusammengesetzt werden 4 Strategisches Wissen Strategic Knowledge Die dritte Art des Kontrollwissens identi fiziert die Ziele die zur L sung eines Problems erreicht werden m ssen Die vier Wissensa
154. issensbasis und Inferenzmaschine zuzugreifen wurden daher nicht weiter verfolgt Mit Unterst tzung des Tools Delphi k nnen auch die f r die Analyse erforderlichen Methoden umgesetzt werden In KADS wird unterschieden zwischen offenen und geschlossenen Software Environments sie he Schreiber et al 1993 Seite 123 In offenen Environments besteht die M glichkeit die Menge der verf gbaren Methoden und Repr sentationen zu erweitern Bei dem Tool Delphi handelt es sich um eine offene Umgebung dadurch da der Benutzer des Tools Zugriff auf Turbo bzw Object Pascal hat bestehen vielf ltige M glichkeiten zur Erweiterung der vorhandenen Methoden Komponenten etc Au erdem ist Delphi im Sinne der KADS Einteilung eine sogenannte starke Umgebung d h es wird eine gro e Anzahl von vordefinierten Techniken zur Verf gung gestellt Das Tool vereinigt damit die Vorteile einer starken Umgebung mit der Flexibilit t von offenen Umgebungen Dieses Kapitel teilt sich in zwei Abschnitte die Spezifikation der Systemarchitektur Abschnitt 5 1 und die Beschreibung des Designs der einzelnen Komponenten des Systems Abschnitt 5 2 5 1 Spezifikation der Systemarchitektur Im Anschlu an die Auswahl eines Architekturparadigmas mu die Systemarchitektur genauer spezifiziert werden Dazu werden in diesem Abschnitt zun chst eine Reihe von Anforderungen an das System CORA aufgestellt Diese Anforderungen flie en in die Konzeption des System aufbaus
155. issenserwerbsproze durch maschinelles Lernen unterst tzt und ein operationales Modell des Wissens zur Verf gung stellt Mit dem System Delphi wird eine Entwicklungsumgebung zur objekt orientierten Konstruktion von Anwen dungen eingesetzt die eine umfangreiche Komponentenbibliothek zur Verf gung stellt Der KADS Ansatz unterscheidet f r die Spezifikation des WBS eine Reihe von Modellen die auf unterschiedlichen Ebenen liegen Diese werden in Kapitel 2 1 eingef hrt Zun chst werden die Modelle auf dem Knowledge Level also der implementationsunabh ngigen Ebene beschrieben Hier wird das vom System zu leistende Probleml sungsverhalten detailliert vor gestellt Das Organisations das Anwendungs das Expertisen und das Kooperationsmodell beleuchten die unterschiedlichen Aspekte des Sachbereichs Kapitel 4 geht dann auf die durch das maschinelle Lernen unterst tzte Modellierung der Expertise genauer ein Dabei wird der Modellierungs und Lernzyklus beschrieben an dessen Ende eine vorwiegend gelernte Regelmenge steht die in das WBS eingebunden wird Kapitel 5 spezifiziert im Anschlu das Designmodell f r das System CORA also ein Symbol Level Modell das die Architektur und das Design der einzelnen Systemkomponenten vor stellt Dabei werden haupts chlich die konzeptuellen Entscheidungen beschrieben und nur an 4 KAPITEL 1 EINLEITUNG einzelnen Stellen konkrete Implementationsdetails zur Verdeutlichung angegeben Anschlie end wi
156. it aus 24 Regeln 16 Regeln f r den Jackknife Sch tzer JK jeweils zwei Regeln f r Jackknife Sch tzer JK_i den Mantel Haenszel Sch tzer und den gejackkniften Woolf Sch tzer sowie jeweils eine Regel den Breslow Liang und den Woolf Sch tzer 4 8 Bewertungskriterien In diesem Abschnitt werden die Bewertungskriterien vorgestellt die im Rahmen der Analyse der gelernten Regeln Verwendung finden Das erste Kriterium ist die Vollstandigkeit der Regelmenge Ublicherweise wird die Vollst ndigkeit definiert als tat_ext c N ext c tat_ext c bj wobei ext c die Menge aller Beispiele ist die durch das Lernergebnis als c klassifiziert werden und tat_ext c die Menge der tats chlichen Instanzen des Begriffs c bezeichnet Unter tat_ext c kann hier nur die Menge der tats chlichen Instanzen des Begriffs c bzgl der zugrundeliegenden Simulationsstudie verstanden werden Vollst ndigkeit bezeichnet daher hier das Verh ltnis der durch die Regeln abgedeckten Beispiele und den insgesamt in der Wissensbasis zum Lernen zur Verf gung gestellten Beispiele 4 9 ANALYSE DER GELERNTEN REGELN 121 Die Korrektheit der Regelmenge ist definiert durch i not tat_ext c Next c lext e d h wenn keine Fakten im Widerspruch zur tats chlichen Extension abgeleitet werden ist die Regelmenge korrekt Da in diesem Lernszenario eine Closed World Assumption zugrunde gelegt worden ist stehen alle von der Regelmenge neu abgeleiteten Fakten im Wider
157. it ihnen instanziiert sind Hier werden die Instanzen gez hlt die aus der Hypothese neu abgeleitet werden k nnen total ist die Menge aller Instanzen f r die Hypothese also total pos neg pred unc ist die Anzahl aller Instanzen f r die Konklusion die von der Hypothese nicht abgedeckt werden concl ist die Anzahl aller Instanzen f r die Konklusion der Hypothese Das Akzeptanzkriterium kann mithilfe von logischen arithmetischen und Vergleichsoperato ren aus den obigen Ausdr cken zusammengesetzt werden z B pos gt 4 amp neg lt 1 amp unc lt 0 9 total Durch das Spezialisieren einer Hypothese wird die Anzahl der positiven negativen und vor hergesagten Instanzen kleiner wahrend die Anzahl der von der Hypothese nicht abgedeck ten Beispiele gr er wird Die Anzahl der von der Konklusion abgedeckten Instanzen bleibt gleich da sich die Konklusion nicht ndert Dieses Verhalten wird wie oben schon erw hnt zur Einschr nkung des Hypothesenraums verwendet Die gelernte Regelmenge besteht aus den vollst ndig instanziierten Regelmodellen die von RDT akzeptiert werden 32 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA 2 2 3 Das Rule Restructuring Tool RRT MOBALs Rule Restructuring Tool RRT hat die Aufgabe die Struktur einer gegebenen Regelmenge zu analysieren und gegebenenfalls zu verbessern ohne die inferentielle H lle Coverage zu ver ndern F r die Analyse der bestehenden Struktur gi
158. jeweils die Kovariablen und die verschiedenen Methoden f r die Analyseschritte Durch diese Inferenz wird beispielsweise vom Benutzer eine Methode f r einen Homogenit tstest ausgew hlt oder es werden die relevanten Kovaria blen f r die weitere Analyse bestimmt Die Wissensquelle Ausf hren siehe Abb 3 6 besitzt zwei Input Metaklassen die Metho den und die Daten Die Metaklasse Methoden umfa t die Methoden zur Schichtung der Daten die Homogenit tstests die diversen Sch zer die Unabh ngigkeitstests sowie die Methoden zur Ziehung einer Zufallsauswahl aus den Daten Die Output Metaklasse wird als Ergebnis be zeichnet Sie enth lt die folgenden Objekte des Sachbereichs die geschichteten Daten der Fall Kontroll Studie die p Werte bzw Teststatistiken die gesch tzten Werte wie z B das gesch tzte Odds Ratio dessen Varianz etc sowie die ausgew hlte Stichprobe Pilotstudie aus den Fall Kontroll Studiendaten 70 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Sachbereichswissen t Daten der Fall Kontroll Studie geschi cht ete Daten i Schichtungsmethoden p Werte Teststatistiken Homogenitatstests geschatzte Odds Ratios Schatzer Pilotdaten Unabhangigkeitstests Auswahlmethoden f r Stichproben Abbildung 3 6 Die primitive Inferenz Ausf hren 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 71 3 3 3 Aufgabenwissen Task Knowledge Dieser Abschnitt f hrt wie bereits erw hnt eine Zerlegung der Haup
159. kation da sowohl ein wenig qualifizierter Benutzer zur Weiterarbeit motiviert wird als auch der routinierte Anwender Zur Realisierung dieses Konzeptes ist es erforderlich da sich das System den unterschiedlichen Benutzern anpassen kann So m ssen kontext sensitive Informationen und Hilfen unterdr ckt bzw angefordert werden siehe Abschnitt 5 2 4 Neben den beschriebenen kognitiven Prozessen sind auch emotionale Prozesse zu ber ck sichtigen Daher m ssen pers nliche Vorlieben des Benutzers in das Programm einflie en k nnen In CORA sollte daher z B die Farbwahl f r die Oberfl che vom Anwender be einflu t werden k nnen 132 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Visualisierung Psychologische Prim rprozesse bei der Programmbenutzung sind Wahrnehmungs und Informationsverarbeitungsprozesse Aufmerksamkeit und simultane Informationsverar beitungskapazit ten des Menschen sind limitiert Entsprechend mu ein Programm die Aufmerksamkeit auf wesentliche Elemente fokussieren z B durch symbolische und ab strahierte Darstellungen Zu viele grafische Elemente steigern jedoch umgekehrt den Komplexit tsgrad der Wahrnehmungsvorlage sie erschweren die Informationsverarbei tung Daher ist es wichtig einheitliche grafische Elemente mit Wiedererkennungswert in geringer Anzahl zu verwenden Ein wichtiger Aspekt ist hier die Gestaltung der Texte Dies bezieht sich zum einen auf die Formulare des Programms aber vor allem
160. kteristiken der Anwendung der Verf gbarkeit von Wissen den Erfordernissen des Benutzers und externen Funktionen ab Das Aufgabenmodell beinhaltet e eine Aufgabenzerlegung Task Decomposition und e eine Aufgabenverteilung Task Distribution Das Expertisenmodell Der Bau des Expertisenmodells ist die zentrale Aktivit t im Proze der Konstruktion eines WBS Hier zeigt sich der Unterschied zwischen der Entwicklung eines WBS und der Entwick lung konventioneller Softwaresysteme Dieses Modell spezifiziert die Probleml sungsexpertise die erforderlich ist um die dem System zugeordneten Probleml sungsaufgaben durchzuf hren Das Expertisenmodell ist ein Know ledge Level Modell bei dem das angestrebete Verhalten des Systems und die f r dieses Ver halten erforderlichen Wissenstypen im Vordergrund stehen Von Implementationsdetails die die konkrete Realisierung festlegen wird abstrahiert Das Modell erf llt somit die Rolle einer funktionalen Spezifikation des Probleml sungsteils des WBS Das Expertisenmodell geht nicht weiter auf die Aufgaben ein die die Kooperation von Be nutzer und System erfordern 14 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Kooperationsmodell Das Kooperationsmodell enth lt eine Spezifikation der Funktionalit t der im Aufgabenmo dell beschriebenen Unteraufgaben die eine Kommunikation zwischen dem Benutzer und dem System also den Agenten erfordern Diese Tasks werden auch Tranfer Tasks
161. lag die Idee nahe das System mit zus tzlichem Wissen auszustatten um seinen Benutzer bei der Ana lyse umfassend zu unterst tzen F r die Entwicklung waren daher drei Aspekte wesentlich Das System sollte mit einem benutzerfreundlichen Interface ausgestattet sein Desweiteren wurde ein Hilfesystem konzipiert das jeweils allgemeine und auch kontext sensitive Hilfen sowohl zu programm technischen Fragen als auch zu Fragen inhaltlicher Art anbietet Als dritter Punkt wurde eine Beratung des Benutzers im Sinne einer Entscheidungsunterstiitzung in Form einer Beratungskomponente umgesetzt Diese Komponente des Systems beruht auf einer wissensbasierten Auswertung von simulierten Fall Kontroll Studien sog Simulations studien oder auch Monte Carlo Studien Aus diesen Studien wurde mithilfe des maschinellen Lernens eine Charakterisierung von einigen im Rahmen der Kontingenztafelanalyse zu benut zenden statistischen Methoden gewonnen Diese Charakterisierung in Form einer Regelmenge schlie t von bestimmten Dateneigenschaften einer Fall Kontroll Studie auf die Eignung der unterschiedlichen statistischen Methoden Die Beratungskomponente des Systems besteht da mit aus einer Regelmenge die in einer gegebenen Datensituation eine geeignete Methode zur Datenanalyse vorschl gt Abstract This work describes the development of a system for a statistical analysis of case control studies The analysis of epidemiological studies requires high level statis
162. lchen Testergebnissen die Homogenit tshypothese abgelehnt wer den sollte ber den Befehl Hilfel Suchen im Hauptmen kann der Anwender auch direkt ein bestimm tes Hilfethema aufrufen Alle Themen aus beiden Dateien sind ber diese Funktion erreichbar Ein weiterer Men punkt aus dem Hilfemen im Hauptformular ist die Einf hrung in CORA Hier handelt es sich um eine Browse Sequenz siehe 2 3 6 die die ersten Topics d h die oben erw hnte Einf hrung in das Programm und seine Benutzung den Ablauf und die Informa tionen ber die Datens tze und Dateien umfa t Eine hnliche Einf hrung erh lt der Anwender ber den Befehl HilfelEinf hrung in die KTA Diese Browse Sequenz gibt dem Anwender einen kurzen berblick ber das Ziel und den Ablauf der Analyse geschichteter 2x2 Kontingenztafeln Kapitel 6 Bewertung und Einordnung des Systems CORA In diesem Kapitel wird das vorgestellte System CORA anhand einer Reihe von Kriterien kritisch diskutiert und mit anderen Ans tzen verglichen Zun chst werden die folgenden we sentlichen Konstruktionsentscheidungen untersucht Einsatzbereich des Systems Welcher Bereich der Statistik wird durch das System abgedeckt Ist der Anwendungsbereich eingeschr nkt Analysekomponente Hat das System eine Schnittstelle zu vorhandenen statistischen Softwarepaketen oder werden die angebotenen Methoden im System selbst implementiert Statistische Expertise Wie umf
163. le zur Anordnung und zum Schlie en der ge ffneten Fen ster Unter Optionen kann eine Standardanalyse eingestellt eine Format berpr fung der ASCII Datei durchgef hrt und eine Farbwahl f r die Oberfl che vorgenommen werden Der letzte Men punkt bietet die M glichkeit das Hilfesystem aufzurufen Der Befehl Su chen ffnet das Formular von Windows Help f r das Suchen eines Topics oder Stichwor tes im Hilfesystem Au erdem kann zum Inhaltsverzeichnis und zu zwei unterschiedlichen Einf hrungssequenzen den sogenannten Tutorien siehe 5 2 4 gesprungen werden Der letz te Befehl dieses Men punktes ruft das Infoformular der Anwendung auf also ein Formular das die Copyright Informationen und das Programmlogo anzeigt Obwohl dieser Punkt genau genommen nicht zum Hilfesystem geh rt ist er dennoch in allen Windows Anwendungen an dieser Stelle zu finden Die Reihenfolge der Men punkte legt dem Anwender eine m gliche Abfolge der Analyse schritte nahe Es ist auch zu beachten da nicht zu jedem Zeitpunkt alle Men punkte bzw Unterpunkte Befehle aufgerufen werden k nnen Sowohl die Men punkte als auch die Un terpunkte k nnen durch das Setzen ihrer Eigenschaft Enabled auf den Wert False deak tiviert werden Ist beispielsweise noch keine Datei ge ffnet so k nnen die Men punkte der Analysekomponente die Befehle zum Speichern etc durch den Anwender nicht angeklickt werden bzw die mit diesen Befehlen v
164. le_schichten S amp kleines_oddsratio S amp kleine_expo S 4 7 AUSWAHL EINER REGELMENGE 119 amp viele faelle S mittlere_empfehlung S jk mittelviele_schichten S amp mittleres_oddsratio S amp kleine_expo S amp viele faelle S mittlere_empfehlung S jk mittelviele_schichten S amp kleines_oddsratio S amp kleine_expo S amp sehrviele faelle S gute_empfehlung S jk viele_schichten S amp grosses_oddsratio S amp viele _faelle S amp zentrierte_expo S schlechte_empfehlung S mh viele_schichten S amp kleines_oddsratio S amp viele_faelle S grosse_differenz_expo S gute_empfehlung S w_jk viele_schichten S amp grosses_oddsratio S amp viele _faelle S kleine_expo S empfehlung S jk_ii Da die Lernl ufe mit dem Metapr dikat MP5 nicht erfolgreich abgeschlossen werden konnten wurde hier eine Regel berpr fung per Hand durchgef hrt Aus den Traces der Lernl ufe mit dem Metapr dikat MP4 konnten einige Vermutungen ber m gliche Regeln aufgestellt werden Diese wurden dann in das System eingegeben und untersucht wieviele Fakten neu abgeleitet werden Diese Anzahl wurde mit der Anzahl der Situationen verglichen die insge samt abgedeckt werden Von den berpr ften Regeln wurden folgende ausgew hlt wenig schichten s amp grosses_oddsratio S amp sehrviele_faelle S amp zentrierte_expo S amp kleine differenz_expo S gute_empfehlung S jk viele_s
165. literale h ngen ebenfalls durch gemeinsame Variablen voneinander ab Durch diese Variablenstruktur l t sich eine Ordnung der Literale festlegen Dazu betrachte man das folgende Beispiel Man hat das Regelmodell P1 Y X amp P2 Y Q X Die Variable X wird durch die Instanziierung von Q als erstes gebunden Es ist nun nicht sinnvoll zun chst nach einer Instanziierung f r P2 zu suchen und dann erst die Pr dikatvariable P1 zu ersetzen Da in Pl die Kopfvariable X vorkommt k nnen hier nicht mehr alle zweistelligen Pr dikate eingesetzt werden Kann keine passende Instanziierung f r P1 gefunden werden kann die Suche nach einer Hypothese mit diesem Regelmodell sofort beendet werden ohne nach einer Instanziierung f r P2 zu suchen Aus dieser Beobachtung kann folgende Definition abgeleitet werden 1 Eine Variable X die in der Konklusion eines Regelmodells vorkommt ist ber die leere Relation Chain mit der Konklusion verbunden d h re X 0 2 Eine Variable X 1 lt i lt n die in der Pr misse P X1 Xa Xn auftritt ist ber die Verbindungskette re X P o re X mit der Konklusion verbunden falls die Variable X 1 lt j lt nundi j ber die Relation Chain rc X mit der Konklusion verbunden ist Der Abstand einer Variablen zum Kopf der Klausel kann berechnet werden als 6 X min L nge rc X re X verbindet X mit der Konklusion Eine Pr misse P ist dann zuerst zu instanziieren wenn das Minimum aller k
166. llationen eins sit_1 bis sechs sit_6 ab gedeckt Grund hierf r ist ein Zusammenhang zwischen den Dateneigenschaf ten wenig_schichten und gini_faelle_balanciert in der Simulationsstudie Es 4 7 AUSWAHL EINER REGELMENGE Zielpr dikat alle sehrgute_empfehlung gute_empfehlung mittlere_empfehlung schlechte_empfehlung empfehlung empfehlung sehrgute_eignung gute_eignung gute_eignung mittlere_eignung mittlere_eignung schlechte_eignung MP AK Mi fale MP2 pos gt 0 9 total MP2 pos total MP2 pos gt 0 9 total MP2 pos gt 0 9 total MP2 pos total BRE MP2 pos gt 0 9 total MP2 pos total MP2 pos gt 0 9 total ue MP2 pos gt 0 9 total ue MP2 pos gt 0 9 total pos total 115 Ergebnis Bemerkungen keine gelernten Regeln keine gelernten Regeln eine gelernte Regel Lernzeit 3343 Sekunden Regel fiir Jackknife Schatzer JK keine gelernten Regeln keine gelernten Regeln acht gelernte Regeln Lernzeit 7137 Sekunden Regeln f r Jackknife Schatzer JK 10 Regeln Lernzeit 8452 Sekunden Regeln f r Jackknife Schatzer JK 20 gelernte Regeln Lernzeit 6492 Sekunden keine Regel f r Breslow Liang Sch tzer Eigenschaft oddsratio 1 kommt in jeder Regel vor f nf gelernte Regeln Lernzeit 6754 Sekunden Regeln f r alle Sch tzer au er Woolf Jackknife keine gelernten Regeln zwei gelernte Regeln Lernzeit 6129 Sekunden Regeln f r Jackknife
167. ls bei kleinen zu sch tzenden Werten Die Beurtei lung der Sch tzergebnisse durch die relativen Kriterien liefert aber eine zu geringe Trennung der Sch tzer Aber auch bereits die absoluten Werte f r die Kriterien Bias und MSE bieten oft eine schlechte Differenzierung der Sch tzer Die Werte f r die einzelnen Kriterien liegen bei den Sch tzern innerhalb einer Parameterkonstellation fast immer sehr nah zusammen Aber besonders beim MSE gibt es zwischen den Parameterkonstellationen gro e Unterschiede Eine einheitliche Be urteilung f llt daher schwer Aus diesem Grund wurde es als sinnvoll erachtet Reihenfolgen der Sch tzer bez glich der Kriterien Bias und MSE zu bilden die zus tzlich zur Beurteilung herangezogen werden Die beiden Rangfolgen f r den Bias und den MSE k nnen dann zusam mengefa t werden Sind dabei mehrere Sch tzer gleich soll der bessere Bias den Ausschlag geben Dieses Vorgehen wurde gew hlt da anhand des Bias eine bessere Trennung zwischen den Sch tzern vorgenommen werden konnte Mit der entstandenen Gesamtrangfolge wird der beste Sch tzer in dieser Situation ermittelt 4 2 3 Modellierung der Kategorien Um aussagekr ftige Regeln lernen zu k nnen m ssen Kategorien gefunden werden in die die Eigenschaften eingeteilt werden k nnen Bislang bestehen sowohl die Dateneigenschaften als auch die Bewertung der Eignung im Modell jeweils aus konkreten Zahlenwerten Die Charakterisierung der Sch tzer durch die z
168. mische Anforderungen an das System und ihre psychologischen Implikationen 22 2 Co oo oo nn 130 5 1 2 Aufbau des Systems 2 222 oo Coon 133 VI INHALTSVERZEICHNIS 5 1 3 Die zentralen Objekte des Systems Datenstrukturen f r die Fall Kontroll Studiendaten 2 2 2 2 on on nn 133 5 2 Design der Systemkomponenten 2 2 a 136 5 2 1 Design der Benutzerschnittstelle 2 2 2 Co une 136 5 2 2 Design der Beratungskomponente 2 2 2 on nennen 140 5 2 3 Design der Analysekomponente 0 0 2 0004 148 5 2 4 Design des Hilfesystems 2 2 oo Comm 158 6 Bewertung und Einordnung des Systems CORA 160 7 Zusammenfassung und Ausblick 167 Kapitel 1 Einleitung Im letzten Jahrzehnt ist eine st ndig wachsende Bedeutung statistischer Methoden f r vie le Bereiche der Wissenschaft insbesondere der Medizin und Epidemiologie zu beobachten Einerseits f hrten die Fortschritte auf dem Gebiet der Computertechnologie durch die Kon struktion immer leistungsf higerer Rechner zu einer verst rkten Entwicklung komplexer sta tistischer Verfahren Andererseits erfordert die steigende Komplexit t des Datenmaterials die Anwendung rechenintensiver statistischer Methoden deren Einsatz berhaupt erst durch den Computer m glich wird Es wurde bereits fr h erkannt da sich aus der Verwendung rechnergest tzter Systeme neue Fehlerm glichkeiten ergeben durch den Einsatz hochentwickelter statistischer Auswertungs systeme wi
169. mmen l t sich die Empfehlung entsprechend der Eignung in Kategorien einteilen F r die Ableitung einer Empfehlung m ssen zun chst Rangfolgen der Sch tzergebnisse bzgl der beiden Bewertungskriterien aufgestellt werden Daf r werden die Werte der Kriterien entsprechend klassifiziert Diese Klassifikation kann durch Regeln erfolgen die die autoepis temischen Operatoren max_of und min_of siehe 2 2 verwenden so da jeweils der gr te bzw der kleinste Wert einer festen Situation S festgehalten werden kann hier beispielswei se f r den Bias situation S amp max_of B bias S Z B MaxB gr terbias B S situation S amp min_of B bias S Z B MinB kleinsterbias B S Damit stehen die kleinsten und gr ten Werte f r den Bias in jeder Situation fest Die restli chen Werte liegen also im Mittelfeld Dieses Mittelfeld wird durch die folgende Regel klassi fiziert situation S amp bias S Z B amp unknown kleinsterbias B S amp unknown gr terbias B S mittlererbias_1 B S Die Regel besagt da ein Bias B einer Situation S der nicht der kleinste und nicht der gr te ist im Mittelfeld liegt Diese Klassifikation des Mittelfelds wird ben tigt um die wei teren R nge zu ermitteln Dazu werden hnliche Regeln verwendet wie im ersten Schritt situation S amp max_of B mittlererbias_1 B S MaxB zweitgr terbias B S situation S amp min_of B mittlererbias_1 B S MinB
170. mmenhang reagieren VW 1 7 und c ob ihre Verzerrung mit wachsendem WV zunimmt Y 3 5 und 5 bis hin zu dem extremen eher unrealistischen Wert von Y 10 F r die Binomialwahrscheinlichkeiten pog k 1 K werden Werte gew hlt die nahe zu sammenliegen und kleiner sind als 0 5 oder nahe zusammenliegen und um 0 5 zentriert sind oder weit auseinanderliegen und um 0 5 zentriert sind Das Design dieser Simulationsstudie ber cksichtigt da in vielen praktischen Situationen mehr Kontrollen als F lle zur Verf gung stehen indem die Anzahlen der Kontrollen stets gr er sind als die der F lle In der Simula tionsstudie sind Parameterkonstellationen vorhanden in denen das Verh ltnis der Anzahlen von F llen und Kontrollen bei 1 3 liegt Desweiteren gibt es bei gleichem Stichprobenumfang Situationen in denen das Verh ltnis f r die verschiedenen Tafeln variiert Das Design der Si mulationsstudie umfa t sowohl relativ kleine Stichprobenumf nge als auch auf das zehnfache 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 65 erh hte Anzahlen von F llen und Kontrollen um den Einflu der Stichprobengr e auf das Sch tzverhalten zu unteruchen Die Simulationsstudie berpr ft insgesamt 240 Parameterkonstellationen die sich aus der Kombination der in der Tabelle 3 8 angegebenen Werte f r die einzelnen Parameter ergeben F r jede Konstellation werden 1000 Simulationsl ufe durchgef hrt In jedem Lauf werden mittels eines Zufallsz
171. n 4 3 3 Reprasentationen der Kategorien f r die Dateneigenschaften und Sch tzergebnisse Der folgende Unterabschnitt besch ftigt sich damit eine geeignete Darstellung f r die durch die Kategorienbildung eingeteilten Eigenschaften und Bewertungen zu finden Daf r m ssen zun chst Pr dikate f r die in Kategorien eingeteilten Eigenschaften und Bewertungen kon struiert werden um dann Regeln eingeben zu k nnen die die neuen Fakten ableiten Wieder werden zwei alternative Wege aufgezeigt Die erste Repr sentationsm glichkeit l t die Bezeichnungen f r die Kategorien mit in den Pr dikatnamen einflie en F r die Kategorienbildung des Odds Ratios werden daf r beispiels weise folgende Pr dikate konstruiert oddsratio_gleich_eins lt situationsnummer gt kleines_oddsratio lt situationsnummer gt mittleres_oddsratio lt situationsnummer gt gro es_oddsratio lt situationsnummer gt Die Repr sentation der anderen schichtunabh ngigen Eigenschaften ist v llig analog Bei den schichtabh ngigen Dateneigenschaften wird wieder ein zus tzliches Argument ben tigt z B f r die Fallanzahlen wenig_faelle lt situationsnummer gt lt schichtnummer gt mittelviele_faelle lt situationsnummer gt lt schichtnummer gt viele_faelle lt situationsnummer gt lt schichtnummer gt sehrviele_faelle lt situationsnummer gt lt schichtnummer gt In der alternativen Repr sentation wird die Bildung
172. n lt proposition gt Tabelle 2 2 Autoepistemische Operatoren Regeln Regeln beschreiben Begriffs und Eigenschaftsrelationen sowie notwendige und hinreichende Bedingungen f r Konzepte Mithilfe der Inferenzmaschine werden Fakten aus den Regeln inferiert d h die Regeln leiten aus dem Sachbereichswissen neues Wissen ab Regeln k nnen durch den Benutzer eingegeben aber auch mittels RDT oder anderen Tools des Systems gelernt werden Regeln Klauseln bestehen aus genau einer Konklusion Kopf der Klausel und m Pr missen Rumpf meIN predi Term Term amp amp pred Term Term conel predeonci Term conci yey Termy Sowohl die Konklusion als auch die Pr missen sind Literale sie wenden hnlich wie die Fak ten jeweils ein Pr dikat auf eine bestimmte Anzahl von Termen an Die Terme m ssen hier allerdings nicht konstant sein sondern d rfen auch Variablen enthalten Variablen die in der Konklusion der Regel vorkommen m ssen auch in den Pr missen zu finden sein d h die Konklusion darf keine neuen Variablen einf hren Die Pr missen sind konjunktiv verkn pft Jeder Regel wird ein sogenanntes Support Set zugeordnet das festlegt welche Terme bei Infe renzen f r die Variablen eingesetzt werden d rfen Es kann damit eine Menge von Ausnahmen f r eine Regel definiert werden Regelmodelle Die beiden bisher beschriebenen Wissenselemente geh ren zur Pr dikatenlogik erster Stufe Regelm
173. n Bewertungskriterien jeweils ein Pr dikat das als Argumente die Situationsnummer den zugeh rigen Namen des Sch tzers und den Wert des Kriteriums enth lt n mlich die Pr dikate bias lt situationsnummer gt lt schaetzer gt lt wert gt mse lt situationsnummer gt lt schaetzer gt lt wert gt Eine weitere M glichkeit zur Repr sentation der Sch tzergebnisse besteht darin sechs Pr di kate f r die unterschiedlichen Sch tzer zu bilden und die Werte f r den Bias und den MSE in diesem Pr dikat zusammenzufassen Damit hat man die Pr dikate mantel_haenszel lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt wool f lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt breslow_liang lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt jackknifetyp_I lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt jackknifetyp_II lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt wool f_jackknife lt situationsnummer gt lt wert_fuer_bias gt lt wert_fuer_mse gt 102 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN In der ersten Repr sentation entstehen 1920 Fakten in der zweiten 960 wenn die Ergebnisse f r alle 240 Situationen repr sentiert werden Da der Bias und der MSE durch die Kategori enbildung getrennt bewertet werden scheint die erste Repr sentation g nstiger zu sei
174. n RDT durchsucht Er besteht aus der Menge aller m glichen Instanziierungen von Regelmodellen durch Pr dikat symbole bei denen alle Pr dikatvariablen durch Pr dikate der richtigen Stelligkeit ersetzt worden sind Aus Effizienzgr nden wird eine Ordnung auf den Regelmodellen festgelegt Das Ordnungs kriterium ist eine Generalisierungsbeziehung die auf der 6 Subsumption f r Klauseln siehe Plotkin 1970 und Plotkin 1971 aufbaut Diese Beziehung ist wie folgt definiert Ein Regelmodell R ist genereller als ein Regelmodell R R gt rs R falls es eine Substitution o angewendet auf Termvariablen und eine Substitution X angewendet auf Pr dikatvariablen gibt die keine unterschiedlichen Pr dikatvariablen verall gemeinert so da gilt Rok C R Durch diese Ordnung kann die Suche im Hypothesenraum beschrankt werden RDT ist ein Top Down Lernverfahren d h die Suche nach einer zu lernenden Regel wird mit dem gene rellsten Regelmodell begonnen Durch die Instanziierung der Pr dikatvariablen werden Hy pothesen gebildet die dann anhand der Fakten auf ihre Richtigkeit getestet werden Es gibt drei m gliche Testergebnisse f r eine Hypothese 1 Die Hypothese ist zu generell d h sie deckt zu viele falsche oder nicht vorhandene Fakten Beispiele ab 2 Die Hypothese wird akzeptiert oder 3 sie wird verworfen d h sie ist bereits zu speziell da sie zu wenige Beispiele abdeckt Durch die Generalisierungsbeziehung der
175. n einer Kontingenztafel als eine solche Beobachtung angesehen werden die wiederum aus dem Datensatz entfernt wird Neben der beschriebenen Punktsch tzung des gemeinsamen Odds Ratios ist auch eine Sch tzung der Varianz und die Berechnung von Konfidenzintervallen durchzuf hren Die Va rianz der Punktsch tzung zeigt an wie stark die wahren Odds Ratios um den Wert der Punktsch tzung streuen Ein Konfindenzintervall zum Niveau p ist ein Intervall in dem das wahre Odds Ratio mit 1 p Wahrscheinlichkeit liegt F r die Sch tzung der Varianz und der Konfidenzintervalle gibt es eine Reihe unterschiedlicher Methoden auf die hier nicht n her eingegangen wird Die Liste der vorgeschlagenen Sch tzer l t sich beliebig erweitern Ein Problem das sich dem Anwender hier stellt ist die Auswahl eines geeigneten Sch tzers Geeignete Kriterien f r die Auswahl des Sch tzers sind theoretisch nat rlich zum einen die Abweichung der Sch tzung vom wahren Odds Ratio und zum anderen die Variabilit t des Sch tzers Da das wahre Odds Ratio aber unbekannt ist kann diese Abweichung nicht berechnet werden Die Qualit t eines Sch tzers h ngt von einer Reihe von Faktoren ab unter anderem auch von der Datenlage der Fall Kontroll Studien Die einzelnen Aspekte der Datenlage beeinflussen die verschiedenen Sch tzer in unterschiedlicher Weise d h es gibt durchaus Datensituationen die g nstig f r einen bestimmten Sch tzer sind aber ung nstig f r einen and
176. n wissensbasierter Systeme wird h ufig das soge nannte Knowledge Acquisition Bottleneck angesehen das darin besteht das Wissen aus dem Experten herauszuholen und als komplettes Modell in das wissensbasierte System hinein zustecken Hier wird deutlich da die Wissenakquisition auf den Transfer des Wissens vom Experten zum System reduziert wird Neuere Ans tze gehen dazu ber die Knowledge Acquisition als einen Modellierungsproze zu betrachten Diese Ans tze setzen nicht das Vorhandensein eines fertigen Modells der Expertise voraus Die Wissensakquisition wird vielmehr als Modellbildung verstanden Der zweite Mo dellierungsansatz der hier vorgestellt wird betont die M glichkeit das Modell zu revidieren und verbindet damit Ideen des Rapid Prototyping Ansatzes mit der Modellierungssichtweise der Knowledge Acquisition Die Transfersicht der Knowledge Acquisition Im Rahmen der Transfersichtweise wird davon ausgegangen da ein fertiges Modell der Ex pertise vorliegt also die Task Performance des Experten auf einem Modell beruht Dieses Modell mu dann nur noch aus dem Experten herausgeholt und und mit geeigneten Metho den ad quat in das wissensbasierte System bertragen werden In der Praxis bedeutet das da der Experte nach Regeln gefragt wird die in einer bestimmten Situation angewendet werden k nnen Der Wissensingenieur bersetzt dann die nat rlichsprachlichen Regeln in ein formales Konzept 2 1 KADS 7
177. nd 146 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Die kategorisierte Eigenschaft f r die Fallanzahl steht damit im Textwert des Feldes K Fallan zahl V llig analog werden auch alle weiteren Eigenschaften in die Kategorien eingeteilt An dieser Stelle soll noch einmal deutlich gemacht werden da die Einteilung in die Kategorien hier der Einteilung entsprechen mu die im Rahmen der Auswertung der Simulationsstudien modelliert wurde siehe Tabelle 4 1 Damit sind die Grundlagen f r den dritten Schritt der Generierung von Empfehlungen ge schaffen Die Einkodierung der Regelmenge erfolgt in der Prozedur Empfehlung Sender TObjekt die nach der Berechnung der Eigenschaften durch den Befehl Empfehlung im Hauptmen aufgerufen wird Die Prozedur setzt den in 4 10 aufgestellten Entscheidungsbaum in Form von Produktionsregeln durch geschachtelte if Abfragen um In den if Schleifen wer den die Feldwerte f r die kategorisierten Dateneigenschaften entsprechend der Pr missen der Regeln in der festgelegten Reihenfolge abgefragt Jeder Bedingungsteil fragt eine Dateneigen schaft also eine Pr misse ab if KFallanzahl klein then if KTafelanzahl mittel then if else if KFallanzahl mittel then Sind alle Pr missen einer Regel abgefragt so wird im zugeh rigen then Teil die Konklusion der Regel repr sentiert Die Konklusionen enthalten folgende Informationen den zu empfeh lenden Sch tzer be
178. ne Freignisbehandlung ist der Quelltext der festlegt wie eine Komponente aufein Ereignis reagieren soll Die Routinen rufen Funktionen Prozeduren und Methoden also Funktionen und Prozeduren die mit einer Komponente verbunden sind auf F r Formulare gibt es bei spielsweise die Methoden Create Show und Close Diese Methoden k nnen von allen Formularen aufgerufen werden die daraufhin erstellt angezeigt bzw geschlossen werden Bei der Erzeugung einer Ereignisbehandlung mit dem Objektinspektor werden Teile des Quell textes von Delphi erzeugt und verwaltet Der folgende Quelltext wird automatisch erzeugt wenn der Schalter Button1 in das Formular Form1 eingef gt wird procedure TForm1 Button1Click Sender TObjekt begin end Mit dem Quelltexteditor hat der Anwender Zugriff auf den gesamten Programm Code in einem Anwendungsprojekt Die Ereignisbehandlungsroutinen k nnen durch den Aufruf von Methoden Prozeduren und Funktionen vom Benutzer geschrieben werden procedure TForm1 Button1Click Sender TObjekt 2 3 DELPHI OBJECTVISION 39 begin Formi Close end Die hier definierte Prozedur ruft die Methode Close des aufrufenden Formulars auf d h das Formular wird nach dem Anklicken des Schalters geschlossen 2 3 4 Entwicklungswerkzeuge Delphi bietet eine Reihe von Entwicklungswerkzeugen die den Benutzer bei der Erstellung ei ner Anwendung unterst tzen wie z B Projekt und Formular
179. nes Experten nicht aus Wissen sondern man kann vielmehr davon ausgehen da die Task Performance auf unbewu ten und nicht erkl rbaren F higkeiten Skills beruht Die Techniken zur Knowledge Elicitation k nnen daher nur erfolgreich ange 2 1 KADS 9 a Sach Wissens bereich basis Abbildung 2 2 Wissensakquisition als Modellierung nach Morik 1989 wendet werden wenn ein Theoretiker im Gegensatz zum Task Performer interviewt wird F higkeiten sollten dagegen eher beobachtet als erfragt werden da die Gefahr besteht da der Experte eine naive Theorie entwickelt um seine F higkeiten zu erkl ren Eine naive Theo rie unterscheidet sich von einer wissenschaftlichen dadurch da sie nicht durch Nachfragen durch das u ern von Zweifeln und die Konfrontation mit Gegenbeispielen getestet und so verbessert wurde Die Aufgabe der Wissensakquisition liegt darin die F higkeiten des Experten zu beschreiben Dieser Proze des Beschreibens ist die Modellierung Das Modell mu eine explizite erkl rbare und operationale Theorie des Sachbereichs darstellen Wie bereits erw hnt beruft sich KADS auf diese Modellierungssichtweise der Knowledge Acquisition Im Sinne von Morik 1989 liegt dem KADS Ansatz allerdings immer noch eine Transfersichtweise zugrunde da auch hier keine R ckkopplung vom WBS zum Mo dell bzw zum Sachbereich besteht Ein wichtiger Aspekt der Modellierungssichtweise laut Morik 1989 n mlich die interaktive N
180. ng ndert sich im n chsten Subtask der Odds Ratio Sch tzung genauer in der Durchf hrung einer Pilotstudie Hier bernimmt das System die Rolle eines intelli 82 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Schichtung Methode Confounder Confounder ausf hren berwachen ausw hlen ausw hlen USER USER USER SYSTEM USER SYSTEM Abbildung 3 8 Verteilung der Aufgaben f r die Schichtung Homogenit tsanalyse Methode standar ent ausf hren erkl ren ausw hlen disieren scheiden USER SYSTEM SYSTEM SYSTEM USER Abbildung 3 9 Verteilung der Aufgaben f r die Homogenit tsanalyse 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 83 Pilotstudie Daten Daten assistieren erkl ren ausw hlen analysieren SYSTEM SYSTEM SYSTEM SYSTEM SYSTEM Abbildung 3 10 Verteilung der Aufgaben f r die Pilotstudie Odds Ratio sch tzen Pilot Sch tzer ausf hren studie ausw hlen SYSTEM USER SYSTEM Abbildung 3 11 Verteilung der Aufgaben f r die Odds Ratio Sch tzung genten aktiven Akteurs Abbildung 3 10 zeigt die Verteilung der Aufgaben der Pilotstudie und Abbildung 3 11 die Task Distribution f r die Odds Ratio Sch tzung Die entscheiden de Auswahl der Methode des Sch tzers liegt aber auch hier letztenendes in der Hand des Benutzers Der Unabh ngigkeitstest entspricht bzgl der Aufgabenverteilung ungef hr der Homogenit ts analyse Allerdings wird dem Anwender eine konkrete Entscheidung ber die Una
181. ngefa t werden Es handelt sich damit also um zwei komplement re Strukturierungsma nahmen Zur Verdeutlichung betrach te man das folgende Beispiel ri sterblich X amp not tier X mensch X r2 mensch X amp m nnlich X amp vorfahre X Y vater X Y Eine Gl ttung der Inferenzstruktur kann durch die Regel r3 erfolgen r3 sterblich X amp not tier X amp m nnlich X amp vorfahre X Y vater X Y 2 2 MOBAL 33 Das Vertiefen also der umgekehrte Proze erfolgt indem man r3 durch ri und r2 ersetzt Das Vertiefen einer Inferenzstruktur f hrt also zu einer Modularisierung der Regelmenge F r eine genauere Darstellung der Tools RRT insbesondere der Restrukturierung der Regelmenge siehe Morik et al 1993 2 2 4 Der Modellierungs und Lernzyklus Dieser Abschnitt erl utert das Zusammenspiel von Modellierungs und Lernphasen Es er gibt sich ein zyklischer Ablauf dieser Phasen der mit einem Edit Compile Debug Zyklus verglichen werden kann Der Modellierungsproze beginnt mit der Festlegung eines Rahmens f r das Modell Darin werden erste Beobachtungen in Form von Fakten umgesetzt Durch das Hinzuf gen weiterer Wissenselemente z B in Form von Regeln kann die Wissensbasis erg nzt und vervollst ndigt werden Das erstellte Modell ist zu jedem Zeitpunkt operational d h das vorhandene Verhalten kann in Form von Experimenten berpr ft werden Ein solches Experiment kann beispielsweise
182. ngen oder Kategorien vor so ergeben sich K Schichten und somit K Kontigenztafeln wobei die i te Tafel i 1 K die in Tabelle 3 5 dargestellte Form hat a d ist die gebr uchliche Notation f r die Zellen einer Kontingenztafel Es sei im folgenden zun chst der Fall K 1 diskutiert Das Design von retrospektiven Stu dien macht es unm glich das in prospektiven Studien bekannte Ma f r die Ursache Wirkungsbeziehung das relative Risiko zu sch tzen Das relative Risiko P Po vergleicht die bedingte Wahrscheinlichkeit bei Exposition E an einer Krankheit D zu leiden P P D E mit der Erkrankungswahrscheinlichkeit wenn keine Exposition E vorliegt Po P D E Es gibt damit den Faktor an um den sich die Erkrankungswahrscheinlich keit bei einer exponierten Person im Vergleich zu einer nicht exponierten erh ht 58 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Exposition Tabelle 3 5 2x2 Kontingenztafel In Fall Kontroll Studien kann als Ma zur quantitativen Erfassung der vorliegenden Asso ziation der Quotient Ratio aus der Chance Odds f r das Auftreten der Krankheit wenn der Risikofaktor vorliegt also bei Exposition Po 1 Po und der entsprechenden Chance wenn er nicht vorliegt P 1 P herangezogen werden Das Odds Ratio Y ergibt sich damit zu _ P 1 Po y Poll P Wenn die Erkrankungswahrscheinlichkeiten also P und Po sehr klein sind approximiert Y das relative Ris
183. ngig von der symbolischen Repr sentation Regeln Frames etc also dem Symbol Level Das Ziel der Einf hrung des Knowledge Level in KADS ist die Organisation des Wissens im System zu verdeutlichen d h eine implementationsunabh ngige Beschreibung der Rollen zu liefern die die unterschiedlichen Wissenselemente im Probleml sungsproze spielen Das Prinzip der Zwischenmodelle dient dazu die Komplexit t des Knowledge Engineering Prozesses in Form einer Divide and Conquer Strategie zu reduzieren und damit handhabbar zu machen Jedes Modell beschreibt einen Aspekt des zu erstellenden Systems und kann so von den anderen Aspekten abstrahieren Die folgenden Modelle werden im KADS Ansatz erstellt e das Organisationsmodell e das Anwendungsmodell e das Aufgabenmodell e das Expertisenmodell e das Kooperationsmodell e das konzeptuelle Modell und e das Designmodell 2 1 3 Die KADS Modelle Der KADS Ansatz umfa t die Konstruktion der oben aufgelisteten Zwischenmodelle die gem Abbildung 2 4 hierarchisch angeordnet werden k nnen Die Verbindungen deuten dabei an da Informationen von einem Modell in die Konstruktion des n chsten eingehen Der folgende Abschnitt bietet eine kurze bersicht ber die einzelnen Modelle Das Organisationsmodell Das Organisationsmodell liefert eine Analyse des Umfelds in dem das WBS eingesetzt wird Dazu geh rt die Beschreibung der Funktionen Aufgaben und Engp sse in diesem Umfeld Di
184. ngskomponente Die Beratungskomponente des Systems kann in Verbindung mit der Durchf hrung einer Pi lotstudie aufgerufen werden Die Empfehlung eines Sch tzers basiert auf zwei Datens tzen dem Pilotstudiendatensatz und dem Analysedatensatz Diese k nnen mithilfe des Systems aus einem Gesamtdatensatz erzeugt werden Der Men punkt Pilotstudie hat eine Reihe von Unterpunkten zum ffnen Erzeugen Spei chern und Schlie en der beiden Datens tze Zun chst m ssen die Daten eingegeben erzeugt oder ge ffnet werden Die Erzeugung der Datens tze wird nun genauer betrachtet Nachdem eine Datei die den gesamten Datensatz enth lt mithilfe einer entsprechenden Dialogkom ponente ge ffnet worden ist ist der Anwender aufgefordert die Methode f r die Erzeugung der Daten anzugeben Dazu wird ein Formular ge ffnet siehe Abbildung 5 6 in dem die beiden zur Verf gung stehenden Methoden ausgew hlt werden k nnen also die einfache und die geschichtete Zufallsauswahl Desweiteren kann abh ngig von der Methodenauswahl die Anzahl der Stichproben f r den Pilotdatensatz bzw eine Prozentangabe f r den Anteil der Pilotdaten einer Schicht an den Gesamtdaten der Schicht eingegeben werden Beide Eingaben des Benutzers werden ber Auswahlfelder siehe Abschnitt 2 3 erm glicht F r die nderung der Voreinstellung Geschichtete Zufallsauswahl kann die Liste mit bei den Methodennamen aufgeklappt und das entsprechende Listenelement durch
185. nicht durch einen Agenten alleine aus gef hrt werden Es kann vorkommen da ihm das Ziel dieser Gesamtaufgabe unbekannt ist Er wird nur mit der Durchf hrung einer Unteraufgabe betraut Abh ngigkeiten Durch die Aufgabenverteilung entstehen Abh ngigkeiten zwischen Unter aufgaben in der Form da der Output einer Aufgabe als Input f r eine andere ben tigt wird Die Input bzw Output Objekte die sogenannten Ingredients werden zwischen den Aufgaben transferiert Hieraus ergibt sich die Notwendigkeit zur Kommunikation zwischen den Agenten Die Art und Weise auf die diese Kommunikation durchgef hrt wird geh rt nicht mehr zur Spezifikation der Kooperation Kontrolle Agenten an die Aufgaben im Rahmen der Task Distribution verteilt worden sind m ssen wissen welche Unteraufgaben sie wann durchzuf hren haben Eine ber wachung der Mensch Maschine Kooperation durch das System ist aber nur schwer zu realisieren Eine feste Aufgabenverteilung die Spezifikation der Abh ngigkeiten und die Bestimmung der Kontrolle bilden das Kooperationsmodell Die Rolle der Kooperationsanalyse ist in Abbildung 2 6 dargestellt Der Ausgangspunkt f r die Konstruktion eines WBS ist oft ein Konzept f r eine intelligente Automatisierung be stimmter Funktionen In der vorhandenen Aufteilung der Aufgaben sind diese Funktionen h ufig verbunden mit den Engp ssen den Bottlenecks der Organisation Im folgenden werden das Aufgaben und das Kooper
186. nitiative Abbildung 2 7 Vier Typen von Transferaufgaben in KADS Schreiber et al 1993 Zus tzlich gibt es den Transfer Task Negotiate der Informationen ber die Kooperation oder die Probleml sung selbst transferiert Um das Kooperationsmodell zu testen kann ein Prototyp des Systems erstellt werden oder das Verhalten durch ein sogenanntes Wizard of Oz Experiment berpr ft werden siehe Schreiber et al 1993 2 1 6 Diskussion In diesem Abschnitt werden einige Vor und Nachteile des KADS Ansatzes aufgezeigt die sich w hrend der Arbeit mit dieser Methodik ergeben haben Als positiv ist zu bewerten da die Wissensrepr sentation im Rahmen von KADS nicht mehr als Transfer eines fertigen Modells vom Experten zum WBS betrachtet wird Es wird ein vollst ndiges funktionales Knowledge Level Modell f r das Probleml sungsverhalten erstellt Dabei kann der gesamte Entwurfsproze mithilfe der KADS Methodik durchgef hrt werden Problematisch ist dagegen die Phaseneinteilung siehe Abbildung 2 8 Es wird das Ziel verfolgt die Revisionen im Konstruktionsproze zu minimieren indem eine Linearit t gem einer Wasserfallstrategie angestrebt wird Diese Phasentrennung erwies sich in der Konstruktion des im Rahmen dieser Arbeit erstellten WBS als eher ung nstig Mit dem KADS Ansatz k nnen notwendige Revisionen nicht systemgest tzt durchgef hrt 24 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Epistemische Ebene
187. nn Auch die Analysekomponente wird hier detailliert vorgestellt Ein wichtiges Thema des Hilfesystems sind die Informationen ber die Datens tze Daher gibt es ein Topic das erl utert welche Systemkomponenten auf die verschiedenen Datens tze zur ckgreifen Von zentraler Bedeutung f r den Anwender ist das Topic das das Dateiformat beschreibt Alle Formulare des Systems CORA die eine Eingabe durch den Anwender erfordern besit zen eine Hilfe Schaltfl che Zu jedem dieser Formulare gibt es daher ein Hilfetopic das die Komponenten des Formulars vorstellt und die Eingabem glichkeiten f r den Anwender in die sem Formular beschreibt Au erdem kann von hieraus jeweils zu den relevanten statistischen Hilfethemen gesprungen werden Dies sei am folgenden Beispiel erl utert Das Formular Homogenit tsanalyse besitzt einen Hilfeschalter mit dem zu ei nem Topic gesprungen werden kann das erl utert wie die verschiedenen Prozedu ren im Formular ausgew hlt werden k nnen welche Funktionen die vorhandenen Schalter haben und was bestimmte Ergebniswerte aussagen z B die Werte die angezeigt werden falls ein Nullzellenfehler aufgetreten ist Von diesem Topic kann dann ber Hotspots siehe 2 3 6 zu den Themen ge sprungen werden die die Homogenit tsanalyse allgemein und die zur Verf gung stehenden Prozeduren erl utern Dazu geh ren beispielsweise auch Informationen 5 2 DESIGN DER SYSTEMKOMPONENTEN 159 dar ber bei we
188. nntnisse werden vom Anwender aber in gleichem Ma erwartet wie f r das zugrundeliegende System GLIM Expert System for Time Series Generalized Linear Interactive Modelling 162 KAPITEL 6 BEWERTUNG UND EINORDNUNG DES SYSTEMS CORA Die Autoren selbst sehen ihr System als Knowledge Based Front End nicht als Experten system Einen Schritt weiter gehen Schnittstellensysteme die die semantische Korrektheit der Anwei sungen berpr fen siehe beispielsweise Jida et al 1986 Andere Ans tze wie z B SETUP siehe Naeve et al 1987 oder EXPRESS siehe Carlsen et al 1986 die ebenfalls auf sta tistischen Softwarepaketen aufbauen setzen ihr Ziel noch etwas h her an Der SETUP Ansatz dem das System P STAT zugrunde liegt will zus tzlich statistische Expertise in das System einbringen Die Autoren halten daher u a folgende Leistungsmerkmale fest siehe Naeve et al 1987 Seite 5 F r das System werden eine Auswahlunterst tzung von P STAT Komponenten und Parameterempfehlungen aufgrund der Datensituation gefor dert Gedacht ist an eine Liste kontextabh ngiger geeigneter Methoden die je weils durch Modell und Datensituation bestimmt wird und dem Benutzer zur Auswahl zur Verf gung steht Die Modellierung soll auch durch Empfeh lungen zum weiteren Vorgehen unterst tzt werden wie z B eine Residualanalyse zur Modellevaluation die wiederum in eine Transformationsempfehlung m nden kann
189. nstellation ist f r die zweite Gruppe von Eigenschaften sehr komplex Zur Komprimierung k nnen Durchschnittswerte f r diese Eigenschaften aus den Werten f r die Schichten in einer Konstellation berechnet werden Da bei der Berechnung der Durchschnittswerte Informationen verloren gehen wird die Be trachtung der Durchschnittswerte alleine als nicht ausreichend erachtet Es werden neue Dateneigenschaften eingef hrt die mithilfe des sogenannten Gini Koeffizienten aus den ur spr nglichen Eigenschaften abgeleitet werden k nnen Durch diesen Koeffizienten kann die Balanciertheit der Eigenschaften ber die Schichten beurteilt werden genauer man bewertet die Aufteilung in die Kategorien f r diese Eigenschaften die in Abschnitt 4 2 3 beschrieben wird Zur Verdeutlichung dieses Balanciertheitsma es betrachte man folgendes Beispiel Es liegt eine Parameterkonstellation mit zwei Schichten vor Die erste Schicht umfa t 20 F lle die zweite Schicht 30 F lle Angenommen bez glich der Fallan zahlen werden nun zwei Kategorien gebildet n mlich eine Kategorie f r Anzahlen bis zu 25 F llen und eine Kategorie f r gr ere Anzahlen Die erste Schicht der betrachteten Parameterkonstellation f llt in die erste Kategorie die zweite Schicht 92 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN wird dagegen in die Kategorie f r gr ere Anzahlen eingeordnet Damit liegt in dieser Situation eine balancierte Aufteilung der Fallanzahlen vor
190. nte ist die gelernte Regelmenge Zur Anwendung der Regeln sind zun chst die Daten des Benutzers auf die festgelegten Dateneigen schaften zu berpr fen Kann daraufhin eine passende Regel gefunden werden so wird dem Benutzer ein geeigneter Sch tzer vorgeschlagen Passend bedeutet hier da die Pr missen der Regel mit den festgestellten Dateneigenschaften bereinstimmen F r die Entwicklung dieser Beratungskomponente m ssen die Regeln in das wissensbasierte System einkodiert werden Dabei sind folgende Punkte wichtig e die Auswahl einer geeigneten Regelmenge e das Festlegen einer effizienten Abfragereihenfolge f r die Dateneigenschaften und e die Bewertung der Regeln innerhalb der ausgew hlten Menge Der erste Punkt wurde bereits in Abschnitt 4 7 beschrieben Grundlage fiir die weiteren Betrachtungen bildet also die dort ausgew hlte Regelmenge bestehend aus 24 Regeln Das Ziel der Festlegung einer Abfragereihenfolge ist es die Anzahl der Abfragen zu mini mieren Dazu mu beachtet werden da grunds tzlich alle Pr missen einer Regel abgefragt werden m ssen Da viele Regeln aber teilweise gleiche Pr missen haben ist es sinnvoll die am h ufigisten vorkommenden Dateneigenschaften zuerst abzufragen Dazu m ssen die Pr missen der Regelmenge untersucht werden In Tabelle 4 17 sind die H ufigkeiten f r die Dateneigen schaften dargestellt Demnach wird die Gr e des Odds Ratios als erstes abgefragt F r jede Kategor
191. ntscheiden p Wert Testentscheidung Die Abhangigkeiten zwischen den gerade beschriebenen Unteraufgaben der Kontingenztafel nanalyse werden in Abb 3 7 dargestellt Simulationsstudien Mithilfe der Simulationsstudien werden die finiten Eigenschaften der Methoden Sch tzer un tersucht die in der Kontingenztafelanalyse verwendet werden Als Input werden die zu unter suchenden Methoden ben tigt Au erdem mu eine Entscheidung ber das zugrundeliegende Modell siehe 3 3 1 getroffen werden Der Output besteht aus den Parameterkonstellationen d h den Werten f r die Designparameter der Simulationsstudie und den Sch tzergebnissen in den jeweiligen Situationen Zu beachten ist hier da sich die Parameter f r das Design der Simulationsstudien zum Teil von den Designparametern der Fall Kontroll Studie unterschei den So geh rt bei den Simulationsstudien auch das Odds Ratio zu den im Design festgelegten Gr en Ein Odds Ratio von eins bedeutet Unabh ngigkeit von Risikofaktor und Krankheit 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 19 Methoden 1 Methoden 2 m SE Methoden 3 Methoden 4 Unabh Test Abbildung 3 7 Aufgabenstruktur der Kontingenztafelanalyse Sch tzung Odds Ratio Die Subtasks f r die Durchf hrung von Simulationsstudien sind das Design der Studien die Ausf hrung der Simulation und ihre Dokumentation Diese Subtasks bauen aufeinander auf und erfolgen daher streng se
192. nzipien der oben erw hnten Sloppy Modeling Methodik basiert Kennzeichnend ist die Verbindung von systemunterst tzter Modellierung und maschinellem Lernen Der Aufbau des Modells kann in einer Bottom Up Vorgehensweise erfolgen zun chst gibt der Know ledge Engineer konkrete Beobachtungen in Form von Beispielen in das System ein Durch eine integrierte Lernkomponente k nnen aus diesen Beispielen generellere Definitionen und Zusammenh nge in Form von Regeln gelernt werden Ein ungenaues unvollst ndiges Modell kann so inkrementell verbessert werden Die Kooperation zwischen Wissensingenieur und System folgt dabei dem Balanced Coopera tive Modeling Prinzip d h die Aufgabenverteilung ist sehr flexibel Alle Aufgaben die vom Wissensingenieur durchgef hrt werden k nnen auch vom System bernommen werden und umgekehrt Eine wichtige Eigenschaft des Systems ist die Revidierbarkeit des erstellten Modells Im Ge gensatz zum KADS Ansatz handelt es sich hier um ein operationales Modell so da der Revisionsproze durch das System unterst tzt werden kann Das Verhalten des Modells kann zu jedem Zeitpunkt berpr ft werden Die Konsequenzen von Ver nderungen am Modell beispielsweise Inkonsistenzen werden vom System entdeckt aufgezeigt und k nnen mit Un terst tzung des Systems r ckg ngig gemacht bzw behoben werden MOBAL integriert eine Reihe verschiedener Tools die den Benutzer bei der Modellierung unterst tzen Entscheidend ist hier da
193. odelle sind einer Metaebene zuzuordnen die ber diese Stufe hinausgeht Sie werden auch als Metapr dikate bezeichnet Es existieren weitere Wissenselemente auf dieser Me taebene die Metafakten und die Metaregeln Hierauf wird in diesem Rahmen nicht weiter eingegangen siehe dazu Morik et al 1993 28 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Ein Regelmodell ist eine Regel die Pr dikatvariablen anstelle von Pr dikaten enth lt Re gelmodelle beschreiben den Hypothesenraum f r das Lernen indem sie die Struktur der zu lernenden Regeln vorgeben F r die Generierung von Hypothesen werden die Pr dikatvaria blen durch Pr dikate instanziiert Dabei kann eine n stellige Pr dikatvariable durch Pr dikate der gleichen Stelligkeit ersetzt werden Ein vollst ndig instanziiertes Regelmodell ist eine Re gel Ein Metapr dikat besteht aus dem eigentlichen Regelmodell und einem Header der den Na men des Metapr dikats angibt und die verwendeten Pr dikatvariablen sowie die konstanten Terme auff hrt Dazu betrachte man das folgende Beispiel Man hat das Metapr dikat MP1 P1 P2 Q P1 X Y amp P2 X Q Y Es miissen nun drei Pradikate gefunden werden zwei einstellige und ein zweistel liges mit denen die Pr dikatvariablen P1 P2 und Q instanziiert werden k nnen Die Termvariablen X und Y legen weiter fest da das zweite Argument von P1 in der Konklusion und in der zweiten Pr misse vorkommen mu siehe auch Ab
194. oll Studien aufbaut Ein weiterer wichtiger Aspekt des Systems sind die angebotenen Hilfestellungen f r den Be nutzer Hier werden sowohl die statistischen Hinterg nde die u a zur Interpretation der Ergebnisse erforderlich sind erl utert als auch teilweise kontext sensitive Hilfen zur Pro grammbenutzung gegeben Das gesamte System ist mit einer einheitlichen grafischen Oberfl che ausgestattet auf deren Benutzerfreundlichkeit besonderer Wert gelegt wird Alle Komponenten des Systems k nnen von dieser Oberfl che aufgerufen werden Dazu geh ren auch die statistischen Verfahren die f r die beschriebene Analyse der Daten erforderlich sind Die zugeh rigen Prozeduren sind direkter Bestandteil des Systems d h es handelt sich hier nicht um eine intelligente Schnitt stelle siehe auch Kapitel 6 zu einem vorhandenen statistischen Softwarepaket sondern um ein v llig eigenst ndiges System Die Konzeption und Entwicklung dieses wissensbasierten Assistentensystems CORA wird in der vorliegenden Arbeit spezifiziert und ausf hrlich beschrieben Die Arbeit umfa t insgesamt sieben Kapitel Im Anschlu an diese Einleitung werden im Ka pitel 2 zun chst die verwendeten Hilfsmittel zur Konstruktion des wissensbasierten Systems WBS vorgestellt Es handelt sich dabei um KADS eine Methodik die den Knowledge Engi neering Proze unterst tzt Mithilfe von KADS wird das WBS spezifiziert Desweiteren wird das System MOBAL vorgestellt das den W
195. on Operationen und Transformationen Diese operieren dabei immer auf demselben Objekt d h die Bear beitung eines Objekts wird in mehrere Schritte unterteilt Wissenstypisierung Knowledge Typing K nnen verschiedene Wissenstypen unter schieden werden die zur Ausf hrung einer Aufgabe ben tigt werden so liegt hier eine Modularisierung der Aufgabe bzgl dieser Typen auf der Hand Die Spezifikation der Aufgabenzerlegung kann in einem UND ODER Grafen dargestellt werden wobei die ODER Zweige verschiedene Methoden der Zerlegung darstellen Werden Abh ngigkeiten zwischen den Unteraufgaben ber cksichtigt so k nnen hierarchische Daten flu diagramme verwendet werden Die Pfeile die den Flu der Daten andeuten werden dabei mit dem Objekt Ingredient beschriftet Gibt es eine Beziehung zwischen zwei Tasks so stehen alle bergeordneten Tasks ebenfalls in Beziehung Im Anschlu an die Aufgabenzerlegung erfolgt die Verteilung der Unteraufgaben an die Agen ten Es gibt eine Reihe von Kriterien f r die Verteilung der Aufgaben Das Ziel der Aufga benverteilung ist die optimale Nutzung der Kompetenz d h des Wissens und der F higkeiten der Agenten Daher ist diese das Hauptkriterium f r die Verteilung Um die Kompetenz beur teilen zu k nnen m ssen Annahmen ber die F higkeiten der zuk nftigen Benutzer gemacht werden Dabei sind die Benutzer in Gruppen im Sinne von Typen mit homogenen F higkei ten einzuteilen f r die unterschiedl
196. on unterschiedliche d h sich widersprechende Empfehlungen von Sch tzern zustande kommen k nnen Stellt sich in der Praxis heraus da es viele dieser Situationen gibt ist das ein Hinweis darauf da die Regelmenge nicht optimal ist Der Grund daf r da solche Regeln gelernt werden liegt darin da in der Simulationsstudie nicht alle Kombinationen von Eigenschaften untersucht werden die in der Anwendung auftreten Der in Abbildung 4 3 dargestellte Entscheidungsbaum legt die Reihenfolge der Knoten auf gleicher Ebene nicht fest Daher kann zus tzlich die Bewertung der Regeln aus Abschnitt 4 9 ber cksichtigt werden so da in den nicht eindeutigen Situationen die als besser bewerteten Regeln bevorzugt werden Als G tekriteruim soll hier insbesondere die Anzahl der positiven Beispiele herangezogen werden die von den Regeln eines unter einem solchen Knoten liegen 128 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Odds Ratio mittel Abbildung 4 3 Entscheidungsbaum den Astes des Entscheidungsbaums abgedeckt werden Der Entscheidungsbaum soll deshalb hier von links nach rechts durchsucht werden Falls eine anwendbare Regel gefunden wird wird die Suche abgebrochen Kapitel 5 Das Symbol Level Modell des wissensbasierten Systems CORA Dieses Kapitel beschreibt die Operationalisierung der Knowledge Level Modelle also die Um setzung des konzeptuellen Modells in das fertige System Das Ergebnis ist ein Desi
197. onsstudie ist bereits in 3 3 1 beschrieben worden Sie umfa t 240 unterschiedliche Parameterkonstellationen Situationen in denen folgende sechs Punktsch tzer des gemeinsamen Odds Ratios untersucht worden sind e der Mantel Haenszel e der Woolf e der Breslow Liang e der Woolf Jackknife e der Jackknife II und e der modifizierte Jackknife U Schatzer Die Dateneigenschaften der Simulationsdaten entsprechen den Eigenschaften durch die auch die Datenlage einer Fall Kontroll Studie beschrieben werden kann Es k nnen folgende rele vante Dateneigenschaften festgemacht werden Die Sch tzer werden wie bereits erw hnt mit MH W BL W_JK JK und JK ii abgek rzt 90 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN e die Anzahl der Tafeln e das gemeinsame Odds Ratio e die Anzahl der Falle und Kontrollen und e die Expositionswahrscheinlichkeiten Durch diese Parameter werden die Situationen der Simulationsstudien beschrieben Auch weitere Dateneigenschaften k nnen aus diesen grundlegenden Parametern abgeleitet werden Die Bestimmung dieser abgeleiteten Dateneigenschaften geh rt jedoch schon zur Modellierung des Sachbereichs und wird daher in 4 2 n her beschrieben Von den Dateneigenschaften soll auf die Eignung der Sch tzer geschlossen werden Um eine Eignung eines Sch tzers beurteilen zu k nnen werden folgende Bewertungskriterien herange zogen e der Bias also die Verzerrung und e der MSE Mean
198. orienbildung sehr gute Eignung 1 1 gute Eignung 1 2 1 3 2 2 mittlere Eignung 2 3 2 4 1 4 3 3 schlechte Eignung 3 4 4 4 Tabelle 4 2 Stufenbildung f r die Eignung 4 3 REPR SENTATIONEN DER MODELLIERUNG 97 In Abh ngigkeit davon aus welcher Stufe die Empfehlungen stammen kann der Benutzer der zu lernenden Regeln sp ter darauf hingewiesen werden ob in dieser Situation eher mit guten oder schlechten Ergebnissen zu rechnen ist 4 3 Repr sentationen der Modellierung Der Abschnitt Repr sentationen der Modellierung beschreibt den Aufbau einer Wissensbasis Wie schon zu Anfang des Kapitels erw hnt wurde sind die Phasen hier getrennt dargestellt Es sollte beachtet werden da diese Phase die Repr sentation mehrmals durchlaufen wurde Hier werden aber jeweils nur Repr sentationen f r die endg ltig ausgew hlte Modellierung der Dateneigenschaften und Bewertungskriterien vorgestellt Desweiteren liegt der Schwerpunkt auf der sp ter gew hlten Repr sentation Es wird jeweils nur eine der m glichen Alternativen kurz erw hnt Die beiden ersten Schritte beim Aufbau einer Wissensbasis bestehen aus 1 der Repr sentation der Dateneigenschaften und 2 der Repr sentation der Sch tzergebnisse Hier werden die wohl wichtigsten Entscheidungen f r die Repr sentation getroffen Die Objek te Relationen und Eigenschaften k nnen auf unterschiedliche Weisen im Modell repr sentiert werden Sie k nnen sowohl in Form von
199. pertise ist mehr oder weniger universell Ein weiterer Vorteil ist da die Spezifikation im Expertisenmodell bzw im konzeptuellen Modell f r den Experten verst ndlicher ist als ein Symbol Level Modell Dennoch sind das konzeptuelle Modell und das Designmodell nicht unabh ngig voneinander Trotz der Trennung mu die Spezifikation sp ter auf einen Implementationslevel bertragen werden Die Abbildung 2 5 verdeutlicht die verschiedenen Rollen die das konzeptuelle Modell und das Designmodell im Knowledge Engineering Proze spielen Der Wissensingenieur konstruiert ein konzeptuelles Modell auf dem Knowledge Level indem er vom Probleml sungsverhal ten des Experten abstrahiert Durch die Verwendung eines Interpretationsrahmens in Form von generischen Modellen Aufgabenklassen und Aufgabendomains kann dieser Proze un 2 1 KADS 15 Ph nomene Interpretations formalismus Beobachter Problem Konzeptuelles l sungs Modell verhalten bertragung Designer KlI Techniken Implementierung des WBS Abbildung 2 5 Rollen des Konzeptuellen Modells und des Designmodells im WBS Design nach Schreiber et al 1993 terst tzt werden Ein Designer bertr gt die Spezifikation des konzeptuellen Modells auf den Symbol Level indem er durch die Auswahl geeigneter KI Techniken und Repr sentationen das Designmodell erzeugt 2 1 4 Modellierung der Expertise Die Modellierung der Expertise ist der wichtigste Schritt
200. quentiell Task Simulationsstudien Ziel Untersuchung der Methoden Sch tzer Input Methoden Modell Output Parameterkonstellationen Sch tzergebnisse Dokumentation Aufgabenstruktur Simulationsstudien Methoden Modell Parameterkonstellationen Schatzergebnisse Dokumentation Design Modell Parameterkonstellationen Ausf hren Parameterkonstellationen Methoden Sch tzergebnisse Dokumentation Parameterkonstellationen Sch tzergebnisse Dokumentation Auswertung von Simulationsstudien Die Auswertung der Simulationsstudien wird im Kapitel 4 ausf hrlich beschrieben In diesem Abschnitt folgt nur eine knappe Zusammenfassung in der KADS Methodologie Das Ziel der Auswertung von Simulationsstudien ist es eine Aussage ber das datenabh ngi ge Verhalten der einzelnen Sch tzer machen zu k nnen Durchgef hrt wird diese Aufgabe 80 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA hier mithilfe des maschinellen Lernens Die Simulationsstudien genauer ihre Dokumentation dienen als Input Der Output ist hier eine Regelmenge die die Schatzer charakterisiert Die Subtasks der Auswertung von Simulationsstudien bei Verwendung des in Kapitel 4 be schriebenen wissensbasierten Ansatzes sind die Modellierung also die Generierung von Bei spielen der Entwurf von Lernl ufen und ihre Durchf hrung sowie die Bewertung der Ergeb nisse Task Auswertung von Simulationsstudien Ziel Aussage ber das datenabhangige Verh
201. r Ausgangsdatensatz angezeigt Dieses Formular enth lt ebenfalls nur eine Memokompo nente und zeigt den Datensatz im File Format an Mit den weiteren Befehlen im Men punkt Schichtung kann der Datensatz als ASCH File gespeichert und geschlossen werden Es ist zu beachten da das Ausgangsdatenobjekt durch die Schichtung nicht ver ndert wird Das hei t also da der Analysekomponente auch nach einer Schichtung noch der unge schichtete Ausgangsdatensatz zugrunde liegt Eine erneute Schichtung oder auch die Ana lyse greifen damit auf den urspr ngliche Datensatz zur ck Einerseits hat dies den Vorteil da bei einer den Anwender nicht zufriedenstellenden Schichtung der Ausgangsdatensatz nicht neu eingelesen werden mu Andererseits mu der Anwender so aber den geschichte ten Datensatz f r die Analysekomponente ffnen sofern er mit diesen Daten weiterarbeiten m chte Das hei t beispielsweise f r eine Kombination der beiden Schichtungsmethoden f r eine Kovariable werden Intervalle angegeben gleichzeitig sollen andere Kovariablen nicht mehr ber cksichtigt werden mu der Anwender zun chst einen Datensatz mit dem Befehl Dateil ffnen f r die Analysekomponente einlesen eine Schichtung durchf hren die Daten mit Schichtung Speichern Unter sichern diese Daten wieder einlesen Dateil ffnen und die zweite Schichtung durchf hren Erste Erfahrungen aus der Anwendung des Systems wer 5 2 DESIGN DER SYSTEMKOM
202. raxis relevante Situationen untersuchen sollten kann hier also mit relativ guten Werten gerechnet werden auch wenn es theoretisch sehr viele nicht abgedeckte Situationen gibt Weiter ist zu beachten da Situationen mit nicht erfa ten Eigenschaften trotzdem durch eine Regel abgedeckt werden k nnen F r eine Situation mit wenig F llen sind beispielsweise nur die Regeln die sich explizit auf die Fallanzahl bezie hen nicht anwendbar Andere Regeln die keine bestimmte Fallanzahl voraussetzen k nnen angewendet werden Aus diesen berlegungen ergibt sich auch ein weiteres Kriterium zur Bewertung der Regeln n mlich der Stellenwert der Regeln in der praktischen Anwendung Zur Beurteilung sind hier die ersten mit dem System durchgef hrten Analysen heranzuziehen 4 9 2 Korrektheit Da fast alle der ausgew hlten Regeln mit dem Akzeptanzkriterium pos total gelernt wurden gibt es lediglich sieben durch die Regeln abgeleiteten Empfehlungen die nicht schon in der Wissensbasis vorgelegen haben Es wird also eine Korrektheit von ca 93 erreicht Aber auch hier ist es wieder interessant die Ergebnisse in der praktischen Anwendung zu pr fen Werden f r eine Kategorie nur sehr wenige Werte in der Simulationsstudie untersucht so ist die Korrektheit der Regel f r die gesamte Kategorie fraglich Das folgende Beispiel soll dies verdeutlichen F r die Eigenschaft kleines Odds Ratio liegt die untere Grenze dieser Kategorie bei 1 und schli
203. rbeitung die RTF Rich Text Format Dateien erzeugen kann z B Word Diese zweite M glichkeit soll kurz vorgestellt werden Jedes Thema wird durch Einf gen eines manuellen Seitenumbruchs am Ende des Themas als eine Seite formatiert Der Text kann mit den blichen Mitteln gestaltet werden Fonts Farben Linien etc Wichtig sind die Fu noten f r jedes Hilfethema durch die die Topics identifiziert werden k nnen und die Navigation durch das Hilfesystem gesteuert wird Die Funktionen der wich tigsten Fu noten sind in der Tabelle 2 3 dargestellt Zur Definition von Hotspots also Spr ngen zu verwandten Themen mu der Sprungbegriff doppelt unterstrichen werden Direkt nach dem Sprungbegriff der in der Hilfe sp ter gr n und einfach unterstrichen erscheint wird der Kontext String des Zieltopics angegeben Der Kontext String mu als versteckter Text formatiert werden F r das zu erstellende Inhaltsverzeichnis ist es sinnvoll alle Titel der Topics des Hilfesystems als Hotspot aufzulisten so da von dieser Seite aus jedes Hilfethema erreicht werden kann 42 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Bezeichnung der Fu note Hilfeprojektdatei Identifizierung des Kontext String Titel Schl sselworte Browse Sequenz Funktion Eindeutige Identifizierung des Topics zur Spezifikation der Spr nge Stellt den Titel des Topics in der Dialogbox Suchen und in der History
204. rd das System CORA bewertet und mit anderen Ans tzen verglichen Kapitel 7 fa t die wesentlichen Ergebnisse noch einmal kurz zusammen und zeigt daraufhin m gli che Perspektiven sowohl f r die Weiterentwicklung dieses Systems als auch f r intelligentere statistische Auswertungssoftware insgesamt auf Kapitel 2 Hilfsmittel zur Konstruktion des Systems CORA KADS MOBAL und Delphi Im folgenden Kapitel werden die Systeme die zur Konstruktion des wissensbasierten Assis tentensystems CORA verwendet werden vorgestellt Es handelt sich hierbei zun chst um KADS eine Methodik f r den Entwurf wissensbasierter Systeme Mithilfe dieser Methodik wird eine Spezifikation des Systems CORA entworfen Die Modellierung des Expertenwissens und das Lernen einer Charakterisierung von Sch tzern ist mit Unterst tzung des Modellie rungssystems MOBAL durchgef hrt worden F r die Implementierung von CORA wurde ein objektorientierter Ansatz gew hlt der auf das Tool Delphi zur ckgreift Diese drei Systeme werden im folgenden vorgestellt 2 1 KADS KADS ist eine strukturierte Methodik f r die Konstruktion wissensbasierter Systeme WBS die ausf hrlich in Schreiber et al 1993 beschrieben wird Das Knowledge Engineering wur de lange Zeit vom Rapid Prototyping also dem Bau von Prototypen siehe beispielsweise Karbach 1989 bestimmt Der KADS Ansatz wendet sich entschieden von dieser Methodik ab Im Mittelpunkt des Knowledge Engineerings und
205. rden sind reproduziert bzw widerlegt werden Der Vorteil besteht darin eine umfangreichere Regelmenge erhalten zu k nnen indem eine vollst ndige berpr fung der Kombinationen von bis zu f nf Dateneigenschaften durchgef hrt wird 3 3 2 Inferenzwissen Inference Knowledge In diesem Abschnitt wird das f r das WBS relevante Inferenzwissen vorgestellt Es m ssen auf der Inferenzebene eine Reihe von primitiven Inferenzen spezifiziert werden die auf der 3 3 EXPERTISENMODELL MODEL OF EXPERTISE 69 Inputmenge Outputmenge Inferenzwissen Sachbereichswissen Y Y Kovariablen Kovariablen Methoden zur Schichtung Methode Sch tzung etc Abbildung 3 5 Die primitive Inferenz Ausw hlen dar berliegenden Aufgabenebene zur Ausf hrung der Unteraufgaben der Kontingenztafel analyse verwendet werden Die Inferenzebene ist so komplex da sie hier nur beispielhaft beschrieben werden soll Eine vollst ndige Liste aller Inferenzen ergibt sich aus der Aufga benstruktur Task Structure f r die einzelnen Unteraufgaben aus dem Abschnitt 3 3 3 Im folgenden werden nun die Inferenzschritte Ausw hlen und Ausf hren spezifiziert die im Aufgabenwissen jeweils mehrfach verwendet werden Die Knowledge Source Ausw hlen siehe Abb 3 5 greift auf die zwei Metaklassen In putmenge und Outputmenge zu Die Objekte des Sachbereichs die diesen Metaklassen angeh ren unterscheiden sich nicht es sind
206. rden zwei Ak zeptanzkriterien f r die Lernl ufe festgelegt zun chst das sehr strenge Kriterium pos total und ein schw cheres Kriterium mit pos gt 0 9 total Dem Lernvorgang liegt eine Pr dikattopologie zugrunde die zwei Topologieknoten enth lt einen Knoten f r die Pr dikate die die Dateneigenschaften beschreiben und einen Knoten f r die Empfehlungs und Eignungspr dikate Durch die Metap dikate ist diese Struktur f r den Lernvorgang schon gegeben so da die Ber cksichtigung der Topologie keine weiteren Einschr nkungen des Hypothesenraums ergibt Desweiteren gibt es zwei Sorten die Situationen und die Sch tzer Da beide in den Zielpr di katen vorkommen sind alle Variablen sofort gebunden 114 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN 4 6 Lernl ufe Zur Erstellung der Lernl ufe wurden die drei Parameter Zielpr dikat Metapr dikat und das Akzeptanzkriterium variiert Durch die neun Zielpr dikate f nf Metapr dikate und zwei Ak zeptanzkriterien ergeben sich 90 durchzuf hrende Lernl ufe Da sich aber bereits nach den ersten L ufen abzeichnete da einige Lernl ufe erfolglos bleiben w rden konnte die Anzahl der Lernl ufe schlie lich auf 31 gesenkt werden In den Tabellen 4 14 und 4 15 sind die L ufe und ihre Ergebnisse zusammengefa t 4 7 Auswahl einer Regelmenge In diesem Abschnitt wird eine Regelmenge aus den gelernten Regeln zusammengestellt die sp ter in das wissensbasierte
207. rh_k f sit_1 1 3 verh_k f sit_1 2 3 durchschnitt_fallanzahl sit_1 25 durchschnitt_kontrollenanzahl sit_1 75 durchschnitt_exposition sit_1 0 25 durchschnitt_verh_k f sit_1 3 Aus diesen Fakten kann beispielsweise abgelesen werden da das Odds Ratio in dieser Situa tion bei 1 0 liegt und zur ersten Schicht 20 F lle geh ren Um alle Situationen zu charakterisieren sind f r die Pr dikate die unabh ngig von den Schichten sind jeweils 240 Fakten notwendig f r die weiteren Pr dikate 1360 da f r jede Schicht einer Situation ein Faktum ben tigt wird Insgesamt umfa t die Wissensbasis damit 10 240 4 1360 7840 Fakten zur Beschreibung der Dateneigenschaften Es sind jedoch weitere M glichkeiten zur Repr sentation vorhanden so z B die folgende Alter native Es werden alle Auspr gungen der schichtunabh ngigen Eigenschaften als Argumente in einem Pr dikat zusammengefa t F r die Eigenschaften die in den Schichten unterschied lich sind wird ein zweites Pr dikat konstruiert Es ergibt sich die folgende Spezifikation f r die beiden Pr dikate parameterkonstellation lt situationsnummer gt lt oddsratio gt lt tafelanzahl gt lt dif ferenzderexpos gt lt balanciertheit_faelle gt lt balanciertheit_verhaeltnis gt lt balanciertheit_expo gt lt durchschnitt_fallanzahl gt lt durchschnitt_kontrollenanzahl gt lt durchschnitt_exposition gt lt durchschnitt_verh_k f gt konstell
208. riterium pos total erlaubt Regeln bereits aus einem Beispiel zu lernen Das Kriterium wird so niedrig angesetzt da gleiche Parameterkonstellationen in der Simulationsstudie nicht vorkommen Es mu aber bedacht werden da f r jede Konstellation 1000 L ufe durchgef hrt worden sind und das Ergebnis der Mittelwert aus diesen 1000 Simulationsl ufen ist Damit liegen den Beispielen aus denen gelernt wird jeweils 1000 Simulationsl ufe zugrunde d h die Infor mationen in den einzelnen Beispielen weisen selbst einen relativ hohen Grad an Sicherheit auf 126 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN 4 9 6 Komprimierungsgrad Die Regelmenge umfa t 87 Pr missen und deckt damit 97 Instanzen ab was nach Abschnitt 4 8 einem Komprimierungsgrad von 0 9 entspricht Von einer echten Komprimierung der Bei spiele kann also nicht gesprochen werden Gerade das war aber auch nicht das Ziel sondern es sollten mit den Beispielen konsistente Regeln zur Vorhersage weiterer Situationen gelernt werden 4 10 Einbinden der Regeln in das WBS Dieser Abschnitt besch ftigt sich damit wie die gelernten Regeln zur Charakterisierung der Sch tzer des gemeinsamen Odds Ratios in das WBS eingebunden werden k nnen Das Ziel besteht darin eine Beratungskomponente zu entwickeln die den Benutzer des WBS bei der Auswahl eines geeigneten Odds Ratio Sch tzers f r seine Fall Kontroll Studiendaten unterst tzt Zentrales Element dieser Beratungskompone
209. rm glicht gleichzeitig auch die Kodierung der Expertise und der statistischen Verfahren Weitere Features dieses Tools die zur Konstruktion des Sys tems CORA noch nicht eingesetzt wurden gestatten zus tzlich die Einbeziehung grafischer Darstellungen zur Unterst tzung der Datenanalyse Diese sind von Bedeutung da sie den Bed rfnissen insbesondere der weniger erfahrenen Anwender in hohem Ma e entgegen kom men Daher sollten zuk nftige Arbeiten diesem Aspekt neben den anderen bereits erw hnten besondere Aufmerksamkeit zukommen lassen Literaturverzeichnis Borland 1991 Borland GmbH Hrsg ObjectVision f r Windows 2 0 Referenzhandbuch 1991 Borland 1994 Borland GmbH Hrsg Delphi f r Windows 1 0 Benutzerhandbuch 1994 Brachman et al 1985 Brachman R J Schmolze J G An Overview of the KL ONE Know ledge Representation System Cognitive Science Nr 9 S 171 216 1985 Breiman et al 1984 Breiman L Friedman J H Olshen A Stone Ch J Classification and Regression Trees Statistics Probability Series Wadsworth amp Brooks Cole Advanced Books and Software Pacific Grove California 1984 Breslow Day 1980 Breslow N E Day N E Statistical Methods in Cancer Research Vol 1 The Analysis of Case Control Studies IARC Scientific Publications Nr 32 Lyon 1980 Buchanan et al 1984 Buchanan B Shortliffe E Rule Based Expert Systems the MYCIN Experiments Addison Wesley London 19
210. rschieden werden da die restlichen Auspr gungen bereinstimmen Diese Zeilen k nnen damit jeweils zu einer Zeile In der Originalstudie wurden weitere Kovariablen betrachtet Gewicht Diabetes Angina Pektoris u a die hier zur Vereinfachung nicht einbezogen wurden 56 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA Altersgruppe 25 29 30 34 35 39 40 44 45 49 OC MI Ctrl MI Ctrl MI Ctrl MI Ctrl MI Ctrl Ja 4 62 9 33 4 26 6 9 6 5 Nein 2 134 12 390 33 330 65 362 93 301 Tabelle 3 2 Schichtung des Ausgangsdatensatzes durch Ignorieren des Risikofaktors Rauchen Altersgruppe 25 29 30 39 40 49 Rauchen OC MI Ctrl MI Ctrl MI Ctrl Nein Ja 0 25 0 21 4 6 Nein 1 16 3 328 30 320 1 24 Ja 1 25 2 21 0 5 pro Tag Nein 0 79 16 261 63 226 gt 25 Ja 3 12 11 17 8 3 pro Tag Nein 1 39 26 131 65 117 Tabelle 3 3 Intervallschichtung des Ausgangsdatensatzes bzgl des Alters zusammengefa t werden siehe Tabelle 3 2 Die Anzahlen ergeben sich durch das Aufsummieren der drei Werte in den urspr nglichen Schichten Eine Schichtung der Ursprungsdaten durch eine neue Intervallbildung f r das Alter hat das in Tabelle 3 3 dargestellte Ergebnis wenn folgende Einteilungen zugrunde gelegt werden 25 29 30 39 und 40 49 Ebenfalls als eine neue Intervallbildung kann die Schichtung der Daten aufgefa t werden die den Tabakkonsum als eine dichotome Gr e erfa t siehe Tabelle 3 4 Wenn alle tats chlichen Confounder bei der Schichtung ber cksi
211. rten werden im folgenden detailliert erl utert Sachbereichswissen Das Sachbereichswissen bietet eine Konzeptualisierung des Sachbereichs in Form einer dekla rativen Sachbereichstheorie Die verwendeten Elemente f r diese Beschreibung basieren auf den primitiven epistemiologischen Konstrukten aus KL ONE siehe Brachman et al 1985 Danach k nnen folgende Elemente des Sachbereichswissens unterschieden werden Konzepte Sie sind die zentralen Objekte des Sachbereichswissens Eigenschaft Wert Die Konzepte haben Eigenschaften die durch ihren Namen und die m glichen Werte definiert werden Relationen zwischen Konzepten H ufig vorkommende Relationen sind z B die Sub Class oder die Part Of Relationen Relationen zwischen Aussagen ber Eigenschaften bzw Eigenschaftswerte Damit sind beispielsweise kausale oder zeitliche Zusammenh nge gemeint Struktur Sie wird benutzt zur Repr sentation eines komplexen Objekts das aus mehreren Konzepten und Relationen besteht 2 1 KADS 17 Durch die Verwendung dieser Konstrukte wird ein Domain Schema f r den Sachbereich ent worfen Dieses Schema beschreibt die Struktur der Aussagen in der Sachbereichstheorie Es spezifiziert die wichtigsten Schritte in der Konzeptualisierung des Sachbereichs Das Sachbereichswissen sollte unabh ngig von der Aufgabe sein so da es von unterschiedli chen Probleml sungshandlungen benutzt werden kann Inferenzwissen Das Inferenzwissen spe
212. s Aufgaben bestehen die im Aufgabenwissen beschrieben wurden 3 Transferaufgaben die eine Interaktion mit dem Benutzer des Systems erfordern Diese werden hier nur als Black Boxes spezifiziert Eine wichtige Eigenschaft des Aufgabenwissens ist da hier keine Bez ge zum Sachbereichs wissen sondern nur zum Inferenzwissen vorkommen Die Zerlegung der Aufgaben in Unteraufgaben kann in Form eines Aufgabenbaums dargestellt werden Strategisches Wissen Dieses Wissen bestimmt welche Ziele relevant sind um ein Problem zu l sen Wie die Ziele erreicht werden ist durch das Aufgabenwissen festgelegt Treten im Probleml sungsproze Widerspr che Konflikte oder unvorhergesehene Ereignisse ein so mu das strategische Wissen Vorschl ge zur weiteren Vorgehensweise ggf durch neue Annahmen unterbreiten 2 1 KADS 19 2 1 5 Modellierung der Kooperation Neben der Modellierung der Expertise ist auch die Modellierung der Benutzer System Kooperation von zentraler Bedeutung Die Erkenntnisse die durch diese Modellierung ge wonnen werden flie en mit in das Expertisenmodell ein und m nden direkt in der Erstellung des Kooperations und des Aufgabenmodells Die Kooperation basiert dabei auf drei wesentlichen Elementen Verteilung der Aufgaben Die Verteilung der Aufgaben besteht in einer Aufteilung der Aufgaben in Unteraufgaben die dann an die verschiedenen Agenten verteilt werden k nnen Auf diese Weise mu die Gesamtaufgabe
213. s auch die Werte f r die Design Parameter der Fall Kontroll Studie werden im Anschlu klassifiziert Diese Klassifizierung wird vom System vorgenommen und teilt die Dateneigenschaften in feste Kategorien ein Die Kategorien entsprechen denen die im Rahmen der Simulationsstudienauswertung festgelegt wurden vgl dazu Abschnitt 3 3 1 bzw Kapitel 4 Der Subtask Assistieren erzeugt die den klassifizierten Dateneigenschaften entsprechende Me thodenempfehlung Dazu wird auf die in das System integrierte Regelmenge zur ckgegriffen Auf Wunsch wird die Methodenempfehlung erl utert indem die Eignung der Methode die ab geleitet wurde mitgeteilt wird und die zugrundeliegenden klassifizierten Dateneigenschaften abgerufen werden k nnen Task Pilotstudie Ziel Entscheidungsunterst tzung bei der Methodenauswahl Input Daten Output Pilotstudiendaten Methodenempfehlung Control Terms Pilot Odds Ratio Odds Ratio gesch tzt durch den Pilotdatensatz Pilot Expositionswahrscheinlichkeiten Expos berechnet aus den Pilotdaten Design Parameter Parameter die im Design der FKS festgelegt wurden klassifizierte Daten Bewertung f r Gr e des Odds Ratios der Expos und der Werte f r die Design Parameter Regelmenge Regeln die aus der Auswertung der SimSt hervorgegangen sind schlie en von Dateneigenschaften auf die Eignung der Sch tzer Erkl rung Aussagen ber Eignung des empfohlenen Sch tzers und zugrundeliegende Dateneigenschaften Task
214. schablonen Projektschablonen bieten verschiedene Anwendungsentw rfe die als Anfang beim Erstellen der Anwendungen verwendet werden k nnen Dabei handelt es sich um vordefinierte Formulare die bereits Komponenten und zum Teil zugeh rige Ereignisbehandlungen siehe 2 3 3 enthalten Die Schablonen m ssen lediglich an die Anwendung angepa t werden In der Galerie stehen Formulare f r einen Standarddialog einen Auswahl und einen mehr seitigen Dialog sowie eine Schablone f r ein Infofenster bereit W hrend das Standarddialog fenster nur die drei Schalter OK Abbruch und Hilfe enth lt gibt es im Auswahldialog zus tzlich zwei Listen deren Elemente mithilfe der vier Schalter gt gt und ver schoben werden k nnen Die links stehende Liste fungiert dabei als Ausgangsliste die rechte ist die Zielliste Der mehrseitige Dialog enth lt eine Registerkomponente die die Darstellung mehrerer Formularseiten erm glicht Das Infofenster besteht aus einem Grafikfeld Beschrif tungselementen und einem OK Schalter Eigene Projekte k nnen auch als Projektschablonen abgespeichert werden w hrend Formu larschablonen eine Auswahl an verschiedenen vordefinierten Formularen zur Entwicklung der Oberfl che bieten Selbst erstellte Formulare k nnen auch als Formularschablonen abgespei chert werden Weitere Tools von Delphi sind u a die Projektverwaltung ein Men Designer ein integrierter Debugger ein Objekt Browser un
215. se REX siehe Gale et al 1982 genannt werden das sich auf lineare Regressi on beschr nkt oder auch das System ESTES siehe Hietala 1986 mit dem Zeitreihen analysiert werden k nnen Bez glich des zweiten Kriteriums der Analysekomponente unterscheidet sich CORA aller dings von einer Reihe der bekannten Systeme GLIMPSE siehe Nelder 1987 baut beispiels weise auf dem Softwarepaket GLIM auf das einen Anwender bei der Bildung von Modellen f r seine Daten unterst tzt Dem Benutzer von GLIMPSE wird der Zugriff auf alle Tools von GLIM erm glicht Dabei wird eine High Level Command Language zur Formulierung von Aufgaben angeboten die dann durch einen Preprozessor in GLIM Anweisungen bersetzt werden Der Output von GLIM wird f r den Benutzer aufbereitet Der Vorteil dieser h heren Kommandosprache liegt in den Hilfestellungen f r den Anwender In GLIMPSE wird diese Unterst tzung auf drei Ebenen zur Verf gung gestellt Reminder Mode In diesem Modus wird lediglich die Syntax der Anweisungen angezeigt Er eignet sich damit f r erfahrene Benutzer Prompting Mode Hier wird eine Liste von verf gbaren Anweisungen angeboten Handholding Mode Die schrittweise Entwicklung von Anweisungen wird erm glicht ohne die zugrundeliegende Kommandosprache zu kennen Dieses System basiert also auf der Idee die komplexe Sprache eines statistischen Auswer tungssystems f r den Benutzer leichter handhabbar zu machen Statistik Ke
216. spruch zur tats chlichen Extension Ein weiteres wichtiges Kriterium ist die Redundanz Eine Regel R ist redundant bzgl R wenn die Menge der Extensionen von R eine Teilmenge der Menge der Extensionen von R ist Au er dieser extensional definierten Redundanz gibt es auch die intensionale Redundanz oder logische Redundanz die sich folgenderma en bestimmen l t Eine Regel R ist intensional redundant bzgl R wenn die Pr missen von R logisch aus den Pr missen von R gefolgert werden k nnen Einfacher ist die Festlegung des Kriteriums L nge der Regeln bzw die Gr e der Re gelmenge bei dem jeweils die Anzahl der Pr missen gez hlt wird Desweiteren wird die Anzahl der von der Regelmenge insgesamt abgedeckten Instanzen zur Bewertung herangezogen Hiermit verbunden ist auch der Komprimierungsgrad der Regeln Die Berechnung die ses Kriteriums wie sie in RRT durchgef hrt wird siehe Morik et al 1993 scheint in der vorliegenden Situation weniger sinnvoll Daher wird der Komprimierungsgrad hier definiert als Pramissen Ein weiteres gebr uchliches Kriterium ist die Lernzeit die nicht zur Bewertung der Regeln verwendet wird da es in dieser Arbeit weniger um eine Bewertung des Lernverfahrens geht als um die gelernten Regeln selber Wichtiger erscheint in diesem Zusammenhang eher die Zeit die insgesamt also inklusive Modellierung Repr sentation etc ben tigt wurde um die Regeln zu erhalten Hier ist
217. st gemeinsam da sie das Sachbereichsmodell als gegeben ansehen Das Problem besteht nur darin dieses Modell von einer Repr sentation in eine andere also in die des Systems zu berf hren Die Transfersicht der Knowledge Acquisition ist in Abbildung 2 1 dargestellt Die Abbildung macht deutlich da es keine R ckkopplung vom System bzw der Wissensbasis zum Modell und zum Sachbereich gibt Wird der Experte mit der Flasche verglichen steht der Wissenserwerb im Sinne der Knowledge Elieitation im Vordergrund Aber auch die Knowledge Elicitation geht davon aus da das Modell schon fertig im Kopf des Experten vorliegt Der Wissenserwerb wird dann als Suche nach diesem Modell verstanden die mithilfe einer angemessenen Befragung des Experten durchgef hrt werden kann Die Modellierungssicht der Knowledge Acquisition gem dem KADS Ansatz Die Entwicklung eines WBS wird im Rahmen des KADS Ansatzes als ein Modellierungspro ze angesehen Es entsteht damit eine Modellierungssichtweise der Wissensakquisition in der das WBS als operationales Modell betrachtet wird Bez glich der relevanten Eigenschaften 8 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Sach Wissens bereich basis dem Wissens unterst tzt durch ingenieur oder ein Wissens XP berlassen Akquisitionssystem Abbildung 2 1 Die Transfersicht der Wissensakquisition nach Morik 1989 sollte das Modell mit dem repr sentierten Teil der Welt bereinstimmen
218. st von Bedeutung sind und h chstens geringe Qualit tsverluste in Kauf genommen werden k nnen Die zweite vorgeschlagene M glichkeit also die Validierung durch weitere Simulationsstudien scheint daher sinnvoller 4 9 3 Redundanz Die Extensionen der 24 ausgew hlten Regeln sind paarweise disjunkt d h es gibt keine ex tensionale Redundanz in der Regelmenge Wie in Abschnitt 4 7 beschrieben wurde ist aus den Mengen redundanter Regeln jeweils nur eine ausgew hlt worden Die Redundanz bezieht sich auch hier wieder nur auf die Beispielmenge nicht auf eine m gliche Redundanz bei der Anwendung der Regeln Das Kriterium f r die Auswahl der Regeln ist eine Bewertung der Dateneigenschaften In Be zug auf die reale Anwendung der Regeln sind diese Entscheidungen allerdings mit Unsicher heit behaftet da sich nat rlich auch die anderen Eigenschaften die in der Simulationsstudie nicht variiert wurden und damit redundant waren auf das Verhalten der Sch tzer auswirken k nnen Die Folge ist da es bei der Anwendung dieser Regeln zu Problemen kommen k nnte Daher ist zu berlegen ob es wirklich sinnvoll ist die redundanten Regeln nicht weiter zu ber cksichtigen da ihre Pr missen zus tzliche Informationen bieten k nnen siehe 4 9 4 4 9 4 L nge der Regeln Die durchschnittliche L nge der Regeln betr gt 3 6 Pr missen pro Regel Die gesamte Regel menge enth lt 87 Pr missen Die Anzahl der Variablen und auch der Konstanten pro Re
219. stehend aus dem Basis Sch tzer und gegebenenfalls den Modifikationen sowie den Eignungsgrad des Sch tzers Zus tzlich wird jeder Regel eine Nummer zugeordnet damit diese eindeutig identifiziert werden kann Diese Informationen werden den Textwerten der entsprechenden Felder der ersten Seite des Empfehlungsformulars zugewiesen Es handelt sich dabei um die Felder Punktempfehlung Biaskorrekturempfehlung Eignung und Regelnummer Zur Verdeutlichung betrachte man folgendes Beispiel Die Konklusion der ersten Regel schlechte_empfehlung S w_jk wird re pr sentiert durch Abfrage der Pr missen then begin Punktempfehlung Text Woolf 5 2 DESIGN DER SYSTEMKOMPONENTEN 147 Biaskorrekturempfehlung Text Jackknife II Eignung Text schlecht Regelnummer Text R1 end Desweiteren wird es als sinnvoll erachtet dem Benutzer auch die Pr missen der angewendeten Regel anzuzeigen Daher sind die entsprechenden Dateneigenschaften im Empfehlungsformu lar gekennzeichnet Es gibt zu jeder Dateneigenschaft ein Markierungsfeld das angekreuzt werden kann Diese Markierung wird ebenfalls in den then Teilen der if Abfragen festgelegt Nach jeder erfolgreichen Abfrage wird das zugeh rige Feld angekreuzt d h der Wert des Markierungsfeldes wird auf True gesetzt if Fallanzahl Text klein then begin CheckedFallanzahl True Damit sind die Informationen die aus den Reg
220. stige Kategorieneinteilung bilden Das System berpr ft dann welche Fakten durch diese Regeln abgeleitet worden sind und entfernt diese aus der Wissens basis Umrepr sentationen k nnen gegebenenfalls durch die Eingabe neuer Regeln erfolgen Man betrachte dazu das folgende Beispiel Es gibt in der Wissensbasis ein Pr dikat mit der Deklaration pred lt Sorte_l gt lt Sorte_2 gt Es hat sich nun herausgestellt da diese Repr sentation ung nstig ist und aus diesem Pr dikat neue Pr dikate entstehen sollen in denen das zweite Argu ment wegf llt Weiter sei angenommen da die Sorte zwei aus vier Argumen ten c1 4 besteht die nun in die Pr dikatnamen einflie en sollen Dies kann durch die Regeln 2 3 DELPHI OBJECTVISION 35 pred Y X amp eq X c1 c pred Y pred Y X amp eq X c4 ca pred Y erreicht werden Es gibt damit vier neue einstellige Pr dikate mit den Namen c pred bis c4_pred Sind die n tigen Revisionen am operationalen Modell vorgenommen worden so wird der Zyklus erneut durchlaufen Der Proze kann solange fortgesetzt werden bis das gew nschte Ergebnis erreicht werden konnte 2 2 5 Diskussion Der Benutzer von RDT hat die M glichkeit den Lernvorgang durch Erkenntnisse ber se mantische Strukturen und Zusammenh nge im Sachbereich zu steuern indem er geeignete Metapr dikate vorgibt Ist aber ber den Sachbereich wenig bekannt so ist die Hypothe senraumeinschr nkung
221. stikerinnen werden vermutlich aufihre eigene Methodenbibliothek zur ckgreifen und die eigenen Erfahrungen die sie mit der Auswahl geeigneter Methoden gemacht haben nutzen wollen In solchen F llen stellt das System jedoch eine sinnvolle Erg nzung dar 3 3 Expertisenmodell Model of Expertise In den folgenden Abschnitten wird die Probleml sungsexpertise spezifiziert die im Rahmen einer Fall Kontroll Studie und damit auch f r das WBS bzw seinen Benutzer relevant ist Das Sachbereichs das Inferenz und das Aufgabenwissen werden vorgestellt Das statische Sachbereichswissen siehe Abschnitt 3 3 1 liefert zun chst eine ausf hrliche Beschreibung der Aufgabenbereiche die im Organisationsmodell festgehalten worden sind also eine Beschreibung der Datenerhebung der Kontingenztafelanalyse sowie der Simulati onsstudien und ihrer Auswertung Durch diese Spezifikation des Sachbereichs sollen die zen tralen Konzepte ihre Eigenschaften und die Relationen dazwischen deutlich gemacht werden Besondere Bedeutung bekommt diese Konzeptualisierung f r die Auswertung von Simula tionsstudien Daher wird f r diesen Bereich die Modellierung der Expertise systemgest tzt weitergef hrt und ausf hrlich in Kapitel 4 erl utert In 3 3 2 wird die sehr komplexe Inferenzstruktur f r die Kontingenztafelanalyse anhand zweier beispielhaft vorgestellter Inferenzen erl utert In Abschnitt 3 3 3 wird das f r das WBS relevante Aufgabenwissen spezifiziert Dabe
222. studiendaten also die Erstellung der Wissensbasis beschrieben In Abschnitt 4 4 erfolgt eine Evaluierung des Modells In den folgenden Abschnitten werden die Lernaufgabe und die Lernl ufe beschrie ben In 4 7 werden einige Regeln die durch eine fr here Auswertung von Simulationsstudien per Hand gewonnen worden sind auf Konsistenz mit der erstellten Wissensbasis berpr ft Daran anschlie end wird eine Regelmenge aus den gelernten Regeln ausgew hlt und anhand der festgelegten Bewertungskriterien analysiert Bei der ausgew hlten Regelmenge handelt es sich dann um die Regeln die in das wissensbasierte System CORA integriert werden Das Einbinden dieser Regeln wird in 4 10 erl utert 4 1 Szenario In diesem Abschnitt wird ein Rahmen f r das zu bildende Modell Szenario abgesteckt Darin werden die grundlegenden Elemente des Sachbereichs festgehalten Die wesentlichen Konzepte siehe Abbildung 4 2 sind hier e die Simulationsstudie e die Parameterkonstellationen in der Simulationsstudie 4 1 SZENARIO 89 Simulationsstudien Parameterkonstellationen Situationen Abbildung 4 2 Entity Relationship Modell des Sachbereichs e die Sch tzer des gemeinsamen Odds Ratios e die Dateneigenschaften der Parameterkonstellationen und e die Bewertungskriterien f r die Anwendung eines Sch tzers in einer Parameterkonstel lation die Sch tzung des gemeinsamen Odds Ratios Die dieser Modellierung zugrundeliegende Simulati
223. t die manuelle Wissensakquisition mit dem maschinellen Lernen verbindet Der Modellierungsproze beginnt mit einer Festlegung eines Rahmens f r das Modell Darin werden relevante Dateneigenschaften von Parameterkonstellationen der Simulationsstudien bestimmt und Bewertungskriterien f r die Sch tzergebnisse festgelegt Aus den Bewertungs kriterien kann eine Eignung eines Sch tzers in einer bestimmten Datensituation abgeleitet werden Die Charakterisierung der Sch tzer ergibt sich somit aus dem Zusammenhang zwi schen der Eignung des Sch tzers und den Eigenschaften der jeweiligen Datensituation Um nicht von den konkreten Dateneigenschaften also den genauen Werten f r die Parameter auf die Eignung zu schlie en werden diese in Kategorien eingeteilt Das gleiche gilt f r die 86 87 Modellierung u Repr sent Evaluierung SE Evaluierung Abbildung 4 1 Phasen der Wissensakquisition Eignung Es sollte nicht auf konkrete Werte fiir die Bewertungskriterien geschlossen werden sondern auf aussagekraftige Kategorien Nach der Modellierung einer Kategorieneinteilung erfolgt die Beschreibung der Reprasentati on des Modells Der Repr sentationsformalismus f r die Wissensbasis ist wie bereits in 2 2 erw hnt eine eingeschr nkte Form einer Pr dikatenlogik genauer eine funktionsfreie Horn klausellogik die aber negierte Literale zul t Die Wissensbasis besteht aus einer Menge von Fakten die die Simulationsstudien beschreiben
224. tanden sind anhand der Simulationsergebnisse berpr ft oder besonders auf llige Ergebnisse untersucht z B besonders schlechtes oder gutes Abschneiden eines Sch tzers Eine solche Auswertung eignet sich deshalb dazu einen neuen Sch tzer grob zu bewerten hier beispielsweise nachzuweisen da die Biaskorrektur durch das Jackknife II Prinzip er folgreich war aber um eine vollst ndige Charakterisierung der Sch tzer zu erhalten sind weitergehende Auswertungsmethoden anzuwenden Dabei sind in der Statistik eine Reihe von Methoden bekannt die hier zum Einsatz kommen k nnten wie z B e Clusteranalysen e Korrelationskoeffizienten und e Korrespondenzanalysen Im Rahmen dieser Diplomarbeit wird ein anderer Ansatz verfolgt der auf dem Einsatz von Methoden aus der Kiinstlichen Intelligenz basiert Die zentrale Idee dieses Ansatzes besteht darin die gew nschte Charakterisierung der Sch tzer maschinell lernen zu lassen Das ver wendete Lernverfahren ist in das Modellierungssystem MOBAL siehe Morik et al 1993 integriert Mit diesem System wird aus den Simulationsstudien ein Beispielset konstruiert aus dem Regeln ber das Verhalten der Sch tzer gelernt werden Eine ausf hrliche Beschrei bung dieses Ansatzes ist in Kapitel 4 zu finden Dieser Ansatz erm glicht es eine hnliche Vorgehensweise wie bei der gerade beschriebenen Auswertung zu benutzen So k nnen die Ergebnisse die zuvor schon durch diese Auswer tung erzielt wo
225. taufgabenbereiche in ihre Unteraufgaben im Sinne eines Aufgabenmodells durch Da f r ein besseres Verst ndnis dieser Zerlegung die zentralen Konzepte des Sachbereichs bekannt sein sollten erfolgt eine detaillierte Darstellung erst an dieser Stelle zusammen mit der Spezifikation des Aufgaben wissens Damit wird also jeder Aufgabenbereich durch die Spezifikation des Ziels des In und Outputs und der Aufgabenstruktur dargestellt Der Input entspricht der Information die zum Erreichen des Ziels ben tigt wird Output und Ziel sind in den meisten F llen iden tisch Die Aufgabenstruktur teilt die Aufgaben in eine hier zumeist sequentielle Abfolge von Unteraufgaben ein Datenerhebung Die Datenerhebung kann aufgeteilt werden in das Design der Fall Kontroll Studie und die eigentliche Datensammlung Diese Unteraufgaben sind klar getrennt und werden sequentiell abgearbeitet Eine weitergehende Aufgabenunterteilung ist hier nicht interessant da diese Aufgaben vom wissensbasierten System nicht unterst tzt werden sollen Task Datenerhebung Ziel Sammlung der Daten Input Design Parameter Output Fall Kontroll Studiendaten Control Terms Werte Werte f r Design Parameter wie Fallanzahlen etc Confounder Gr en die die Ursache Wirkungsbeziehung beeinflussen und daher erhoben werden m ssen Klasseneinteilungen Klassen in denen die Confounder erhoben werden sollen Aufgabenstruktur Datenerhebung Design Parameter Fall Kontroll Studiendaten
226. te schieben Zu Korrekturzwecken k nnen Elemente aus der rechten Liste auch wieder entfernt also zur ckgeschoben werden Die Auswahl wird mithilfe der OK Schaltfl che best tigt Die Ereignisbehandlungsroutine OkButton OnClick ruft die Funktion Schichtung auf Dieser Funktion werden folgende Parameter bergeben e das Datenobjekt vom Typ TDaten das f r die Analysekomponente verwendet wird und e ein Array von Typ TSchichtungsvariablen Array 1 5 of Boolean in dem die Positionen der ausgew hlten Kovariablen rechte Liste mit True gekennzeichnet sind Vor dem Aufruf der Schichtung wird dieses Array von der erw hnten Ereignisbehandlungs routine OkButton OnClick erzeugt 150 KAPITEL 5 DAS SYMBOL LEVEL MODELL DES WBS CORA Input Daten Positionen der zu ber cksichtigenden Koariablen Output geschichtete Daten Ablauf Erzeuge einen Kovariablendatensatz ohne Beobachtungen Streiche die doppelten Zeilen in diesem Datensatz die durch das Weglassen von Kovariablen entstehen K nnen for i 0 to Anzahl der Zeilen im Kovariablendatensatz do begin for j 1 to Anzahl der Zeilen im Ausgangsdatensatz do begin Suche alle Zeilen aus dem ungeschichteten Datensatz die die gleichen Auspr gungen f r alle betrachteten Kovariablen haben wie die aktuelle Zeile des Kovariablendatensatzes end Addiere die Anzahlen der Beobachtungen der gefundenen Zeilen und schreibe diese in die aktuelle Zeile des
227. teilung der Dateneigenschaften und Bewertungen in Kategorien Zur berpr fung der Kategorienbildung ist die Aufteilung der Situationen der Simulationsstudie in die gebilde ten Kategorien zu analysieren Diese Auswertung wurde nach jeder nderung der Einteilung erneut durchgef hrt wobei die im weiteren aufgef hrten Tabellen mit dem Experten bespro chen wurden Hier wird nun die Kategorieneinteilung gem Tabelle 4 1 analysiert deren Ergebnisse im Rahmen der Evaluation als akzeptabel bewertet wurden Zun chst werden die H ufigkeiten f r die Pr dikate die einen Sch tzer f r eine Situation empfehlen betrachtet Insgesamt gibt es 240 Empfehlungen die sich wie in Tabelle 4 3 gezeigt auf die einzelnen Sch tzer verteilen Man kann hier eine deutliche berlegenheit des Jackknife Sch tzers JK feststellen der jeweils am h ufigsten in der sehr guten guten und mittleren Empfehlung vorkommt Diese berlegenheit zeichnet sich auch schon bei den zugrundeliegenden Pr dikaten f r die Bewertungskriterien Bias und MSE und den entsprechenden Kategorien ab Insgesamt gibt es jeweils 1440 Fakten f r die Pr dikate bias und mse Die Verteilung auf die Sch tzer ist in den Tabellen 4 4 und 4 5 dargestellt Die Analyse der Dateneigenschaften beginnt mit den Einteilungen f r die Anzahl der Schichten einer Parameterkonstellation Es gibt jeweils 80 Parameterkonstellationen mit 2 wenigen 5 mittelvielen und 10 vie 4 4 EVALUIERUNG DES ERS
228. ten die in 4 2 1 beschrieben wurden also das Verh ltnis von Kontrollen und F llen die Differenz der Expositionswahrscheinlichkeiten und die Durchschnittswerte Diese Werte k nnen durch die Eingabe einfacher Regeln berechnet werden wie beispielsweise durch die Regel fallanzahl Sit S F amp kontrollenanzahl Sit S K amp div K F VKF verh_k f Sit S VKF Hiermit wird das Verh ltnis VKF von Kontrollen und F llen in der Schicht S der Situation Sit berechnet In diesen Regeln wird auf Built In Pr dikate zur ckgegriffen hier z B div die in 2 2 beschrieben worden sind Die Berechnung der Gini Koeffizienten ist auf diese Weise nicht zu realisieren und wird daher extern durchgef hrt Durch die Einf hrung der oben aufgef hrten Pr dikate kann eine Wissensbasis aufgebaut werden die die Dateneigenschaften der Parameterkonstellationen aus der Simulationsstudie repr sentiert Das folgende Beispiel stellt eine Wissensbasis dar die die erste Situation aus der Simulationsstudie bzgl der Dateneigenschaften beschreibt oddsratio sit_1 1 0 schichtanzahl sit_1 2 differenz_expo sit_1 0 1 balanciertheit_faelle sit_1 1 balanciertheit_verhaeltnis sit_1 0 balanciertheit_expo sit_1 1 fallanzahl sit_1 1 20 100 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN fallanzahl sit_1 2 30 kontrollenanzahl sit_1 1 60 kontrollenanzahl sit_1 2 90 exposition sit_1 1 0 2 exposition sit_1 2 0 3 ve
229. tet die auf einer gelernten Menge von Regeln basiert Dazu wird eine Wissensbasis aufgebaut die eigens zum Erwerb von Kenntnissen ber Eigenschaften sta tistischer Methoden durchgef hrte Simulationsstudien repr sentiert In diesen Studien kann also der Zusammenhang zwischen den Eigenschaften der Daten und dem Verhalten der sta tistischen Methoden entdeckt bzw gelernt werden Die Beratungskomponente berpr ft die vorliegende Datenlage und wendet dann gegebenenfalls eine passende Regel an die eine geig nete Methode vorschlagt Das System beschr nkt sich auf einen kleinen aber dennoch f r einen Wissenschaftler mit relativ geringen Statistikkenntnissen schwer handhabbaren Bereich der Statistik n mlich auf die Analyse geschichteter 2x2 Kontingenztafeln mit der eine Auswertung von bestimmten epidemiologischen Studien sogenannten Fall Kontroll Studien durchgef hrt werden kann Mithilfe dieser Studien k nnen Risikofaktoren f r Gesundheitssch den gro er Bev lkerungs gruppen qualitativ sowie quantitativ erfa t werden Im Rahmen dieser Analyse sind eine Reihe von Auswahlentscheidungen durch den Benutzer zu treffen wobei die Methodenauswahl f r die Absch tzung des Risikos einer Erkrankung von Combined Odds Ratio Analysis zentraler Bedeutung ist Diese Entscheidung kann durch die oben erw hnte Beratungskom ponente vom System unterst tzt werden die wie bereits erw hnt auf der wissensbasierten Auswertung simulierter Fall Kontr
230. tical knowledge such that the users of the system mainly epidemiologists should be assisted This is realized by guiding them through all phases of the analysis and by providing them with background knowledge Therefore three main aspects have to be part of the development of the system First the grafical user system interface should be user friendly Second a wide range help system has to be developed that gives the user not only information about how to use the program but also an introduction to the underlying statistical background i e the contingency table analysis The third aspect is to build an advice component that assists the user in choosing an appropriate statistical method for their analysis HI This work focuses on the process of getting the knowledge that is required to build such an advice component Here we explore simulation studies to gain information about the different statistical methods typically applied for analyzing the data With the help of machine learning we get a characterization of the examined statistical methods in form of a ruleset The rules infer the properties of a certain statistical method from the data attributes of the case control study The advice component can now assist the user by providing recommendations according to these rules which can be regarded as guidelines simulated case control study Inhaltsverzeichnis 1 Einleitung 2 Hilfsmittel zur Konstruktion des Systems CORA 21 KADS
231. u lernenden Regeln sollte aber nicht auf diese Werte zur ckgreifen da solche Regeln wie etwa die folgende wenig Aussagekraft besitzen Wenn z B ein Sch tzer bzgl Bias der beste und MSE der zweitbeste war ein anderer Sch tzer bzgl MSE der beste und Bias der zweitbeste w re der erste Sch tzer also dem zweiten vorzuziehen 94 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN Hat eine Situation ein gemeinsames Odds Ratio von 3 5 und gibt es 30 F lle so hat Sch tzer Z einen Bias von 0 034 Es ist sinnvoll von diesen Werten zu abstrahieren indem sie in gr ere Intervalle die Kate gorien zusammengefa t werden Die richtige Wahl dieser Kategorien ist entscheidend f r das sp tere Lernen siehe 4 9 Der Proze der Kategorieneinteilung ist nicht nur aus diesem Grund ein besonders schwieriger interaktiver Proze zwischen Wissensingenieur und Experte Bei der Kategorieneinteilung ist zu beachten da sehr gro e Kategorien dazu f hren da die Zusammenh nge zwischen den Dateneigenschaften und dem Verhalten der Sch tzer nicht mehr gelernt werden k nnen siehe dazu auch 4 9 Kleine Kategorien erh hen dagegen die ohnehin sehr gro e Komplexit t des Modells Als dritter Punkt ist auch das Simulationsdesign zu beachten Es m ssen ausreichend Parameterkonstellationen in allen Kategorien vorhanden sein damit die sp ter zu lernenden Regeln auf einer aussagekr ftigen Grundlage aufbauen k nnen Wichtig ist da
232. ung durch Sta tistikerinnen v llig verzichtet Dann h ngt es von der Qualifikation der Medizinerinnen ab ob die Analyse unter statistischen Gesichtspunkten korrekt und in diesem Sinne auch erfolgreich durchgef hrt werden kann Durch eine epidemiologische bzw biometrische Ausbildung erhal ten Medizinerinnen zus tzlich statistisches Wissen Aber dies ist i a nicht so umfangreich als da die Unterst tzung durch eine Statistikerin berfl ssig w rde Bei mangelnder statistischer Qualifikation der durchf hrenden Personen k nnen sich einige Probleme ergeben die h ufig in der Wahl einer der gegebenen Datensituation nicht angemessenen statistischen Methode resultieren deren Anwendung dann zu verf lschten Ergebnissen f hren kann Eine Nutzung solcher Ergebnisse f r weitere Entscheidungen kann fatale Folgen haben Die Datenanalyse wird unabh ngig von der durchf hrenden Person in der Regel rechner 48 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA gest tzt vorgenommen Die Standard Software f r statistische Auswertungen ist das SAS System SAS ist ein flexibles und daher sehr komplexes Programm Paket mit dem u a auch Fall Kontroll Studien analysiert werden k nnen Die Benutzung des Systems erfordert er hebliche Einarbeitung in die Progammierung von SAS und Statistik Kenntnisse hier also Erfahrungen mit dem Ablauf einer Kontingenztafelanalyse Zielgruppe f r dieses System soll ten deshalb vor allem Statistikerinnen sein da be
233. wird die Kooperation und Kommunikation mit dem Benutzer spe zifiziert Die Probleml sung die im Expertisenmodell festgelegt ist und die Kooperati on Kommunikation werden durch einen strategischen Meta Level kontrolliert der ebenfalls im Kooperationsmodell festgelegt wird Das wichtigste Element dieser Kontrolle ist die Ini tiative Sie gibt an welcher Agent die Kommunikation ausl sen kann Abh ngigkeiten zwischen Unteraufgaben im Task Modell weisen darauf hin da hier Koope ration bzw Kommunikation erforderlich ist und damit Objekte transferiert werden m ssen Diese Objekte die Ingredients werden von ihren Besitzern produziert Das Besitzen eines Ingredients soll hier andeuten da der Agent der ein Ingredient produziert hat die Kontrolle hier ber aus bt Ingredients k nnen in drei Typen unterteilt werden e Informationen Daten Aussagen ber Probleme Ansichten Auswertungen Geschich ten Zust nde etc e Wissen generisches Wissen das zur Erkl rung benutzt werden kann und e F higkeiten Instruktionen die angeben wie eine Aufgabe auszuf hren ist Die Kombination von Ingredients der Initiative und der Kontrolle ber Ingredients f hrt zu vier unterschiedlichen Typen von Transferaufgaben die in Abbildung 2 7 dargestellt sind 2 1 KADS 23 Receive Obtain System Benutzer System Benutzer Provide Present System Benutzer System Benutzer Flie richtung der Ingredients I
234. wird versucht den Vorteil der einfacheren Berechenbarkeit der nicht iterativen Sch tzer mit 62 KAPITEL 3 KNOWLEDGE LEVEL MODELLE DES WBS CORA einer geeigneten Biaskorrektur zu kombinieren um so zu verbesserten Eigenschaften zu ge langen Zur Berechnung eines Jackknife Sch tzers wird jeweils eine Beobachtung aus dem Datensatz entfernt und mit diesem neuen Datensatz der Basissch tzer erneut berechnet Man erh lt durch eine bestimmte Linearkombination des Basissch tzers und der neu berechneten Sch tzer die sogenannten Pseudowerte Die Anzahl der Pseudowerte entspricht dabei gera de der Anzahl zu entfernender Beobachtungen Das arithmetische Mittel dieser Pseudowerte liefert dann den Jackknife Sch tzer Im Rahmen einer geschichteten Kontingenztafelanalyse gibt es im wesentlichen zwei Ans tze zur Berechnung der Pseudowerte die sich darin unterscheiden was als eine Beobachtung bei der Berechnung der Pseudowerte angesehen wird Der Ansatz von Breslow und Liang siehe Breslow Day 1980 im weiteren Typ I genannt betrachtet jede 2x2 Kontingenztafel als eine solche Beobachtung die bei der Berechnung der Pseudowerte aus dem Datensatz entfernt wird Ein anderer Ansatz siehe Pigeot 1989 im weiteren mit Typ II bezeichnet basiert darauf da jede binomialverteilte Zufallsvariable als Summe von unabh ngig identisch Bernoulli verteilten Zufallsvariablen aufgefa t werden kann Aus diesem Grund kann jede Beobachtung in jeder der vier Zelle
235. wledge an welcher Stelle des Inferenzprozesses verwendet werden Durch die Trennung von Sachbereichs und Inferenzwissen kann dasselbe Sachbereichswissen f r viele verschiedene Typen von Inferenzen verwendet werden Die Menge aller primitiven Inferenzen kann grafisch zu einer Inferenzstruktur zusammengefa t werden die die Probleml sungskompetenz des WBS wiedergibt Die Reihenfolge in der die 18 KAPITEL 2 HILFSMITTEL ZUR KONSTRUKTION DES SYSTEMS CORA Inferenzen ausgef hrt werden wird hier noch nicht spezifiziert Dies erfolgt erst durch das Aufgabenwissen Aufgabenwissen Durch das Aufgabenwissen wird bestimmt wie primitive Inferenzen kombiniert werden k nnen um ein vorgegebenes Ziel zu erreichen Folgende Konstrukte werden zur Beschrei bung des Aufgabenwissens verwendet Aufgabe Task Der prim re Wissenstyp dieser Kategorie kann als zusammengesetzte Pro bleml sungsmethode bezeichnet werden Die Aufgabe wird in eine Menge von Unter aufgaben zerlegt Kontrollterme Control Terms Kontrollterme sind Bezeichnungen f r eine Menge von Metaklassen Elementen Aufgabenstruktur Task Structure Die Aufgabenstruktur legt den Ablauf des Pro bleml sungsprozesses fest und greift dabei auf die Unteraufgaben zur ck Es gibt drei Arten von Unteraufgaben 1 Primitive Probleml sungsaufgaben bestehend aus Inferenzen die im Inferenzwis sen spezifiziert wurden 2 Zusammengesetzte Probleml sungsaufgaben die au
236. zelbewertungen zu einer Gesamteignung verkn pft werden F r alle Sch tzer werden vier Stufen von Eignungen gebildet Die Stufen unterscheiden sich darin wie gut die Werte f r den Bias und den MSE f r den Sch tzer in der Situation waren In der ersten Stufe sind die Sch tzer die in Kategorien f r einen sehr kleinen Bias und einen sehr kleinen MSE eingeteilt wurden Um in die zweite Kategorie also eine gute Eignung eingeordnet zu werden gibt es drei M glichkeiten 1 einer der Werte f r Bias oder MSE ist sehr klein und der andere Wert ist klein 2 einer der Werte ist sehr klein und der andere Wert ist mittelgro oder 3 beide Werte sind klein Vier m gliche Kombinationen f hren zu einer Einteilung in die dritte Kategorie 1 einer der Werte f r Bias oder MSE ist klein und der andere ist mittelgro 2 einer der Werte f r Bias oder MSE ist klein und der andere ist gro 3 einer der Werte ist sehr klein und der andere ist gro oder 4 beide Werte sind mittelgro Die Tabelle 4 2 fa t die Stufenbildung f r die Eignung zusammen Dabei bedeutet X Y da der Bias aus Kategorie X stammen kann und der MSE aus Kategorie Y und umgekehrt also da der MSE aus Kategorie X und der Bias aus Kategorie Y stammen kann Eine 1 steht dabei f r die Kategorie mit sehr kleinen Werten eine 2 f r die Kategorie mit kleinen Werten usw Auch die Empfehlungen der Sch tzer werden bewertet d h entsprechend der Eignung des empfohlenen Sch tzers
237. zifiziert primitive Inferenzen die durch den Namen eine Input Output Spezifikation und das verwendete Sachbereichswissen definiert werden Das Verhalten der Inferenz l t sich durch Newells Rationalit tsprinzip siehe Newell 1982 be stimmen Wenn ein Agent wei da eine Aktion die ausgef hrt werden kann ein gew nsch tes Ziel erreicht dann w hlt der Agent diese Aktion aus Im Expertisenmodell von KADS werden folgende Terme verwendet um primitive Inferenzen zu beschreiben Wissensquellen Knowledge Sources Sie f hren den eigentlichen Inferenzschritt aus Aus den Input Daten kann unter Verwendung des Sachbereichswissens neue Information Wissen hergeleitet werden Metaklasse Meta Class Die Datenelemente auf die die Knowledge Sources zur ckgrei fen und die sie produzieren d h Input und Output werden als Metaklassen bezeichnet Metaklassen fungieren als Platzhalter f r Objekte des Sachbereichs Sie beschreiben die Rolle dieser Objekte im Probleml sungsproze Die Zuordnung von Sachbereichsobjekten zu Metaklassen ist nicht eindeutig d h Ob jekte k nnen mehr als einer Metaklasse angeh ren Jede Metaklasse kann sowohl eine Input Metaklasse f r eine Wissensquelle als auch eine Output Metaklasse darstellen Sachbereichssicht Domain View Der Domain View spezifiziert die Referenz der Me taklassen und der Wissensquellen zum Sachbereichswissen d h es wird beschrieben welche Teile des Domain Kno
238. zten Schritt wird mit dieser Eignung auch die Empfehlung bewertet empfehlung S Z amp sehr_gute_eignung S Z sehr _gute_empfehlung S Z empfehlung S Z amp gute_eignung S Z gute_empfehlung S Z empfehlung S Z amp mittlere_eignung S Z mittlere_empfehlung S Z empfehlung S Z amp schlechte_eignung S Z schlechte_empfehlung S Z Das hei t der beste Sch tzer einer Situation wird daraufhin untersucht wie die Eignung des Sch tzers bewertet wurde und entsprechend kategorisiert da auch der beste Sch tzer einer Situation sehr schlecht sein kann 4 4 Evaluierung des erstellten Modells Der folgende Abschnitt besch ftigt sich mit der Evaluierung der modellierten Wissensbasis In diesem Rahmen sollte festgestellt werden ob die Modellierung des Wissens den Vorstel 108 KAPITEL 4 LERNEN EINER CHARAKTERISIERUNG VON SCH TZERN JK WJK W MH Jk ii BL insg sehr_gute_empfehlung 18 3 1 3 2 1 28 gute_empfehlung 56 8 12 2 17 3 98 mittlere_empfehlung 49 3 13 3 11 9 88 schlechte_empfehlung 9 3 4 6 3 1 26 Tabelle 4 3 H ufigkeiten der Empfehlungen f r die Sch tzer JK WJK W MH JK i BL insg sehr_kleiner_bias 88 43 50 53 62 58 364 kleiner bias 108 106 105 100 104 110 633 mittlerer_bias 23 1673 73 62 62 369 grosser_bias 21 15 12 14 12 10 74 Tabelle 4 4 Einteilungen der Sch tzer f r den Bias lungen des Experten entspricht Der schwierigste Schritt bei der Erstellung des Modells ist die Ein
Download Pdf Manuals
Related Search
Related Contents
TR-406GH 取扱説明書 Siemens optiPoint WL2 professional Massive Spot light 52110/17/10 USER MANUAL OF THE V Brickcom VD-300Af KRAUSEN 800 COVER Handbuch GAMPT-Scan ECO ECP - Mecc Alte SpA Parker Hannifin 6K Switch User Manual Copyright © All rights reserved.
Failed to retrieve file