Home
        SPSS Data Preparation (Aufbereitung von Daten)™ 16.0
         Contents
1.      1   2 3 8  3 8 18  4 ERR  Gesamt    Jede Klasse wird wie folgt berechnet  Minimum  lt   Years with current  employer   Maximum     a  Unbegrenzt       Die Zusammenfassung f  r Years with current employer  Jahre der Besch  ftigung beim derzeitigen  Arbeitgeber  zeigt ein Muster abnehmender Anteile der zahlungsunf  higen Personen bei  steigender Klassenzahl        Klasse   Anteil der  zahlungsunf  higen Personen                1 0 432  2 0 302  3 0 154  4 0 078                78       Kapitel 8    Abbildung 8 10  Klassierungs Zusammenfassung f  r    Years at current address     Wohnhaft an gleicher Adresse  in  Jahren      Anzahl der F  lle nach Nivau von  Endpunkt Previously defaulted    Klasse Minimum   Maximum No          1 a   2 7  3 14  Gesamt    Jede Klasse wird wie folgt berechnet  Minimum  lt   Years at current  address  lt  Maximum     a  Unbegrenzt    Die Zusammenfassung f  r Years at current address  Wohnhaft an gleicher Adresse  in Jahren    zeigt ein   hnliches Muster  Wie aus der Statistik f  r die Modellentropie zu erwarten  sind die  Unterschiede zwischen den Klassen beim Anteil der zahlungsunf  higen Personen bei Years with  current employer  Jahre der Besch  ftigung beim derzeitigen Arbeitgeber  deutlicher als bei Years  at current address  Wohnhaft an gleicher Adresse  in Jahren          Klasse   Anteil der  zahlungsunf  higen Personen       1 0 334  2 0 209  0 112                Abbildung 8 11  Klassierungs Zusammentassung fur    Credit card debt in tho
2.      44       Kapitel 6    Fallbericht    Abbildung 6 15  Fallbericht       Verletzungen von Identifizierung  Fall Eine Variable  hospid patid physid    Oto 1 Dichotomy  1  0333204686 883285  Oto 1 Dichotomy  1  1038840465 103254    Nonnegative integer  1  2090290204 883285  Oto 1 Dichotomy  1  2349729006 723384  Nonnegative integer  1  4993307441 828754  1 to 4 Categorical  1  8737661990 185787    a  The number of variables that violated the rule follows each rule        In der Tabelle    Fallbericht    werden alle Falle  sowohl nach Fallnummer als auch nach  Fallbezeichner   die mindestens eine Validierungsregel verletzt haben  die verletzten Regeln  und die Anzahl der Regelverletzungen nach Fall aufgef  hrt  Die ung  ltigen Werte werden nun  im Daten Editor angezeigt    Abbildung 6 16   Daten Editor mit gespeicherten Indikatorvariablen fur Regelverletzungen    recbart3      OtoSCategoric   Oto3Categ    Otol Dichot   0to1Dichot   to1 Dic en    al_clotsolv_  orical_rehab_  omy_obesity  omy_dhosp_  hotomy_ti  oto     E GA P HS E E       1             OO OO OO 5  5  OH       fe te m                         Yariablenansicht       F  r jede Anwendung einer Validierungsregel wird eine separate Indikatorvariable erstellt    So entstpricht  0to3Categorical_clotsolv_ der Anwendung der Validierungsregel  0 to 3  Categorical    auf die Variable Clot dissolving drugs  Wenn Sie bei einem Fall feststellen  m  chten  welche Variable einen ung  ltigen Wert aufweist  betrachten Sie am beste
3.     F  lle mit  gleicher  Identifizierung    10 11  14 15  21 22    28 29    30  31    64 65  83  84  86  87  96  97  100 101  102    104  105  106    1406462  419  2191527  525  7237535  360  4592215  163  7628592  330  0300750  006  4590625  286  6272818  258  1959349  605  5856145  337  1543897  849    Attending    physician ID    365184    365184    616528    942982    371884    371884    215041    817329    215041    817329    817329       Ein Fall muss eindeutig durch eine Kombination der Werte der Fallbezeichnervariablen  identifiziert werden k  nnen  Hier werden die ersten 11 Eintr  ge in der Tabelle der F  lle mit  gleicher Identifizierung gezeigt  Bei diesen Duplikaten handelt es sich um Patienten  bei denen  mehrere Ereignisse aufgezeichnet wurden  die f  r jedes Ereignis als separater Fall erfasst wurden   Da diese Informationen jeweils in einer Zeile zusammengefasst werden k  nnen  sollten diese    F  lle bereinigt werden     36       Kapitel 6    Kopieren und Verwenden von Regeln aus einer anderen Datei    Der Analytikerin fallt auf  dass die Variablen in der vorliegenden Datendatei den Variablen aus  einem anderen Projekt   hneln  Die Validierungsregeln dieses Projekts wurden als Eigenschaften  der entsprechenden Datendatei gespeichert und k  nnen auf die vorliegende Datendatei angewendet  werden  indem die Dateneigenschaften der Datei kopiert werden      gt  Um die Regeln aus einer anderen Datei zu kopieren  w  hlen Sie die folgenden Befehle aus den  Men  s au
4.    Household income in thousands H 2461 70  Debt to income ratio  x100  d 44 62  Credit card debt in thousands d 139 58  Other debt in thousands J 416 52       Die Tabelle    Deskriptive Statistiken    enth  lt zusammenfassende Informationen zu den  Klassierungs Eingabevariablen  Die ersten vier Spalten betreffen die vorklassierten Werte     N ist die Anzahl der in der Analyse verwendeten F  lle  Wenn listenweises L  schen fehlender  Werte verwendet wird  sollte dieser Wert f  r alle Variablen konstant sein  Wenn paarweises  L  schen fehlender Werte verwendet wird  ist dieser Wert m  glicherweise nicht konstant  Da  das vorliegende Daten Set keine fehlenden Werte aufweist  handelt es sich bei diesem Wert  einfach um die Anzahl der F  lle     Die Spalten Minimum und Maximum zeigen die Mindest  und H  chstwerte  f  r Vorklassierung   im Daten Set f  r die einzelnen Klassierungs Eingabevariablen  Durch diese Spalten erhalten  Sie nicht nur einen Eindruck von dem beobachteten Wertebereich f  r die einzelnen Variablen   sondern sie k  nnen auch hilfreich beim Aufsp  ren von Werten sein  die au  erhalb des  erwarteten Bereichs liegen     In der Spalte Anzahl der verschiedenen Werte erfahren Sie  welche Variablen mithilfe des  Algorithmus f  r gleiche H  ufigkeiten vorverarbeitet wurden  Standardm    ig werden  Variablen mit mehr als 1000 verschiedenen Werten  Household income in thousands   Haushaltseinkommen in Tausend  bis Other debt in thousands  Andere Schulden in  Tausend   du
5.    Scores f  r die Abwanderungsneigung  von 0 bis 100  werden auf die Kunden angewendet   Kunden mit einem Score von 50 oder h  her streben vermutlich einen Anbieterwechsel an     ceramics sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  die Bem  hungen eines Herstellers geht  der ermitteln m  chte  ob ein neue  hochwertige  Keramiklegierung eine gr    ere Hitzebest  ndigkeit aufweist als eine Standardlegierung   Jeder Fall entspricht einem Test einer der Legierungen  die Temperatur  bei der das  Keramikw  lzlager versagte  wurde erfasst     cereal sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um eine  Umfrage geht  bei der 880 Personen nach ihren Fr  hst  ckgewohnheiten befragt wurden   Au  erdem wurden Alter  Geschlecht  Familienstand und Vorliegen bzw  Nichtvorliegen eines  aktiven Lebensstils  auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche   erfasst  Jeder Fall entspricht einem Teilnehmer     87       Beispieldateien    clothing_defects sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  die Qualit  tskontrolle in einer Bekleidungsfabrik geht  Aus jeder in der Fabrik produzierten  Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z  hlen die  Anzahl der Bekleidungsartikel die inakzeptabel sind     coffee sav  Diese Datendatei enth  lt Daten zum wahrgenommenen Image von sechs  Eiskaffeemarken  Kennedy  Riquier  als auch Sharp  1996   Bei den 23 
6.   Daten  Ungew  hnliche F  lle identifizieren       Abbildung 7 1  Dialogfeld  Ungew  hnliche F  lle identifizieren     Registerkarte    Variablen       W Ungew  hnliche F  lle identifizieren      Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen       Variablen  Analysevariablen   daHospital ID  hospid    dage category  agecat   di Hospital size  hospsize    Gender  gender   ii ici i   BPhysically active  active      obesity  obesity     History of diabetes  diabetes     Blood pressure  bp     Atrial fibrillation  af     amp  Smoker  smoker    Cholesterol  choles     History of angina  angina     History of myocardial infarction  n    Prescribed nitroglycerin  nitro   m    ee 8 sso   Lei ia tea    lt                   Eallbezeichnervariable     daPatient ID  patid                 Klicken Sie in der Liste  Variablen  mit der  rechten Maustaste auf eine Yariable  um  deren Messniveau zu   ndern           W  hlen Sie die Variablen von Age category bis Stroke between 3 and 6 months als  Analysevariablen aus        W  hlen Sie Patient ID als Fallbezeichnervariable aus        Klicken Sie auf die Registerkarte Ausgabe     56       Kapitel 7    Abbildung 7 2  Dialogfeld  Ungew  hnliche F  lle identifizieren    Registerkarte    Ausgabe       W Ungew  hnliche F  lle identifizieren    Variablen   Ausgabe Speichern   Fehlende Werte   Optionen          Liste ungew  hnlicher F  lle und Gr  nde f  r die Ungewdhnlichkeit  Auswertung    Normwerte der Gruppen    Hierbei handelt es s
7.   Daten sowie Daten zum Kaufpreis von Fahrzeugen enth  lt     tree_credit sav  Hierbei handelt es sich um eine hypothetische Datendatei  die demografische  Daten sowie Daten zu fr  heren Bankkrediten enth  lt     tree_missing_data sav  Hierbei handelt es sich um eine hypothetische Datendatei  die  demografische Daten sowie Daten zu fr  heren Bankkrediten enth  lt und eine gro  e Anzahl  fehlender Werte aufweist     tree_score_car sav  Hierbei handelt es sich um eine hypothetische Datendatei  die  demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth  lt     tree_textdata sav  Eine einfache Datendatei mit nur zwei Variablen  die vor allem den  Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen  soll     tv survey sav  Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie   die von einem Fernsehstudio durchgef  hrt wurde  das   berlegt  ob die Laufzeit eines  erfolgreichen Programms verl  ngert werden soll  906 Personen wurden gefragt  ob sie das  Programm unter verschiedenen Bedingungen ansehen w  rden  Jede Zeile entspricht einem  Befragten  jede Spalte entspricht einer Bedingung     ulcer_recurrence sav  Diese Datei enth  lt Teilinformationen aus einer Studie zum Vergleich  der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw  ren   Es stellt ein gutes Beispiel f  r intervallzensierte Daten dar und wurde an anderer Stelle   Collett  2003  vorgestellt und analysiert     95       Beisp
8.   Der Analyse wird eine zus  tzliche metrische Variable hinzugef  gt  mit der der  Anteil der fehlenden Werte pro Fall aufgezeichnet wird      gt  Klicken Sie auf die Registerkarte Optionen     59       Abbildung 7 5    Ungew  hnliche F  lle identifizieren    Dialogfeld  Ungew  hnliche F  lle identifizieren    Registerkarte    Optionen       W Ungew  hnliche F  lle identifizieren       Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen       Kriterien zum Identifizieren ungew  hnlicher F  lle Anzahl von Gruppen    Prozentsatz der F  lle mit den h  chsten Er 1  Pr    a l     Anomalie Indexwerten inimum       Prozentsatz   4   Maximum        Feste Anzahl von F  llen mit den h  chsten  Anomalie Indexwerten       o Nur F  lle identifizieren  deren Anomalie Index  gr    er oder gleich einem Minimalwert ist       E    Maximale Anzahl von Gr  nden  3    Geben Sie an  wie viele Gr  nde ausgegeben und  Falls Grundvariablen gespeichert werden     der Arbeitsdatei hinzugef  gt werden  Der Wert wird nach unten korrigiert  wenn er die  Anzahl der Analysevariablen   bersteigt              Geben Sie als Prozentsatz der F  lle  die als anomal betrachtet werden sollen  den Wert 2 ein      gt  Deaktivieren Sie Nur F  lle identifizieren  deren Anomalie Index gr    er oder gleich einem Minimalwert    ist        Geben Sie als maximale Anzahl von Gr  nden den Wert 3 ein        Klicken Sie auf OK     Zusammenfassung der Fallverarbeitung    Abbildung 7 6  Zusammenfassung der Fallverarbeitun
9.   Kundendatenbank geht  die zum Zwecke der Zusendung monatlicher Angebote erworben  wurde  Neben verschiedenen demografischen Informationen ist erfasst  ob der Kunde auf das  Angebot geantwortet hat     88       Anhang A    demo_cs_1 sav  Hierbei handelt es sich um eine hypothetische Datendatei f  r den ersten  Schritt eines Unternehmens  das eine Datenbank mit Umfrageinformationen zusammenstellen  m  chte  Jeder Fall entspricht einer anderen Stadt  Au  erdem sind IDs f  r Region  Provinz   Landkreis und Stadt erfasst     demo_cs_2 sav  Hierbei handelt es sich um eine hypothetische Datendatei f  r den zweiten  Schritt eines Unternehmens  das eine Datenbank mit Umfrageinformationen zusammenstellen  m  chte  Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew  hlten  St  dten  Au  erdem sind IDs f  r Region  Provinz  Landkreis  Stadt  Stadtteil und Wohneinheit  erfasst  Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des  Stichprobenplans sind ebenfalls enthalten     demo_cs sav  Hierbei handelt es sich um eine hypothetische Datendatei  die  Umfrageinformationen enth  lt die mit einem komplexen Stichprobenplan erfasst wurden   Jeder Fall entspricht einer anderen Wohneinheit  Es sind verschiedene Informationen zum  demografischen Hintergrund und zur Stichprobenziehung erfasst     dietstudy sav  Diese hypothetische Datendatei enth  lt die Ergebnisse einer Studie der     Stillman Di  t     Rickman  Mitchell  Dingman  als auch Dalen 
10.   Maximale Anzahl von Gr  nden    3    Geben Sie an  wie viele Gr  nde ausgegeben und  falls Grundvariablen gespeichert werden   der Arbeitsdatei hinzugef  gt werden  Der Wert wird nach unten korrigiert  wenn er die  Anzahl der Analysevariablen   bersteigt        Zur  cksetzen Abbrechen Hilfe    Kriterien zum identifizieren ungew  hnlicher F  lle  Diese Optionen bestimmen  wie viele F  lle in die  Liste der Anomalien aufgenommen werden     Prozentsatz der F  lle mit den h  chsten Anomalie Indexwerten  Geben Sie eine positive Zahl  kleiner oder gleich 100 ein     Feste Anzahl von F  llen mit den h  chsten Anomalie Indexwerten  Geben Sie eine positive  Ganzzahl an  die kleiner oder gleich der Gesamtzahl der in der Analyse verwendeten F  lle in  der Arbeitsdatei ist     Nur F  lle identifizieren  deren Anomalie Index gr    er oder gleich einem Minimalwert ist   Geben Sie eine nichtnegative Zahl an  Ein Fall wird als Anomalie betrachtet  wenn sein  Anomalie Index gr    er oder gleich dem angegebenen Trennwert ist  Diese Option wird  zusammen mit den Optionen Prozentsatz der F  lle und Feste Anzahl von F  llen verwendet   Wenn Sie beispielsweise eine feste Anzahl von 50 F  llen und einen Trennwert von 2    23       Ungew  hnliche F  lle identifizieren    angeben  besteht die Anomalie Liste h  chstens aus 50 F  llen  von denen jeder einen  Anomalie Indexwert gr    er oder gleich 2 aufweist     Anzahl von Gruppen  Die Prozedur sucht nach der besten Anzahl von Gruppen zwischen dem  a
11.   Optionen                   Wahlen Sie die Galerie Streu  Punktdiagramm aus und ziehen Sie das Symbol f  r gruppierte  Streudiagramme auf die Zeichenfl  che      gt  W  hlen Sie Anomalie Index als y Variable und Einflussma   f  r Grundvariable 1 als x Variable aus        W  hlen Sie Gruppen ID als Variable aus  nach der die Farben gesetzt werden sollen     68       Kapitel 7       Klicken Sie auf OK     Nun wird das Streudiagramm erstellt     Abbildung 7 17  Streudiagramm f  r den Anomalie Index und das Einflussma   der ersten Grundvariablen    Gruppen ID  O1  O2    1 50 3          D 1 25      v      U      e  5  c 1 00 oO  i    0 75  0 10 0 15 0 20 0 25    Einflussma   f  r Grundvariable 1    Das Diagramm ergibt Folgendes     m Der Fall in der oberen rechten Ecke geh  rt zu Gruppe 3  Er ist der ungew  hnlichste Fall und  zudem der Fall  bei dem eine einzelne Variable den gr    ten Einfluss aufweist     m Entlang der y Achse ist ersichtlich  dass Gruppe 3 drei F  lle enth  lt  deren Werte f  r den  Anomalie Index knapp   ber 2 00 liegen  Diese F  lle sind potenziell anomal und sollten  n  her untersucht werden     m Entlang der x Achse ist ersichtlich  dass Gruppe 1 vier F  lle enth  lt  deren  Variablen Einflussma  e im Bereich von 0 23 bis 0 33 liegen  Diese F  lle sollten n  her  untersucht werden  weil diese Werte dazu f  hren  dass sich die entsprechenden F  lle von den  anderen F  llen absetzen     m Gruppe 2 scheint homogen zu sein  Ihr Anomalie Index und ihre Variabl
12.   Oto2 Categorical       l  0 to 3 Categorical  Hospital size  hospsize  C  1 to 4 Categorical   m    m        Nonnegative integer  Nonnegative number    Patient ID  patid  I 99969     Attending physician ID  p    hilh 001448 995409    Age in years  age  86  v  Age category  agecat  4 0    Anzeigen    Alle Variablen v   Durchsuchte F  lle  1183 Regeln definieren     Yariablenverteilungen    Durchsuchte Anzahl der u  Begrenzen der durchsuchten F  lle hat keinen Einflu    F  lle  SEH Erneut durchsuchen auf die Anzahl der validierten F  lle     F  lle begrenzen                   Auf der Registerkarte    Regeln f  r eine Variable    werden verf  gbare Validierungsregeln f  r eine  Variable angezeigt  die Sie auf die Analysevariablen anwenden k  nnen  Um weitere Regeln f  r  einzelne Variablen zu definieren  klicken Sie auf Regeln definieren  F  r weitere Informationen  siehe Definieren von Regeln f  r eine Variable in Kapitel 2 auf S  4     Analysevariablen  In der Liste werden Analysevariablen aufgef  hrt  ihre Verteilungen  zusammengefasst und die Anzahl der Regeln angezeigt  die auf jede Variable angewendet  werden  Beachten Sie  dass benutzerdefinierte und systemdefinierte fehlende Werte nicht in  den Zusammenfassungen enthalten sind  Durch die Dropdown Liste    Anzeige    wird gesteuert   welche Variablen angezeigt werden  Zur Auswahl stehen Alle Variablen  Numerische Variablen   String Variablen und Datumsvariablen     Regeln  Um Regeln auf Analysevariablen anzuwenden  w  h
13.   Speichern     ES Optimales Klassieren    Variablen   Ausgabe   Speichern   Fehlende Werte definieren   Optionen          Variablen in Arbeitsdatei speichern       EI Yariablen erstellen  de Klassenwerte enthalten       Suffix f  r Ausgabevariablen   Klasse             F  r jede Variable  f  r die die Klassierung erfolgt  wird genau eine Variable erstellt  Die Namen der  Ausgabevariablen werden durch Anf  gen eines Unterstrichs und des Suffixes an den Namen der  urspr  nglichen Yariablen erstellt  Beispiel  Alter_Klasse            _  Yorhandene Variablen mit demselben Namen ersetzen        Klassierungsregeln als SPSS Syntax speichern    Datei    kanikloan_kinning rules sps Durchsuchen    Um Klassierungsregeln zu speichern  geben Sie eine Datei an  Sie k  nnen die gespeicherte Syntax f  r die  Klassierung von F  llen verwenden  die zum Zeitpunkt der Klassenerstellung noch nicht verf  gbar sind                       Einf  gen Zur  cksetzen Abbrechen Hilfe             W  hlen Sie Variablen erstellen  die Werte der Daten in Klassen enthalten      gt  Geben Sie einen Pfad und einen Dateinamen f  r die Syntaxdatei ein  die die generierten  Klassierungsregeln enthalten soll  In diesem Beispiel haben wir  bankloan_binning rules sps  verwendet        Klicken Sie auf OK     Diese Auswahl f  hrt zu folgender Befehlssyntax       Optimales Klassieren   OPTIMAL BINNING    VARIABLES GUIDE default BIN age employ address income debtinc creddebt   othdebt SAVE YES  INTO age_Klasse employ_Klas
14.   bei denen die F  lle in einer unterschiedlichen  zuf  llig ausgew  hlten Reihenfolgen  sortiert sind  In Situationen mit extrem umfangreichen Dateien k  nnen mehrere Durchg  nge  mit jeweils einer Stichprobe von F  llen durchgef  hrt werden  die in unterschiedlicher  zuf  llig  ausgew  hlter Reihenfolge sortiert ist     Annahmen  Der Algorithmus setzt voraus  dass alle Variablen nichtkonstant und unabh  ngig  sind  Es wird au  erdem angenommen  dass kein Fall bei einer Eingabevariablen fehlende  Werte aufweist  F  r alle stetigen Variablen wird eine Normalverteilung  Gau   Verteilung   und f  r alle kategorialen Variablen eine multinomiale Verteilung vorausgesetzt  Empirische  interne Tests zeigen  dass die Prozedur wenig anf  llig gegen  ber Verletzungen hinsichtlich der  Unabh  ngigkeitsannahme und der Verteilungsannahme ist  Dennoch sollten Sie darauf achten   wie genau diese Voraussetzungen erf  llt sind     So identifizieren Sie ungew  hnliche F  lle     W  hlen Sie die folgenden Befehle aus den Men  s aus     Daten  Ungew  hnliche F  lle identifizieren       Abbildung 4 1  Dialogfeld  Ungew  hnliche F  lle identifizieren  Registerkarte    Variablen       W Ungew  hnliche F  lle identifizieren    Variablen Ausgabe    Speichern    Fehlende Werte   Optionen         Variablen    nalysevariablen    PaHospital ID  hospid    oll Age category  agecat    ij Hospital size  hospsize    Gender  gender    daAttending physician ID  physid    BPhysically active  active      ia   obe
15.   erdem  gibt es drei Markennamen  K2R  Glory und Bissell   drei Preisstufen sowie je zwei Stufen   Nein oder Ja  f  r die letzten beiden Faktoren  10 Kunden stufen 22 Profile ein  die durch  diese Faktoren definiert sind  Die Variable Preference enth  lt den Rang der durchschnittlichen  Einstufung f  r die verschiedenen Profile  Ein niedriger Rang bedeutet eine starke  Bevorzugung  Diese Variable gibt ein Gesamtma   der Bevorzugung f  r die Profile an     carpet_prefs sav  Diese Datendatei beruht auf denselben Beispielen  wie f  r carpet sav  beschrieben  enth  lt jedoch die tats  chlichen Einstufungen durch jeden der 10 Kunden   Die Kunden wurden gebeten  die 22 Produktprofile in der Reihenfolge ihrer Pr  ferenzen  einzustufen  Die Variablen PREF  bis PREF22 enthalten die IDs der zugeordneten Profile   wie in carpet_plan sav definiert     catalog sav  Diese Datendatei enth  lt hypothetische monatliche Verkaufszahlen f  r  drei Produkte  die von einem Versandhaus verkauft werden  Daten f  r f  nf m  gliche  Einflussvariablen wurden ebenfalls aufgenommen     catalog_seasfac sav  Diese Datendatei ist mit catalog sav identisch  au  er  dass ein Set von  saisonalen Faktoren  die mithilfe der Prozedur    Saisonale Zerlegung    berechnet wurden   sowie die zugeh  rigen Datumsvariablen hinzugef  gt wurden     cellular sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen eines Mobiltelefonunternehmens geht  die Kundenabwanderung zu verringern
16.  1974   Jeder Fall entspricht  einem Teilnehmer und enth  lt dessen Gewicht vor und nach der Di  t in amerikanischen Pfund  sowie mehrere Messungen des Triglyceridspiegels  in mg 100 ml      dischargedata sav  Hierbei handelt es sich um eine Datendatei zum Thema Seasonal Patterns  of Winnipeg Hospital Use   Menec   Roos  Nowicki  MacWilliam  Finlayson   als auch Black   1999   Saisonale Muster der Belegung im Krankenhaus von Winnipeg  vom Manitoba  Centre for Health Policy     dvdplayer sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es   um die Entwicklung eines neuen DVD Spielers geht  Mithilfe eines Prototyps hat das  Marketing Team Zielgruppendaten erfasst  Jeder Fall entspricht einem befragten Benutzer  und enth  lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum  Prototyp     flying sav  Diese Datendatei enth  lt die Flugmeilen zwischen zehn St  dten in den USA     german_credit sav  Diese Daten sind aus dem Daten Set    German credit    im Repository of  Machine Learning Databases  Blake als auch Merz  1998  an der Universit  t von Kalifornien  in Irvine entnommen     grocery_1month sav  Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei  grocery_coupons sav  wobei die w  chentlichen Eink  ufe zusammengefasst sind  sodass  jeder Fall einem anderen Kunden entspricht  Dadurch entfallen einige der Variablen  die  w  chentlichen   nderungen unterworfen waren  und der verzeichnete ausgegebene Betrag ist  n
17.  Aufwand wert  wenn Sie regelm    ig Datendateien mit   hnlichen Attributen  validieren m  ssen       Datenvalidierung  F  hren Sie grundlegende Pr  fungen und Pr  fungen mit definierten  Validierungsregeln durch  um ung  ltige F  lle  Variablen und Datenwerte zu identifizieren   Wenn sie ung  ltige Daten gefunden haben  untersuchen und beseitigen Sie die Ursache   Dies macht m  glicherweise einen weiteren Durchlauf durch die Vorbereitung der Metadaten  erforderlich     m Vorbereitung des Modells  Identifizieren Sie potenzielle statistische Ausrei  er  die in vielen  Vorhersagemodellen Probleme verursachen k  nnen  Einige Ausrei  er sind das Ergebnis von  ung  ltigen Variablenwerte  die noch nicht identifiziert wurden  Dies macht m  glicherweise  einen weiteren Durchlauf durch die Vorbereitung der Metadaten erforderlich  Wenn f  r das  von Ihnen ausgew  hlte Vorhersagemodell kategoriale Variablen erforderlich sind  m  ssen  Sie alle metrischen Variablen diskretisieren     Sobald die Datendatei    sauber    ist  k  nnen Sie Modelle in anderen Erweiterungsmodulen erstellen        Kapitel    Val  dierungsregeln    Eine Regel wird verwendet  um zu entscheiden  ob ein Fall g  ltig ist  Es gibt zwei Typen von  Validierungsregeln     m Regeln f  r eine Variable  Regeln f  r eine Variable bestehen aus einer festen Gruppe von Tests   die auf eine einzige Variable angwendet werden  z  B  Tests auf Werte au  erhalb des Bereichs   Bei den Regeln f  r eine Variable k  nnen die g  ltigen W
18.  Dialogfeld    Optimales Klassieren      Registerkarte    Variablen       E Optimales Binning    Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen      Variablen  L Variablen f  r Binning   eve of education  ed  E Age in years  age    E Years with current employer       E Years at current address  ad     E Household income in thousan     E Debt to income ratio  x100        E Credit card debt in thousands     E Other debt in thousands  oth             Binning in Klassen optimieren in Hinblick auf     4 Previously defaulted  default                 nominale Optimierungsvariable  Die ausgew  hlten Klassen maximieren die    Q Eine oder mehrere metrische Variablen f  r das Binning ausw  hlen sowie eine  Zuordnung zwischen der Binning Variablen und der Optimierungsvariablen     Auf der Registerkarte  Speichern  k  nnen Sie Variablen  die Werte der Daten in  Klassen und oder Binning Regeln enthalten  speichern              W  hlen Sie mindestens eine Binning Eingabevariable aus        W  hlen Sie eine F  hrungsvariable aus     Variablen  die die klassierten Datenwerte enthalten  werden nicht standardm    ig erstellt  Auf der  Registerkarte Speichern k  nnen Sie diese Variablen speichern     26       Kapitel 5    Optimales Klassieren     Ausgabe    Abbildung 5 2  Dialogfeld    Optimales Klassieren     Registerkarte    Ausgabe       E Optimales Binning    EE  Yariablen   Ausgabe   Speichern   Fehlende Werte   Optionen    Anzeigen     C  Beschreibende Statistiken f  r Binning
19.  Editor  ersichtlich  Diese klassierten Variablen sind n  tzlich  wenn Sie benutzerdefinierte  Zusammenfassungen der Klassierungsergebnisse mithilfe von deskriptiven Prozeduren oder  Berichtsprozeduren erstellen m  chten  Es ist jedoch nicht ratsam  dieses Daten Set zur Erstellung  eines Vorhersagemodells zu verwenden  da die Klassierungsregeln mithilfe dieser F  lle erstellt  wurden  Es ist sinnvoller  die Klassierungsregeln auf ein anderes Daten Set anzuwenden  das  Informationen zu anderen Kunden enth  lt     Anwenden von Syntax Klassierungsregeln    Bei der Ausf  hrung der Prozedur    Optimales Klassieren    haben Sie angegeben  dass die von der  Prozedur erstellten Klassierungsregeln als Befehlssyntax gespeichert werden sollten          ffnen Sie die Datei bankloan_binning rules sps     81       Optimales Klassieren    Abbildung 8 14  Syntaxregeldatei    td bankloan_binning rules sps   SPSS Syntax Editor DER   Datei Bearbeiten Ansicht Daten Transformieren Analysieren Grafiken Extras Ausf  hren Fenster Hilfe    204 bo o Es  P A  gt     C      OPTIMAL BINNING Rules     RECODE age   MISSING   SYSMIS    32 THRU HI   2    LOW THRU 32   1   INTO age_bin   VARIABLE LABELS  age_bin  Binned input variable age based on guide variable default      FORMATS  age_bin  F8 0    VARIABLE LEVEL  age_bin  NOMINAL    VALUE LABELS age_bin  1    age  lt  32   232  lt   age        RECODE employ  MISSING   2  SMIc       SPSS Prozessor ist bereit       F  r jede Klassierungs Eingabevariable gibt
20.  F  lle identifizieren  17  54  Ausgabe  19  Auswertung der Gr  nde  66  Auswertung des Anomalie Index  66  Fehlende Werte  21  Liste der Gr  nde anomaler F  lle  62  Liste der Gruppen IDs anomaler F  lle  61  Liste der Indexwerte anomaler F  lle  60  Modell  54  Modelldatei exportieren  20  Normwerte der kategorialen Variablen  64  Normwerte der metrischen Variablen  63  Optionen  22  Variablen speichern  20  verwandte Prozeduren  69  Zusammenfassung der Fallverarbeitung  59  Un  berwachtes Binning  im Vergleich mit   berwachtem Binning  24    99       Unvollst  ndige Fallbezeichner  in    Daten validieren     15  35    Validierungsregeln  2  Validierungsregeln definieren  3   Regeln f  r eine Variable  4   Regeln f  r mehrere Variablen  6  Validierungsregeln f  r eine Variable   definieren  45   in    Daten validieren     12   in    Validierungsregeln definieren     4  Validierungsregeln f  r mehrere Variablen   definieren  45   in    Daten validieren     13  52   in    Validierungsregeln definieren     6  Validierungsregelverletzungen   in    Daten validieren     15  Variablenauswertung   in    Daten validieren     43  Verletzungen von Validierungsregeln   in    Daten validieren     15    Warnungen  in    Daten validieren     34    Zusammenfassung der Fallverarbeitung  in    Ungew  hnliche F  lle identifizieren     59    Index    
21.  GruppelD stellt die Gruppen ID des Falls dar  GruppeGr    e die  Gruppengr    e und GruppePrztGr    e die Gruppengr    e als Prozentsatz     m Gr  nde  Speichert Sets von Grundvariablen mit dem angegebenen Stammnamen  Ein Set  von Grundvariablen besteht aus dem Namen einer Variablen  die einen Grund darstellt   dem Einflussma   der Variablen  dem Variablenwert und dem Normwert  Die Anzahl der  Sets h  ngt von der Anzahl der angeforderten Gr  nde ab  angegeben auf der Registerkarte     Optionen      Wenn als Stammname zum Beispiel Grund angegeben wurde  werden die  Variablen GrundVar_k  GrundMa  _k  GrundWert_k und GrundNormwert_k erzeugt  wobei  k den k ten Grund darstellt  Diese Option steht nicht zur Verf  gung  wenn die Anzahl der  Gr  nde auf 0 festgelegt wurde     Modelldatei exportieren  Hiermit k  nnen Sie das Modell im XML Format speichern     Ungew  hnliche F  lle identifizieren  Fehlende Werte    Abbildung 4 4  Dialogfeld  Ungew  hnliche F  lle identifizieren    Registerkarte    Fehlende Werte       W Ungew  hnliche F  lle identifizieren  variablen   Ausgabe   Speichern   Fehlende Werte   Optionen       Fehlende Werte aus der Analyse ausschlie  en    Benutzer  und systemdefinierte fehlende Werte werden ausgeschlossen     Bei metrischen Yariablen werden benutzer  und systemdefinierte fehlende Werte  durch den Gesamtmittelwert der Yariablen ersetzt  Bei kategorialen Yariablen werden  benutzer  und systemdefinierte fehlende Werte zusammengefasst und als Kategorie in  
22.  Neu     49       vveovv y    Abbildung 6 22    Daten validieren    Dialogfeld    Validierungsregeln definieren  Registerkarte    Regeln f  r eine Variable     Definition von       O to 100 by 5        L Validierungsregeln definieren    Regeln     Regeln f  r eine Variable   Regeln f  r mehrere Variablen       Regeldefinition       Name    0 1 dichotomy   0 to 2 Categorical   0 to 3 Categorical   1 to 4 Categorical  Nonnegative integer  Nonnegative number  1 to 3 Categorical  Oto 5 Categorical  Oto 100 by 5       Typ  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch       Name    Oto 100 by 5 Typ        Numerisch               menjtty iii       G  ltige Werte   In einer Liste          v    Gro    Kleinschreibung bei der Wertepr  fung ignorieren    Benutzerdefinierte Fehlende Werte zulassen   C  Systemdefinierte fehlende Werte zulassen      eere Werte zulasser          Duplizieren L  schen             Geben Sie als Name der Regel 0 to 100 by 5 ein     W  hlen Sie im Feld    G  ltige Werte    den Eintrag In einer Liste aus     Geben Sie die Werte 0  5      bis 100 ein     Deaktivieren Sie Systemdefinierte fehlende Werte zulassen     Klicken Sie auf Weiter     50       Kapitel 6    Abbildung 6 23  Dialogfeld  Daten validieren       Registerkarte    Regeln f  r eine Variable     Definition von  O to 100 by 5        Daten validieren    BEE   S    Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere V
23.  Regeln zum Erkennen unm  glicher  Kombinationen f  r mehrere Variablen definieren  Die Prozedur liefert einen Bericht der  Problemf  lle und  variablen  Dar  ber hinaus weisen die Daten in jedem Monat die gleichen  Datenelemente auf  sodass die Analytikerin in der Lage ist  die Regeln im folgenden Monat auf  die neue Datendatei anzuwenden     Statistiken  Die Prozedur erzeugt Listen von Variablen  F  llen und Datenwerten  die verschiedene  Pr  fungen nicht bestehen  H  ufigkeiten der Verletzung von Regeln f  r einzelne oder mehrere  Variablen sowie einfache deskriptive Auswertungen der Analysevariablen     Gewichtungen  Die Prozedur ignoriert Angaben zur Gewichtungsvariablen und behandelt diese  stattdessen wie jede andere Analysevariable     So validieren Sie Daten        W  hlen Sie die folgenden Befehle aus den Men  s aus   Daten  Validierung  Daten validieren       9       Daten validieren    Abbildung 3 1  Dialogfeld    Daten validieren  Registerkarte    Variablen       Daten validieren    EE  Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Variablen  Analysevariablen   8 Length of stay for rehabil     E Total treatment and reha     Rankin score at 1 month       Rankin score at 3 months     Rankin score at 6 months        Barthel index at 1 month        Barthel index at 3 months        Barthel index at 6 months     oi Recoded Barthel index at     d Recoded Barthel index at     ofiRecoded Barthel in
24.  Unterlagen  die mit Ihrem System geliefert werden     Seriennummern    Die Seriennummer des Programms dient gleichzeitig als Identifikationsnummer bei SPSS    Sie ben  tigen diese Seriennummer  wenn Sie sich an SPSS wenden  um Informationen   ber  Kundendienst  zu Zahlungen oder Aktualisierungen des Systems zu erhalten  Die Seriennummer  wird mit dem Base System ausgeliefert     Kundendienst    Wenden Sie sich mit Fragen bez  glich der Lieferung oder Ihres Kundenkontos an Ihr regionales  SPSS B  ro  das Sie auf der SPSS Website unter http   www spss com worldwide finden  Halten  Sie bitte stets Ihre Seriennummer bereit     Ausbildungsseminare    SPSS bietet   ffentliche und unternehmensinterne Seminare an  Alle Seminare beinhalten auch  praktische   bungen  Seminare finden in gr    eren St  dten regelm    ig statt  Wenn Sie weitere   Informationen zu diesen Schulungen w  nschen  wenden Sie sich an Ihr regionales SPSS B  ro   das Sie auf der SPSS Website unter http   www spss com worldwide finden     Technischer Support    Kunden von SPSS mit Wartungsvertrag k  nnen den Technischen Support in Anspruch nehmen   Kunden k  nnen sich an den Technischen Support wenden  wenn sie Hilfe bei der Arbeit mit  SPSS oder bei der Installation in einer der unterst  tzten Hardware Umgebungen ben  tigen   Informationen   ber den Technischen Support finden Sie auf der Website von SPSS unter  http   www spss com oder wenden Sie sich an Ihr regionales SPSS B  ro  das Sie auf der  SPSS Website un
25.  Yariablen     C  Modellentropie f  r Binning Variablen       Die Registerkarte    Ausgabe    steuert die Anzeige der Ergebnisse     m Endpunkte f  r Klassen  Zeigt das Set an Endpunkten f  r die einzelnen  Klassierungs Eingabevariablen an     m  Beschreibende Statistiken f  r Binning Variablen  Diese Option zeigt f  r die einzelnen  Binning Eingabevariablen die Anzahl der F  lle mit g  ltigen Werten  die Anzahl der F  lle  mit fehlenden Werten  die Anzahl der verschiedenen g  ltigen Werte sowie die Minimal  und  Maximalwerte an  F  r die F  hrungsvariable zeigt diese Option die Klassenverteilung f  r alle  zugeh  rigen Binning Eingabevariaben an     m Modellentropie f  r Binning Variable  F  r jede Binning Eingabevariable zeigt diese Option ein  Ma   f  r die Vorhersagegenauigkeit der Variablen hinsichtlich der F  hrungsvariablen an     27       Optimales Klassieren    Optimales Klassieren     Speichern    Abbildung 5 3  Dialogfeld    Optimales Klassieren     Registerkarte    Speichern       E Optimales Binning    Variablen   Ausgabe Speichern   Fehlende Werte Optionen    Yariablen in Arbeitsdatei speichern    Suffix f  r Ausgabevariablen    Klasse    F  r jede Variable  f  r die das Binning erfolgt  wird genau eine Variable erstellt  Die Namen  der Ausgabevariablen werden durch Anf  gen eines Unterstrichs und des Suffixes an den  Namen der urspr  nglichen Variablen erstellt  Beispiel  Age_bin     C  vorhandene variablen mit demselben Namen ersetzen    Binning Regeln als SP5
26.  category  agecat  4 oo          Mi  m   Durchsuchte F  lle  1183 Regeln definieren            Durchsuchte Anzahl der SNE soe Begrenzen der durchsuchten F  lle hat keinen Einflu      E  le  S000    Erneut durchsuchen auf die Anzahl der validierten F  lle     F  lle begrenzen             Anzeigen    Alle variablen       Yariablenverteilungen                   gt  Um die Daten in stroke_invalid sav auf der Grundlage der kopierten Regeln zu validieren  klicken  Sie auf der Symbolleiste auf die Schaltfl  che    Zuletzt verwendete Dialogfelder    und w  hlen Sie  Daten validieren aus      gt  Klicken Sie auf die Registerkarte Regeln f  r eine Variable     In der Liste    Analysevariablen    werden die Variablen  die Sie auf der Registerkarte    Variablen     ausgew  hlt haben  zusammenfassende Informationen zu deren Verteilungen und die Anzahl der  Regeln angezeigt  die ihnen jeweils zugeordnet sind  Variablen  deren Eigenschaften aus der Datei  patient_los sav kopiert wurden  besitzen zugeordnete Regeln    In der Liste    Regeln    werden die Validierungsregeln f  r eine Variable angezeigt  die in der  Datendatei verf  gbar sind  Diese Regeln wurden aus der Datei patient_los sav kopiert  Beachten  Sie  dass einige dieser Regeln auch auf Variablen zutreffen  f  r die in der anderen Datendatei  keine exakten Entsprechungen vorliegen     41       vy v v y    Daten validieren    Abbildung 6 11  Dialogfeld    Daten validieren  Registerkarte    Regeln f  r eine Variable       Daten val
27.  chen angezeigt     m Neu  F  gt einen neuen Eintrag am Ende der Liste    Regeln    hinzu  Die Regel wird ausgew  hlt  und erh  lt den Namen    MehrVarRegel n     Hierbei ist n eine Ganzzahl  sodass der Name der  Regel unter den Regeln f  r eine oder mehrere Variablen eindeutig ist     7       Validierungsregeln    m  Duplizieren  F  gt eine Kopie der ausgew  hlten Regel am Ende der Liste    Regeln    hinzu     Der Name der Regel wird so angepasst  dass er unter den Regeln f  r eine oder mehrere  Variablen eindeutig ist  Wenn Sie beispielsweise    MehrVarRegel 1    duplizieren  erh  lt die  erste duplizierte Regel den Namen    Kopie von MehrVarRegel 1     die zweite den Namen     Kopie  2  von MehrVarRegel 1    usw     m L  schen  L  scht die ausgew  hlte Regel     Regeldefinition  Mit diesen Steuerelementen k  nnen Sie die Eigenschaften f  r eine ausgew  hlte  Regel anzeigen lassen und festlegen     m Name  Der Name der Regel muss unter den Regeln f  r eine oder mehrere Variablen eindeutig    sein     m Logischer Ausdruck  Im Wesentlichen ist dies die Regeldefinition  Die Auswertung des    Ausdrucks f  r einen ung  ltigen Fall muss 1 entsprechen     Erstellen von Ausdr  cken     gt  Um einen Ausdruck zu erstellen  f  gen Sie die Komponenten in das Feld    Ausdruck    ein oder  geben den Ausdruck direkt in dieses Feld ein     m Sie k  nnen Funktionen oder h  ufig verwendete Systemvariablen einf  gen  indem Sie eine    Gruppe aus der Liste    Funktion    ausw  hlen und in der 
28.  diskretisierter Variablen erh  hen     m Ermittlung vollst  ndiger oder quasi vollst  ndiger Datentrennung     Optimales Klassieren im Vergleich zum visuellen Klassieren  In den Dialogfeldern von    Visuelles  Klassieren    stehen Ihnen mehrere automatische Methoden zur Erstellung von Klassen ohne die  Verwendung einer F  hrungsvariablen zur Verf  gung  Diese Regeln f  r un  berwachtes Klassieren  sind n  tzlich f  r die Erstellung deskriptiver Statistiken  wie beispielsweise H  ufigkeitstabellen      Optimales Klassieren    ist am besten  wenn das Endziel in der Erstellung eines Vorhersagemodells  besteht     Ausgabe  Mit dieser Prozedur werden Tabellen mit Trennwerten f  r die Klassen und deskriptive  Statistiken f  r jede Klassierungs Eingabevariable erstellt  Zus  tzlich k  nnen Sie neue Variablen  im aktiven Daten Set speichern  die die klassierten Werte der Klassierungs Eingabevariablen  enthalten und die Klassierungsregeln als Befehlssyntax zur Verwendung bei der Diskretisierung  neuer Daten speichern     Daten  Bei dieser Prozedur wird davon ausgegangen  dass es sich bei den Binning Eingabevariablen  um metrische  numerische Variablen handelt  Die F  hrungsvariable sollte kategorial sein  Es kann  sich dabei um eine String Variable oder eine numerische Variable handeln     24    25       Optimales Klassieren    So erhalten Sie ein optimales Klassieren     Wahlen Sie die folgenden Befehle aus den Meniis aus     Transformieren  Optimales Klassieren       Abbildung 5 1 
29.  es einen Block mit Befehlssyntax  die die Klassierung  durchf  hrt  Variablenlabel  Format und Stufe und die Variablenlabels f  r die Klassen festlegt   Diese Befehle k  nnen auf ein Daten Set angewendet werden  das dieselben Variablen enth  lt  wie bankloan_binning sav          ffnen Sie die Datei bankloan sav  F  r weitere Informationen siehe Beispieldateien in Anhang A  auf S  84        Kehren Sie zur Syntax Editor Ansicht von bankloan_binning rules sps zur  ck     82       Kapitel 8     gt  Um die Klassierungsregeln anzuwenden  w  hlen Sie im Syntax Editor folgende Befehle aus     Ausf  hren  Alles       Abbildung 8 15  Klassierte Variablen f  r bankloan sav im Daten Editor      preddef3   age_bin  employ_bin  address_bin   income_bin  debtinc_bin  creddebt_bin othdebt_bin    GA  N  N  N   gt     n  w     nn n        w  w     n  n              nj n     ninj n  md  n  w        w  v     w     n  w     m    He RO  Pi M  I  e e  N w  se  n     w  w  w  GO  RO  n   S  S     EIN w     N  w             2  1  2  2  1  2  2  2  1  2  1  1  2  2  2                  Yariablenansicht          Die Variablen inbankloan sav wurden klassiert  Hierf  r wurden die Regeln verwendet  die bei  der Ausf  hrung der Prozedur    Optimales Klassieren    f  r die Datei bankloan_binning sav erstellt  wurden  Dieses Daten Set kann nun zur Erstellung von Vorhersagemodellen verwendet werden   bei denen kategoriale Variablen erforderlich oder vorzuziehen sind     Zusammenfassung    Mithilfe der Prozedu
30.  f  r 85 Regionen   ber einen Zeitraum von vier Jahren     broadband_2 sav  Diese Datendatei stimmt mit broadband_1 sav   berein  enth  lt jedoch Daten  f  r weitere drei Monate     86       Anhang A    car_insurance_claims sav  Ein an anderer Stelle  McCullagh als auch Nelder  1989   vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr  che f  r Autos  Die  durchschnittliche H  he der Schadensanspr  che l  sst sich mit Gamma Verteilung modellieren   Dazu wird eine inverse Link Funktion verwendet  um den Mittelwert der abh  ngigen  Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers  Fahrzeugtyp  und Fahrzeugalter in Bezug zu setzen  Die Anzahl der eingereichten Schadensanspr  che kann  als Skalierungsgewicht verwendet werden     car_sales sav  Diese Datendatei enth  lt hypothetische Verkaufssch  tzer  Listenpreise und  physische Spezifikationen f  r verschiedene Fahrzeugfabrikate und  modelle  Die Listenpreise  und physischen Spezifikationen wurden von edmunds com und Hersteller Websites  entnommen     carpet sav  In einem beliebten Beispiel m  chte  Green als auch Wind  1973  einen neuen  Teppichreiniger vermarkten und dazu den Einfluss von f  nf Faktoren auf die Bevorzugung  durch den Verbraucher untersuchen  Verpackungsgestaltung  Markenname  Preis  G  tesiegel   Good Housekeeping und Geld zur  ck Garantie  Die Verpackungsgestaltung liegt in drei  Faktorstufen vor  die sich durch die Position der Auftrageb  rste unterscheiden  Au
31.  f  r die Risikoanf  lligkeit an     site sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen eines Unternehmens geht  neue Standorte f  r die betriebliche Expansion  auszuw  hlen  Das Unternehmen beauftragte zwei Berater unabh  ngig voneinander mit der  Bewertung der Standorte  Neben einem umfassenden Bericht gaben die Berater auch eine  zusammenfassende Wertung f  r jeden Standort als    good     gut     fair     mittelm    ig  oder     poor     schlecht  ab     93       Beispieldateien    siteratings sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Betatests der neuen Website eines E Commerce Unternehmens geht  Jeder Fall entspricht  einem Beta Tester  der die Brauchbarkeit der Website auf einer Skala von 0 bis 20 bewertete     smokers sav  Diese Datendatei wurde aus der Umfrage    National Household Survey of  Drug Abuse    aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe  US amerikanischer Haushalte dar  Daher sollte der erste Schritt bei der Analyse dieser  Datendatei darin bestehen  die Daten entsprechend den Bev  lkerungstrends zu gewichten     smoking sav  Hierbei handelt es sich um eine von Greenacre  Greenacre   1984   vorgestellte hypothetische Tabelle  Die relevante Tabelle wird durch eine Kreuztabelle der  Rauchgewohnheiten und der Berufskategorie gebildet  Die Variable Berufsgruppe enth  lt die  Berufskategorien Senior Manager  Junior Manager  Angestellter mit 
32.  gt  SPSS Data Preparation   Aufbereitung von Daten   16 0                Weitere Informationen zu SPSS   Software Produkten finden Sie auf unserer Website unter der Adresse http   www spss com  oder wenden Sie sich an    SPSS Inc    233 South Wacker Drive  11th Floor  Chicago  IL 60606 6412  USA   Tel    312  651 3000   Fax   312  651 3668    SPSS ist eine eingetragene Marke  und weitere Produktnamen sind Marken der SPSS Inc  fiir Computerprogramme von SPSS  Inc  Die Herstellung oder Verbreitung von Materialien  die diese Programme beschreiben  ist ohne die schriftliche Erlaubnis des  Eigent  mers der Marke und der Lizenzrechte der Software und der Copyrights der ver  ffentlichten Materialien verboten     Die SOFTWARE und die Dokumentation werden mit BESCHR  NKTEN RECHTEN zur Verf  gung gestellt  Verwendung   Vervielf  ltigung und Ver  ffentlichung durch die Regierung unterliegen den Beschr  nkungen in Unterabschnitt  c  1  ii  von The  Rights in Technical Data and Computer Software unter 52 227 7013  Vertragspartner Hersteller ist SPSS Inc   233 South Wacker  Drive  11th Floor  Chicago  IL 60606 6412    Patentnr  7 023 453    Allgemeiner Hinweis  Andere in diesem Dokument verwendete Produktnamen werden nur zu Identifikationszwecken genannt  und k  nnen Marken der entsprechenden Unternehmen sein     Windows ist eine eingetragene Marke der Microsoft Corporation    Apple  Mac und das Mac Logo sind Marken von Apple Computer  Inc   die in den USA und in anderen L  ndern eingetra
33.  r kategoriale Variablen     Minimaler Yariationskoeffizient    0 001  Gilt nur f  r metrische Yariablen        Minimale Standardabweichung  0  Gilt nur f  r metrische Variablen     Fallbezeichner       Unvallstandige IDs markieren     V  Doppelte IDs markieren           MV  Leere F  lle markieren F  lle definieren nach    Alle Yariablen im Daten Set ohne ID Variabler v    Ein Fall gilt als leer  wenn alle relevanten Yariablen fehlen oder leer sind     Auf der Registerkarte    Grundlegende Pr  fungen    k  nnen Sie grundlegende Pr  fverfahren f  r  Analysevariablen  Fallbezeichner und ganze F  lle ausw  hlen     Analysevariablen  Wenn Sie auf der Registerkarte    Variablen    Analysevariablen ausgew  hlt  haben  k  nnen Sie die folgenden G  ltigkeitspr  fungen ausw  hlen  Mit den Kontrollk  stchen  k  nnen Sie die einzelnen Pr  fungen aktivieren oder deaktivieren     Maximaler Prozentsatz fehlender Werte  Gibt Analysevariablen aus  bei denen der prozentuale  Anteil fehlender Werte den angegebenen Wert   bersteigt  Der angegebene Wert muss eine  positive Zahl kleiner oder gleich 100 sein     Maximaler Prozentsatz der F  lle in einer einzelnen Kategorie  Wenn kategoriale  Analysevariablen vorhanden sind  werden bei dieser Option kategoriale Analysevariablen  ausgegeben  bei denen der prozentuale Anteil der F  lle  die eine einzelne nichtfehlende  Kategorie darstellen  den angegebenen Wert   bersteigt  Der angegebene Wert muss eine  positive Zahl kleiner oder gleich 100 sein  De
34.  ufe sind in Grundbucheintr  gen  dokumentiert     mutualfund sav  Diese Datendatei betrifft Aktienmarktdaten f  r verschiedene  Technologieaktien  die in im Index S amp P 500 verzeichnet sind  Jeder Fall entspricht einem  Unternehmen     nhis2000_subset sav  Die    National Health Interview Survey  NHIS     ist eine gro  e   bev  lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev  lkerung  Es  werden pers  nliche Interviews in einer landesweit repr  sentativen Stichprobe von Haushalten  durchgef  hrt  F  r die Mitglieder jedes Haushalts werden demografische Informationen und  Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt  Diese Datendatei  enth  lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000  National Center  for Health Statistics  National Health Interview Survey  2000  Datendatei und Dokumentation    ffentlich zug  nglich  ftp   ftp cdc gov pub Health_Statistics NCHS Datasets NHIS 2000    Zugriff erfolgte 2003     ozone sav  Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur  Vorhersage der Ozonkonzentration aus den   brigen Variablen  Bei fr  heren Untersuchungen   Breiman als auch Friedman  1985    Hastie als auch Tibshirani  1990  fanden Wissenschaftler  einige Nichtlinearit  ten unter diesen Variablen  die die Standardverfahren bei der Regression  behindern     pain_medication sav  Diese hypothetische Datendatei enth  lt die Ergebnisse eines klinischen  Tests f  r ein entztindungshem
35.  und erfasst Daten zu dessen demografischen Hintergrund  einige Details zu seinem ersten  Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme  sofern diese innerhalb von zwei  Jahren nach der ersten Festnahme erfolgte     recidivism_cs_sample sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei   der es um die Bem  hungen einer Strafverfolgungsbeh  rde geht  einen Einblick in die  R  ckfallraten in ihrem Zust  ndigkeitsbereich zu gewinnen  Jeder Fall entspricht einem  fr  heren Straft  ter  der im Juni 2003 erstmals aus der Haft entlassen wurde  und erfasst Daten  zu dessen demografischen Hintergrund  einige Details zu seinem ersten Verbrechen sowie die  Daten zu seiner zweiten Festnahme  sofern diese bis Ende Juni 2006 erfolgte  Die Straft  ter  wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew  hlt  gem     dem in  recidivism_cs csplan angegebenen Stichprobenplan   Da hierbei eine PPS Methode  PPS   probability proportional to size  Wahrscheinlichkeit proportional zur Gr    e  verwendet   wird  gibt es au  erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten   recidivism_cs_jointprob sav     salesperformance sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  Bewertung von zwei neuen Verkaufsschulungen geht  60 Mitarbeiter  die in drei Gruppen  unterteilt sind  erhalten jeweils eine Standardschulung  Zus  tzlich erh  lt Gruppe 2 eine  technische Schulung und Gruppe 3 eine Praxisschulung  Die ein
36. 5 Syntax speichern    un        Um Binning Regeln zu speichern  geben Sie eine Datei an  Sie k  nnen die gespeicherte  Syntax f  r das Binning von F  llen verwenden  die zum Zeitpunkt der Klassenerstellung  noch nicht verfiiabar sind           Variablen in Arbeitsdatei speichern  In der weiteren Analyse k  nnen anstelle der urspr  nglichen  Variablen Variablen verwendet werden  die die gebinnten Datenwerte enthalten     Klassierungsregeln als SPSS Syntax speichern  Generiert Befehlssyntax  die f  r die Klassierung  von anderen Daten Sets verwendet werden kann  Die Umkodierungsregeln beruhen auf den vom  Klassierungsalgorithmus bestimmten Trennwerten     28       Kapitel 5    Optimales Klassieren     Fehlende Werte    Abbildung 5 4  Dialogfeld    Optimales Klassieren    Registerkarte  Fehlende Werte       E Optimales Binning  Yariablen   Ausgabe   Speichern   Fehlende Werte   Optionen    F  lle mit fehlenden Werten ausschlie  en    OR    Nutzt beim Binning mehrerer Yariablen so viele F  lle wie m  glich        Listenweise    Gew  hrleistet  dass beim Binning mehrerer Yariablen eine konsistente Fallbasis  verwendet wird     Benutzerdefiniert fehlende Werte werden immer als ung  ltig behandelt        Auf der Registerkarte    Fehlende Werte    wird angegeben  ob der Umgang mit fehlenden  Werten anhand eines listenweisen oder paarweisen Ausschlusses erfolgt  Benutzerdefinierte  fehlende Werte werden stets als ung  ltig behandelt  Bei der Umkodierung der urspr  nglichen  Variablenw
37. 63642766 001448  Zweimal Gestorben 0418125590 877354  Zweimal Gestorben 8744721380 539412       Nonnegative integer  1   Oto 1 Dichotomy  3     4993307441 828754    Zweimal Gestorben 9714672452 237547  Zweimal Gestorben 6613279456 574275  Zweimal Gestorben 2575793702 501318  Zweimal Gestorben 2507437472 680253  Zweimal Gestorben 5284009939 657638  Zweimal Gestorben 8021997463 185703  Zweimal Gestorben 0950897644 267830  1 to 4 Categorical  1  8737661990 185787  a  The number of variables that violated the rule follows each rule              Der Fallbericht enth  lt jetzt neben den bereits vorher erkannten F  llen  die die Regeln f  r eine  Variable verletzen  auch die F  lle  die die Regeln f  r mehrere Variablen verletzen  Diese F  lle  m  ssen den f  r die Datenerfassung zust  ndigen Personen gemeldet werden  damit sie korrigiert  werden k  nnen     53       Daten validieren    Zusammenfassung    Die Analytikerin verf  gt jetzt   ber die Informationen f  r einen vorl  ufigen Bericht an den Leiter  der Datenerfassung     Verwandte Prozeduren    Die Prozedur    Daten validieren    ist n  tzlich f  r die Qualit  tskontrolle der Daten     m Mit der Prozedur Ungew  hnliche F  lle identifizieren k  nnen Sie Muster in den Daten  analysieren und F  lle identifizieren  bei denen einige signifikante Werte abweichen        Kapitel    7    Ungew  hnliche F  lle identifizieren    Mit der Prozedur    Anomalieerkennung    wird anhand von Abweichungen von den Normen der  jeweiligen Cluster
38. 72 2   und 81 4       Abbildung 7 13  Normwerte der kategorialen Variablen  ausgew  hlte Variablen     Gruppen ID  Kombiniert  0 1 0       Dead on arrival H  ufigste Kategorie 0  H  ufigkeit 90 248 958  Prozent 100 0  100 0  91 4   Initial Rankin Haufigste Kategorie  Missing 5  score Haufigkeit Value   Prozent a Ve  100 0  18 4   CAT scan result   H  ufigste Kategorie  Missing 0  Haufigkeit Valua   Prozent a0 791  100 0  75 5   Clot dissolving H  ufigste Kategorie  Missing 2  drugs H  ufigkeit Value   Prozent   Gen  100 0  37 6   Died in hospital Haufigste Kategorie  Missing 0  H  ufigkeit Value   Prozent   rar  100 0  751   Treatment result   H  ufigste Kategorie  Missing 4  H  ufigkeit vakis   Prozent   a  100 0  59 2   Post event Haufigste Kategorie  Missing    Missing 0  preventative H  ufigkeit Value  Value   surgery  Prozent 90 171 369  100 0  69 0  35 2   Post event H  ufigste Kategorie 0  Missing    Missing 0  rehabilitation Haufigkeit Value  Value   Prozent 278 90 171 314  39 2  100 0  69 0  30 0              Die durch die Normwerte der metrischen Variablen nahe gelegte Vermutung best  tigt sich  im unteren Teil der Tabelle mit den Normwerten der kategorialen Variablen  Gruppe 2  besteht vollst  ndig aus Patienten  die bereits bei der Ankunft verstorben waren  Deshalb  fehlen alle Werte der Behandlungs  und Rehabilitationsvariablen  Die meisten Patienten in  Gruppe 3  69 0   starben w  hrend der Behandlung  Daher ist die h  ufigste Kategorie f  r die  Rehabilitations
39. 8330  6461046805  6461046805  6461046805  1077125669  1077125669  1077125669  2260043998  2260043998  2260043998  4030164769  4030164769  4030164769    cost  surgery  barthel1  barthel1  rehab  rankin1  cost  barthel1  rehab  cost  barthel1  rehab  barthel1  rankint  rechart1    19 83   Missing Value    Missing Value    Missing Value    Missing Value    Missing Value    19 83   Missing Value    Missing Value    19 83   Missing Yalue    Missing Yalue    Missing Yalue    Missing Yalue         Missing Yalue     Ungew  hnliche F  lle identifizieren    Bei dieser Einstellung ist es einfach  die relativen Beitr  ge der ersten drei Gr  nde f  r jeden Fall zu  vergleichen  Wie vermutet  wird Fall 843 als anomal betrachtet  weil cost f  r diesen Fall einen  ungew  hnlich hohen Wert aufweist  Im Gegensatz dazu tr  gt kein einzelner Grund mehr als   0 10 zur Ungew  hnlichkeit von Fall 501 bei     Normwerte der metrischen Variablen    Abbildung 7 11    Normwerte der metrischen Variablen    Length of stay for  rehabilitation    Total treatment and  rehabilitation costs  in thousands    Missing Proportion    Mean  Std   Deviation  Mean  Std   Deviation    Mean  Std   Deviation    Gruppen ID    1    16 55 16 39 15 91    3 5089   19 8273  50997  20 17309  2 9E 016    12 596  000 6 834  541    006       16 39  10 887    33 7641    27 31266    Die Liste mit den Normwerten der metrischen Variablen enth  lt den Mittelwert und die  Standardabweichung jeder Variablen pro Gruppe und insgesamt  Bei 
40. Angebote f  r Kunden zu erstellen  die mit der  gr    ten Wahrscheinlichkeit darauf ansprechen  Nach dem Zufallsprinzip wurde eine  Untergruppe des Kundenstamms ausgew  hlt  Diese Gruppe erhielt die speziellen Angebote  und die Reaktionen wurden aufgezeichnet     customers_model sav  Diese Datei enth  lt hypothetische Daten zu Einzelpersonen  auf die sich  eine Marketingkampagne richtete  Zu diesen Daten geh  ren demografische Informationen   eine   bersicht   ber die bisherigen Eink  ufe und die Angabe ob die einzelnen Personen auf  die Kampagne ansprachen oder nicht  Jeder Fall entspricht einer Einzelperson     customers_new sav  Diese Datei enth  lt hypothetische Daten zu Einzelpersonen  die  potenzielle Kandidaten f  r Marketingkampagnen sind  Zu diesen Daten geh  ren  demografische Informationen und eine   bersicht   ber die bisherigen Eink  ufe f  r jede  Person  Jeder Fall entspricht einer Einzelperson     debate sav  Hierbei handelt es sich um eine hypothetische Datendatei  die gepaarte Antworten  auf eine Umfrage unter den Zuh  rern einer politischen Debatte enth  lt  Antworten vor und  nach der Debatte   Jeder Fall entspricht einem Befragten     debate_aggregate sav  Hierbei handelt es sich um eine hypothetische Datendatei  in der die  Antworten aus debate sav aggregiert wurden  Jeder Fall entspricht einer Kreuzklassifikation  der bevorzugten Politiker vor und nach der Debatte     demo sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um eine
41. Attributen des  Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw  hlen  die durch dieses  Attribut beschrieben werden  Die sechs Marken werden als    AA        BB        CC        DD        EE     und    FF    bezeichnet  um Vertraulichkeit zu gew  hrleisten     contacts sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Kontaktlisten einer Gruppe von Vertretern geht  die Computer an Unternehmen verkaufen  Die  einzelnen Kontaktpersonen werden anhand der Abteilung  in der sie in ihrem Unternehmen  arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt   Au  erdem werden der Betrag des letzten Verkaufs  die Zeit seit dem letzten Verkauf und die  Gr    e des Unternehmens  in dem die Kontaktperson arbeitet  aufgezeichnet     creditpromo sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  die Bem  hungen eines Kaufhauses geht  die Wirksamkeit einer k  rzlich durchgef  hrten  Kreditkarten Werbeaktion einzusch  tzen  Dazu wurden 500 Karteninhaber nach dem  Zufallsprinzip ausgew  hlt  Die H  lfte erhielt eine Werbebeilage  die einen reduzierten  Zinssatz f  r Eink  ufe in den n  chsten drei Monaten ank  ndigte  Die andere H  lfte erhielt  eine Standard Werbebeilage     customer_dbase sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der   es um die Bem  hungen eines Unternehmens geht  das die Informationen in seinem Data  Warehouse nutzen m  chte  um spezielle 
42. Betr  gen und den daraus resultierenden Ums  tzen zu untersuchen  Zu diesem  Zweck hat er die Ums  tze vergangener Jahre und die zugeh  rigen Werbeausgaben  zusammengestellt     aflatoxin sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um Tests  von Maisernten auf Aflatoxin geht  ein Gift  dessen Konzentration stark zwischen und  innerhalb von Ernteertr  gen schwankt  Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr  gen  je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde  parts per billion   PPB  gemessen     aflatoxin20 sav  Diese Datendatei enth  lt die Aflatoxinmessungen aus jeder der 16 Stichproben  aus den Ertr  gen 4 und 8 der Datendatei aflatoxin sav     anorectic sav  Bei der Ausarbeitung einer standardisierten Symptomatologie  anorektischen bulimischen Verhaltens f  hrten Forscher  Van der Ham  Meulman  Van Strien   als auch Van Engeland  1997  eine Studie mit 55 Jugendlichen mit bekannten Ess St  rungen  durch  Jeder Patient wurde vier Mal   ber einen Zeitraum von vier Jahren untersucht  es  fanden also insgesamt 220 Beobachtungen statt  Bei jeder Beobachtung erhielten die  Patienten Scores f  r jedes von 16 Symptomen  Die Symptomwerte fehlen f  r Patient 71    84    85       Beispieldateien    zum Zeitpunkt 2  Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3  wodurch 217  gultige Beobachtungen verbleiben     autoaccidents sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  die Bem  hun
43. Breiman  L   als auch J  H  Friedman  1985  Estimating optimal transformations for multiple  regression and correlation  Journal of the American Statistical Association  80  580 598     Collett  D  2003  Modelling survival data in medical research  2  Hg    Boca Raton  Chapman  amp   Hall CRC     Green  P  E   als auch V  Rao  1972  Applied multidimensional scaling  Hinsdale  Ill   Dryden  Press     Green  P  E   als auch Y  Wind  1973  Multiattribute decisions in marketing  A measurement  approach  Hinsdale  Ill   Dryden Press     Greenacre   M  J  1984  Theory and applications of correspondence analysis  London  Academic  Press     Guttman  L  1968  A general nonmetric technique for finding the smallest coordinate space for  configurations of points  Psychometrika  33  469 506     Hartigan  J  A  1975  Clustering algorithms  New York  John Wiley and Sons     Hastie  T   als auch R  Tibshirani  1990  Generalized additive models  London  Chapman and  Hall     Kennedy  R   C  Riquier  als auch B  Sharp  1996  Practical applications of correspondence  analysis to categorical data in market research  Journal of Targeting  Measurement  and Analysis  for Marketing  5  56 70     McCullagh  P   als auch J  A  Nelder  1989  Generalized Linear Models  2nd  Hg    London   Chapman  amp  Hall     Menec   V   N  Roos  D  Nowicki  L  MacWilliam  G  Finlayson   als auch C  Black  1999   Seasonal Patterns of Winnipeg Hospital Use    Manitoba Centre for Health Policy     Price  R  H   als auc
44. Die Prozedur    Optimales Klassieren    diskretisiert eine oder mehrere metrische Variablen  im  Folgenden als Klassierungs Eingabevariablen  Binning Eingabevariablen  bezeichnet   indem  die Werte der einzelnen Variablen auf verschiedene Klassen verteilt werden  Die Klassenbildung  ist in Bezug auf eine kategoriale F  hrungsvariable optimal  die den Klassierungsvorgang       berwacht     Anstatt der urspr  nglichen Datenwerte k  nnen dann die Klassen zur weiteren  Analyse verwendet werden     Beispiele  F  r die Verringerung der unterschiedlichen Werte  die eine Variable annehmen kann   gibt es verschiedenen Anwendungsm  glichkeiten  Hier einige Beispiele     m Anforderungen anderer Prozeduren an die Daten  Diskretisierte Variablen k  nnen f  r die  Verwendung in Prozeduren  bei denen kategoriale Variablen erforderlich sind  als kategorial  behandelt werden  Beispielsweise m  ssen f  r die Prozedur    Kreuztabellen    alle Variablen  kategorial sein     m Datenschutz  Die Angabe von gebinnten Werten anstelle der tats  chlichen Werte in Berichten  kann zur Gew  hrleistung des Datenschutzes bei Ihren Datenquellen beitragen  Die Prozedur     Optimales Klassieren    kann eine Orientierung f  r die Auswahl der Klassen bieten     m Schnellere Durchf  hrung  Einige Prozeduren sind effizienter  wenn sie mit einer  reduzierten Anzahl an unterschiedlichen Werten arbeiten  So l  sst sich beispielsweise  die Geschwindigkeit der multinomialen logistischen Regression durch die Verwendung 
45. Die Prozedur erzeugt Gruppen  Normwerte f  r Gruppen bei stetigen und kategorialen  Variablen  Anomalie Indizes auf der Grundlage von Abweichungen von den Normwerten der  Gruppen sowie Variablen Einflusswerte f  r Variablen  die am meisten dazu beitragen  dass ein  Falls als ungew  hnlich klassifiziert wird     Erl  uterung der Daten    Daten  Mit dieser Prozedur k  nnen sowohl stetige als auch kategoriale Variablen analysiert  werden  Jede Zeile stellt eine eindeutige Beobachtung und jede Zeile eine eindeutige Variable  als Grundlage f  r die Gruppen dar  In der Datendatei kann eine Fallidentifizierungsvariable  zum Markieren der Ausgabe verf  gbar sein  Diese Variable wird jedoch nicht in der Analyse  verwendet  Fehlende Werte sind zul  ssig  Wenn die Gewichtungsvariable angegeben wurde   wird diese ignoriert     Das Erkennungsmodell kann auf eine neue Test Datendatei angewendet werden  Die Elemente  der Testdaten m  ssen dieselben wie die Elemente der Lerndaten sein  Abh  ngig von den  Einstellungen des Algorithmus kann die Verarbeitung fehlender Werte  die beim Erstellen des  Modells verwendet wird  vor der Bewertung auf die Testdaten angewendet werden     17    18       Kapitel 4    Fallreihenfolge  Beachten Sie  dass die L  sung von der Fallreihenfolge abh  ngen kann  Um die  Auswirkungen der Reihenfolge zu minimieren  mischen Sie die F  lle in zuf  lliger Reihenfolge   Pr  fen Sie daher die Stabilit  t einer bestimmten L  sung  indem Sie verschiedene L  sungen  abrufen
46. Erfahrung  Angestellter  ohne Erfahrung und Sekretariat sowie die Kategorie National Average  die als Erg  nzung der  Analyse dienen kann  Die Variable Rauchen enth  lt die Rauchgewohnheiten Nichtraucher   Leicht  Mittel und Stark sowie die Kategorien No Alcohol und Alcohol  die als Erg  nzung der  Analyse dienen k  nnen     storebrand sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen einer Verkaufsleiterin in einem Lebensmittelmarkt geht  die die Verkaufszahlen  des Waschmittels der Eigenmarke gegen  ber den anderen Marken steigern m  chte  Sie  erarbeitet eine Werbeaktion im Gesch  ft und spricht an der Kasse mit Kunden  Jeder Fall  entspricht einem Kunden     stores sav  Diese Datendatei enth  lt hypothetische monatliche Marktanteilsdaten f  r zwei  konkurrierende Lebensmittelgesch  fte  Jeder Fall entspricht den Marktanteilsdaten f  r einen  bestimmten Monat     stroke_clean sav  Diese hypothetische Datendatei enth  lt den Zustand einer medizinischen  Datenbank  nachdem diese mithilfe der Prozeduren in der Option    Data Preparation    bereinigt  wurde     stroke_invalid sav  Diese hypothetische Datendatei enth  lt den urspr  nglichen Zustand einer  medizinischen Datenbank  der mehrere Dateneingabefehler aufweist     stroke_survival  In dieser hypothetischen Datendatei geht es um die   berlebenszeiten von  Patienten  die nach einem Rehabilitationsprogramm wegen eines isch  mischen Schlaganfalls  mit einer Reihe von Problemen zu 
47. Liste    Funktionen und Sodervariablen     auf die Funktion bzw  Variable doppelklicken  oder die Funktion bzw  Variable ausw  hlen  und auf Einf  gen klicken   Geben Sie alle durch Fragezeichen gekennzeichneten Parameter an   gilt nur f  r Funktionen   Die Funktionsgruppe mit der Beschriftung Alle bietet eine Liste  aller verf  gbaren Funktionen und Systemvariablen  Eine kurze Beschreibung der aktuell  ausgew  hlten Funktion oder Variablen wird in einem speziellen Bereich des Dialogfelds  angezeigt     String Konstanten m  ssen in Anf  hrungszeichen oder Apostrophe eingeschlossen werden     Wenn die Werte Dezimalstellen enthalten  muss ein Punkt     als Dezimaltrennzeichen  verwendet werden        Kapitel    3    Daten validieren    Im Dialogfeld    Daten validieren    k  nnen Sie verd  chtige oder ung  ltige F  lle  Variablen und  Datenwerte in der Arbeitsdatei identifizieren     Beispiel  Eine Datenanalytikerin muss f  r ihren Auftraggeber einen monatlichen Bericht     ber die Kundenzufriedenheit zusammenstellen  Die monatlich erhaltenen Daten m  ssen   einer Qualit  tspr  fung unterzogen werden  Dabei muss nach ung  ltigen Kunden IDs   Variablenwerten au  erhalb des Bereichs sowie Kombinationen von Variablenwerten gesucht  werden  die h  ufig fehlerhaft eingegeben werden  Im Dialogfeld    Daten validieren    kann die  Analytikerin die Variablen angeben  durch die Kunden eindeutig identifiziert werden  Regeln f  r  g  ltigen Wertebereiche einzelner Variablen definieren und
48. Regeln f  r mehrere  Variablen zu definieren  klicken Sie auf Regeln definieren  F  r weitere Informationen siehe  Definieren von Regeln f  r mehrere Variablen in Kapitel 2 auf S  6     14       Kapitel 3    Daten validieren  Ausgabe    Abbildung 3 5  Dialogfeld    Daten validieren     Registerkarte    Ausgabe       Daten validieren    Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Fallweiser Bericht    Mindestanzahl der Verletzungen  damit ein Fall enthalten  ist     Hachstanzahl der F  lle im Bericht     Yalidierungsregeln f  r eine Variable     _ Deskriptive Statistik f  r Analysevariablen anzeigen    C  F  lle  die Yalidierungsregeln verletzen  an den Anfang der Arbeitsdatei verschieben       Fallweiser Bericht  Wenn Sie Validierungsregeln f  r eine oder mehrere Variablen ausgew  hlt  haben  k  nnen Sie einen Bericht anfordern  der die Verletzungen der Validierungsregeln f  r  einzelne F  lle enth  lt       Mindestanzahl der Verletzungen  damit ein Fall enthalten ist  Mit dieser Option wird die  Mindestanzahl der Verletzungen angegeben  die erforderlich sind  damit ein Fall in den  Bericht aufgenommen wird  Geben Sie eine positive Ganzzahl ein     m H  chstanzahl der F  lle im Bericht  Mit dieser Option wird die H  chstanzahl der F  lle  angegeben  die im Fallbericht enthalten sein soll  Geben Sie eine positive ganze Zahl kleiner  oder gleich 1000 ein     Validierungsregeln f  r eine Variable  Wenn 
49. Sie Validierungsregeln f  r einzelne Variablen  angewendet haben  k  nnen Sie ausw  hlen  ob und wie die Ergebnisse angezeigt werden sollen     m Verletzungen nach Analysevariable zusammenfassen  Bei dieser Option werden f  r jede  Analysevariable alle Validierungsregeln f  r eine Variable aufgef  hrt  die verletzt wurden   und die Anzahl der Werte angegeben  die eine Verletzung der einzelnen Regeln darstellen     15       Daten validieren    AuBerdem wird fiir jede Variable die Gesamtanzahl der Verletzungen von Regeln fiir eine  Variable ausgegeben     m Verletzungen nach Regel zusammenfassen  Bei dieser Option werden f  r jede Validierungsregel  f  r eine Variable die Variablen ausgegeben  die die Regeln verletzen  und die Anzahl der  ung  ltigen Werte pro Variable angegeben  Au  erdem wird variablen  bergreifend die  Gesamtanzahl der Werte ausgegeben  die eine Verletzung der einzelnen Regeln darstellen     Deskriptive Statistik f  r Analysevariablen anzeigen  Mit dieser Option k  nnen Sie deskriptive  Statistiken f  r Analysevariablen anfordern  F  r jede kategoriale Variable wird eine  H  ufigkeitstabelle erzeugt  F  r metrische Variablen wird eine Tabelle mit Auswertungsstatistiken  erzeugt  darunter der Mittelwert  die Standardabweichung  das Minimum und das Maximum     F  lle  die Validierungsregeln verletzen  an den Anfang der Arbeitsdatei verschieben  Bei dieser  Option werden F  lle mit Verletzungen von Regeln f  r eine oder mehrere Variablen an den Anfang  der ARbe
50. Tod im Krankenhaus    aufgezeichnet wurde     Klicken Sie auf Weiter     Die neue Regel auf der Registerkarte    Regeln fiir mehrere Variablen    wird automatisch    ausgew  hlt     Klicken Sie auf OK     52       Kapitel 6    Regeln fiir mehrere Variablen    Abbildung 6 25  Regeln fur mehrere Variablen    Anzahl der Verletzungen  Zweimal Gestorben  doa   1   amp   dhosp   1     Die Liste der Regeln fiir mehrere Variablen enthalt Regeln  die mindestens einmal verletzt wurden   die Anzahl der Verletzungen und eine Beschreibung jeder verletzten Regel     Fallbericht    Abbildung 6 26  Fallbericht    Validation Rule Violations   Identifizierung  Single Yariable   Cross Variable patid  Zweimal Gestorben 1192970826 355184  Zweimal Gestorben 8717862852 237418  Zweimal Gestorben 6901932085 215041  Zweimal Gestorben 1205005069 695521  Zweimal Gestorben 5546809538 125304  Oto 1 Dichotomy  1  0333204686 883285  Oto 1 Dichotomy  1  1038840465 103254  Nonnegative integer  1  2090290204 883285  Zweimal Gestorben 3351107142 462020  Oto 1 Dichotomy  1  2349729006 723384  Zweimal Gestorben 7163481282 519548  Zweimal Gestorben 9159094175 652070  Zweimal Gestorben 2137520354 723384  Zweimal Gestorben 5246122506 928076  Zweimal Gestorben 1605957462 506108  Zweimal Gestorben 8141858966 828754  Zweimal Gestorben 3397891610 539412  Zweimal Gestorben 3397891610 539412  Zweimal Gestorben 3962622031 327422  Zweimal Gestorben 4271782383 749432  Zweimal Gestorben 0950686750 618069  Zweimal Gestorben 06
51. Ungewohnliche F  lle wdentftzieren   20  c cece eee 54  Identifizieren ungew  hnlicher F  lle in einer medizinischen Datenbank                      54  Durchf  hrung der Analyse              0 000 e cece een 55  Zusammenfassung der Fallverarbeitung  000 cee cece eee nennen 59  Liste der Indexwerte anomaler F  lle      60  Liste der Gruppen IDs anomaler F  lle             0 0 0 00 ccc cece eee eee 61  Liste der Gr  nde anomaler Falle    62  Normwerte der metrischen Variablen      63  Normwerte der kategorialen Variablen      64  Auswertung des Anomalie Index              2  0 cece cece nennen 66  Auswertung der Gr  nde       66  Streudiagramm f  r den Anomalie Index und den Variableneinfluss                      67  Zusammenfassung      69  Verwandte Prozeduren    69    vi    8 Optimales Klassieren 70    Der Algorithmus f  r optimales Klassieren  000 ccc eee ee 70  Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu Kreditantragstellern      70  Durchf  hrung der Analyse    1 0 0    ccc cee nen n tenes 71  Deskriptive Statistiken     0 0 0 0    ccc tte eee eee 74  Modellentropie      75  Klassierungs Zusammenfassungen 0000 c eee ee 76  Klassierte Variablen       80  Anwenden von Syntax Klassierungsregeln            00 00 eee nennen 80  ZUSAMMENTASSUNG eesi eae bed beet ee hile ee a ed gee quebec a a 82    Anhang    A Beispieldateien 84    Bibliografie 96    Index 98    vii    Teil I   Benutzerhandbuch       Kapitel    Einf  hrung in Data Preparation   Aufberei
52. al treatment and reha     Rankin score at 1 month        Rankin score at 3 months     Rankin score at 6 months        Barthel index at 1 month        Barthel index at 3 months        Barthel index at 6 months     Recoded Barthel index at     ofiRecoded Barthel index at     of Recoded Barthel index at          Fallbezeichnervariablen   Pa Patient ID  patid   Sa Hospital 1D  hospid        daAttending physician ID  physid        Daten validieren             W  hlen Sie Hospital size sowie die Variablen von Age in years bis Recoded Barthel index at 6    months als Analysevariablen aus        W  hlen Sie Hospital ID  Patient ID und Attending physician ID als Fallbezeichnervariablen aus      gt  Klicken Sie auf die Registerkarte Grundlegende Pr  fungen     34       Kapitel 6    Abbildung 6 2  Dialogfeld    Daten validieren     Registerkarte  Grundlegende Pr  fungen       Daten validieren    pennen  Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern         Analysevariablen    Maximaler Prozentsatz fehlender Werte   Gilt f  r alle Variablen   Maximaler Prozentsatz der F  lle in einer einzelnen  Gilt nur f  r kategoriale Variablen   Kategorie     Maximaler Prozentsatz der Kategorien mit Anzahl 1   Gilt nur f  r kategoriale Yariablen     Minimaler Yariationskoeffizient   Gilt nur f  r metrische Variablen           Minimale Standardabweichung   Gilt nur f  r metrische Variablen     Fallbezeichner  Unvollst  ndige IDs ma
53. alues Numerisch  Sex  1 char   String  Sex  Full  String  Day of week  3 char   String  Day of week  full  String  Month  3 char   String  Month  Full  String  U S  states  2 char   String  U S  states  Full  String  Canadian provinces  2 c    String  Canadian provinces  full  String  UK post codes String  UK social class designation String       Benutzerdefinierte Fehlende Werte zulassen    Systemdefinierte fehlende Werte zulassen          er                In der Liste    Regeln    werden die aktuell definierten Regeln angezeigt  Die Regel 0 to 1 Dichotomy  ist ausgew  hlt  und ihre Eigenschaften werden im Gruppenfeld    Regeldefinition    angezeigt      gt  Um eine Regel zu definieren  klicken Sie auf Neu     47       vy v vy vy y    Abbildung 6 20    Daten validieren    Dialogfeld    Validierungsregeln definieren    Registerkarte    Regeln f  r eine Variable     Definition von       1 to 3 Categorical        L Validierungsregeln definieren            Regeln f  r eine Variable   Regeln f  r mehrere Variablen       Regeln        Name   0 1 dichotomy   0 to 2 Categorical   0 to 3 Categorical   1 to 4 Categorical  Nonnegative integer  Nonnegative number  1 to 3 Categorical       Typ  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch  Numerisch             Regeldefinition       Name    1 to 3 Categorical       Typ    Numerisch       mmjktijjjj       G  ltige Werte   In einer Liste    Werte     i A       2  3    nschreibung bei de    Werteprufung ignoriere    Ben
54. ariablen   Ausgabe   Speichern          Um Regeln einer Variablen zuzuweisen  w  hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln   Die Liste  Analysevariablen  zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten  Die Liste  Regeln  zeigt  alle Regeln  die den ausgew  hlten Yariablen zugewiesen werden k  nnen   Analysevariablen  Regeln   Variable Verteilung Minimum Maxim    Re   A Zuwei  Name         Oto 1 Dichotomy  Rankin score at 1 month      5 0 Oto 2 Categorical    Oto 3 Categorical       Rankin score at 3 months           TT Nonnegstive integer  Rankin score at 6 months          Nonnegative number    _   1 to 3 Categorical  Barthel index at 1 month      100 Oto 5 Categorical      Tel Toto 100 by 5             Barthel index at 3 months     100    Barthel index at 6 months     100 1             Anzeigen    Alle variablen Durchsuchte F  lle  1183 Regeln definieren     Yariablenverteilungen    Durchsuchte Anzahl der EIER m   Begrenzen der durchsuchten F  lle hat keinen Einflu    Ele    Erneut durchsuchen auf die Anzahl der validierten F  lle     F  lle begrenzen                      Jetzt m  ssen Sie die definierten Regeln Variablen zuordnen    gt  Wenden Sie 1 to 3 Categorical auf Hospital size an      gt  Wenden Sie 0 to 5 Categorical auf Initial Rankin score sowie die Variablen von Rankin score  at 1 month bis Rankin score at 6 months an      gt  Wenden Sie 0 to 100 by 5 auf die Variablen von Barthel index at 1 month bis Barthel 
55. ategoriale Variable umfasst  angezeigt    Die Tabelle f  r die Normwerte der stetigen Variablen enth  lt den Mittelwert und die  Standabweichung jeder stetigen Variablen f  r jede Gruppe  Die Tabelle f  r die Normwerte  der kategorialen Variablen enh  lt den Modalwert  die h  ufigste Kategorie   die H  ufigkeit und    20       Kapitel 4    die H  ufigkeit in Prozent jeder kategorialen Variablen f  r jede Gruppe  Der Mittelwert einer  stetigen Variablen und der Modalwert einer kategorialen Variablen werden in der Analyse  als Normwerte verwendet     m Anomalie Indizes  Die Auswertung des Anomalie Index enth  lt deskriptive Statistiken f  r die  Anomalie Indizes der F  lle  die als am ungew  hnlichsten identifiziert wurden     m Vorkommen des Grunds nach Analysevariablen  Die Tabelle zeigt pro Grund die H  ufigkeit  und die H  ufigkeit in Prozent des Vorkommens jeder Variable als Grund an  Die Tabelle  f  hrt auch deskriptive Statistiken   ber den Einfluss jeder Variablen auf  Wenn die maximale  Anzahl von Gr  nden auf der Registerkarte    Optionen    auf 0 festgelegt wurde  steht diese  Option nicht zur Verf  gung     m Verarbeitete F  lle  Die Zusammenfassung der Fallverarbeitung enth  lt H  ufigkeiten und  H  ufigkeiten in Prozent f  r alle F  lle in der Arbeitsdatei  die in die Analyse aufgenommenen  und ausgeschlossenen F  lle und die F  lle in jeder Gruppe     Ungew  hnliche F  lle identifizieren  Speichern       Abbildung 4 3  Dialogfeld  Ungew  hnliche F  lle identifizi
56. b    min sizeof b _    sizeof b  1         Dabei ist sizeof b  die Anzahl der F  lle in der Klasse     30       Kapitel 5     gt  Wenn dieser Wert kleiner ist als der angegebene Zusammenf  hrungsschwellenwert  dann wird b     als d  nn besetzt betrachtet und mit b _  oder b    zusammengef  hrt  je nachdem  welche Klasse  die niedrigere Klasseninformationsentropie aufweist     Bei dieser Prozedur wird ein einzelner Durchlauf durch die Klassen vorgenommen     Binning von Endpunkten  Bei dieser Option wird angegeben  wie die Untergrenze eines Intervalls  festgelegt wird  Da die Prozedur die Trennwerte automatisch ermittelt  ist dies weitgehend eine  Frage der Vorlieben     Erste  niedrigste  Klasse Letzte  h  chste  Klasse  Diese Optionen geben an  wie die minimalen und  maximalen Trennwerte f  r die einzelnen Klassierungs Eingabevariablen festgelegt werden  Im  Allgemeinen geht die Prozedur davon aus  dass die Binning Eingabevariablen einen beliebigen  Wert der reellen Zahlen annehmen k  nnen  aber wenn es theoretische oder praktische Gr  nde f  r  die Begrenzung des Bereichs gibt  k  nnen Sie den gew  nschten niedrigsten und oder h  chsten  Wert angeben     Zus  tzliche Funktionen beim Befehl OPTIMAL BINNING    Mit der Befehlssyntax Sprache verf  gen Sie au  erdem   ber folgende M  glichkeiten     m Sie k  nnen mithilfe der Methode der gleichen H  ufigkeiten un  berwachtes Binning  durchf  hren  mit dem Unterbefehl CRITERIA      Vollst  ndige Informationen zur Syntax finden Si
57. come ratio  x100        E Credit card debt in thousands     E Other debt in thousands  oth           amp  Binning in Klassen optimieren in Hinblick auf     4 Previously defaulted  default           Eine oder mehrere metrische Variablen f  r das Binning ausw  hlen sowie eine  Q nominale Optimierungsvariable  Die ausgew  hlten Klassen maximieren die  Zuordnung zwischen der Binning Variablen und der Optimierungsvariablen     Auf der Registerkarte  Speichern  k  nnen Sie Variablen  die Werte der Daten in  Klassen und oder Binning Regeln enthalten  speichern              W  hlen Sie Age in years  Alter in Jahren  und Years with current employer  Jahre der  Besch  ftigung beim derzeitigen Arbeitgeber  bis Other debt in thousands  Andere Schulden in  Tausend  als Variablen f  r die Klassierung aus      gt  W  hlen Sie Previously defaulted  Vorherige Nichtzahlung  als F  hrungsvariable aus      gt  Klicken Sie auf die Registerkarte Ausgabe     72       Kapitel 8  Abbildung 8 2  Dialogfeld    Optimales Klassieren     Registerkarte    Ausgabe       E Optimales Binning    Variablen   Ausgabe Speichern   Fehlende Werte   Optionen      Anzeigen       Endpunkte f  r Klassen    Beschreibende Statistiken f  r Binning Yariablen                   W  hlen Sie Beschreibende Statistiken und Modellentropie f  r die zu klassierenden Variablen aus        Klicken Sie auf die Registerkarte Speichern     73       Optimales Klassieren  Abbildung 8 3  Dialogfeld    Optimales Klassieren    Registerkarte  
58. dex at        Hospital size  hospsize   E Age in years  age              Eallbezeichnervariablen    daPstient ID  patid    Sa Hospital 1D  hospid   daAttending physician ID  physid                       W  hlen Sie eine oder mehrere Analysevariablen aus  die durch grundlegende Variablenpr  fungen  oder Validierungsregeln f  r eine Variable validiert werden sollen     Sie haben au  erdem folgende M  glichkeiten        Klicken Sie auf die Registerkarte Regeln f  r mehrere Variablen  und wenden Sie eine oder mehrere  Regeln f  r mehrere Variablen an     Die folgenden Optionen sind verf  gbar     m W  hlen Sie eine oder mehrere Fallbezeichnervariablen aus  um nach doppelten oder  unvollst  ndigen IDs zu suchen  Fallbezeichnervariablen werden auch zum Beschriften der  fallweisen Ausgabe verwendet  Wenn mehr als eine Fallbezeichnervariable angegeben wurde   wird die Kombination der Werte als Fallbezeichner behandelt     10       Kapitel 3    Daten validieren  Grundlegende Priifungen    Abbildung 3 2  Dialogfeld    Daten validieren  Registerkarte  Grundlegende Pr  fungen       Daten validieren       Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Analysevariablen    Maximaler Prozentsatz fehlender Werte     Gilt f  r alle Variablen     Maximaler Prozentsatz der F  lle in einer einzelnen   95  Gilt nur f  r kategoriale Variablen   Kategorie     Maximaler Prozentsatz der Kategorien mit Anzahl 1    90  Gilt nur f 
59. die Analyse aufgenommen     Anteil fehlender Werte pro Fall als Analysevariable verwenden       Auf der Registerkarte    Fehlende Werte    kann die Behandlung benutzerdefinierter und  systemdefinierter fehlender Werte festgelegt werden     22       Kapitel 4    Fehlende Werte aus der Analyse ausschlie  en  F  lle mit fehlenden Werten werden aus der  Analyse ausgeschlossen     Fehlende Werte in die Analyse aufnehmen  Fehlende Werte von stetigen Variablen werden  durch deren entsprechenden Gesamtmittelwert ersetzt  Fehlende Kategorien von kategorialen  Variablen werden gruppiert und als g  ltige Kategorie behandelt  Die verarbeiteten Variablen  werden anschlie  end in der Analyse verwendet  Sie k  nnen die Erzeugung einer zus  tzlichen  Variable anfordern  die den Anteil der fehlenden Variablen in jedem Fall darstellt  und diese  Variable in der Analyse verwenden     Ungew  hnliche F  lle identifizieren  Optionen    Abbildung 4 5  Dialogfeld    Ungewohnliche F  lle identifizieren    Registerkarte    Optionen       E Ungew  hnliche F  lle identifizieren       variablen   Ausgabe   Speichern   Fehlende Werte   Optionen    Kriterien zum Identifizieren ungew  hnlicher F  lle Anzahl von Gruppen    Prozentsatz der F  lle mit den h  chsten ini gi  Of Mi H  Anomalie Indexwerten omoun    Prozentsatz    2 A  EEE Maximum        Feste Anzahl von F  llen mit den h  chsten  Anomalie Indexwerten    o Nur F  lle identifizieren  deren Anomalie Index  gr    er oder gleich einem Minimalwert ist  
60. e in der Command Syntax Reference     Teil II   Beispiele       Kapitel    Daten validieren    Mit der Prozedur    Daten validieren    k  nnen verd  chtige und ung  ltige F  lle  Variablen und  Datenwerte identifiziert werden     Validieren einer medizinischen Datenbank    Eine bei einem Unternehmen in der Pharmabranche angestellte Analytikerin hat die Aufgabe   die Qualit  t der Informationen in einem System zu   berwachen  Dabei muss sie die Werte und  Variablen pr  fen und einen Bericht f  r den Leiter des Datenerfassungsteams erstellen    Den aktuellen Zustand der Datenbank finden Sie in der Datei stroke_invalid sav  F  r weitere  Informationen siehe Beispieldateien in Anhang A auf S  84  Verwenden Sie die Prozedur     Daten validieren     um die f  r den Bericht ben  tigten Informationen zusammenzustellen   Syntax  mit denen Sie diese Analysen nachvollziehen k  nnen  befindet sich in der Datei  validatedata_stroke sps     Durchf  hren von grundlegenden Pr  fungen   gt  Um die Daten zu validieren  w  hlen Sie die folgenden Befehle aus den Men  s aus   Daten    Validierung  Daten validieren       32    33       Abbildung 6 1    Dialogfeld    Daten validieren  Registerkarte    Variablen       Daten validieren    Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern       Variablen                 Analysevariablen        ofl Hospital size  hospsize   E Age in years  age     8 Length of stay For rehabil     E Tot
61. edur    Anomalieerkennung    wird anhand von Abweichungen von den Normen der  jeweiligen Clustergruppen nach ungew  hnlichen F  llen gesucht  Die Prozedur wurde f  r Data  Audit Zwecke in der explorativen Datenanalyse konzipiert  Zweck der Prozedur ist das schnelle  Erkennen von ungew  hnlichen F  llen  bevor mit anderen Analysen Schl  sse aus den Daten  gezogen werden  Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien  Dies  bedeutet  dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung  beschr  nkt  bei der Anomalien sehr treffend definiert werden k  nnen  z  B  beim Erkennen von  ungew  hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw  sche  im Finanzwesen     Beispiel  Ein Analytiker  der mit der Erstellung von Prognosemodellen f  r die Ergebnisse   von Schlaganfallbehandlungen betraut wurde  ist   ber die Qualit  t der Daten besorgt  weil  solche Modelle bei ungew  hnlichen Beobachtungen anf  llig sein k  nnen  Einige dieser  Randbeobachtungen stellen wirklich einzigartige F  lle dar und eignen sich deswegen nicht f  r eine  Vorhersage  Andere Beobachtungen stellen Dateneingabefehler dar  wobei die Werte technisch  gesehen    richtig    sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden  k  nnen  Die Prozedur    Ungew  hnliche F  lle identifizieren    sucht Ausrei  er und meldet diese   sodass der Analytiker entscheiden kann  wie mit diesen F  llen verfahren wird     Statistiken  
62. egorical auf Post event preventative surgery an   Wenden Sie Nonnegative integer auf Length of stay for rehabilitation an     Wenden Sie 1 to 4 Categorical auf die Variablen von Recoded Barthel index at 1 month bis  Recoded Barthel index at 6 months an     Klicken Sie auf die Registerkarte Speichern     42       Kapitel 6    Abbildung 6 12  Dialogfeld    Daten validieren  Registerkarte    Speichern       Daten validieren    Variablen I Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Yariablen I Ausgabe   Speichern       Auswertungsvariablen   Beschreibung Speichern  Indikator f  r leere F  lle LeererFall  Gruppe mit doppelten IDs  GruppeDoppelteriDs  Unvollst  ndiger ID Indikator  Unvollst  ndigelD  Verletzungen von Yalidierungsregeln  Gesamt        ValidierungsRegelVerletzungen       C  vorhandene Auswertungsvariablen ersetzen    Indikatorvariablen speichern  die alle Verletzungen von Yalidierungsregeln aufzeichnen    Die Variablen geben an  ob ein bestimmter Datenwert oder eine  Wertekombination eine Yalidierungsregel verletzt hat     Diese Variablen k  nnen das Bereinigen und Untersuchen Ihrer  Daten vereinfachen  Je nach Anzahl der angewendeten Regeln  werden der Arbeitsdatei bei dieser Option jedoch m  glicherweise  viele Variablen hinzugef  gt     Gesamtanzahl der gespeicherten Variablen  0                   W  hlen Sie Indikatorvariablen speichern  die alle Verletzungen von Validierungsregeln aufzeichnen  aus  Dies vereinfacht es  eine Verbind
63. einem Vergleich der Gruppen  finden Sie Hinweise darauf  welche Variablen zum Bilden der Gruppen beitragen    So weist der Mittelwert von Length of stay for rehabilitation beispielsweise in allen drei  Gruppen   hnliche Werte auf  Dies bedeutet  dass die Variable nicht zum Bilden der Gruppen  beitr  gt  Sie k  nnen jedoch die Variablen Total treatment and rehabilitation costs in thousands  und Missing Proportion nutzen  um N  heres   ber die Gruppenmitgliedschaften zu erfahren     64       Kapitel 7    Gruppe 1 weist die h  chste mittleren Kosten und die wenigsten fehlenden Werte auf  Gruppe 2  zeichnet sich durch sehr niedrige Kosten und viele fehlende Werte aus  In Gruppe 3 finden sich  mittlere Kosten und m    ig viele fehlende Werte    Dies deutet darauf hin  dass Gruppe 2 aus Patienten besteht  die bereits bei der  Ankunft verstorben waren  Daher fielen niedrige Kosten an  und alle Behandlungs  und  Rehabilitationsvariablen weisen fehlende Werte auf  Gruppe 3 enth  lt wahrscheinlich  viele Patienten  die bei der Behandlung starben  Daher fielen Behandlungskosten an  aber  keine Rehabilitationskosten  und die Rehabilitationsvariablen weisen fehlende Werte auf   Gruppe 1 besteht wahrscheinlich fast ausschlie  lich aus Patienten  die die Behandlung und die  Rehabilitation   berlebt haben  Dadurch fielen die h  chsten Kosten an     Normwerte der kategorialen Variablen    Abbildung 7 12  Normwerte der kategorialen Variablen  die ersten 10 Variablen     Gruppen ID  1 Kombinier
64. en Einflussma  e  weichen nicht sehr stark von der zentrale Tendenz ab     69       Ungew  hnliche F  lle identifizieren    Zusammenfassung    Mit der Prozedur    Ungew  hnliche F  lle identifizieren    haben Sie verschiedene F  lle  ausgesondert  die n  her untersucht werden sollten  Diese F  lle k  nnen mit keinem anderen  Validierungsverfahren erkannt werden  weil die Einstufung als anomal nicht nur auf der Grundlage  der Variablenwerte  sondern anhand der Beziehungen zwischen den Variablen erfolgt    Es ist ein wenig entt  uschend  dass die Gruppen weitestgehend auf der Grundlage von zwei  Variablen gebildet werden  Dead on arrival und Died in hospital  In einer weiterf  hrenden  Analyse k  nnten Sie untersuchen  welche Auswirkungen es hat  wenn Sie eine gr    ere  Anzahl von Gruppen erzwingen  oder Sie k  nnten eine Analyse durchf  hren  die nur auf den    berlebenden Patienten beruht     Verwandte Prozeduren    Die Prozedur    Ungew  hnliche F  lle identifizieren    ist n  tzlich  um anomale F  lle in einer  Datendatei aufzudecken     m Mit der Prozedur Daten validieren k  nnen verd  chtige und ung  ltige F  lle  Variablen und  Datenwerte in der Arbeitsdatei identifiziert werden        Kapitel    Optimales Klassieren    Die Prozedur    Optimales Klassieren    diskretisiert eine oder mehrere metrische Variablen  als  Klassierungs Eingabevariablen bezeichnet   indem die Werte der einzelnen Variablen auf  verschiedene Klassen verteilt werden  Die Klassenbildung ist in Bezu
65. en Fall sowie der Normwert der Gruppe angezeigt  Wenn bei  einer kategorialen Variablen als Normwert f  r die Gruppe  Fehlender Wert  angegeben ist  weist  die Mehrzahl der F  lle in der Gruppe einen fehlenden Wert f  r diese Variable auf    Das Einflussma   der Variable ist der proportionale Beitrag der Grundvariable zur Abweichung  des Falls von seiner Gruppe  Es liegen 38 Analysevariablen vor  einschlie  lich der Variablen f  r  den fehlenden Anteil   Das erwartete Einflussma   einer Variablen betr  gt daher 1 38   0 026  Das  Einflussma   der Variable cost f  r Fall 843 betr  gt 0 411  was relativ gesehen gro   ist  Der Wert  von cost f  r Fall 843 ist 200 51  der Durchschnitt f  r die F  lle in Gruppe 3 ist 19 83    Im Dialogfeld wurde festgelegt  dass Ergebnisse f  r die ersten drei Gr  nde ausgegeben werden  sollen      gt  Um die Ergebnisse f  r die anderen Gr  nde anzuzeigen  doppelklicken Sie auf die Tabelle        Verschieben Sie Grund aus der Schichtendimension in die Zeilendimension     63       Abbildung 7 10  Liste der Gr  nde anomaler F  lle  die ersten 8 F  lle     patid    Grund Variablen   Yariablen  Yariablen Pinflussung  wert    Normwert der  Yariablen            7840326167  7840326167  7840326167  0714726620  0714726620  0714726620    cost 200 51  barthel1   rankint   cost   barthel1   rehab    19 83   Missing Value      Missing Value    19 83   Missing Value    Missing Value        ON lo n lo zo NY zo nm Il m    on         6553808330  6553808330  655380
66. er Bewertung verstrichene Zeit  den zu diesem Zeitpunkt ermittelten Wert sowie  den Verkaufswert der Immobilie     property_assess_cs sav  Hierbei handelt es sich um eine hypothetische Datendatei  in der   es um die Bem  hungen eines f  r einen US Bundesstaat zust  ndigen Immobilienbewerters  geht  trotz eingeschr  nkter Ressourcen die Einsch  tzungen des Werts von Immobilien auf  dem aktuellsten Stand zu halten  Die F  lle entsprechen den Immobilien in dem betreffenden  Bundesstaat  Jeder Fall in der Datendatei enth  lt das County  die Gemeinde und das  Wohnviertel  in dem sich die Immobilie befindet  die seit der letzten Bewertung verstrichene  Zeit sowie zu diesem Zeitpunkt ermittelten Wert     property_assess_cs_sample sav  Diese hypothetische Datendatei enth  lt eine Stichprobe der  in property_assess_cs sav aufgef  hrten Immobilien  Die Stichprobe wurde gem     dem in  der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser  Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst   Die zus  tzliche Variable Current value  Aktueller Wert  wurde nach der Ziehung der  Stichprobe erfasst und zur Datendatei hinzugef  gt     92       Anhang A    recidivism sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen einer Strafverfolgungsbeh  rde geht  einen Einblick in die R  ckfallraten in  ihrem Zust  ndigkeitsbereich zu gewinnen  Jeder Fall entspricht einem fr  hren Straft  ter 
67. er Numerisch  Nonnegative integer Numerisch      Oto 100 number Numerisch In einer Liste  Flag system missing val    Numerisch  Flag user missing values  Numerisch  Flag missing values Numerisch  Flag noninteger values Numerisch  Flag unlabeled values Numerisch  Sex  1 char   String  Sex  full  String  Day of week  3 char   String  Day of week  full  String  Month  3 char   String  Month  Full  String  U S  states  2 char   String  U S  states  full  String  Canadian provinces  2 c    String  Canadian provinces  Full  String  UK post codes String  UK social class designation String       Name    0 1 dichotomy Typ  Numerisch          G  ltige Werte           Benutzerdefinierte Fehlende Werte zulassen    Systemdefinierte fehlende Werte zulassen                Auf der Registerkarte    Regeln f  r eine Variable    k  nnen Sie Validierungsregeln f  r eine Variable  erstellen  anzeigen lassen und   ndern     Regeln  Die Liste zeigt die Validierungsregeln f  r eine Variable nach Namen und Variablentyp   auf den die jeweilige Regel angewendet werden kann  Wenn Sie das Dialogfeld   ffnen  werden  die im Datenlexikon definierten Regeln angezeigt  Falls gegenw  rtig keine Regel definiert ist   wird eine Platzhalter Regel mit dem Namen    EinVarRegel 1    angezeigt  Unter der Liste    Regeln     werden folgende Schaltfl  chen angezeigt     m Neu  F  gt einen neuen Eintrag am Ende der Liste    Regeln    hinzu  Die Regel wird ausgew  hlt  und erh  lt den Namen    EinVarRegel n     Hierbei 
68. eren    Registerkarte    Speichern       E Ungew  hnliche F  lle identifizieren    Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen    Yariablen speichern  Anomalie Index Name  Anomalie Index    Misst die Ungew  hnlichkeit eines Falls in Bezug auf die Angeh  rigen seiner Gruppe        Gruppen Stammname   Gruppe       F  r jede Gruppe werden drei Yariablen gespeichert  ID  Fallanzahl und Gr    e als  Prozentsatz der F  lle in der Analyse        Stammname  Grund    F  r jeden Grund werden vier Variablen gespeichert  Name der Grundvariablen   Wert der Grundvariablen  Normwert der Gruppe und Einflussma   f  r die  Grundvariable      C  vorhandene Variablen mit demselben Namen oder Stammnamen ersetzen    Modelldatei exportieren    Datei    Durchsuchen             Variablen speichern  Mithilfe der Steuerelemente in diesem Gruppenfeld k  nnen Sie  Modellvariablen in der Arbeitsdatei speichern  Sie k  nnen auch festlegen  dass vorhandene  Variablen ersetzt werden  deren Namen mit den zu speichernden Variablen kollidieren     m Anomalie Index  Speichert f  r jeden Fall den Wert des Anomalie Index in einer Variablen mit  dem angegebenen Namen     21       Ungew  hnliche F  lle identifizieren      Gruppen  Speichert die Gruppen ID  die Fallanzahl und die Gr    e als Prozentsatz f  r jeden  Fall in Variablen mit dem angegebenen Stammnamen  Wenn f  r den Stammnamen zum  Beispiel Gruppe angegeben wurde  werden die Variablen GruppeID  GruppeGr    e und  GruppePrztGr    e erzeugt 
69. erte als Wertebereich oder als eine  Liste zul  ssiger Werte ausgedr  ckt werden     m Regeln f  r mehrere Variablen  Regeln f  r mehrere Variablen stellen benutzerdefinierte Regeln  dar  die auf eine einzige Variable oder eine Kombination von Variablen angewendet werden  k  nnen  Regeln f  r mehrere Variablen bestehen aus einem logischen Ausdruck  der ung  ltige  Werte kennzeichnet     Die Validierungsregeln werden im Datenlexikon Ihrer Datendatei gespeichert  Dies erm  glicht es   die Regeln einmal zu definieren und sp  ter wiederzuverwenden     Vordefinierte Validierungsregeln laden    Sie k  nnen schnell auf eine Gruppe gebrauchsfertiger Validierungsregeln zugreifen  indem Sie  vordefinierte Validierungsregeln aus einer externen Datendatei laden  die in der Installation  enthalten ist     So laden Sie vordefinierte Validierungsregeln        W  hlen Sie die folgenden Befehle aus den Men  s aus     Daten  Validierung  Vordefinierte Regeln laden       Abbildung 2 1  Vordefinierte Validierungsregeln laden    Vordefinierte Validierungsregeln laden    Validierungsregeln werden aus dem SPSS Installationsverzeichnis  geladen     Datei  Predefined Validation Rules SPSS 14 0 sav  Sie k  nnen die Regeln den Daten mit Hilfe des Dialogfelds  Daten    validieren  zuweisen oder als Ausgangspunkt f  r die Definition eigener  Regeln verwenden     Alle vorhandenen Regeln f  r eine Variable in der Arbeitsdatei werden  ersetzt     OK Einf  gen    Abbrechen            3       Validierungsrege
70. erte in eine neue Variable werden benutzerdefiniert fehlende Werte in systemdefiniert  fehlende Werte umgewandelt     m Paarweise  Diese Option operiert auf der Basis der einzelnen Paare aus F  hrungsvariabler und  Binning Eingabevariabler  Die Prozedur verwendet alle F  lle mit nichtfehlenden Werten bei  der F  hrungs  und Binning Eingabevariablen     m Listenweise  Diese Option wird auf alle auf der Registerkarte    Variablen    angegebenen  Variablen angewendet  Wenn bei einem Fall eine Variable fehlt  wird der gesamte Fall  ausgeschlossen     29       Optimales Klassieren    Optimales Klassieren     Optionen    Abbildung 5 5  Dialogfeld    Optimales Klassieren     Registerkarte    Optionen       E Optimales Binning    Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen    Yorverarbeitung  Pre Binning von Variablen durchf  hren  um die Leistung bei gro  en Daten Sets zu  verbessern  Geben Sie die maximale Anzahl an Klassen an  die f  r jede Variable nach der Yorverarbeitung  bestehen sollen     Maximale Anzahl an Klassen    1000    D  nn besetzte Klassen     klassen mit relativ kleinen Fallzahlen mit einem gr    eren Nachbarn zusammenf  hren    Eine Klasse wird zusammengef  hrt  wenn das Verh  ltnis ihrer Gr    e  Anzahl der F  lle  zu dem  einer benachbarten Klasse kleiner als der angegebene Schwellenwert ist  H  here  Schwellenwerte f  hren in der Regel zu einem gr    eren Zusammenf  hrungsumfang      Binning von Endpunkten     Der untere Endpunkt wird eingeschlo
71. ertragen  keine Auswahl von Variablen   StringString L  nge    bereinstimmen     In den folgenden Dialogfeldern geben Sie an  welche Eigenschaften im einzelnen   bertragen werden sollen     Q Eine Variable entspricht einer anderen  wenn Name und grundlegender Typ Inumerisch oder       w  hlen Sie die Yariablen in der Liste der Quellvariablen aus  deren Eigenschaften auf die entsprechenden Variablen in der  Arbeitsdatei   bertragen werden sollen  Klicken Sie bei gedr  ckter STRG T aste  um die Auswahl zu   ndern     Variablen im Quell Daten Set  Entsprechende Variablen in    E Alter in Jahren  alter   A L Alter in Jahren  alter   A  E Verheiratet  heirat  E Verheiratet  heirat   L Jahre unter der aktuel    E Jahre unter der aktuel     8E Haushaltseinkommen     L Haushaltseinkommen      Einkommensklassen i    A Einkommensklassen i     E Preis des haupts  chli    E Preis des haupts  chli     al Preisklassen des hau    dd Preisklassen des hau     E Schulabschluss  schu    E Schulabschluss  schu     E Jahre beim aktuellen     E Jahre beim aktuellen    w                            Ausgewahlte Variablen  18 Entsprechende Variablen  18  Zu erstellende Variablen  0          Dies sind die Variablen aus patient_los sav  deren Eigenschaften Sie in die entsprechenden  Variablen in stroke_invalid sav kopieren m  chten        Klicken Sie auf Weiter     38       Kapitel 6    Abbildung 6 8  Kopieren von Dateneigenschaften   Schritt 3  Variableneigenschaften ausw  hlen        Dateneigenschafte
72. euen  interessanten Anwendungsgebieten von SPSS Data  Preparation  Aufbereitung von Daten  Erweiterungsmodul  Senden Sie uns eine E Mail an  suggest spss com oder schreiben Sie an  SPSS Inc   Attn  Director of Product Planning  233  South Wacker Drive  11th Floor  Chicago  IL 60606 6412       ber dieses Handbuch    In diesem Handbuch wird die grafische Benutzeroberfl  che f  r die in SPSS Data Preparation   Aufbereitung von Daten  Erweiterungsmodul enthaltenen Prozeduren erl  utert  Die Abbildungen  der Dialogfelder stammen aus SPSS  Detaillierte Informationen zur Befehlssyntax f  r die  Funktionen in SPSS Data Preparation  Aufbereitung von Daten  Erweiterungsmodul sind auf zwei  Arten verf  gbar  als Bestandteil des umfassenden Hilfesystems und als separates Dokument im  PDF Format im Handbuch SPSS 16 0 Command Syntax Reference  das auch   ber das Men       Hilfe    verf  gbar ist     Kontakt zu SPSS    Wenn Sie in unseren Verteiler aufgenommen werden m  chten  wenden Sie sich an eines unserer  B  ros  die Sie auf unserer Website unter http   www spss com worldwide finden     iv       Inhalt    Teil I  Benutzerhandbuch    1 Einf  hrung in Data Preparation  Aufbereitung von Daten  1    Verwendung der Prozeduren von    Data Preparation       2 Validierungsregeln 2    Vordefinierte Validierungsregeln laden    1 0    teen eee nes 2  Validierungsregeln definieren   00  cette tte nnn 3  Definieren von Regeln f  r eine Variable    2    cee eee ene 4   Definieren von Regeln f  r meh
73. g      vonkombiniert    von gesamt      Gruppen ID 1  2    3  Kombiniert  Gesamt       Jeder Fall wird in eine Gruppe   hnlicher F  lle aufgenommen  Die Zusammenfassung der  Fallverarbeitung zeigt  wie viele Gruppen erstellt wurden  sowie die Anzahl und den Prozentsatz    von F  llen in jeder Gruppe     60       Kapitel 7    Liste der Indexwerte anomaler Falle    Abbildung 7 7  Liste der Indexwerte anomaler F  lle    Fall Anomaly Index    843 7840326167  510 0714726620  623 6553808330  501 6461046805  607 1077125669  884 2260043998  614 4030164769  241 1038840465  13 2191527525  172 4458028382  705 1336411777  651 4103977868  384 2247641363  839 0437454972  861 9746101913  19 7237535360  806 4391632997  871 6961938294  239 7315965190  887 6044244232  245 0816869249          Der Anomalie Index ist ein Ma    das die Ungew  hnlichkeit eines Falls in Bezug auf die  Angeh  rigen seiner Gruppe widerspiegelt  Dabei werden die 2   der F  lle mit den h  chsten  Werten des Anomalie Index sowie deren Fallnummern und Bezeichner angezeigt  Es werden 21  F  lle mit Werten von 1 736 bis 2 837 ausgegeben  Es liegt ein relativ gro  er Unterschied zwischen  dem Wert des Anomalie Index des ersten und des zweiten Falls in der Liste vor  Dies legt nahe   dass Fall 843 wahrscheinlich anomal ist  Die anderen F  lle m  ssen einzeln beurteilt werden     61       Ungew  hnliche F  lle identifizieren    Liste der Gruppen IDs anomaler F  lle    Abbildung 7 8  Liste der Gruppen IDs anomaler F  lle    Fal
74. g auf eine kategoriale  F  hrungsvariable optimal  die den Klassierungsvorgang      berwacht     Bei Prozeduren  bei denen  kategoriale Variablen erforderlich oder vorzuziehen sind  k  nnen dann anstatt der urspr  nglichen  Datenwerte die Klassen zur weiteren Analyse verwendet werden     Der Algorithmus f  r optimales Klassieren    Die Grundschritte f  r den Algorithmus f  r optimales Klassieren lassen sich wie folgt  charakterisieren     Vorverarbeitung  optional   Die Klassierungs Eingabevariable wird in n Klassen unterteilt  den  Wert f  r n geben Sie selbst an   wobei jede Klasse gleich viele F  lle enth  lt  bzw  ann  hernd  gleich viele F  lle  wenn sich die Anzahl der F  lle nicht restlos durch n teilen l  sst      Ermitteln potenzieller Trennwerte  Jeder unterschiedliche Wert der Klassierungs Eingabe  der  nicht zur selben Kategorie der F  hrungsvariablen geh  rt wie der n  chstgr    ere Wert der  Klassierungs Eingabevariablen  ist ein potenzieller Trennwert     Ausw  hlen von Trennwerten  Der potenzielle Trennwert  der zum gr    ten Informationsgewinn  f  hrt  wird durch das MDLP Akzeptanzkriterium ausgewertet  Wiederholen Sie den Vorgang   bis keine weiteren potenziellen Trennwerte akzeptiert werden  Die akzeptierten Trennwerte  legen die Klassengrenzen fest     Verwenden der optimalen Klassierung zur Diskretisierung der Daten zu  Kreditantragstellern    Im Rahmen der Bem  hungen einer Bank  den Anteil der nicht zur  ckgezahlten Kredite zu  reduzieren  hat ein Kredi
75. gen eines Versicherungsanalysten geht  ein Modell zur Anzahl der Autounf  lle  pro Fahrer unter Beriicksichtigung von Alter und Geschlecht zu erstellen  Jeder Fall stellt  einen Fahrer dar und erfasst das Geschlecht des Fahrers  sein Alter in Jahren und die Anzahl  der Autounf  lle in den letzten f  nf Jahren     band sav  Diese Datendatei enth  lt die hypothetischen w  chentlichen Verkaufszahlen von  CDs f  r eine Musikgruppe  Daten f  r drei m  gliche Einflussvariablen wurden ebenfalls  aufgenommen     bankloan sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen einer Bank geht  den Anteil der nicht zur  ckgezahlten Kredite zu reduzieren   Die Datei enth  lt Informationen zum Finanzstatus und demografischen Hintergrund von 850  fr  heren und potenziellen Kunden  Bei den ersten 700 F  llen handelt es sich um Kunden   denen bereits ein Kredit gew  hrt wurde  Bei den letzten 150 F  llen handelt es sich um  potenzielle Kunden  deren Kreditrisiko die Bank als gering oder hoch einstufen m  chte     bankloan_binning sav  Hierbei handelt es sich um eine hypothetische Datendatei  die  Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr  heren Kunden  enth  lt     behavior sav  In einem klassischen Beispiel  Price als auch Bouffard  1974  wurden 52  Sch  ler Studenten gebeten  die Kombinationen aus 15 Situationen und 15 Verhaltensweisen  auf einer 10 Punkte Skala von 0      ausgesprochen angemessen    bis 9      ausgesp
76. gen sind   Dieses Produkt verwendet WinWrap Basic  Copyright 1993 2007  Polar Engineering and Consulting  http   www winwrap com   SPSS Data Preparation    16 0    Copyright    2007 SPSS Inc   Alle Rechte vorbehalten     Ohne schriftliche Erlaubnis der SPSS GmbH Software darf kein Teil dieses Handbuchs fiir irgendwelche Zwecke oder in  irgendeiner Form mit irgendwelchen Mitteln  elektronisch oder mechanisch  mittels Fotokopie  durch Aufzeichnung oder durch  andere Informationsspeicherungssysteme reproduziert werden     1234567890 1009 08 07       Vorwort    SPSS 16 0 ist ein umfassendes System zum Analysieren von Daten  Das optionale  Erweiterungsmodul SPSS Data Preparation  Aufbereitung von Daten  bietet die zus  tzlichen  Analyseverfahren  die in diesem Handbuch beschrieben sind  Die Prozeduren im  Erweiterungsmodul Data Preparation  Aufbereitung von Daten  m  ssen zusammen mit SPSS 16 0  Base verwendet werden  Sie sind vollst  ndig in dieses System integriert     Installation    Zur Installation von SPSS Data Preparation  Aufbereitung von Daten  Erweiterungsmodul  f  hren Sie den Lizenzautorisierungsassistenten mit dem Autorisierungscode aus  den Sie von  SPSS erhalten haben  Weitere Informationen finden Sie in den Installationsanweisungen im  Lieferumfang von SPSS Data Preparation  Aufbereitung von Daten  Erweiterungsmodul     Kompatibilit  t    SPSS kann auf vielen Computersystemen ausgef  hrt werden  Mindestanforderungen an das  System und Empfehlungen finden Sie in den
77. gruppen nach ungew  hnlichen F  llen gesucht  Die Prozedur wurde f  r Data  Audit Zwecke in der explorativen Datenanalyse konzipiert  Zweck der Prozedur ist das schnelle  Erkennen von ungew  hnlichen F  llen  bevor mit anderen Analysen Schl  sse aus den Daten  gezogen werden  Dieser Algorithmus dient der Erkennung von allgemeinen Anomalien  Dies  bedeutet  dass sich die Definition eines anomalen Falls nicht auf eine bestimmte Anwendung  beschr  nkt  bei der Anomalien sehr treffend definiert werden k  nnen  z  B  beim Erkennen von  ungew  hnlichen Zahlungsmustern im Gesundheitswesen oder beim Aufdecken von Geldw  sche  im Finanzwesen     Algorithmus f  r  Ungew  hnliche F  lle identifizieren       Dieser Algorithmus gliedert sich in drei Phasen     Modellierung  Die Prozedur erstellt ein Clustermodell zum Ermitteln von nat  rlichen  Gruppierungen  Clustern  innerhalb eines Daten Sets  die andernfalls nicht erkennbar w  ren   Die Cluster beruhen auf einem Satz von Eingabevariablen  Das resultierende Clustermodell  und ausreichende Statistiken zum Berechnen der Normwerte der Clustergruppen werden f  r  die sp  tere Verwendung gespeichert     Bewertung  Das Modell wird auf jeden Fall angewendet  um die Clustergruppe des Falls zu  ermitteln  Dabei werden Indikatorvariablen f  r jeden Fall erstellt  um die Ungew  hnlichkeit jedes  Falls in Bezug auf die entsprechende Clustergruppe zu messen  Die F  lle werden nach den Werten  des Anomalie Index sortiert  Der oberste Anteil der Fall
78. h D  L  Bouffard  1974  Behavioral appropriateness and situational constraints  as dimensions of social behavior  Journal of Personality and Social Psychology  30  579 586     Rickman  R   N  Mitchell  J  Dingman  als auch J  E  Dalen  1974  Changes in serum cholesterol  during the Stillman Diet  Journal of the American Medical Association  228  54 58     Rosenberg  S   als auch M  P  Kim  1975  The method of sorting as a data gathering procedure in  multivariate research  Multivariate Behavioral Research  10  489 502     Van der Ham  T   J  J  Meulman  D  C  Van Strien  als auch H  Van Engeland  1997  Empirically  based subgrouping of eating disorders in adolescents  A longitudinal perspective  British Journal  of Psychiatry  170  363 368     Verdegaal  R  1985  Meer sets analyse voor kwalitatieve gegevens  in niederl  ndischer Sprache    Leiden  Department of Data Theory  Universitat Leiden     96    97       Bibliografie    Ware  J  H   D  W  Dockery  A  Spiro II  F  E  Speizer  als auch B  G  Ferris Jr   1984  Passive  smoking  gas cooking  and respiratory health of children living in six cities  American Review of  Respiratory Diseases  129  366 374        Anomalie Indizes  in    Ungew  hnliche F  lle identifizieren     19 20  60    Beispieldateien   Speicherort  84  Binning Regeln   in    Optimales Klassieren     27    Daten validieren  8  32  Ausgabe  14  Fallbericht  44  52  Gleiche Fallbezeichner  35  grundlegende Pr  fungen  10  Regelbeschreibung  43  Regeln f  r ei
79. ich um Gruppen von F  llen mit   hnlichen Werten f  r die  Analysevariablen  Bei dieser Option werden die Yerteilungen der Analysevariablen  nach Gruppen angezeigt     Anomalie Indizes    Der Anomalie Index ist ein Ma    das die Ungew  hnlichkeit eines Falls in Bezug auf die  Angeh  rigen seiner Gruppe widerspiegelt  Bei dieser Option wird die Verteilung der  Anomalie Indexwerte von ungew  hnlichen F  llen angezeigt     Vorkommen des Grunds nach Analysevariablen    Hierbei wird gezeigt  wie oft jede Analysevariable der Grund f  r die Ungewdhnlichkeit  eines Falls war     Bei dieser Option wird die Yerteilung der F  lle zusammengefasst  die in die Analyse  aufgenommen bzw  aus ihr ausgeschlossen wurden               TT openen m Hilfe             W  hlen Sie Normwerte der Gruppen  Anomalie Indizes  Vorkommen des Grunds nach  Analysevariablen und Verarbeitete Falle aus      gt  Klicken Sie auf die Registerkarte Speichern     57       Ungew  hnliche F  lle identifizieren    Abbildung 7 3  Dialogfeld    Ungewohnliche F  lle identifizieren    Registerkarte    Speichern       W Ungew  hnliche F  lle identifizieren    variablen   Ausgabe   Speichern   Fehlende Werte   Optionen       Yariablen speichern  Anomalie Index Name  Anomalie Index    Misst die Ungew  hnlichkeit eines Falls in Bezug auf die Angeh  rigen seiner Gruppe        Gruppen Stammname   Gruppe          F  r jede Gruppe werden drei Yariablen gespeichert  ID  Fallanzahl und Gr    e als  Prozentsatz der F  lle in der Analy
80. ichnungen  zweimal zu sortieren  die zweite Sortierung sollte dabei nach einem anderen Kriterium  erfolgen als die erste  So wurden insgesamt sechs    Quellen    erzielt  Jede Quelle entspricht  einer   hnlichkeitsmatrix mit 15 x 15 Elementen  Die Anzahl der Zellen ist dabei gleich der    90       Anhang A    Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der  Objekte in dieser Quelle     kinship_ini sav  Diese Datendatei enth  lt eine Ausgangskonfiguration f  r eine  dreidimensionale L  sung fiir kinship_dat sav     kinship_var sav  Diese Datendatei enth  lt die unabh  ngigen Variablen gender  Geschlecht    gener  Generation  und degree  Verwandtschaftsgrad   die zur Interpretation der Dimensionen  einer L  sung f  r kinship_dat sav verwendet werden k  nnen  Insbesondere k  nnen sie  verwendet werden  um den L  sungsraum auf eine lineare Kombination dieser Variablen   zu beschr  nken     mailresponse sav  Hierbei handelt es sich um eine hypothetische Datendatei  in der es   um die Bem  hungen eines Bekleidungsherstellers geht  der ermitteln m  chte  ob die  Verwendung von Briefsendungen f  r das Direktmarketing zu schnelleren Antworten f  hrt als  Postwurfsendungen  Die Mitarbeiter in der Bestellannahme erfassen  wie vielen Wochen nach  der Postsendung die einzelnen Bestellungen aufgegeben wurden     marketvalues sav  Diese Datendatei betrifft Hausverk  ufe in einem Neubaugebiet in  Algonquin  Illinois  in den Jahren 1999 2000  Diese Verk 
81. idieren            EE  Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern            Um Regeln einer Yariablen zuzuweisen  w  hlen Sie die Yariable aus und aktivieren eine oder mehrere Regeln     Die Liste  Analysevariablen  zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten  Die Liste  Regeln  zeigt  alle Regeln  die den ausgew  hlten Yariablen zugewiesen werden k  nnen     Analysevariablen  Regeln   Variable Verteilung Minimum Maxim    Re       Oto 1 Dichotomy  Initial Rankin score  rankin0  Tl 0 5    Oto 2 Categorical    Oto 3 Categorical  CAT scan result  catscan  CT 1to4 Categorical      IT _Nonnegative integer    TT   Nonnegative number    e O to 3 Categorical       Clot dissolving drugs  clot     IT Oto 5 Categorical  C  Oto 100 by 5       Died in hospital  dhosp     Treatment result  result     1          Post event preventative s 0 2                      Anzeigen  Alle Variablen v Durchsuchte F  lle  1048 Regeln definieren     Yariablenverteilungen    Durchsuchte Anzahl der   nan Begrenzen der durchsuchten F  lle hat keinen Einflu    Ele  SH Erneut durchsuchen auf die Anzahl der validierten F  lle     F  lle begrenzen                Wahlen Sie Atrial fibrillation  History of transient ischemic attack  CAT scan result und Died in  hospital aus und wenden Sie die Regel 0 to 1 Dichotomy an     Wenden Sie 0 to 3 Categorical auf Post event rehabilitation an   Wenden Sie 0 to 2 Cat
82. ie einzelnen Klassen anhand der Werte der F  hrungsvariablen  wieder  F  r jede Klassierungs Eingabevariable wird eine gesonderte Tabelle mit der  Klassierungs Zusammenfassung erstellt     Abbildung 8 6  Klassierungs    Zusammenfassung f  r    Age in Years     Alter in Jahren     Anzahl der F  lle nach Nivau von  Endpunkt    rem defaulted  Klasse Minimum Maximum Yes Gesamt       1129 1768  2615 3232  Gesamt 3744 1256 5000    Jede Klasse wird wie folgt berechnet  Minimum  lt  Age in years  lt  Maximum   a  Unbegrenzt       Die Zusammenfassung f  r Age in years  Alter in Jahren  zeigt  dass 1768 Kunden  alle im Alter  von 32 Jahren oder darunter  in Klasse 1 eingeteilt wurden  w  hrend die   brigen 3232 Kunden   deren Alter jeweils mehr als 32 Jahre betr  gt  alle in Klasse 2 eingeteilt wurden  Der Anteil der  Kunden  die schon einmal einen Kredit nicht zur  ckgezahlt haben     Previously defaulted     ist in  Klasse 1 wesentlich h  her  639 1768 0 361  als in Klasse 2  617 3232 0 191     Abbildung 8 7    Klassierungs Zusammenfassung f  r    Household income in thousands     Haushaltseinkommen in  Tausend     Anzahl der F  lle nach Nivau von  Endpunkt ene ETA   a    Mnmum Maximum   No   Yes     Gesamt         26 70 1054 513 1567  26 70 2690 3433  Gesamt 3744 1256 5000    Jede Klasse wird wie folgt berechnet  Minimum  lt   Household income in  thousands   Maximum     a  Unbegrenzt    Die Zusammenfassung f  r Household income in thousands  Haushaltseinkommen in Tausend   zeigt ei
83. ieldateien    ulcer_recurrence_recoded sav  In dieser Datei sind die Daten aus ulcer_recurrence sav so  umstrukturiert  dass das Modell der Ereigniswahrscheinlichkeit ftir jedes Intervall der Studie  berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie  Sie  wurde an anderer Stelle  Collett et al   2003  vorgestellt und analysiert     verd1985 sav  Diese Datendatei enth  lt eine Umfrage  Verdegaal  1985   Die Antworten von  15 Subjekten auf 8 Variablen wurden aufgezeichnet  Die relevanten Variablen sind in drei  Sets unterteilt  Set 1 umfasst alter und heirat  Set 2 besteht aus pet und news und in Set 3  finden sich music und live  Die Variable pet wird mehrfach nominal skaliert und die Variable  Alter ordinal  Alle anderen Variablen werden einzeln nominal skaliert     virus sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen eines Internet Dienstanbieters geht  der die Auswirkungen eines Virus auf seine  Netzwerke ermitteln m  chte  Dabei wurde vom Moment der Virusentdeckung bis zu dem  Zeitpunkt  zu dem die Virusinfektion unter Kontrolle war  der  ungef  hre  prozentuale Anteil  infizierter E Mail in den Netzwerken erfasst     waittimes sav  Hierbei handelt es sich um eine hypothetische Datendatei zu den Wartezeiten  f  r Kunden bei drei verschiedenen Filialen einer Bank  Jeder Fall entspricht einem Kunden  und zeichnet die Wartezeit und die Filiale     webusability sav  Hierbei handelt es sich um ei
84. index at 6  months an      gt  Klicken Sie auf die Registerkarte Regeln f  r mehrere Variablen     Gegenw  rtig sind keine Regeln definiert        Klicken Sie auf Regeln definieren     51       Abbildung 6 24    Daten validieren    Dialogfeld    Validierungsregeln definieren    Registerkarte    Regeln f  r mehrere Variablen       L Validierungsregeln definieren    nen  Regeln f  r eine Variable   Regeln f  r mehrere Variablen    Regeln        Name       Zweimal  estorben                Regeldefinition       Name    ZweimalGestorben       Logischer Ausdruck  muss bei einem ung  ltigen Fall 1 entsprechen          doa 1   amp   dhosp 1             less    Variablen       Taking anti clottin         Biistory of transien     Time to hospital  ti     dead on arrival  d     initial Rankin scor     CAT scan result  c     u Clot dissolving dru     Bodied in hospital  d     A Treatment result       u Post event preve     db Post event rehabil     E Length of stay for     E Total treatment a   4                Funktionen und Sondervariablen  Eunktion      Abs     Arsin     Artan     Cos     Exp     Lg10    Anzeigen    Aktuelles Datum  x     Beschreibung     Se Soom    Bi                Wenn keine Regeln vorliegen  wird automatisch eine neue Platzhalterrregel erstellt    Geben Sie als Name der Regel ZweimalGestorben ein     Geben Sie als logischen Ausdruck  doa 1   amp   dhosp 1  ein  Dieser Ausdruck ergibt den Wert 1   wenn f  r den Patienten sowohl der Tod vor der Ankunft als auch der 
85. ist n eine Ganzzahl  sodass der Name der  Regel unter den Regeln f  r eine oder mehrere Variablen eindeutig ist       Duplizieren  F  gt eine Kopie der ausgew  hlten Regel am Ende der Liste    Regeln    hinzu   Der Name der Regel wird so angepasst  dass er unter den Regeln f  r eine oder mehrere  Variablen eindeutig ist  Wenn Sie beispielsweise    EinVarRegel 1    duplizieren  erh  lt die erste  duplizierte Regel den Namen    Kopie von EinVarRegel 1     die zweite den Namen    Kopie  2   von EinVarRegel 1    usw     m L  schen  L  scht die ausgew  hlte Regel     5       Validierungsregeln    Regeldefinition  Mit diesen Steuerelementen k  nnen Sie die Eigenschaften f  r eine ausgew  hlte  Regel anzeigen lassen und festlegen     m Name  Der Name der Regel muss unter den Regeln f  r eine oder mehrere Variablen eindeutig  sein     m Typ  Dies ist der Variablentyp  auf den die Regel angewendet werden kann  W  hlen Sie  Numerisch  String oder Datum aus     m Format  Hiermit k  nnen Sie das Datumsformat f  r die Regeln ausw  hlen  die auf  Datumsvariablen angewendet werden k  nnen     m G  ltige Werte  Sie k  nnen die g  ltigen Werte als Bereich oder als Werteliste angeben     Mit den Steuerelementen zum Festlegen eines Bereichs k  nnen Sie einen Bereich g  ltiger Werte  angeben  Werte  die sich au  erhalb dieses Bereichs befinden  werden als ung  ltig gekennzeichnet        Abbildung 2 3  Regeln f  r eine Variable  Bereichsdefinition  G  ltige Werte  nt  Innerhalb des Bereichs v  Mi
86. itsdatei verschoben  damit sie einfacher aufgefunden werden k  nnen     Daten validieren  Speichern    Abbildung 3 6  Dialogfeld    Daten validieren     Registerkarte    Speichern       Daten validieren    variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Auswertungsvariablen   Beschreibung Speichern Name    Indikator f  r leere F  lle LeererFall   Gruppe mit doppelten IDs GruppeDoppelterlDs   Unvollst  ndiger ID Indikator Unvollst  ndigelD   Verletzungen von Yalidierungsregeln  Gesamt  i ValidierungsRegel  erletzungen     C  vorhandene Auswertungsvariablen ersetzen    Indikatorvariablen speichern  die alle Verletzungen von Yalidierungsregeln aufzeichnen    Die Variablen geben an  ob ein bestimmter Datenwert oder eine  Wertekombination eine Yalidierungsregel verletzt hat     Diese Variablen k  nnen das Bereinigen und Untersuchen Ihrer  Daten vereinfachen  Je nach Anzahl der angewendeten Regeln  werden der Arbeitsdatei bei dieser Option jedoch m  glicherweise  viele Yariablen hinzugef  gt     Gesamtanzahl der gespeicherten Variablen  0       Mithilfe der Registerkarte    Speichern    k  nnen Sie Variablen  bei denen Regelverletzungen  verzeichnet wurden  in der Arbeitsdatei speichern     16       Kapitel 3    Auswertungsvariablen  Hierbei handelt es sich um einzelne Variablen  die gespeichert werden  k  nnen  Aktivieren Sie die Kontrollk  stchen der zu speichernden Variablen  F  r die Variablen  sind Standa
87. k  mpfen haben  Nach dem Schlaganfall werden das  Auftreten von Herzinfarkt  isch  mischem Schlaganfall und h  morrhagischem Schlaganfall  sowie der Zeitpunkt des Ereignisses aufgezeichnet  Die Stichprobe ist auf der linken Seite  abgeschnitten  da sie nur Patienten enth  lt  die bis zum Ende des Rehabilitationprogramms   das nach dem Schlaganfall durchgef  hrt wurde    berlebten     stroke_valid sav  Diese hypothetische Datendatei enth  lt den Zustand einer medizinischen  Datenbank  nachdem diese mithilfe der Prozedur    Daten validieren      berpr  ft wurde  Sie  enth  lt immer noch potenziell anomale F  lle     tastetest sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  Bewertung der Auswirkungen der Mulchfarbe auf den Geschmack von Pflanzenprodukten  geht  Der Geschmack von Erdbeeren  die in rotem  blauem und schwarzem Rindenmulch  gezogen wurden  wurde von Testpersonen auf einer ordinalen Skala  weit unter bis weit   ber  dem Durchschnitt  bewertet  Jeder Fall entspricht einem Geschmackstester     94       Anhang A    telco sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen eines Telekommunikationsunternehmens geht  die Kundenabwanderung zu  verringern  Jeder Fall entspricht einem Kunden und enth  lt verschiedene Informationen zum  demografischen Hintergrund und zur Servicenutzung     telco_extra sav  Diese Datendatei   hnelt der Datei telco sav  allerdings wurden die Variablen     tenure    und die L
88. l patid Gruppen ID r    e e in Prozent    7840326167  0714726620  6553808330  6461046805  1077125669  2260043998  4030164769  1038840465  2191527525  4458028382  1336411777  4103977865  2247641363  0437454972  9746101913  7237535360  4391632997  6961933294  7315965190  6044244232  0816369249          oF oF Fe M Go Go zz zz Go DD Go Go GO DW ww    Die potenziell anomalen F  lle werden zusammen mit Informationen zu deren  Gruppenmitgliedschaft angezeigt  Die ersten 10 F  lle  und insgesamt 15 F  lle  geh  ren zu  Gruppe 3  alle weiteren zu Gruppe 1     62       Kapitel 7    Liste der Griinde anomaler Falle    Abbildung 7 9  Liste der Gr  nde anomaler F  lle    Grund  1    d ae Variablenbe Normwert der   Fall Grundvariable   einflussung Variablenwert Variablen  7516953   hysid 176466 828754  949  7469179  281  8879591  858  6395130  127  9064917  517  9741176  885  9353251  878  8918339  607  1368252  467  0621567  299  9355732  120  2554580  988  4971530  904  6240985  380  7311392  948    3548308  139    physid d 237547 828754  physid d 037350 828754  rankin3  rankini  physid     995409 828754  physid i 185703 828754  barthel1  barthel2  physid i 680253 828754  rankin2  rankin2  physid P 249058 828754  rankini    bartheli             physid   993921 828754    Die Grundvariablen sind die Variablen  die am meisten dazu beitragen  dass ein Fall als  ungew  hnlich eingestuft wird  F  r jeden anomalen Fall werden die prim  re Grundvariable  deren  Einflussma   und deren Wert f  r d
89. len Sie eine oder mehrere Variablen  aus  und aktivieren Sie in der Liste    Regeln    alle anzuwendenden Regeln  In der Liste    Regeln     werden nur Regeln aufgef  hrt  die f  r die ausgew  hlten Analysevariablen geeignet sind  Wenn  beispielsweise numerische Variablen ausgew  hlt wurden  werden nur numerische Regeln  angezeigt  Wurde eine String Variable ausgew  hlt  werden nur String Regeln angezeigt  Wenn  keine Analysevariablen ausgew  hlt wurden oder die ausgew  hlten Variablen unterschiedliche  Datentypen aufweisen  werden keine Regeln angezeigt     13       Daten validieren    Variablenverteilungen  Die in der Liste    Analysevariablen    angezeigten  Verteilungszusammenfassungen k  nnen auf allen F  llen beruhen oder auf einer Durchsuchung der  ersten n F  lle  Dies wird im Textfeld    F  lle    festgelegt  Durch Klicken auf Erneut durchsuchen  werden die Verteilungszusammenfassungen aktualisiert     Daten validieren  Regeln f  r mehrere Variablen    Abbildung 3 4  Dialogfeld    Daten validieren    Registerkarte    Regeln f  r mehrere Variablen       Daten validieren    en  Variablen   Grundlegende Pr  fungen    Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Regeln     Zuweisen   Name  Ausdruck      DiedTwice  doa 1   amp   dhosp 1     Regeln definieren          Auf der Registerkarte    Regeln f  r mehrere Variablen    werden verf  gbare Regeln f  r mehrere  Variablen angezeigt  die Sie auf die Daten anwenden k  nnen  Um weitere 
90. liste stellt die Anomalien dar     Argumentation  F  r jeden anomalen Fall werden die Variablen nach den entsprechenden  Variablenabweichungs Indizes sortiert  Die obersten Variablen  deren Werte und die  entsprechenden Normwerte werden als Gr  nde ausgegeben  warum ein Fall als Anomalie  identifiziert wurde     Identifizieren ungew  hnlicher F  lle in einer medizinischen Datenbank    Ein Analytiker  der mit der Erstellung von Prognosemodellen f  r die Ergebnisse von  Schlaganfallbehandlungen betraut wurde  ist   ber die Qualit  t der Daten besorgt  weil   solche Modelle bei ungew  hnlichen Beobachtungen anf  llig sein k  nnen  Einige dieser  Randbeobachtungen stellen wirklich einzigartige F  lle dar und eignen sich deswegen nicht f  r eine  Vorhersage  Andere Beobachtungen stellen Dateneingabefehler dar  wobei die Werte technisch    54    55       Ungew  hnliche F  lle identifizieren    gesehen    richtig    sind und deswegen nicht mit Datenvalidierungsprozeduren abgefangen werden  k  nnen    Diese Informationen finden Sie in der Datei stroke_valid sav  F  r weitere Informationen  siehe Beispieldateien in Anhang A auf S  84  Verwenden Sie die Prozedur    Ungew  hnliche  F  lle identifizieren     um die Datendatei zu bereinigen  Syntax  mit denen Sie diese Analysen  nachvollziehen k  nnen  befindet sich in der Datei detectanomaly_stroke sps     Durchf  hrung der Analyse     gt  Um ungew  hnliche F  lle zu identifizieren  w  hlen Sie die folgenden Befehle aus den Men  s aus   
91. ln    Beachten Sie  dass hierbei alle vorhandenen Validierungsregeln fiir eine Variable in der  Arbeitsdatei gel  scht werden    Sie k  nnen auch den Assistenten zum Kopieren von Dateneigenschaften verwenden  um  Regeln aus einer beliebigen Datendatei zu laden     Validierungsregeln definieren    Im Dialogfeld    Validierungsregeln definieren    k  nnen Sie Validierungsregeln f  r eine oder  mehrere Variablen erstellen und anzeigen     So erstellen Sie Validierungsregeln und lassen diese anzeigen        W  hlen Sie die folgenden Befehle aus den Men  s aus     Daten  Validierung  Regeln definieren       Das Dialogfeld wird mit Validierungsregeln f  r eine oder mehrere Variablen ausgef  llt  die aus  dem Datenlexikon ausgelesen werden  Wenn keine Regeln vorliegen  wird automatisch eine neue  Regel als Platzhalter erzeugt  die Sie nach Bedarf anpassen k  nnen        W  hlen Sie einzelne Regeln auf den Registerkarten    Regeln f  r eine Variable    und    Regeln f  r  mehrere Variablen    aus  um sich die Eigenschaften anzeigen zu lassen und diese zu   ndern     4       Kapitel 2    Definieren von Regeln f  r eine Variable    Abbildung 2 2  Dialogfeld  Validierungsregeln definieren  Registerkarte    Regeln f  r eine Variable       L Validierungsregeln definieren    Regeln f  r eine Variable   Regeln f  r mehrere variablen   _          Regeln    ng   p Regeldefinition  Name    Numerisch  1 2 dichotomy Numerisch  1 to 5 integer Numerisch  1 to 10 integer Numerisch  Nonnegative numb
92. lywagedata sav  Hierbei handelt es sich um eine hypothetische Datendatei zum  Stundenlohn von Pflegepersonal in Praxen und Krankenh  usern mit unterschiedlich langer  Berufserfahrung     insure sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um eine  Versicherungsgesellschaft geht  die die Risikofaktoren untersucht  die darauf hinweisen    ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen  Lebensversicherung in Anspruch nehmen wird  Jeder Fall in der Datendatei entspricht einem  Paar von Vertr  gen  je einer mit Leistungsforderung und der andere ohne  wobei die beiden  Versicherungsnehmer in Alter und Geschlecht   bereinstimmen     judges sav  Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von  ausgebildeten Kampfrichtern  sowie eines Sportliebhabers  zu 300 Kunstturnleistungen  Jede  Zeile stellt eine Leistung dar  die Kampfrichter bewerteten jeweils dieselben Leistungen     kinship_dat sav  Rosenberg und Kim  Rosenberg als auch Kim  1975  haben 15 Bezeichnungen  f  r den Verwandtschaftsgrad untersucht  Tante  Bruder  Cousin  Tochter  Vater  Enkelin   Gro  vater  Gro  mutter  Enkel  Mutter  Neffe  Nichte  Schwester  Sohn  Onkel   Die beiden  Analytiker baten vier Gruppen von College Studenten  zwei weibliche und zwei m  nnliche  Gruppen   diese Bezeichnungen auf der Grundlage der   hnlichkeiten zu sortieren  Zwei  Gruppen  eine weibliche und eine m  nnliche Gruppe  wurden gebeten  die Beze
93. mendes Medikament zur Schmerzbehandlung bei chronischer  Arthritis  Von besonderem Interesse ist die Zeitdauer  bis die Wirkung des Medikaments  einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet     patient_los sav  Diese hypothetische Datendatei enth  lt die Behandlungsaufzeichnungen  zu Patienten  die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert  wurden  Jeder Fall entspricht einem Patienten und enth  lt diverse Variablen in Bezug auf  den Krankenhausaufenthalt     91       Beispieldateien    patlos_sample sav  Diese hypothetische Datendatei enth  lt die Behandlungsaufzeichnungen  f  r eine Stichprobe von Patienten  denen w  hrend der Behandlung eines Herzinfarkts  Thrombolytika verabreicht wurden  Jeder Fall entspricht einem Patienten und enth  lt diverse  Variablen in Bezug auf den Krankenhausaufenthalt     polishing sav  Hierbei handelt es sich um die Datendatei    Nambeware Polishing Times     aus der Data and Story Library  Sie bezieht sich auf die Bem  hungen eines Herstellers  von Metallgeschirr  Nambe Mills  Santa Fe  New Mexico  zur zeitlichen Planung seiner  Produktion  Jeder Fall entspricht einem anderen Artikel in der Produktpalette  F  r jeden  Artikel sind Durchmesser  Polierzeit  Preis und Produkttyp erfasst     poll_cs sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  Bem  hungen geht  die   ffentliche Unterst  tzung f  r einen Gesetzentwurf zu ermitteln  bevor  er im Parlament eingeb
94. modern community     die moderne Gesellschaft  ein  lockerer Zusammenschluss  der aus einer engen physischen N  he und dem Bedarf an  spezialisierten Dienstleistungen entsteht      healthplans sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es   um die Bem  hungen einer Versicherungsgruppe geht  vier verschiedene Pl  ne zur  Gesundheitsvorsorge f  r Kleinbetriebe zu evaluieren  Zw  lf Inhaber von Kleinbetrieben   Arbeitgeber  wurden gebeten  die Pl  ne danach in eine Rangfolge zu bringen  wie gern sie  sie ihren Mitarbeitern anbieten w  rden  Jeder Fall entspricht einem Arbeitgeber und enth  lt  die Reaktionen auf die einzelnen Pl  ne     health_funding sav  Hierbei handelt es sich um eine hypothetische Datei  die Daten zur  Finanzierung des Gesundheitswesens  Betrag pro 100 Personen   Krankheitsraten  Rate pro  10 000 Personen der Bev  lkerung  und Besuche bei medizinischen Einrichtungen   rzten   Rate pro 10 000 Personen der Bev  lkerung  enth  lt  Jeder Fall entspricht einer anderen Stadt     hivassay sav  Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem  hungen  eines pharmazeutischen Labors  einen Schnelltest zur Erkennung von HIV Infektionen zu  entwickeln  Die Ergebnisse des Tests sind acht kr  ftiger werdende Rotschattierungen  wobei  kr  ftigeren Schattierungen auf eine h  here Infektionswahrscheinlichkeit hindeuten  Bei 2 000  Blutproben  von denen die H  lfte mit HIV infiziert war  wurde ein Labortest durchgef  hrt     hour
95. n   hnliches Muster  mit einem einzigen Trennwert bei 26 70 und einem h  heren   Anteil an Kunden mit fr  heren Zahlungsschwierigkeiten     Previously defaulted     in Klasse 1   513 1567 0 327  als in Klasse 2  743 3433 0 216   Wie aus der Statistik f  r die Modellentropie  zu erwarten  ist der Unterschied in diesen Anteilen nicht so gro   wie bei Age in years  Alter   in Jahren      77       Optimales Klassieren    Abbildung 8 8  Klassierungs Zusammenfassung f  r    Other debt in thousands     Andere Schulden in Tausend     Anzahl der Falle nach Nivau von  Endpunkt a E a  Kasse    Samim Maximum   Gesamt         2 19 Ce 2700  1583 17 2300  Gesamt 3744 1256 5000    Jede Klasse wird wie folgt berechnet  Minimum  lt   Other debt in  thousands   Maximum     a  Unbegrenzt    Die Zusammenfassung ftir Other debt in thousands  Andere Schulden in Tausend  zeigt ein  umgekehrtes Muster  mit einem einzigen Trennwert bei 2 19 und einem geringeren Anteil   an Kunden mit fr  heren Zahlungsschwierigkeiten     Previously defaulted     in Klasse 1   539 2700 0 200  als in Klasse 2  717 2300 0 312   Auch hier ist  wie aus der Statistik f  r  die Modellentropie zu erwarten  der Unterschied in diesen Anteilen nicht so gro   wie bei Age  in years  Alter in Jahren     Abbildung 8 9    Klassierungs Zusammenfassung f  r  Years with current employer     Jahre der Besch  ftigung beim  derzeitigen Arbeitgeber     Anzahl der F  lle nach Nivau von  Endpunkt  ae TEA  Klasse    Minimum Maximum u   Gesamt 
96. n die Werte der  Indikatorvariablen  Der Wert 1 bedeutet  dass der Wert der zugeordneten Variablen ung  ltig ist     45       Daten validieren    Abbildung 6 17  Daten Editor mit Indikatorvariable f  r Regelverletzung in Fall 175    recbart3      Oto1Dichot  eo  Dichoto  0to1Dichoto  1to4Categori Nonnegative  omy_doa my_gender_   my angina cal agecat eger_time       4       al W W Fk D   Pe NW P E                         VYariablenansicht          Wechseln Sie zu Fall 175  dem ersten Fall  bei dem eine Regelverletzung auftritt  Um die  Suche zu beschleunigen  betrachten Sie die Indikatorvariablen  die den Variablen in der Tabelle     Variablenauswertung    zugeordnet sind  Es ist offensichtlich  dass History of angina einen  ung  ltigen Wert aufweist     Abbildung 6 18  Daten Editor mit ung  ltigem Wert f  r    History of angina                                        af smoker choles angina mi nitro anticlot tia   oo    0 0   2 i  1 D 1 D D D 3  E  0 1  0 1 D D 2  0 o  0 a d   176 D D 0 D D d 0  D o  0 0 1  o  o   o  D 1 0  D D o   0 0 0 0 0 D 1   180 0 0 0 0 0 0 0   m   LI n n g LI LI    Datenansicht   Yariablenansicht       History of angina weist den Wert    1 auf  Dieser Wert ist zwar ein g  ltiger fehlender Wert f  r die  Behandlungs  und Ergebnisvariablen in der Datendatei  an der vorliegenden Stelle ist er jedoch  ung  ltig  weil f  r die Anamnesevariablen keine benutzerdefiniert fehlenden Werte festgelegt  wurden     Definieren von eigenen Regeln    Die aus der Datei 
97. n kopieren   Schritt 3 von 5     gt  Heben Sie die Auswahl aller Eigenschaften mit Ausnahme von Benutzerdefinierte Attribute auf        Klicken Sie auf Weiter     39       Daten validieren    Abbildung 6 9  Kopieren von Dateneigenschaften   Schritt 4  Daten Set Eigenschaften ausw  hlen     Dateneigenschaften kopieren   Schritt 4 von 5          u  Di     LI        gt  Wahlen Sie Benutzerdefinierte Attribute aus      gt  Klicken Sie auf Fertig stellen     Nun k  nnen Sie die Validierungsregeln verwenden     40       Kapitel 6    Abbildung 6 10  Dialogfeld    Daten validieren    Registerkarte    Regeln f  r eine Variable       Daten validieren          Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern  L   I U    Um Regeln einer Variablen zuzuweisen  w  hlen Sie die Variable aus und aktivieren eine oder mehrere Regeln     Die Liste  Analysevariablen  zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten  Die Liste  Regeln  zeigt  alle Regeln  die den ausgew  hlten Yariablen zugewiesen werden k  nnen     Analysevariablen     Regeln       Variable Verteilung Minimum Maxim    F  Zuwei  Name        i _   Oto 1 Dichotomy  Hospital ID  hospid  YYH i Oto 2 Categorical    jo to 3 Categorical  Hospital s 1 to 4 Categorical         Nonnegative integer    Patient ID  patid  ant 99969    CI _ Nonnegative number         Attending physician ID  p    dote  001448 995409    Age in years  age  86    v  Age
98. ne Variable  12  Regeln f  r mehrere Variablen  13  52  Unvollst  ndige Fallbezeichner  35  Variablen speichern  15  Variablenauswertung  43  verwandte Prozeduren  53  Warnungen  34  Datenvalidierung  in    Daten validieren     8  Deskriptive Statistiken  in    Optimales Klassieren     74    Endpunkte f  r Klassen  in    Optimales Klassieren     26    Fallbericht  in    Daten validieren     44  52  Fehlende Werte  in    Ungew  hnliche F  lle identifizieren     21    Gleiche Fallbezeichner   in    Daten validieren     15  35  Gr  nde   in    Ungew  hnliche F  lle identifizieren     19 20  62  66  Gruppen   in    Ungew  hnliche F  lle identifizieren     19 20  59  61    Klassierte Variablen  in    Optimales Klassieren     80  Klassierungs Zusammenfassungen  in    Optimales Klassieren     76    Leere F  lle  in    Daten validieren     15    Index    MDLP   in    Optimales Klassieren     24  Modellentropie   in    Optimales Klassieren     75    Normwerte der Gruppen  in    Ungew  hnliche F  lle identifizieren     63 64    Optimales Klassieren  24  70  Ausgabe  26  Deskriptive Statistiken  74  Fehlende Werte  28  Klassierte Variablen  80  Klassierungs Zusammenfassungen  76  Modell  70  Modellentropie  75  Optionen  29  speichern  27  Syntax Klassierungsregeln  80    Pre Binning  in    Optimales Klassieren     29    Regelbeschreibung  in    Daten validieren     43      berwachtes Binning  im Vergleich mit un  berwachtem Binning  24  in    Optimales Klassieren     24  Ungew  hnliche
99. ne hypothetische Datendatei  bei der es um  Tests zur Benutzerfreundlichkeit eines neuen Internetgesch  fts geht  Jeder Fall entspricht  einer von f  nf Testpersonen  die die Benutzerfreundlichkeit bewerten und gibt f  r sechs  separate Aufgaben an  ob die Testperson sie erfolgreich ausf  hren k  nnte     wheeze_steubenville sav  Hierbei handelt es sich um eine Teilmenge der Daten aus einer  Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder   Ware  Dockery  Spiro III  Speizer  als auch Ferris Jr   1984   Die Daten enthalten wiederholte  bin  re Messungen des Keuchens von Kindern aus Steubenville  Ohio  im Alter von 7  8  9  und 10 Jahren sowie eine unver  nderlichen Angabe  ob die Mutter im ersten Jahr der Studie  rauchte oder nicht     workprog sav  Hierbei handelt es sich um eine hypothetische Datendatei zu einem  Arbeitsprogramm der Regierung  das versucht  benachteiligten Personen bessere Arbeitspl  tze  zu verschaffen  Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet  Von  diesen Personen wurden nach dem Zufallsprinzip einige f  r die Teilnahme an dem Programm  ausgew  hlt  Jeder Fall entspricht einem Programmteilnehmer        Bibliografie    Bell  E H  1961  Social foundations of human behavior  Introduction to the study of sociology   New York  Harper  amp  Row     Blake  C  L   als auch C  J  Merz  1998   UCI Repository of machine learning databases    Available at http   www ics uci edu  mlearn MLRepository html     
100. ngegebenen Minimal  und Maximalwert  Die Werte m  ssen positive Ganzzahlen sein  und das  Minimum darf das Maximum nicht   berschreiten  Wenn die angegebenen Werte gleich sind  setzt  die Prozedur eine feste Anzahl von Gruppen voraus     Anmerkung  Abh  ngig von der Variation in den Daten k  nnen Situationen auftreten  in denen  die Daten weniger Gruppen unterst  tzen k  nnen als als Minimum angegeben  In einer solchen  Situation erzeugt die Prozedur eine kleinere Anzahl von Gruppen     Maximale Anzahl von Gr  nden  Ein Grund besteht aus dem Variablen Einflussma    dem  Variablennamen f  r diesen Grund  dem Wert der Variablen und dem Wert der entsprechenden  Gruppe  Geben Sie eine nichtnegative Ganzzahl an  Wenn dieser Wert gr    er oder gleich der  Anzahl der verarbeiteten Variablen ist  die in der Analyse verwendet werden  werden alle  Variablen angezeigt     Zus  tzliche Funktionen beim Befehl DETECTANOMALY    Mit der Befehlssyntax Sprache verf  gen Sie au  erdem   ber folgende M  glichkeiten     m Sie k  nnen einige Variablen in der Arbeitsdatei aus der Analyse ausschlie  en  ohne dass  ausdr  cklich alle Analysevariablen angegebenen werden m  ssen  mit dem Unterbefehl  EXCEPT      m Sie k  nnen eine Korrektur angeben  um den Einfluss von stetigen und kategorialen Variablen  auszutarieren  mit dem Schl  sselwort MLWEIGHT im Unterbefehl CRITERIA      Vollst  ndige Informationen zur Syntax finden Sie in der Command Syntax Reference        Kapitel    Optimales Klassieren    
101. nimum  mn   Geben Sie einen Minimalwert  einen    Maximalwert oder beides an  Wenn  keiner dieser Werte angegeben    ARH RE   wird  gelten alle Werte als innerhalb  amum  des Bereichs     Werte ohne Label im Bereich zulassen    Da lange Stringvariablen keine Wertelabels besitzen  sollte diese Option  f  r solche Variablen immer aktiviert sein     Chid       Um einen Bereich anzugeben  geben Sie den Minimum  oder Maximumwert oder beide Werte  ein  Mit dem Kontrollk  stchen k  nnen Sie festlegen  dass Werte ohne Label und nichtganzzahlige  Werte im Bereich gekennzeichnet werden    Mit den Steuerelementen zum Festlegen einer Liste k  nnen Sie eine Liste g  ltiger Werte  angeben  Werte  die nicht in der Liste befinden  werden als ung  ltig gekennzeichnet           Abbildung 2 4  Regeln f  r eine Variable  Listendefinition  G  ltige Werte    In einer Liste vj  Werte   Io  1    Geben Sie im Gitter die Listenwerte ein  Mit dem Kontrollk  stchen legen Sie fest  ob die  Gro    Kleinschreibung ber  cksichtigt wird  wenn String Datenwerte gegen die Liste der  zul  ssigen Werte gepr  ft werden     6       Kapitel 2      Benutzerdefinierte fehlende Werte zulassen  Hiermit wird festgelegt  ob benutzerdefinierte  fehlende Werte als ung  ltig gekennzeichnet werden     m  Systemdefinierte fehlende Werte zulassen  Hiermit wird festgelegt  ob systemdefinierte  fehlende Werte als ung  ltig gekennzeichnet werden  Dies gilt nicht f  r Regeln f  r Strings     m Leere Werte zulassen  Hiermit wird fe
102. og transformierten Variablen zu den Kundenausgaben entfernt und durch  standardisierte Log transformierte Variablen ersetzt     telco_missing sav  Diese Datendatei entspricht der Datei telco_mva_complete sav  allerdings  wurde ein Teil der Daten durch fehlende Werte ersetzt     telco_mva_complete sav  Bei dieser Datendatei handelt es sich um eine Teilmenge der  Datendatei telco sav  allerdings mit anderen Variablennamen     testmarket sav  Diese hypothetische Datendatei bezieht sich auf die Pl  ne einer  Fast Food Kette  einen neuen Artikel in ihr Men   aufzunehmen  Es gibt drei m  gliche  Kampagnen zur Verkaufsf  rderung f  r das neue Produkt  Daher wird der neue Artikel in  Filialen in mehreren zuf  llig ausgew  hlten M  rkten eingef  hrt  An jedem Standort wird eine  andere Form der Verkaufsf  rderung verwendet und die w  chentlichen Verkaufszahlen f  r  das neue Produkt werden f  r die ersten vier Wochen aufgezeichnet  Jeder Fall entspricht  einer Standort Woche     testmarket_1month sav  Bei dieser hypothetischen Datendatei handelt es sich um die  Datendatei testmarket sav  wobei die w  chentlichen Verkaufszahlen zusammengefasst sind   sodass jeder Fall einem Standort entspricht  Dadurch entfallen einige der Variablen  die  w  chentlichen   nderungen unterworfen waren  und die verzeichneten Verkaufszahlen sind  nun die Summe der Verkaufszahlen w  hrend der vier Wochen der Studie     tree_car sav  Hierbei handelt es sich um eine hypothetische Datendatei  die demografische
103. orkommen des Grunds nach Analysevariablen    Hierbei wird gezeigt  wie oft jede Analysevariable der Grund f  r die Ungew  hnlichkeit  eines Falls war     Bei dieser Option wird die Verteilung der F  lle zusammengefasst  die in die Analyse  aufgenommen bzw  aus ihr ausgeschlossen wurden        Einf  gen Zur  cksetzen     Abbrechen Hilfe       Liste ungew  hnlicher F  lle und Gr  nde f  r die Ungew  hnlichkeit  Bei dieser Option werden drei  Tabellen erstellt     m Die Liste der Indizes anomaler F  lle zeigt die als ungew  hnlich identifizierten F  lle und  deren entsprechende Anomalie Indexwerte an     m Die Liste der Gruppen IDs anomaler F  lle zeigt ungew  hnliche F  lle und die Informationen    ber deren entsprechende Gruppen an     m Die Liste der Gr  nde anomaler F  lle zeigt die Fallanzahl  die Grundvariable  den Einflusswert  der Variablen  den Wert der Variablen und den Normwert der Variablen f  r jeden Grund an     Alle Tabellen werden nach Anomalie Index in absteigender Reihenfolge sortiert  Dar  ber  hinaus werden die IDs der F  lle angezeigt  wenn auf der Registerkarte    Variablen    eine  Fallbezeichnervariable angegeben wurde     Auswertung  Mit den Steuerlementen in diesem Gruppenfeld werden Auswertungen der  Verteilungen erstellt     m Normwerte der Gruppen  Bei dieser Option wird die Tabelle f  r die Normwerte der stetigen  Variablen  wenn die Analyse stetige Variablen umfasst  und die Tabelle f  r die Normwerte  der kategorialen Variablen  wenn die Analyse k
104. patient_los sav kopierten Validierungsregeln sind zweifellos n  tzlich  reichen  jedoch nicht aus  Es gibt Situationen  in denen Patienten  die bereits vor der Ankunft verstorben  waren  versehentlich als im Krankenhaus verstorben erfasst werden  Eine Situation dieser Art  kann nicht mit einer Regel f  r eine Variable erkannt werden  Sie ben  tigen eine Regel f  r mehrere  Variablen     46       Kapitel 6     gt  Klicken Sie auf der Symbolleiste auf das Symbol    Zuletzt verwendete Dialogfelder    und w  hlen  Sie Daten validieren aus        Klicken Sie auf die Registerkarte Regeln f  r eine Variable   Sie m  ssen Regeln f  r Hospital size   die Variablen f  r die Rankin Scores und die Variablen der nicht umkodierten Barthel Indizes  erstellen         Klicken Sie auf Regeln definieren     Abbildung 6 19  Dialogfeld  Validierungsregeln definieren  Registerkarte    Regeln f  r eine Variable       L Validierungsregeln definieren    p  Regeln f  r eine Variable   Regeln f  r mehrere Variablen         Regeln  Regeldefinition  Name Typ    Numerisch  1 2 dichotomy Numerisch  1 to 5 integer Numerisch  1 to 10 integer Numerisch  Nonnegative number Numerisch  Nonnegative integer Numerisch  Oto 100 number Numerisch  Flag system missing val    Numerisch  Flag user missing values   Numerisch Werte   Flag missing values Numerisch 0   1             Name    0 1 dichotomy Typ    Numerisch       G  ltige Werte        In einer Liste             Flag noninteger values Numerisch  Flag unlabeled v
105. r    Optimales Klassieren    haben wir Klassierungsregeln f  r metrische  Variablen generiert  die potenzielle Einflussvariablen f  r die Wahrscheinlichkeit der  Zahlungsunf  higkeit sind  und haben diese Regeln auf ein separates Daten Set angewendet    W  hrend des Klassierungsvorgangs haben wir festgestellt  dass die klassierten Variablen Years  with current employer  Jahre der Besch  ftigung beim derzeitigen Arbeitgeber  und Years at current  address  Wohnhaft an gleicher Adresse  in Jahren   besser zur Ermittlung von Personen geeignet  sind  die mit gro  er Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten  w  hrend Credit  card debt in thousands  Schulden auf Kreditkarte in Tausend  besser f  r die Ermittlung von  Personen geeignet ist  die mit gro  er Wahrscheinlichkeit den Kredit nicht zur  ckzahlen k  nnen   Diese interessante Beobachtung ist sehr wertvoll  wenn es darum geht  Vorhersagemodelle f  r die  Wahrscheinlichkeit der Zahlungsunf  higkeit zu erstellen  Wenn die Vermeidung uneinbringlicher  Forderungen das Hauptanliegen ist  ist die Variable Credit card debt in thousands  Schulden auf  Kreditkarte in Tausend  wichtiger als Years with current employer  Jahre der Besch  ftigung beim  derzeitigen Arbeitgeber  und Years at current address  Wohnhaft an gleicher Adresse  in Jahren     Wenn die Erweiterung des Kundenstamms oberste Priorit  t hat  sind die Variablen Years with  current employer  Jahre der Besch  ftigung beim derzeitigen Arbeitgeber  und Year
106. r Prozentsatz entspricht dem Anteil der F  lle  mit nichtfehlenden Werten der Variablen     Maximaler Prozentsatz der Kategorien mit Anzahl 1  Wenn kategoriale Analysevariablen  vorhanden sind  werden bei dieser Option kategoriale Analysevariablen ausgegeben  bei  denen der prozentuale Anteil der Kategorien der Variablen  die nur einen Fall enthalten     11       Daten validieren    den angegebenen Wert tibersteigt  Der angegebene Wert muss eine positive Zahl kleiner  oder gleich 100 sein     Minimaler Variationskoeffizient  Wenn metrische Analysevariablen vorhanden sind  werden  bei dieser Option metrische Analysevariablen ausgegeben  bei denen der absolute Wert  des Variationskoeffizienten kleiner als der angegebene Wert ist  Diese Option betrifft nur  Variablen mit einem von 0 abweichenden Mittelwert  Der angegebene Wert muss eine  nichtnegative Zahl sein  Durch Angabe von 0 wird die Priifung des Variationskoeffizienten  deaktiviert     Minimale Standardabweichung  Wenn metrische Analysevariablen vorhanden sind  werden bei  dieser Option metrische Analysevariablen ausgegeben  deren Standardabweichung kleiner als  der angegebene Wert ist  Der angegebene Wert muss eine nichtnegative Zahl sein  Durch  Angabe von 0 wird die Priifung der Standardabweichung deaktiviert     Fallbezeichner  Wenn Sie auf der Registerkarte    Variablen    Fallbezeichnervariablen ausgew  hlt  haben  k  nnen Sie die folgenden G  ltigkeitspr  fungen ausw  hlen     Unvollst  ndige IDs markieren  Bei die
107. r die F  lle in der Anomalie Liste  Barthel index at 1 month ist der h  ufigste  Grund  Total treatment and rehabilitation costs in thousands der zweith  ufigste  Es werden   die Einflussstatistiken der Variablen ausgewertet  Dabei werden f  r jede Variable der kleinste     67       Ungew  hnliche F  lle identifizieren    gr    te und mittlere Einfluss sowie bei Variablen  die bei mehr als einem Fall die Grundvariablen  sind  die Standardabweichung ausgegeben     Streudiagramm f  r den Anomalie Index und den Variableneinfluss    Die Tabellen enthalten viele n  tzliche Informationen  Es kann jedoch schwierig sein  die  wechselseitigen Beziehungen zu erfassen  Mit den gespeicherten Variablen k  nnen Sie eine  Grafik erstellen  die Ihnen diese Aufgabe erleichtert        Um dieses Streudiagramm zu erstellen  w  hlen Sie die folgenden Befehle aus den Men  s aus     Grafiken  Diagrammerstellung       Abbildung 7 16  Dialogfeld    Diagrammerstellung       E Diagrammerstellung    Variablen     all Barthel in     diRecoded Se  MRecoded os  Recoded D  Stroke be     Stroke be     di  Stroke be     E Anomaly      E Peer Gro          Kategorien  Einflussma   f  r    BE Kategorie    Grundvariable    BE Vatannvia 3          Diagrammyorschau verwendet Beispieldaten  Galerie Ausw  hlen aus       Favoriten  Grundelemente Balken  geg Linie  Gruppen Punkt ID Fl  che  Kreis Polar  Titel Fu  noten Streu  Punktdiagr     nr Histogramm  Hoch Tief    Elementeigenschaft    Boxplot  Doppelachsen        
108. racht wird  Die F  lle entsprechen registrierten W  hlern  F  r jeden Fall  sind County  Gemeinde und Wohnviertel des W  hlers erfasst     poll_cs_sample sav  Diese hypothetische Datendatei enth  lt eine Stichprobe der in  poll_cs sav aufgef  hrten W  hler  Die Stichprobe wurde gem     dem in der Plandatei  poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die  Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst  Beachten Sie jedoch  Folgendes  Da im Stichprobenplan die PPS Methode  PPS  probability proportional to  size  Wahrscheinlichkeit proportional zur Gr    e  verwendet wird  gibt es au  erdem eine  Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten  poll_jointprob sav   Die  zus  tzlichen Variablen zum demografischen Hintergrund der W  hler und ihrer Meinung  zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und  zur Datendatei hinzugef  gt     property_assess sav  Hierbei handelt es sich um eine hypothetische Datendatei  in der es   um die Bem  hungen eines f  r einen Bezirk  County  zust  ndigen Immobilienbewerters  geht  trotz eingeschr  nkter Ressourcen die Einsch  tzungen des Werts von Immobilien auf  dem aktuellsten Stand zu halten  Die F  lle entsprechen den Immobilien  die im vergangenen  Jahr in dem betreffenden County verkauft wurden  Jeder Fall in der Datendatei enth  lt die  Gemeinde  in der sich die Immobilie befindet  den Bewerter  der die Immobilie besichtigt hat   die seit dies
109. ratio  6100   lt  Maximum     a  Unbegrenzt    Die Zusammenfassung f  r Debt to income ratio  x100   Relation Schulden zu Einkommen  in      weist ein   hnliches Muster auf wie Credit card debt in thousands  Schulden auf Kreditkarte in  Tausend   Diese Variable weist den niedrigsten Wert f  r die Modellentropie auf und ist somit der  beste Kandidat als Einflussvariable f  r die Wahrscheinlichkeit der Zahlungsunf  higkeit  Sie bietet  eine bessere Klassifizierung von Personen  die mit gro  er Wahrscheinlichkeit zahlungsunf  hig  werden  als Credit card debt in thousands  Schulden auf Kreditkarte in Tausend  und eine fast  ebenso gute Klassifizierung von Personen  die mit geringer Wahrscheinlichkeit zahlungsunf  hig  werden  wie Years with current employer  Jahre der Besch  ftigung beim derzeitigen Arbeitgeber         Klasse  Anteil der  zahlungsunf  higen Personen                   1 0 088  2 0 179  3 0 382  4 0 605  5 0 933                80       Kapitel 8    Klassierte Variablen    Abbildung 8 13  Klassierte Variablen f  r bankloan_binning sav im Daten Editor       default  1 0 2 3 2 2 2 1 2  2 0 1 3 2 2 3 2 2  a 0 2 3 3 2 2 3 2  4 0 2 3 3 2 4 3 2  5 0 2 2 3 1 3 2 2  6 0 2 1 2 2 1 1 1  K 1 2 1 1 1 3 2 1  8 0 2 4 2 2 3 2 2  9 0 2 3 2 2 2 2 2  10 0 2 2 2 2 2 2 2  11 0 1 1 1 1 2 1 1  12 1 2 3 2 2 4 4 2  13 0 2 a 3 2 2 3 2  4 ER D                            7  _Datenansicht   Variablenansicht    Die Ergebnisse des Klassierungsprozesses fiir dieses Daten Set werden aus dem Daten
110. rch die Vorklassierung in 1000 verschiedene Klassen eingeteilt  Diese    75       Optimales Klassieren    vorverarbeiteten Klassen werden anschlieBend unter Verwendung von MDLP anhand der  F  hrungsvariablen klassiert  Auf der Registerkarte    Optionen    k  nnen Sie Einfluss auf die  Vorverarbeitungsfunktion nehmen     m Die Spalte Anzahl der Klassen enth  lt die endg  ltige Anzahl an Klassen  die von der Prozedur  erstellt werden  Diese ist erheblich kleiner als die Anzahl der verschiedenen Werte     Modellentropie    Abbildung 8 5  Modellentropie    Modellentropie  Age in years 788  Years with current employer 754  Years at current address 781       Household income in thousands 803  Debt to income ratio  x100   711  Credit card debt in thousands 776  Other debt in thousands 601          Smaller model entropy indicates higher predictive accuracy of  the binned variable on guide variable Previously defaulted     Anhand der Tabelle    Modellentropie    erhalten Sie eine Vorstellung davon  wie n  tzlich  die einzelnen Variablen in einem Vorhersagemodell f  r die Wahrscheinlichkeit der  Nichtzur  ckzahlung sein k  nnten     m Die bestm  gliche Einflussvariable ist eine  die f  r jede generierte Klasse F  lle mit denselben  Werten enth  lt  wie die F  hrungsvariable  sodass die F  hrungsvariable perfekt vorhergesagt  werden kann  F  r eine solche Einflussvariable ist die Modellentropie nicht definiert  Dieser  Fall kommt im realen Leben nicht vor und kann auf Probleme mit der Q
111. rdnamen vorgegeben  die Sie bearbeiten k  nnen     m  Indikator f  r leere F  lle  Leeren F  llen wird der Wert 1 zugeordnet  Alle anderen F  lle werden  als 0 codiert  Die Werte der Variablen entsprechen dem Umfang  der auf der Registerkarte     Grundlegende Pr  fungen    angegeben wurde       Gruppe mit doppelten IDs  F  lle  die denselben Fallbezeichner aufweisen  mit Ausnahme  von F  llen mit unvollst  ndigen Bezeichnern   erhalten dieselbe Gruppennummer  F  lle mit  eindeutigen oder unvollst  ndigen Bezeichnern werden als 0 codiert       Unvollst  ndiger ID Indikator  F  lle mit leeren oder unvollst  ndigen Fallbezeichnern erhalten  den Wert 1  Alle anderen F  lle werden als 0 codiert     m Verletzungen von Validierungsregeln  Dies ist die Gesamtanzahl der Verletzungen von  Validierungsregeln f  r eine oder mehrere Variablen pro Fall     Vorhandene Auswertungsvariablen ersetzen  In der Datendatei gespeicherte Variablen m  ssen  eindeutige Namen aufweisen  Wenn dies nicht der Fall ist  werden Variablen mit demselben  Namen ersetzt     Indikatorvariablen speichern  die alle Verletzungen von Validierungsregeln aufzeichnen  Bei dieser   Option wird ein vollst  ndiger Bericht   ber die Verletzungen der Validierungsregeln gespeichert    Jede Variable entspricht der Anwendung einer Validierungsregel und weist den Wert 1 auf  wenn  der Fall die Regel verletzt  oder den Wert 0  wenn die Regel nicht verletzt wird        Kapitel    Ungewohnliche Falle identifizieren    Mit der Proz
112. rere Variablen  000 e cece eee eee 6   3 Daten validieren 8  Daten validieren  Grundlegende Pr  fungen      10   Daten validieren  Regeln f  r eine Variable      12   Daten validieren  Regeln f  r mehrere Variablen                000000 cece eee eee 13   Daten validieren  Ausgabe    14   Daten validieren  Speichern      2 2 0 0    cece tte 15   d  Ungew  hnliche F  lle identifizieren 17  Ungew  hnliche F  lle identifizieren  Ausgabe    19  Ungew  hnliche F  lle identifizieren  Speichern 000000 e eee eee eee 20  Ungew  hnliche F  lle identifizieren  Fehlende Werte                0  0 0c e cece eee eeaee 21  Ungew  hnliche F  lle identifizieren  Optionen 0 00  c eee eee ee 22  Zus  tzliche Funktionen beim Befehl DETECTANOMALY    0000 cece eee eee 23    5 Optimales Klassieren 24    Optimales Klassieren    Ausgabe  26  Optimales Klassieren  Speichern      27  Optimales Klassieren     Fehlende Wert    28  Optimales Klassieren     Optionen      29  Zus  tzliche Funktionen beim Befehl OPTIMAL BINNING 00 cee eee 30    Teil Il  Beispiele    6 Daten validieren 32  Validieren einer medizinischen Datenbank    32  Durchf  hren von grundlegenden Pr  fungen    32  Kopieren und Verwenden von Regeln aus einer anderen Date    36  Definieren von eigenen Regeln      45  Regeln f  r mehrere Variablen               000 c cece cette nenne 52  Fallbericht uge SST AE Eet RENE rahmen 52  Zusammenfassung      53  Verwandte Prozeduren    53  7 Ungewohniiche F  lle identifizieren 54  Algorithmus f  r    
113. rkieren    Doppelte IDs markieren       Leere F  lle markieren F  lle definieren nach  Alle Variablen im Daten Set ohne ID Variabler ze       Ein Fall gilt als leer  wenn alle relevanten Yariablen fehlen oder leer sind              Sie k  nnen mit den Standardeinstellungen fortfahren        Klicken Sie auf OK     Warnungen    Abbildung 6 3  Warnungen    Einige oder alle der angeforderten Ausgaben werden nicht gezeigt  weil alle F  lle     Variablen oder Datenwerte die angeforderten Pr  fungen bestanden haben        Die Analysevariablen haben die grundlegenden Pr  fungen bestanden  und es liegen keine leeren  F  lle vor  Deshalb wird eine Warnung ausgegeben  die erl  utert  warum f  r die grundlegenden  Pr  fungen keine Ausgabe vorhanden ist     35       Unvollstandige Identifizierung    Abbildung 6 4  Unvollst  ndige Fallbezeichner    Identifizierung    Attending  Hospital ID   PatientID   physician ID       OZN  6137798  782  2322241  867    125304    790697    176466    Daten validieren    Wenn in den Fallbezeichnervariablen fehlende Werte vorliegen  k  nnen die entsprechenden F  lle  nicht ordnungsgem     identifiziert werden  In der vorliegenden Datendatei fehlt der Wert von  Patient ID in Fall 288 und in den F  llen 573 und 774 sind keine Werte f  r Hospital ID vorhanden     Gleiche Identifizierung    Abbildung 6 5    Gleiche Fallbezeichner  gezeigt werden die ersten 11     Identifizierung  Hospital ID   Patient ID    Gruppe mit gleicher Anzahl  Identifizierung Duplikate
114. rochen  unangemessen    zu bewerten  Die Werte werden   ber die einzelnen Personen gemittelt und als  Un  hnlichkeiten verwendet     behavior_ini sav  Diese Datendatei enth  lt eine Ausgangskonfiguration f  r eine  zweidimensionale L  sung f  r behavior sav     brakes sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Qualit  tskontrolle in einer Fabrik geht  die Scheibenbremsen f  r Hochleistungsautomobile  herstellt  Die Datendatei enth  lt Messungen des Durchmessers von 16 Scheiben aus 8  Produktionsmaschinen  Der Zieldurchmesser f  r die Scheiben ist 322 Millimeter     breakfast sav  In einer klassischen Studie  Green als auch Rao  1972  wurden 21  MBA Studenten der Wharton School mit ihren Lebensgef  hrten darum gebeten  15  Fr  hst  cksartikel in der Vorzugsreihenfolge von 1      am meisten bevorzugt    bis 15      am  wenigsten bevorzugt    zu ordnen  Die Bevorzugungen wurden in sechs unterschiedlichen  Szenarien erfasst  von    Overall preference     Allgemein bevorzugt  bis    Snack  with beverage  only     Imbiss  nur mit Getr  nk      breakfast overall sav  Diese Datei enth  lt die Daten zu den bevorzugten Fr  hst  cksartikeln   allerdings nur f  r das erste Szenario     Overall preference     Allgemein bevorzugt      broadband_1 sav  Hierbei handelt es sich um eine hypothetische Datendatei  die die Anzahl der  Abonnenten eines Breitband Service  nach Region geordnet  enth  lt  Die Datendatei enth  lt  die monatlichen Abonnentenzahlen
115. s     Daten  Dateneigenschaften kopieren       Abbildung 6 6  Kopieren von Dateneigenschaften   Schritt 1  Begr    ung     Dateneigenschaften kopieren   Schritt 1 von 5       Willkommen beim Assistenten zum Kopieren von Dateneigenschaften     Mit  Dateneigenschaften kopieren  konnen ausgew  hlte Variablen  und  Daten Set Eigenschaften  aus einem ge  ffneten Daten Set oder einer externen SPSS Datendatei in die Arbeitsdatei kopiert    werden     Sie k  nnen auch Eigenschaften einer Variablen in eine andere innerhalb der Arbeitsdatei    Quelle der Eigenschaften ausw  hlen    O Ein offenes Daten Set             Eine externe SPSS Datendatei       C  ProgrammesS PSS Tutorial sample_files patient_los sav              rbeitsdatei   stroke_invalid say  DatenSet7             W  hlen Sie aus  dass die Eigenschaften aus einer externen SPSS Datendatei  patient_los sav   kopiert werden sollen  F  r weitere Informationen siehe Beispieldateien in Anhang A auf S  84        Klicken Sie auf Weiter     37       Daten validieren    Abbildung 6 7  Kopieren von Dateneigenschaften   Schritt 2  Variablen ausw  hlen     Dateneigenschaften kopieren   Schritt 2 von 5    Dateneigenschaften kopieren  W  hlen Sie de Quell  und Zielvariablen aus     OF     C  Entsprechende Variablen in der Arbeitsdatei erstellen  wenn nicht bereits vorhanden        Eigenschaften einer einzelnen Quellvariablen auf ausgew  hlte Variablen in der Arbeitsdatei desselben Typs   bertragen     O Nur Eigenschaften des Daten Sets   b
116. s at current  address  Wohnhaft an gleicher Adresse  in Jahren   von gr    erer Bedeutung        Anhang    A    Beispieldateien    Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis  Samples des Installationsverzeichnisses     Beschreibungen    Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der  Dokumentation verwendeten Beispieldateien     accidents sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um  eine Versicherungsgesellschaft geht  die alters  und geschlechtsabh  ngige Risikofaktoren  f  r Autounf  lle in einer bestimmten Region untersucht  Jeder Fall entspricht einer  Kreuzklassifikation von Alterskategorie und Geschlecht     adl sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um Bem  hungen  geht  die Vorteile einer vorgeschlagenen Therapieform f  r Schlaganfallpatienten zu ermitteln     rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei  Gruppen zu  Die erste Gruppe erhielt die physische Standardtherapie  die zweite erhielt   eine zus  tzliche Emotionaltherapie  Drei Monate nach den Behandlungen wurden die  F  higkeiten der einzelnen Patienten    bliche Alltagsaktivit  ten auszuf  hren  als ordinale  Variablen bewertet     advert sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es um die  Bem  hungen eines Einzelh  ndlers geht  die Beziehungen zwischen den in Werbung  investierten 
117. se        fe Stammname  Grund    F  r jeden Grund werden vier Variablen gespeichert  Name der Grundvariablen   Wert der Grundyariablen  Normwert der Gruppe und Einflussma   f  r die  Grundvariable      C  vorhandene Variablen mit demselben Namen oder Stammnamen ersetzen    Modelldatei exportieren    Datei                        gt  Wahlen Sie Anomalie Index  Gruppen und Gr  nde aus     Wenn Sie diese Ergebnisse speichern  k  nnen Sie ein sinnvolles Streudiagramm erstellen  mit  dem die Ergebnisse zusammengefasst werden      gt  Klicken Sie auf die Registerkarte Fehlende Werte     58       Kapitel 7    Abbildung 7 4  Dialogfeld    Ungewohnliche F  lle identifizieren    Registerkarte    Fehlende Werte       W Ungew  hnliche F  lle identifizieren    Variablen   Ausgabe   Speichern   Fehlende Werte   Optionen       Fehlende Werte aus der Analyse ausschlie  en          Benutzer  und systemdefinierte fehlende Werte werden ausgeschlossen     Bei metrischen Variablen werden benutzer  und systemdefinierte fehlende Werte  durch den Gesamtmittelwert der Variablen ersetzt  Bei kategorialen Variablen werden  benutzer  und systemdefinierte Fehlende Werte zusammengefasst und als Kategorie in  die Analyse aufgenommen     Anteil fehlender Werte pro Fall als Analysevariable verwenden             W  hlen Sie Fehlende Werte in die Analyse aufnehmen aus  Dies ist notwendig  weil viele  benutzerdefinierte fehlende Werte f  r Patienten vorliegen  die vor oder w  hrend der Behandlung  gestorben sind
118. se address_Klasse   income_Klasse debtinc_Klasse creddebt_Klasse othdebt_Klasse     CRITERIA METHOD MDLP  PREPROCESS EQUALFREQ  BINS 1000   FORCEMERGE 0  LOWERLIMIT INCLUSIVE  LOWEREND UNBOUNDED  UPPEREND UNBOUNDED    MISSING SCOPE PAIRWISE    OUTFILE RULES   bankloan_binning rules sps     PRINT ENDPOINTS DESCRIPTIVES ENTROPY                 74       Kapitel 8    Durch die Prozedur werden die Klassierungs Eingabevariablen age  employ  address  income   debtinc  creddebt und othdebt mithilfe der MDLP Klassierung mit der F  hrungsvariablen  default diskretisiert     Die diskretisierten Werte fiir diese Variablen werden in den neuen Variablen age_Klasse   employ_Klasse  address Klasse  income_Klasse  debtinc_Klasse  creddebt_Klasse und  othdebt_Klasse gespeichert     Wenn eine Binning Eingabevariable mehr als 1000 verschiedene Werte aufweist  wird die  Anzahl vor der Durchf  hrung der MDLP KLassierung mithilfe der Methode der gleichen  H  ufigkeiten auf 1000 reduziert     Die Befehlssyntax f  r die Klassierungsregeln wird in der Datei c  bankloan_binning rules sps  gespeichert     F  r die Klassierungs Eingabevariablen werden die Klassengrenzen und die  Modellentropiewerte angefordert     F  r die anderen Klassierungskriterien werden die Standardwerte verwendet     Deskriptive Statistiken  Abbildung 8 4    Deskriptive Statistiken    Anzahl der  verschiede   Anzahl der  Minimum Maximum nen Were   Klassen    Age in years  Years with current employer    Years at current address 37 
119. ser Option werden F  lle mit unvollst  ndigen  Fallbezeichnern ausgegeben  Ein Bezeichner wird bei einem gegebenen Fall als unvollst  ndig  betrachtet  wenn der Wert einer ID Variable leer ist oder fehlt     Doppelte IDs markieren  Bei dieser Option werden F  lle mit doppelten Fallbezeichnern  ausgegeben  Unvollst  ndige Fallbezeichner werden aus der Menge der m  glichen doppelten  Werte ausgeschlossen     Leere F  lle markieren  Bei dieser werden F  lle ausgegeben  bei denen alle Variablen leer sind  oder fehlen  Sie k  nnen festlegen  ob zum Identifizieren leerer F  lle alle Variablen in der Datei   mit Ausnahme von ID Variablen  oder nur die auf der Registerkarte    Variablen    ausgew  hlten  Analysevariablen herangezogen werden sollen     12       Kapitel 3    Daten validieren  Regeln f  r eine Variable    Abbildung 3 3  Dialogfeld  Daten validieren    Registerkarte    Regeln f  r eine Variable       Daten validieren  EE  Variablen   Grundlegende Pr  fungen   Regeln f  r eine Variable   Regeln f  r mehrere Variablen   Ausgabe   Speichern    Um Regeln einer Yariablen zuzuweisen  w  hlen Sie die Yariable aus und aktivieren eine oder mehrere Regeln     Die Liste  Analysevariablen  zeigt Yerteilungen nichtfehlender Werte auf Grund des Durchsuchens der Daten  Die Liste  Regeln  zeigt    alle Regeln  die den ausgew  hlten Yariablen zugewiesen werden k  nnen   A    Analysevariablen   Variable Verteilung Minimum Maxim       z Oto 1 Dichotomy  Hospital ID  hospid  l     h YYH 3 C
120. sity  obesity      History of diabetes  diabetes         Blood pressure  bp      Atrial fibrillation  af      Smoker  smoker      AH Cholesterol  choles             History of angina  angina      History of myocardial infarction  n    Prescribed nitroglycerin  nitro   mo  ee    sso   D       lt     v       Eallbezeichnervariable      Patient ID  patid                 Klicken Sie in der Liste  Variablen  mit der  rechten Maustaste auf eine Variable  um  deren Messniveau zu   ndern           W  hlen Sie mindestens eine Analysevariable aus      gt  Wahlweise k  nnen Sie eine Fallbezeichnervariable zum Beschriften der Ausgabe ausw  hlen     19       Ungew  hnliche F  lle identifizieren    Ungew  hnliche F  lle identifizieren  Ausgabe    Abbildung 4 2  Dialogfeld  Ungew  hnliche F  lle identifizieren    Registerkarte    Ausgabe       E Ungew  hnliche F  lle identifizieren    variablen   Ausgabe   Speichern   Fehlende Werte   Optionen    Liste ungew  hnlicher F  lle und Gr  nde f  r die Ungew  hhnlichkeit  Auswertung    Normwerte der Gruppen    Hierbei handelt es sich um Gruppen von F  llen mit   hnlichen Werten f  r die  Analysevariablen  Bei dieser Option werden die Yerteilungen der Analysevariablen  nach Gruppen angezeigt     Anomalie Indizes    Der Anomalie Index ist ein Ma    das die Ungew  hnlichkeit eines Falls in Bezug auf die  Angeh  rigen seiner Gruppe widerspiegelt  Bei dieser Option wird die Verteilung der  Anomalie Indexwerte von ungew  hnlichen F  llen angezeigt     V
121. ssen  der obere ausgeschlossen  Minimum  lt   x  lt  Maximum        Der untere Endpunkt wird ausgeschlossen  der obere eingeschlossen  Minimum  lt  x  lt  Maximum     Erste  niedrigste  Klasse Letzte  h  chste  Klasse       Unbegrenzt  dehnt sich bis negativ unendlich aus    Unbegrenzt  dehnt sich bis positiv unendlich aus        Begrenzt durch niedrigsten Datenwert O Begrenzt durch h  chsten Datenwert             Vorverarbeitung  Das    Pre Binning    von Binning Eingabevariablen mit vielen verschiedenen  Werten kann die Verarbeitung ohne gr    ere Qualit  tseinbu  en bei den endg  ltigen Klassen  beschleunigen  Der Wert f  r die maximale Anzahl an Klassen stellt lediglich die Obergrenze  f  r die Anzahl der erstellten Klassen dar  Wenn Sie also 1000 als Maximalwert angeben  eine  Binning Eingabevariable jedoch weniger als 1000 verschiedene Werte aufweist  werden so viele  vorverarbeitete Klasen f  r die Binning Eingabevariable erstellt wie verschiedene Klassen in  der Binning Eingabevariablen enthalten sind     D  nn besetzte Klassen  Gelegentlich kann die Prozedur zu Klassen mit sehr wenigen F  llen f  hren   Mit der folgenden Strategie k  nnen diese Pseudotrennwerte gel  scht werden      gt  Angenommen  der Algorithmus hat f  r eine Variable endg  ltig Trennwerte und daher nendg  ltigt 1  Klassen gefunden  F  r die Klassen i   2       Nendgiiltig  von der Klasse mit dem zweitniedrigsten  Wert bis zur Klasse mit dem zweith  chsten Wert  wird Folgendes berechnet     sizeof 
122. stgelegt  ob leere String Werte als ung  ltig  gekennzeichnet werden  Dies gilt nur f  r Regeln f  r Strings     Definieren von Regeln f  r mehrere Variablen    Abbildung 2 5  Dialogfeld  Validierungsregeln definieren  Registerkarte    Regeln f  r mehrere Variablen       L Validierungsregeln definieren    Regeln f  r eine Variable   Regeln f  r mehrere Variablen       Regeln  a   _ rRegeldefinition  Name  Zweimal  estorben          Name    ZweimalGestorben       Logischer Ausdruck  muss bei einem ung  ltigen Fall 1 entsprechen     doa 1   amp   dhosp 1        SEITE  ei ODER     Variablen  Funktionen und Sondervariablen  Taking anti clottin      Eunktion    Sb History of transien      IN   Time to hospital  ti      Artan   Dead on arrival  d      Cos   initial Rankin scor      Exp   DAT scan result  c      Loi J   amp  Clot dissolving dru        Died in hospital  d      Anzeigen    Aktuelles Datum x   all Treatment result        ee FR   u Post event preve      Beschreibung    db Post event rehabil        E Length of stay for       E Total treatment a             sl                Auf der Registerkarte    Regeln f  r mehrere Variablen    k  nnen Sie Validierungsregeln f  r mehrere  Variablen erstellen  anzeigen lassen und   ndern     Regeln  Die Liste enth  lt die Validierungsregeln f  r mehrere Variablen nach Namen  Wenn Sie  das Dialogfeld   ffnen  wird eine Platzhalter Regel mit dem Namen    MehrVarRegel 1    angezeigt   Unter der Liste    Regeln    werden folgende Schaltfl 
123. t  3 2    Age category Haufigste Kategorie  Haufigkeit  Prozent   Gender Haufigste Kategorie  Haufigkeit  Prozent   Physically active  Haufigste Kategorie       Haufigste Kategorie  Haufigkeit  Prozent  History of H  ufigste Kategorie  diabetes H  ufigkeit       Prozent   Blood pressure H  ufigste Kategorie  H  ufigkeit  Prozent   Atrial fibrillation Haufigste Kategorie  Haufigkeit  Prozent   Smoker Haufigste Kategorie  Haufigkeit  Prozent   Cholesterol Haufigste Kategorie  Haufigkeit  Prozent   History of angina   H  ufigste Kategorie  Haufigkeit  Prozent          Die Normwerte der kategorialen Variablen dienen demselben Zweck wie die Normwerte der  metrischen Variablen  Bei den Normwerten der kategorialen Variablen werden jedoch die  h  ufigste Kategorie sowie die Anzahl und der Prozentsatz an Fallen in der Gruppe ausgegeben   die in diese Kategorie fallen  Ein Vergleich der Werte ist etwas komplizierter  So kann es  beispielsweise auf den ersten Blick scheinen  dass Gender mehr zum Bilden der Gruppen  beitr  gt als Smoker  weil die h  ufigste Kategorie f  r Smoker in allen drei Gruppen dieselbe ist     65       Ungew  hnliche F  lle identifizieren    die h  ufigste Kategorie f  r Gender in Gruppe 3 jedoch abweicht  Da Gender aber nur zwei  Werte annehmen kann  k  nnen Sie schlussfolgern  dass 49 2   der F  lle in Gruppe 3 den Wert  0 aufweisen  Dies   hnelt stark den Prozents  tzen in den anderen Gruppen  Im Gegensatz dazu  variieren die Prozents  tze f  r Smoker zwischen 
124. ter http   www spss com worldwide finden  Bei einem Anruf werden Sie nach  Ihrem Namen  dem Namen Ihrer Organisation und Ihrer Seriennummer gefragt     Weitere Ver  ffentlichungen    Weitere Exemplare von Produkthandb  chern k  nnen direkt bei SPSS Inc  bestellt werden   Besuchen Sie den SPSS Web Store unter http   www spss com estore oder wenden Sie sich an Ihr  regionales SPSS B  ro  das Sie auf der SPSS Website unter http   www  spss com worldwide finden   Wenden Sie sich bei telefonischen Bestellungen in den USA und Kanada unter 800 543 2185  direkt an SPSS Inc  Wenden Sie sich bei telefonischen Bestellungen au  erhalb von Nordamerika  an Ihr regionales SPSS B  ro  das Sie auf der SPPS Website finden    Das Handbuch SPSS Statistical Procedures Companion von Marija NoruSis wurde von  Prentice Hall ver  ffentlicht  Eine neue Fassung dieses Buchs mit Aktualisierungen f  r SPSS  16 0 ist geplant  Das Handbuch SPSS Advanced Statistical Procedures Companion  bei dem  auch SPSS 16 0 ber  cksichtigt wird  erscheint demn  chst  Das Handbuch SPSS Guide to Data  Analysis f  r SPSS 16 0 wird ebenfalls derzeit erstellt  Ank  ndigungen f  r Ver  ffentlichungen   die ausschlie  lich   ber Prentice Hall verf  gbar sind  finden Sie auf der SPSS Website unter  http   www spss com estore  w  hlen Sie Ihr Land aus und klicken Sie auf Books      Kundenmeinungen    Ihre Meinung ist uns wichtig  Teilen Sie uns bitte Ihre Erfahrungen mit SPSS Produkten mit   Insbesondere haben wir Interesse an n
125. tsachbearbeiter finanzielle und demografische Informationen zu fr  heren  und gegenw  rtigen Kunden gesammelt  in der Hoffnung  ein Modell erstellen zu k  nnen  das  die Wahrscheinlichkeit der Nichtr  ckzahlung bei Krediten vorhersagt  Mehrere potenzielle  Einflussvariablen sind metrisch  der Kreditsachbearbeiter m  chte jedoch in der Lage sein  Modelle  zu betrachten  die am besten f  r kategoriale Einflussvariablen geeignet sind    Informationen zu 5000 fr  heren Kunden finden Sie in der Datei bankloan_binning sav  F  r  weitere Informationen siehe Beispieldateien in Anhang A auf S  84  Erstellen Sie mithilfe der  Prozedur    Optimales Klassieren    Klassierungsregeln f  r die metrischen Einflussvariablen und    70    71       Optimales Klassieren    verwenden Sie diese Regeln anschlie  end zur Verarbeitung von bankloan sav  Mithilfe des  verarbeiteten Daten Sets kann dann ein Vorhersagemodell erstellt werden     Durchf  hrung der Analyse     gt  Zum Ausf  hren einer Analyse vom Typ    Optimales Klassieren    w  hlen Sie die folgenden  Men  befehle aus     Transformieren  Optimales Klassieren       Abbildung 8 1  Dialogfeld    Optimales Klassieren     Registerkarte    Variablen       E Optimales Binning    variablen   Ausgabe   Speichern   Fehlende Werte   Optionen    variablen     amp   ariablen F  r Binning    devel of education  ed  E Age in years  age    E Years with current employer       E Years at current address  ad     E Household income in thousan     E Debt to in
126. tung von Daten     Der Informationsbedarf w  chst proportional mit dem Anstieg der Leistungsf  higkeit von  Computern  Das f  hrt zu immer gr    eren Datensammlungen  zu mehr F  llen  mehr Variablen  und mehr Fehlern bei der Dateneingabe  Diese Fehler behindern Vorhersagen auf der Grundlage  von Prognosemodellen  dem wichtigsten Ziel des Daten Warehousing  Deswegen m  ssen die  Daten    sauber    gehalten werden  Die Menge der gespeicherten Daten ist jedoch bereits so weit    ber die Kapzit  ten zur manuellen Pr  fung der Daten hinausgewachsen  dass es entscheidend ist   automatisierte Prozesse f  r die Datenvalidierung zu implementieren    Mit dem Erweiterungsmodul    Data Preparation     Aufbereitung von Daten  k  nnen Sie  ungew  hnliche und ung  ltige F  lle  Variablen und Datenwerte in der Arbeitsdatei identifizieren     Verwendung der Prozeduren von  Data Preparation       Es h  ngt von Ihren Bed  rfnissen ab  welche Prozeduren von    Data Preparation     Vorbereitung  f  r  Sie infrage kommen  Nachdem Sie die Daten geladen haben  k  nnte eine typische Vorgehensweise  folgenderma  en aussehen     m Vorbereitung der Metadaten    berpr  fen Sie die Variablen in der Arbeitsdatei  und bestimmen  Sie die g  ltigen Werte  Labels und Messniveaus  Identifizieren Sie die Kombinationen von  Variablenwerten  die zwar unm  glich  jedoch h  ufig falsch kodiert sind  Definieren Sie  auf der Grundlage dieser Informationen Validierungsregeln  Dies kann zeitraubend sein   ist jedoch den
127. ualit  t der Daten  hindeuten     m Die schlechtestm  gliche Einflussvariable ist eine Variable  deren Verwendung zu keinem  besseren Ergebnis f  hrt als blo  es Raten  Der Wert ihrer Modellentropie h  ngt von den Daten  ab  In diesem Datensatz kam es bei 1256  bzw  0 2512  der 5000 Kunden zu Schwierigkeiten  bei der Kreditr  ckzahlung  w  hrend 3744  bzw  0 7488  ihren Kredit zur  ckzahlten    Die schlechtestm  gliche Einflussvariable h  tte also eine Modellentropie von    0 2512 x  logy 0 2512      0 7488 x log2 0 7488    0 8132     Es l  sst sich schwerlich eine schl  ssigere Aussage treffen  als dass Variablen mit niedrigeren  Werten f  r die Modellentropie besser als Einflussvariablen geeignet sein d  rften  da es   von der jeweiligen Anwendung und den jeweiligen Daten abh  ngt  was ein guter Wert   f  r die Modellentropie ist  In diesem Fall haben anscheinend Variablen  die in Bezug auf  die Anzahl der unterschiedlichen Kategorien eine gr    ere Anzahl an generierten Klassen  aufweisen  niedrigere Werte bei der Modellentropie  Es sollte eine weitere Auswertung dieser  Klassierungs Eingabevariablen als Einflussvariablen durchgef  hrt werden  Hierf  r sollten  Prozeduren f  r Vorhersagemodelle verwendet werden  bei denen eine gr    ere Palette an  Werkzeugen f  r die Variablenauswahl zur Verf  gung steht     76       Kapitel 8    Klassierungs Zusammenfassungen    Die Klassierungs Zusammenfassung gibt die Grenzen der generierten Klassen und die  H  ufigkeitsz  hlung f  r d
128. un die Summe der Betr  ge  die in den vier Wochen der Studie ausgegeben wurden     grocery_coupons sav  Hierbei handelt es sich um eine hypothetische Datendatei  die  Umfragedaten enth  lt  die von einer Lebensmittelkette erfasst wurden  die sich f  r die  Kaufgewohnheiten ihrer Kunden interessiert  Jeder Kunde wird   ber vier Wochen beobachtet   und jeder Fall entspricht einer Kundenwoche und enth  lt Informationen zu den Gesch  ften  in  denen der Kunde einkauft sowie zu anderen Merkmalen  beispielsweise welcher Betrag in  der betreffenden Woche f  r Lebensmittel ausgegeben wurde     guttman sav  Bell  Bell  1961  legte eine Tabelle zur Darstellung m  glicher sozialer Gruppen  vor  Guttman  Guttman  1968  verwendete einen Teil dieser Tabelle  bei der f  nf Variablen   die Aspekte beschreiben  wie soziale Interaktion  das Gef  hl der Gruppenzugeh  rigkeit  die    89       Beispieldateien    physische N  he der Mitglieder und die Formalit  t der Beziehung  mit sieben theoretischen  sozialen Gruppen gekreuzt wurden     crowds     Menschenmassen  beispielsweise die  Zuschauer eines Fu  ballspiels      audience     Zuh  rerschaften  beispielsweise die Personen  im Theater oder bei einer Vorlesung      public       ffentlichkeit  beispielsweise Zeitungsleser  oder Fernsehzuschauer      mobs     Mobs  wie Menschenmassen  jedoch mit wesentlich  st  rkerer Interaktion      primary groups     Prim  rgruppen  vertraulich      secondary groups      Sekund  rgruppen  freiwillig  und    
129. ung zwischen F  llen und Variablen herzustellen  bei denen    Validierungsregeln f  r eine Variable verletzt werden        Klicken Sie auf OK     43       Daten validieren    Regelbeschreibung    Abbildung 6 13  Regelbeschreibung    Beschreibung    Nonnegative integer   Type  Numeric  Domain  Range  Flag user missing values  No  Flag system missing values  Yes  Minimum  0  Flag unlabeled values within  range  No  Flag noninteger values within  range  Yes   VD SRule 5   Rule  Oto 1 Dichotomy Type  Numeric  Domain  List  Flag user missing values  No  Flag system missing values  Yes  List  0  1   VD SRule 1   Rule  1 to 4 Categorical Type  Numeric  Domain  List  Flag user missing values  No  Flag system missing values  Yes  List  1  2  3  4     D SRule 4   Rule  Es werden alle Regeln gezeigt  die mindestens einmal  verletzt wurden        Die Tabelle    Regelbeschreibung    enth  lt Erkl  rungen zu den Regeln  die verletzt wurden  Dies ist  n  tzlich  wenn viele Validierungsregeln vorliegen     Variablenauswertung    Abbildung 6 14  Variablenauswertung    Regel Verletzungen  Age category 1 to 4 Categorical  Gesamt    Gender Oto 1 Dichotomy  Gesamt    History of angina Oto 1 Dichotomy  Gesamt   Time to hospital Nonnegative integer  Gesamt   Dead on arrival Oto 1 Dichotomy  Gesamt       Die Tabelle    Variablenauswertung    enth  lt alle Variablen  die mindestens eine Validierungsregel  verletzt haben  die verletzten Regeln und die Anzahl der Verletzungen pro Regel und pro Variable
130. usands     Schulden auf Kreditkarte in  Tausend     Anzahl der Falle nach Nivau yon  Endpunkt Previously defaulted  Klasse Minimum   Maximum No Yes Gesamt          1 a   2 97  3 1 91  4 6 05  Gesamt    Jede Klasse wird wie folgt berechnet  Minimum  lt   Credit card dept in  thousands   Maximum     a  Unbegrenzt    Die Zusammenfassung f  r Credit card debt in thousands  Schulden auf Kreditkarte in  Tausend  zeigt das umgekehrte Muster  bei steigender Klassenzahl nehmen die Anteile   der zahlungsunf  higen Personen zu  Die Variablen Years with current employer  Jahre der  Besch  ftigung beim derzeitigen Arbeitgeber  und Years at current address  Wohnhaft an gleicher  Adresse  in Jahren   scheinen besser zur Ermittlung von Personen geeignet  die mit gro  er  Wahrscheinlichkeit nicht in Zahlungsschwierigkeiten geraten  w  hrend Credit card debt in    79       Optimales Klassieren    thousands  Schulden auf Kreditkarte in Tausend  besser fiir die Ermittlung von Personen geeignet  ist  die mit gro  er Wahrscheinlichkeit den Kredit nicht zur  ckzahlen k  nnen              Klasse   Anteil der  zahlungsunfahigen Personen   1 0 177   2 0 266   3 0 354   4 0 609                Abbildung 8 12  Klassierungs Zusammenfassung f  r    Debt to income ratio  x100      Relation Schulden zu Einkommen   in        Anzahl der F  lle nach Nivau von  Endpunkt Previously defaulted  Klasse Minimum   Maximum No Yes Gesamt    1             Jede Klasse wird wie folgt berechnet  Minimum  lt   Debtto income 
131. utzerdefinierte Fehlende Werte zulassen          Geben Sie als Name der Regel 1 to 3 Categorical ein        W  hlen Sie im Feld    G  ltige Werte    den Eintrag In einer Liste aus     Geben Sie die Werte 1  2 und 3 ein     Deaktivieren Sie Systemdefinierte fehlende Werte zulassen     Um die Regel f  r die Rankin Scores zu definieren  klicken Sie auf Neu     48                                                 Kapitel 6  Abbildung 6 21  Dialogfeld    Validierungsregeln definieren  Registerkarte    Regeln f  r eine Variable     Definition von     0 to 5 Categorical      L Validierungsregeln definieren  Regeln f  r eine Variable   Regeln f  r mehrere Variablen  Regeln  _  Regeldefinition  Name Typ   Name    Oto 5 Categorical Typ    Numerisch  0 1 dichotomy Numerisch Ka  0 to 2 Categorical Numerisch 2     0 to 3 Categorical Numerisch rmat    mmd UD  1 to 4 Categorical Numerisch  Nonnegative integer Numerisch La S  Nonnegative number Numerisch   G  ltige Werte       1 to 3 Categorical Numerisch In einer Liste v  0 to 5 Categorical Numerisch  Werte   1  2  3  4  5  KI  j  Kleinschreibung bei der Wertepr  fung ignorieren  Benutzerdefinierte Fehlende Werte zulassen  j   gt  Geben Sie als Name der Regel 0 to 5 Categorical ein      Wahlen Sie im Feld    G  ltige Werte    den Eintrag In einer Liste aus    gt  Geben Sie die Werte 0  1  2  3  4 und 5 ein      Deaktivieren Sie Systemdefinierte fehlende Werte zulassen    gt  Um die Regel f  r die Barthel Indizes zu definieren  klicken Sie auf
132. variablen  Fehlender Wert      66       Kapitel 7    Auswertung des Anomalie Index    Abbildung 7 14  Auswertung des Anomalie Index    Anzahl  anomaler  F  lle Minimum   Maximum   Mittelwert   Std  Deviation       Anomalie Index 1 322 1 550 1 387   068      Die Anzahl anomaler F  lle wird folgenderma  en bestimmt  Der Prozentsatz anomaler  F  lle ist 2      Diese Tabelle enth  lt Auswertungsstatistiken f  r die Werte des Anomalie Index von F  llen in  der Anomalie Liste     Auswertung der Gr  nde    Abbildung 7 15  Auswertung der Gr  nde  Behandlungs  und Rehabilitationsvariablen     Auftreten als Grund Statistiken der Yariablenbeeinflussung  H  ufigkeit Maximum   Mittelwert   Std  Deviation    Dead on arrival   Initial Rankin score   CAT scan result  Clot dissolving drugs  Died in hospital  Treatment result  Postevent preventative  surgery   Post event rehabilitation  Rankin score at1 month  Rankin score at 3 months  Rankin score at 6 months  Barthel index at 1 month  Barthel index at 3 months  Barthel index at 6 months  Recoded Barthel index at  1 month    Recoded Barthel index at  3 months   Recoded Barthel index at  6 months   Length of stay for  rehabilitation   Total treatment and  rehabilitation costs in  thousands   Anteil fehlend    Insgesamt                In dieser Tabelle wird jede Analysevariable im Hinblick auf ihre Rolle als prim  rer Grund  ausgewertet  Die meisten Variablen  z  B  Dead on arrival bis Post event rehabilitation sind keine  prim  ren Gr  nde f  
133. zelnen Mitarbeiter wurden  am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst  Jeder  Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth  lt die Gruppe  der der  Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr  fung erreichte Punktzahl     satisf sav  Hierbei handelt es sich um eine hypothetische Datendatei zu einer  Zufriedenheitsumfrage  die von einem Einzelhandelsunternehmen in 4 Filialen durchgef  hrt  wurde  Insgesamt wurden 582 Kunden befragt  Jeder Fall gibt die Antworten eines einzelnen  Kunden wieder     screws sav  Diese Datendatei enth  lt Informationen zu den Eigenschaften von Schrauben   Bolzen  Muttern und Rei  n  geln  Hartigan  1975      shampoo_ph sav  Hierbei handelt es sich um eine hypothetische Datendatei  bei der es  um die Qualit  tskontrolle in einer Fabrik f  r Haarpflegeprodukte geht  In regelm    igen  Zeitabst  nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr  pH Wert erfasst  Der Zielbereich ist 4 5 5 5     ships sav  Ein an anderer Stelle  McCullagh et al   1989  vorgestelltes und analysiertes  Daten Set bezieht sich auf die durch Wellen verursachten Sch  den an Frachtschiffen   Die Vorfallsh  ufigkeiten k  nnen unter Angabe von Schiffstyp  Konstruktionszeitraum  und Betriebszeitraum gem     einer Poisson Rate modelliert werden  Das Aggregat der  Betriebsmonate f  r jede Zelle der durch die Kreuzklassifizierung der Faktoren gebildeten  Tabelle gibt die Werte
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
MANUALE DI INSTALLAZIONE / /  Trinitron® Color Computer Display  lock & hinge dry lube / lubrifiant sec pour serrure & charnière  Samsung AWT19FHB دليل المستخدم  A.O. Smith Hot Water Storage Tanks Technical Documents  Sharp Zaurus SL  Hardware User Manual  INSTALLATION INSTRUCTIONS    Copyright © All rights reserved. 
   Failed to retrieve file