Home
PASW® Missing Values (Fehlende Werte) 18
Contents
1. salesperformance sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung von zwei neuen Verkaufsschulungen geht 60 Mitarbeiter die in drei Gruppen unterteilt sind erhalten jeweils eine Standardschulung Zus tzlich erh lt Gruppe 2 eine technische Schulung und Gruppe 3 eine Praxisschulung Die einzelnen Mitarbeiter wurden am Ende der Schulung einem Test unterzogen und die erzielten Punkte wurden erfasst Jeder Fall in der Datendatei stellt einen Lehrgangsteilnehmer dar und enth lt die Gruppe der der Lehrgangsteilnehmer zugeteilt wurde sowie die von ihm in der Pr fung erreichte Punktzahl satisf sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Zufriedenheitsumfrage die von einem Einzelhandelsunternehmen in 4 Filialen durchgef hrt wurde Insgesamt wurden 582 Kunden befragt Jeder Fall gibt die Antworten eines einzelnen Kunden wieder screws sav Diese Datendatei enth lt Informationen zu den Eigenschaften von Schrauben Bolzen Muttern und Rei n geln shampoo_ph sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik f r Haarpflegeprodukte geht In regelm igen Zeitabst nden werden Messwerte von sechs separaten Ausgangschargen erhoben und ihr pH Wert erfasst Der Zielbereich ist 4 5 5 5 ships sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf die durch Wellen verursachten Sch den
2. rAnzeige M Imputstionsmadell Fi Beschreibende Statistiken f r variablen mit imputierten Werten riterationsprotokoll terstionsprotokoll erstellen Neues Daten Set erstellen Daten Set Name In neue Datendstei sc hreiben Durchsuchen W hlen Sie Deskriptive Statistik f r Variablen mit imputierten Werten Klicken Sie auf OK Imputationsspezifikationen Abbildung 5 9 Imputationsspezifikationen Imputationsmethode Automatisch Anzahl an Imputationen Modell f r metrische Lineare Regression In Modellen enthaltene ohne Maximaler Prozentsatz Die Tabelle Imputationsspezifikationen gibt eine n tzliche bersicht mit der Sie sicherstellen k nnen dass die Angaben richtig waren 58 Kapitel 5 Imputationsergebnisse Abbildung 5 10 Imputationsergebnisse Imputationsmethode Iterationen der vollst ndig konditionalen Spezifikationsmethode Abh ngige Variablen Imputiert Nicht imputiert zu viele fehlende Werte Nicht imputiert keine fehlenden Werte Imputationssequenz Yollst ndig konditionale Spezifikation MonthswYyithService Age MaritalStatus YearsAtAddress Income EducationalLevel YearsWithEmployer RetirementStatus Gender PeoplelnHousehold Age MonthsWithSerice PeoplelnHousehold EducationalLevel Gender RetirementStatus YearswWithEmployer MaritalStatus YearsAtAddress Income Die Imputationsergebnisse geb
3. F lle mit fehlenden Werten sortiert nach dem Muster fehlender Werte f A 7 alle F lle wahlweise sortiert nach der ausgew hlten variablen r variablen Muster fehlender Werte f r Zus tzliche Informationen f r Months WithService Age YearsAt Address YearsWyithEmployer PeoplelnHousehold YearsAt ddress EducstionalLevel RetirementStatus Gender saka EducationalLevel RetirementStatus Sortierreihenfolge Gender Ce an re Sie k nnen verschiedene Tabellen anzeigen lassen die die Muster und das Ausma der fehlenden Daten zeigen Mit diesen Tabellen k nnen Sie Antworten auf folgende Fragen finden m Wo befinden sich fehlende Daten m Tendieren Variablenpaare dazu fehlende Werte in einzelnen F llen aufzuweisen m Sind Datenwerte extrem Anzeigen F r die Anzeige von Mustern fehlender Daten stehen drei Tabellentypen zur Verf gung F lle in Tabellen Die Muster fehlender Daten in den Analysevariablen werden in Tabellenform dargestellt wobei f r jedes Muster auch die H ufigkeiten angegeben werden Mit Variable sortieren nach dem Muster fehlender Werte k nnen Sie angeben ob H ufigkeiten Anzahl und Variablen nach der hnlichkeit der Muster sortiert werden sollen Mit Muster weglassen bei weniger als n der F lle k nnen Sie Muster ausschlie en die nur selten vorkommen F lle mit fehlenden Werten F r die einzelnen Analysevariablen werden jeweils die einzelnen
4. ak a sa a ala oo 2 oa aa a aa ah Aktivieren doppelklicken Sie die Tabelle und w hlen Sie dann Pivot Leisten aus dem Kontextmen 80 Kapitel 5 Abbildung 5 36 Gemeinsame Parametersch tzer Datei Bearbeiten Ansicht Einf gen Pivot Format Hilfe Parametersch tzer Imputationsnummer Originaldaten rE Pivot Leisten Imputationsnummer marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address SCHICHT Plus service _Konstanter Term employ marital 0 marital 1 ed 1 Verschieben Sie die Imputationsnummer von der Zeile in die Schicht W hlen Sie aus der Dropdown Liste f r Imputationsnummer Gemeinsam aus 81 Multiple Imputation Abbildung 5 37 Gemeinsame Parametersch tzer mputationsnummer Kombiniert 95 Konfidenzintervall f r Exp B Anteil Relative Standard fehlende Zunahme Relative fehler Signifikanz Info varianz Effizienz E service Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Plus service _Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Total service Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Diese Ansicht zeigt alle Statistikwerte f r die gemeinsamen Ergebnisse Sie k nnen diese Koeffizienten auf die gleiche Art verwenden und interpretieren w
5. Zufallskomponente hinzugef gt werden Sie k nnen Residuen normale Variaten Student 7 Variaten oder keine Anpassung ausw hlen m Residuen Es werden Fehlerterme zuf llig aus den beobachteten Residuen vollst ndiger F lle ausgew hlt und zu den Regressionssch tzungen addiert m Normale Variaten Fehlerterme werden beliebig aus einer Verteilung mit dem Erwartungswert 0 und einer Standardabweichung gleich der Quadratwurzel der mittleren Quadratsumme des Regressionsfehlerterms gezogen sm Student T Variaten Fehlerterme werden beliebig aus der t n Verteilung gezogen und anhand der Wurzel des mittleren Fehlerquadrats RMSE skaliert Maximale Anzahl der Einflussvariablen Legt eine Obergrenze f r die Anzahl der unabh ngigen Einflu variablen fest die bei der Sch tzung verwendet werden Vervollst ndigte Daten speichern Schreibt ein Daten Set in der aktuellen Sitzung oder eine externe Datendatei im PASW Statistics Format Dabei werden die fehlenden Werte durch die Werte ersetzt die bei der Regression gesch tzt wurden So legen Sie die Regressionsoptionen fest W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der Regressionsmethode gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option Regression 13 Analyse fehlender Werte Klicken Sie auf die Schaltfl che Variablen um die vorhergesagten Variablen und die Einflu variablen anzu
6. Zweck hat er die Ums tze vergangener Jahre und die zugeh rigen Werbeausgaben zusammengestellt m aflatoxin sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests von Maisernten auf Aflatoxin geht ein Gift dessen Konzentration stark zwischen und innerhalb von Ernteertr gen schwankt Ein Kornverarbeitungsbetrieb hat aus 8 Ernteertr gen je 16 Proben erhalten und das Aflatoxinniveau in Teilen pro Milliarde parts per billion PPB gemessen m aflatoxin20 sav Diese Datendatei enth lt die Aflatoxinmessungen aus jeder der 16 Stichproben aus den Ertr gen 4 und 8 der Datendatei aflatoxin sav 85 86 Anhang A anorectic sav Bei der Ausarbeitung einer standardisierten Symptomatologie anorektischen bulimischen Verhaltens f hrten Forscher eine Studie mit 55 Jugendlichen mit bekannten Ess St rungen durch Jeder Patient wurde vier Mal ber einen Zeitraum von vier Jahren untersucht es fanden also insgesamt 220 Beobachtungen statt Bei jeder Beobachtung erhielten die Patienten Scores f r jedes von 16 Symptomen Die Symptomwerte fehlen f r Patient 71 zum Zeitpunkt 2 Patient 76 zum Zeitpunkt 2 und Patient 47 zum Zeitpunkt 3 wodurch 217 g ltige Beobachtungen verbleiben autoaccidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Versicherungsanalysten geht ein Modell zur Anzahl der Autounf lle pro Fahrer unter Ber cksichtigung von Alter und Geschlecht zu
7. income ed gender retire age tenure reside employ address income ed gender retire marital age tenure reside employ income ed gender retire marital age tenure reside employ address 59 Multiple Imputation Die Tabelle Imputationsmodelle gibt weitere Details an wie jede Variable imputiert wurde Beachten Sie insbesondere Folgendes m Die Variablen werden in der Reihenfolge der Imputationssequenz aufgef hrt m Metrische Variablen werden mit linearer Regression modelliert kategoriale Variablen mit logistischer Regression Jedes Modell verwendet alle anderen Variablen als Haupteffekte Die Anzahl der fehlenden Werte f r jede Variable wird zusammen mit der Gesamtzahl an imputierten Werten f r diese Variable Anzahl fehlend x Anzahl Imputationen gemeldet Deskriptive Statistiken Abbildung 5 12 Deskriptive Statistik f r tenure Besch ftigungsdauer Imputation Mittelwert eichung Minimum Maximum TEET Imputierte Werte Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Die Tabellen Deskriptive Statistik zeigen Zusammenfassungen f r Variablen mit imputierten Werten F r jede Variable wird eine separate Tabelle erstellt Die Typen der gezeigten Statistik h ngen davon ab ob die Variable metrisch oder kategorial ist Die Statistik f r metrische Variablen umfasst Anzahl Mittelwert Standardabweichung Minimum und Maximum die f r die Originaldaten jedes
8. lt eine Ausgangskonfiguration f r eine zweidimensionale L sung f r behavior sav brakes sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Fabrik geht die Scheibenbremsen f r Hochleistungsautomobile herstellt Die Datendatei enth lt Messungen des Durchmessers von 16 Scheiben aus 8 Produktionsmaschinen Der Zieldurchmesser f r die Scheiben ist 322 Millimeter breakfast sav In einer klassischen Studie wurden 21 MBA Studenten der Wharton School mit ihren Lebensgef hrten darum gebeten 15 Fr hst cksartikel in der Vorzugsreihenfolge von 1 am meisten bevorzugt bis 15 am wenigsten bevorzugt zu ordnen Die Bevorzugungen wurden in sechs unterschiedlichen Szenarien erfasst von Overall preference Allgemein bevorzugt bis Snack with beverage only Imbiss nur mit Getr nk breakfast overall sav Diese Datei enth lt die Daten zu den bevorzugten Fr hst cksartikeln allerdings nur f r das erste Szenario Overall preference Allgemein bevorzugt broadband_1 sav Hierbei handelt es sich um eine hypothetische Datendatei die die Anzahl der Abonnenten eines Breitband Service nach Region geordnet enth lt Die Datendatei enth lt die monatlichen Abonnentenzahlen f r 85 Regionen ber einen Zeitraum von vier Jahren 87 Beispieldateien broadband_2 sav Diese Datendatei stimmt mit broadband_1 sav berein enth lt jedoch Daten f r weitere dr
9. ulcer_recurrence sav Diese Datei enth lt Teilinformationen aus einer Studie zum Vergleich der Wirksamkeit zweier Therapien zur Vermeidung des Wiederauftretens von Geschw ren Es stellt ein gutes Beispiel f r intervallzensierte Daten dar und wurde an anderer Stelle vorgestellt und analysiert ulcer_recurrence_recoded sav In dieser Datei sind die Daten aus ulcer_recurrence sav so umstrukturiert dass das Modell der Ereigniswahrscheinlichkeit f r jedes Intervall der Studie berechnet werden kann und nicht nur die Ereigniswahrscheinlichkeit am Ende der Studie Sie wurde an anderer Stelle vorgestellt und analysiert verd1985 sav Diese Datendatei enth lt eine Umfrage Die Antworten von 15 Subjekten auf 8 Variablen wurden aufgezeichnet Die relevanten Variablen sind in drei Sets unterteilt Set 1 umfasst alter und heirat Set 2 besteht aus per und news und in Set 3 finden sich music und live Die Variable per wird mehrfach nominal skaliert und die Variable Alter ordinal Alle anderen Variablen werden einzeln nominal skaliert virus sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Internet Dienstanbieters geht der die Auswirkungen eines Virus auf seine Netzwerke ermitteln m chte Dabei wurde vom Moment der Virusentdeckung bis zu dem Zeitpunkt zu dem die Virusinfektion unter Kontrolle war der ungef hre prozentuale Anteil infizierter E Mail in den Netzwerken erfasst waittimes sav Hier
10. Ergebnisse nur f r imputierte Daten Fi Kombinierte Ergebnisse Diagnosestatistik Die Registerkarte Multiple Imputationen steuert zwei Arten von Voreinstellungen f r multiple Imputationen Erscheinungsbild imputierter Daten Standardm ig werden Zellen mit imputierten Daten mit einer anderen Hintergrundfarbe als Zellen mit nicht imputierten Daten angezeigt Das Erscheinungsbild der imputierten Daten sollte es Ihnen erleichtern durch ein Daten Set zu bl ttern und diese Zellen zu finden Sie k nnen die Standard Hintergrundfarbe f r die Zellen und die Schriftfamilie ndern und imputierte Daten fett darstellen Analyseausgabe Diese Gruppe steuert die Art der Viewer Ausgabe die erzeugt wird wenn ein multiples imputiertes Daten Set analysiert wird Standardm ig wird die Ausgabe f r das Original Daten Set vor der Imputation und f r jedes der imputierten Daten Sets erzeugt Zus tzlich werden finale gemeinsame Ergebnisse f r die Verfahren erzeugt die das Pooling von imputierten Daten unterst tzen Bei univariatem Pooling wird auch die Pooling Diagnose angezeigt Sie k nnen die Ausgaben die Sie nicht sehen m chten jedoch unterdr cken 35 Multiple Imputation So stellen Sie die Optionen f r multiple Imputation ein W hlen Sie die folgenden Befehle aus den Men s aus Bearbeiten Optionen Klicken Sie auf die Registerkarte Multiple Imputation Teil II Beispiele Kapitel Analy
11. Sets k nnen mit Prozeduren analysiert werden die Daten Sets mit multipler Imputation unterst tzen Informationen zur Analyse von Datensets der multiplen Imputation und eine Liste der Verfahren die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Beispiel Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmuster in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen Informationen die das Unternehmen gesammelt hat einige Werte Zudem fehlen diese Werte nicht v llig zuf llig daher wird das Daten Set mithilfe multipler Imputation vervollst ndigt F r weitere Informationen siehe Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets in Kapitel 5 auf S 50 19 Multiple Imputation So ersetzen Sie fehlende Datenwerte W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Multiple Imputation Fehlende Datenwerte imputieren Abbildung 3 2 Registerkarte Fehlende Datenwerte ersetzen Variablen FF Fehlende Datenwerte imputieren Melhode Nebenbedingungen Ausgabe Yariablen variablen im Modell 8E Personen im Haushalt PeoplelnHous 8 Monate beim Anbieter Months it 9 Atter Age Familienstand MaritalStatus L Jahre wohnhaft an gleicher Adre L Einkommen Income d Ausbildun
12. Sie auf Daten durchsuchen klicken zeigt die Liste Analysevariablen und jeweils den beobachteten Prozentwert f r fehlend Minimum und Maximum Die Zusammenfassungen k nnen auf allen F llen oder auf einem Durchlauf der ersten n F lle wie im Textfeld F lle angegeben beruhen Durch Klicken auf Erneut durchsuchen werden die Verteilungszusammenfassungen aktualisiert Nebenbedingungen definieren m Rolle Hier ber k nnen Sie die Menge der zu imputierenden und oder als Einflussvariablen zu behandelnden Variablen anpassen blicherweise wird jede Analysevariable im Imputationsmodell sowohl als abh ngige Variable als auch als Einflussvariable betrachtet Die Rolle kann verwendet werden um die Imputation von Variablen die Sie Nur als Einflussvariable verwenden wollen auszuschalten oder um Variablen von der Verwendung als Einflussvariablen Nur imputieren auszuschlie en und so das Vorhersagemodell kompakter zu machen Dies ist die einzige Nebenbedingung die f r kategoriale Variablen oder f r Variablen die nur als Einflussvariablen verwendet werden angegeben werden kann m Min und Max In diesen Spalten k nnen Sie die minimal und maximal zul ssigen imputierten Werte f r metrische Variablen angeben Wenn ein imputierter Wert au erhalb dieses Bereichs liegt zieht das Verfahren einen anderen Wert bis es einen findet der im Bereich liegt oder bis die maximale Zahl an Ziehungen erreicht ist siehe Maximale Ziehungen unten Diese Spalte
13. Zufallsprinzip wurde eine Untergruppe des Kundenstamms ausgew hlt Diese Gruppe erhielt die speziellen Angebote und die Reaktionen wurden aufgezeichnet customer_information sav Eine hypothetische Datendatei mit Kundenmailingdaten wie Name und Adresse customers_model sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen auf die sich eine Marketingkampagne richtete Zu diesen Daten geh ren demografische Informationen eine bersicht ber die bisherigen Eink ufe und die Angabe ob die einzelnen Personen auf die Kampagne ansprachen oder nicht Jeder Fall entspricht einer Einzelperson customers_new sav Diese Datei enth lt hypothetische Daten zu Einzelpersonen die potenzielle Kandidaten f r Marketingkampagnen sind Zu diesen Daten geh ren demografische Informationen und eine bersicht ber die bisherigen Eink ufe f r jede Person Jeder Fall entspricht einer Einzelperson debate sav Hierbei handelt es sich um eine hypothetische Datendatei die gepaarte Antworten auf eine Umfrage unter den Zuh rern einer politischen Debatte enth lt Antworten vor und nach der Debatte Jeder Fall entspricht einem Befragten 89 Beispieldateien debate_aggregate sav Hierbei handelt es sich um eine hypothetische Datendatei in der die Antworten aus debate sav aggregiert wurden Jeder Fall entspricht einer Kreuzklassifikation der bevorzugten Politiker vor und nach der Debatte demo sav Hierbei handelt es sich um eine hypothetische D
14. angeben 48 Kapitel 4 Wenn wir die deskriptiven Statistiken und die Muster fehlender Daten betrachten k nnen wir m glicherweise folgern dass die Daten nicht v llig zuf llig fehlen Wir k nnen diese Schlussfolgerung mit dem MCAR Test nach Little berpr fen der mit den EM Sch tzern abgedruckt ist Erneute Durchf hrung der Analyse f r den MCAR Test nach Little Abbildung 4 12 Dialogfeld Analyse fehlender Werte F Analyse fehlender Werte Quantitative Variablen amp Imputati r Im Q WMOHIALG WEIN MIGE n L Alter Age 8 Jahre wohnhaft an E Einkommen Income Jahre beim gleichen FI Listenweise 9 Personen im Haush rSch tzung Paarweise Kategoriale Variablen Familienstand MaritalS d Ausbildung Education mM Regression Ruhestand Retirement Geschlecht Gender EM Maximalzahl der Kategorien kl O Fallbeschriftungen Rufen Sie das Dialogfeld Analyse fehlender Werte wieder auf gt Klicken Sie auf EM Klicken Sie auf OK 49 Analyse fehlender Werte Abbildung 4 13 Tabelle Gesch tzte Randmittel PeoplelnHousehold ae w Li 5 o o w E kzi W S z x T S gt gt Months WYithService 36 12 41 91 77 394 11 22 a MCAR TES nach Little Chi Quadrat 179 836 DF 107 Sig Die Ergebnisse des MCAR Tests nach Little werden jeweils in den Fu noten der Tabellen f r EM g
15. drei Preisstufen sowie je zwei Ebenen Nein oder Ja f r die letzten beiden Faktoren 10 Kunden stufen 22 Profile ein die durch diese Faktoren definiert sind Die Variable Preference enth lt den Rang der durchschnittlichen Einstufung f r die verschiedenen Profile Ein niedriger Rang bedeutet eine starke Bevorzugung Diese Variable gibt ein Gesamtma der Bevorzugung f r die Profile an carpet_prefs sav Diese Datendatei beruht auf denselben Beispielen wie f r carpet sav beschrieben enth lt jedoch die tats chlichen Einstufungen durch jeden der 10 Kunden Die Kunden wurden gebeten die 22 Produktprofile in der Reihenfolge ihrer Pr ferenzen einzustufen Die Variablen PREF bis PREF22 enthalten die IDs der zugeordneten Profile wie in carpet_plan sav definiert catalog sav Diese Datendatei enth lt hypothetische monatliche Verkaufszahlen f r drei Produkte die von einem Versandhaus verkauft werden Daten f r f nf m gliche Einflussvariablen wurden ebenfalls aufgenommen catalog_seasfac sav Diese Datendatei ist mit catalog sav identisch au er dass ein Set von saisonalen Faktoren die mithilfe der Prozedur Saisonale Zerlegung berechnet wurden sowie die zugeh rigen Datumsvariablen hinzugef gt wurden cellular sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Mobiltelefonunternehmens geht die Kundenabwanderung zu verringern Scores f r die Abwanderungsneigung von 0 bis 100 werd
16. ein weiteres Set mit den Bewertungen der rzteschaft kann es sinnvoll sein eine Ausf hrung zur Sch tzung der fehlenden Items f r das Pflegepersonal und eine weitere Ausf hrung f r die Sch tzer der Items der rzteschaft durchzuf hren Bei Verwendung der Regressionsmethode ist noch ein weiterer Faktor zu ber cksichtigen Bei der mehrfachen Regression kann die Verwendung einer gro en Untergruppe unabh ngiger Variablen zu schlechteren vorhergesagten Werten f hren als eine kleinere Untergruppe Daher 14 Kapitel 2 muss eine Variable mindestens ein F f r die Aufnahme von 4 0 erreichen um verwendet zu werden Dieser Grenzwert kann ber die Syntax ge ndert werden So geben Sie vorhergesagte Variablen und Vorhersagevariablen Einflussvariahlen an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der Regressionsmethode gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option EM oder Regression Klicken Sie auf Variablen gt Wenn Sie nur bestimmte und nicht alle Variablen als vorhergesagte Variablen und Einflussvariablen verwenden m chten aktivieren Sie Variablen ausw hlen und verschieben Sie die Variablen in die entsprechende n Liste n Zus tzliche Funktionen beim Befehl MVA Mit der Befehlssyntax Sprache verf gen Sie au erdem ber folgende M glichkeiten m Mit dem Schl sselwort DESCRIBE in den Unterbefehlen MPATTERN D
17. ffnen identifiziert das Vorhandensein der mputation_ das Daten Set als m gliches MI Daten Set 26 Kapitel 3 Aktivieren eines Multiple Imputation Daten Sets f r die Analyse Das Daten Set muss mit der Option Gruppen vergleichen mit Imputation_ als Gruppierungsvariable aufgeteilt werden um in Analysen als MI Daten Set behandelt zu werden Sie k nnen auch Aufteilungen bei anderen Variablen definieren W hlen Sie die folgenden Befehle aus den Men s aus Daten Datei aufteilen Abbildung 3 6 Dialogfeld Datei aufteilen EH Datei aufteilen Monate beim Anbieter M Alter Age 5 Familienstand Marttalstat Gruppen vergleichen E Jahre wohnhaft an gleic E Einkommen Income Ausbildung Educationall Gruppen basierend auf 8 Jahre beim gleichen Arbe Hm utetionsnummer Imputetion_ amp b Ruhestand RetirementSt amp Geschlecht Gender 2 Personen im Haushalt Pe Alle F lle analysieren keine Gruppen bilden Ausgabe nach Gruppen aufteilen Datei nach Gruppenvariablen sortieren Datei ist sortiert Cl naen Zur eetzen _Abtrechen __ Hate W hlen Sie die Option Gruppen vergleichen gt W hlen Sie mputationszahl Imputation_ als Variable um F lle danach zu gruppieren Alternativ wird die Datei wenn Sie Markierungen einschalten siehe unten bei mputationszahl Imputation_ geteilt Unterscheidung von imputierten Werten und beobacht
18. gt PASW Missing Values Fehlende Werte 18 Weitere Informationen zu SPSS Inc Software Produkten finden Sie auf unserer Website unter der Adresse http www spss com oder wenden Sie sich an SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 USA Tel 312 651 3000 Fax 312 651 3668 SPSS ist eine eingetragene Marke PASW ist eine eingetragene Marke von SPSS Inc Die SOFTWARE und die Dokumentation werden mit BESCHR NKTEN RECHTEN zur Verf gung gestellt Verwendung Vervielf ltigung und Ver ffentlichung durch die Regierung unterliegen den Beschr nkungen in Unterabschnitt c 1 ii von The Rights in Technical Data and Computer Software unter 52 227 7013 Vertragspartner Hersteller ist SPSS Inc 233 South Wacker Drive 11th Floor Chicago IL 60606 6412 Patentnr 7 023 453 Allgemeiner Hinweis Andere in diesem Dokument verwendete Produktnamen werden nur zu Identifikationszwecken genannt und k nnen Marken der entsprechenden Unternehmen sein Windows ist eine eingetragene Marke der Microsoft Corporation Apple Mac und das Mac Logo sind Marken von Apple Computer Inc die in den USA und in anderen L ndern eingetragen sind Dieses Produkt verwendet WinWrap Basic Copyright 1993 2007 Polar Engineering and Consulting http www winwrap com Kein Teil dieser Publikation darf ohne vorherige Einwilligung des Herstellers in irgendeiner Form elektronisch mechanisch durch Fo
19. in der Originaldatenspalte der Tabelle erkl rt Auswertung Unter Verwendung der Verfahren multipler Imputation haben Sie Muster fehlender Werte analysiert und festgestellt dass viele Informationen vermutlich verloren gehen w rden wenn ein einfach listenweiser Ausschluss verwendet werden w rde Nach einem ersten automatischen Durchlauf der multiplen Imputation haben Sie festgestellt dass Nebenbedingungen ben tigt werden um imputierte Werte in einem vern nftigen Rahmen zu halten Der Durchlauf mit Nebenbedingungen sorgte f r gute Ergebnisse und es gab keinen direkten Nachweis dass die FCS Methode nicht konvergiert hat Unter Verwendung des vollst ndigen Daten Sets mit mehrfach imputierten Werten haben Sie eine multinomiale logistische Regression an die Daten angepasst und gemeinsame Regressionssch tzer erhalten Zudem haben Sie erkannt dass die abschlie ende Modellanpassung tats chlich mittels listenweisen Ausschlusses an den Originaldaten nicht m glich gewesen w re Anhang A Beispieldateien Die zusammen mit dem Produkt installierten Beispieldateien finden Sie im Unterverzeichnis Samples des Installationsverzeichnisses F r jeder der folgenden Sprachen gibt es einen eigenen Ordner innerhalb des Unterverzeichnisses Samples Englisch Franz sisch Deutsch Italienisch Japanisch Koreanisch Polnisch Russisch Vereinfachtes Chinesisch Spanisch und Traditionelles Chinesisch Nicht alle Beispieldateien stehen
20. r die Imputation nach vollst ndiger konditionaler Spezifikation enth lt Das Daten Set enth lt Mittelwerte und Standardabweichungen nach Iteration und Imputation f r jede metrische abh ngige Variable f r die Werte imputiert sind Sie k nnen die Daten als Diagramm darstellen um die Beurteilung der Modellkonvergenz zu erleichtern F r weitere Informationen siehe Pr fen auf FCS Konvergenz in Kapitel 5 auf S 69 Zus tzliche Funktionen beim Befehl MULTIPLE IMPUTATION Mit der Befehlssyntax Sprache verf gen Sie au erdem ber folgende M glichkeiten m Geben Sie eine Untermenge von Variablen an f r die deskriptive Statistik angezeigt wird Unterbefehl IMPUTATIONSUMMARIES m Geben Sie eine Analyse fehlender Muster und Imputation in einem einzigen Lauf der Prozedur an m Geben Sie die maximale Anzahl an Modellparametern an die zul ssig sind wenn eine Variable imputiert wird Schl sselwort MAXMODELPARAM Vollst ndige Informationen zur Syntax finden Sie in der Command Syntax Reference Arbeiten mit Daten aus multipler Imputation Wenn ein Daten Set multipler Imputation MI erstellt wird wird eine Variable mit dem Namen Imputation_ und dem Variablenlabel mputationszahl hinzugef gt und das Daten Set wird danach in aufsteigender Reihenfolge sortiert F lle aus dem Original Daten Set haben einen Wert von 0 F lle imputierter Werte sind von 1 bis M nummeriert wobei M die Zahl der Imputationen ist Wenn Sie ein Daten Set
21. weitere Informationen siehe Beispieldateien in Anhang A in PASW Missing Values Fehlende Werte 18 Analyse der Muster fehlender Werte gt Sehen Sie sich als ersten Schritt die Muster fehlender Daten an W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Multiple Imputation Muster analysieren 50 51 Multiple Imputation Abbildung 5 1 Muster analysieren Dialogfeld i Muster analysieren X Yariablen ber Variablen analysieren amp Geschlecht Gender E Monate beim Anbieter E Personen im Haushalt Pe 8 Alter Age Familienstand MaritalS E Jahre wohnhaft an gle E Einkommen Income ll Ausbildung Education amp Jahre beim gleichen A T Analysegewichtung nr rAusgabe Fi Zusammenfassung der fehlenden Werte Muster der fehlenden Werte Fi Yariablen mit der h chsten H ufigkeit an fehlenden Werten Maximale Anzahl an angezeigten Variablen Minimaler Prozentsatz Fehlend f r die Anzeige von Variablen a noon Zur esetzen _Abtrechen __ nie W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als Analysevariable aus Gesamtzusammenfassung Abbildung 5 2 Gesamtzusammenfassung der fehlenden Werte Gesamtzusammenfassung der fehlenden Werte I vollst ndige Daten Bunvollst ndige Daten Variablen F lle Werte Die Gesamtzusammenfa
22. 4 E Personen im Haushalt Pe E Alter Age b Familienstand MaritalS 8 Jahre wohnhaft an gle 8 Einkommen Income N Ausbildung Education amp Jahre beim gleichen A T Analysegewichtung __ rAusgabe F Zusammenfassung der fehlenden Werte M Muster der fehlenden Werte T ariablen mit der h chsten H ufigkeit an fehlenden Werten Maximale Anzahl an angezeigten Yariablen Minimaler Prozentsatz Fehlend f r die Anzeige von Variablen C noon Zur esetzen _Abtrechen __ Hate _ W hlen Sie mindestens zwei Analysevariablen aus Die Prozedur analysiert Muster fehlender Daten f r diese Variablen 18 Kapitel 3 Optionale Einstellungen Analysegewichtung Diese Variable enth lt Analysegewichtungen Regression oder Stichprobe Das Verfahren integriert Analysegewichtungen in Zusammenfassungen fehlender Werte F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Ausgabe Die folgende optionale Ausgabe ist verf gbar m Zusammenfassung der fehlenden Werte Zeigt ein unterteiltes Kreisdiagramm an das die Anzahl und die Prozentzahlen der Analysevariablen F lle oder einzelne Datenwerte enth lt die ber einen oder mehrere fehlende Werte verf gen m Muster fehlender Werte Zeigt tabulierte Muster fehlender Werte an Jedes Muster entspricht einer Gruppe von F llen mit dem gleichen Muster unvollst ndiger und vollst ndiger Daten bei Analysevariab
23. 90 23638 113 0959 369 9674 101 1043 90 40865 167 6978 314 2533 74 1017 84 81851 189 1959 944 0000 76 6104 85 98067 122 0010 944 0000 76 4801 86 10024 127 8572 944 0000 77 5781 85 52821 113 0959 944 0000 76 5087 85 22154 167 6978 944 0000 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Wie tenure und alle anderen metrischen Variablen zeigt income Haushaltseinkommen in Tausend negative imputierte Werte daher m ssen wir ein angepasstes Modell mit Nebenbedingungen bei bestimmten Variablen einsetzen income zeigt jedoch weitere m gliche Probleme Die mittleren Werte f r jede Imputation sind entscheidend h her als bei den Originaldaten und die 61 Multiple Imputation Maximumwerte f r jede Imputation sind entscheidend niedriger als f r die Originaldaten Die Verteilung des Einkommens tendiert dazu rechtslastig zu sein Das k nnte also die Ursache des Problems sein Angepasstes Imputationsmodell Um zu verhindern dass imputierte Werte au erhalb eines angemessenen Wertebereichs f r jede Variable fallen geben wir ein angepasstes Imputationsmodell mit Nebenbedingungen f r die Variablen an Zudem ist Household income in thousands Haushaltseinkommen in Tausend stark rechtslastig und die weitere Analyse wird wahrscheinlich den Logarithmus von income nutzen Daher scheint die direkte Imputation von log income Sinn zu ergeben Stellen Sie sicher dass d
24. Attribut beschrieben werden Die sechs Marken werden als AA BB CC DD EE und FF bezeichnet um Vertraulichkeit zu gew hrleisten contacts sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Kontaktlisten einer Gruppe von Vertretern geht die Computer an Unternehmen verkaufen Die einzelnen Kontaktpersonen werden anhand der Abteilung in der sie in ihrem Unternehmen arbeiten und anhand ihrer Stellung in der Unternehmenshierarchie in Kategorien eingeteilt Au erdem werden der Betrag des letzten Verkaufs die Zeit seit dem letzten Verkauf und die Gr e des Unternehmens in dem die Kontaktperson arbeitet aufgezeichnet creditpromo sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Kaufhauses geht die Wirksamkeit einer k rzlich durchgef hrten Kreditkarten Werbeaktion einzusch tzen Dazu wurden 500 Karteninhaber nach dem Zufallsprinzip ausgew hlt Die H lfte erhielt eine Werbebeilage die einen reduzierten Zinssatz f r Eink ufe in den n chsten drei Monaten ank ndigte Die andere H lfte erhielt eine Standard Werbebeilage customer_dbase sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht das die Informationen in seinem Data Warehouse nutzen m chte um spezielle Angebote f r Kunden zu erstellen die mit der gr ten Wahrscheinlichkeit darauf ansprechen Nach dem
25. F lle mit einem fehlenden Wert oder einem Extremwert tabellarisch dargestellt Mit Variable sortieren nach dem Muster fehlender Werte k nnen Sie angeben ob H ufigkeiten Anzahl und Variablen nach der hnlichkeit der Muster sortiert werden sollen 7 gt gt Analyse fehlender Werte Alle F lle Die einzelnen F lle werden tabellarisch dargestellt und fehlende Werte und Extremwerte werden f r jede Variable angegeben Die F lle werden in der Reihenfolge aufgef hrt in der sie in der Datendatei auftreten sofern unter Sortieren nach keine Variable angegeben wurde In den Tabellen die einzelne F lle anzeigen werden folgende Symbole verwendet Extrem hoher Wert E Extrem niedriger Wert F Systemdefiniert fehlender Wert D Erster Typ des benutzderdefinierten fehlenden Werts K Zweiter Typ des benutzderdefinierten fehlenden Werts R Dritter Typ des benutzerdefinierten fehlenden Werts Variablen Sie k nnen weitere Informationen f r die in die Analyse aufgenommenen Variablen anzeigen Die Variablen die Sie unter Zus tzliche Informationen f r hinzuf gen werden einzeln in der Tabelle der fehlenden Muster angezeigt Bei quantitativen metrischen Variablen wird der Mittelwert und bei kategorialen Variablen wird die Anzahl der F lle aufgef hrt die das Muster in jeder Kategorie aufweisen m Sortieren nach Die F lle werden entsprechend der aufsteigenden oder absteigenden Reihenfolge der Werte der angegebenen Variablen
26. Intercept 1353 555 1 Eingegeben ed 1260 972 000 Eingegeben employ 1237 664 3 Eingegeben marital 1229 808 049 Eingegeben Intercept 2762 531 Eingegeben ed 2608 189 Eingegeben employ 2563 671 Eingegeben reside 2549 200 Eingegeben address 2541 050 Eingegeben Intercept 2762 531 Eingegeben ed 2603 940 158 591 Eingegeben employ 2563 367 40 573 Eingegeben marital 2545 743 17 624 Eingegeben address 2536 532 9 211 Eingegeben Intercept 2762531 Eingegeben ed 2600 074 162 457 Eingegeben employ 2558 560 41 514 Eingegeben marital 2546 062 12 499 Eingegeben address 2536 348 9 714 Eingegeben Intercept 2762531 Eingegeben ed 2601 616 160 915 Eingegeben employ 2558 463 43 153 Eingegeben marital 2543747 14 716 Eingegeben address 2533 341 10 406 Eingegeben Intercept 2762 531 Eingegeben ed 2604 773 157 759 Eingegeben employ 2561 792 42 980 Eingegeben marital 2549 096 12 696 _ ww M A U N e OJA UU N lt OJA U N lt e OJA U Ne Oju N on ao w Schrittweise Methode Yorw rtsselektion a Das Chi Quadrat f r die Aufnahme beruht auf dem Likelihood Quotienten Test Die multinomiale logistische Regression unterst tzt das Pooling von Regressionskoeffizienten Sie werden jedoch feststellen dass alle Tabellen in der Ausgabe die Ergebnisse f r jede Imputation und die Originaldaten zeigen Dies liegt an der Aufteilung der Datei bei mputation_ so dass alle Tabellen die die Aufteilungsva
27. Optionen 22222 useeeeneneneenen nn Teil Il Beispiele 4 Analyse fehlender Werte Beschreiben des Musters fehlender Daten cc cc unse Inhalt Durchf hren der Analyse zur Anzeige deskriptiver Statistiken 2 cececere 37 Evaluieren der deskriptiven Statistiken 222 2cononseneeeeeenenneree nennen 39 Erneute Durchf hrung der Analyse zur Anzeige von Mustern nnana nuaa 2222er 45 Evaluieren der Mustertabelle 2 2coneneneeneenenereenen nennen 41 Erneute Durchf hrung der Analyse f r den MCAR Test nach Little 220 48 5 Multiple Imputation 50 Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets 50 Analyse der Muster fehlender Werte coneneneeeeenenenenen nennen 50 Automatische Imputation fehlender Werte coconeeenenenenen nennen 54 Angepasstes Imputationsmodell 2 2nenenenenenenenen een en 61 Pr fen auf FCS Konvergenz 22222 ononeeeeeeneneneneeer een nennn 69 Analyse vollst ndiger Daten naana 73 AUSWERTUNG u 3 Mad ro a a ea a a ne ne a ne 84 Anhang A Beispieldateien 85 Index 97 vi Teil I Benutzerhandbuch Kapitel Missing Values Fehlende Werte Einleitung F lle mit fehlenden Werten stellen eine Herausforderung dar da typische Modellverfahren diese F lle einfach von der Analyse ausschlie en Wenn es wenige fehlende We
28. PATTERN und TPATTERN k nnen Sie separate deskriptive Variablen f r Muster fehlender Werte Datenmuster und Muster in Tabellen festlegen m Mit dem Unterbefehl DPATTERN k nnen Sie mehrere Sortiervariablen f r die Tabelle der Datenmuster festlegen m Mit dem Unterbefehl DPATTERN k nnen Sie mehrere Sortiervariablen f r die Datenmuster festlegen Mit dem Unterbefehl EM k nnen Sie die Toleranz und Konvergenz festlegen Mit dem Unterbefehl REGRESSION k nnen Sie die Toleranz und den F Wert f r die Aufnahme festlegen m Mit den Unterbefehlen EM und REGRESSION k nnen Sie verschiedene Variablenlisten f r das EM Verfahren und die Regression festlegen m F r TTESTS TABULATE und MISMATCH k nnen Sie unterschiedliche Prozents tze f r das Unterdr cken von angezeigten F llen festlegen Vollst ndige Informationen zur Syntax finden Sie in der Command Syntax Reference Kapitel 3 Multiple Imputation Der Zweck der multiplen Imputation ist die Erzeugung m glicher Werte f r fehlende Werte um so verschiedene vollst ndige Sets an Daten zu erzeugen Analyseverfahren die mit Datensets aus multipler Imputation arbeiten erzeugen Ausgaben f r jedes vollst ndige Daten Set sowie eine gemeinsame Ausgabe die sch tzt welche Ergebnisse entstanden w ren wenn das Original Daten Set keine fehlenden Werte besitzen w rde Diese gemeinsamen Ergebnisse sind in der Regel genauer als die die durch einfache Imputationsm
29. Set an imputierten Werten und jedes vollst ndige Daten Set die Kombination aus Originaldaten und imputierten Werten angezeigt werden Die Tabelle Deskriptive Statistik f r tenure Besch ftigungsdauer zeigt Mittelwerte und Standardabweichungen in jedem Set von imputierten Werten die ungef hr denen in den Originaldaten entsprechen Es stellt sich jedoch ein unmittelbares Problem wenn Sie sich das Minimum ansehen und sehen dass die negativen Werte f r tenure imputiert wurden 60 Kapitel 5 Abbildung 5 13 Deskriptive Statistik f r marital Familienstand Imputierte Werte Daten nach Imputation vervollst ndigen F r kategoriale Variablen umfasst die Statistik Anzahl und Prozent nach Kategorie f r die Originaldaten imputierten Werte und vollst ndigen Daten Die Tabelle f r marital Familenstand hat ein interessantes Ergebnis da f r die imputierten Werte ein gr erer Anteil der F lle als in den Originaldaten als verheiratet gesch tzt wurde Hierbei k nnte es sich um eine zuf llige Variation handeln Alternativ k nnte die M glichkeit des Fehlens in Zusammenhang mit dem Wert dieser Variable stehen Abbildung 5 14 Deskriptive Statistik f r income Haushaltseinkommen in Tausend Daten ation N Mittelwert eichung Minimum Maximum Onginaldaten Imputierte Werte 87 6574 91 13179 189 1959 373 2412 101 6724 94 20599 122 0010 346 4294 100 9445 95 00789 127 8572 342 5208 107 0787
30. Unternehmen enth lt dietstudy sav Diese hypothetische Datendatei enth lt die Ergebnisse einer Studie der Stillman Di t Jeder Fall entspricht einem Teilnehmer und enth lt dessen Gewicht vor und nach der Di t in amerikanischen Pfund sowie mehrere Messungen des Triglyceridspiegels in mg 100 ml dischargedata sav Hierbei handelt es sich um eine Datendatei zum Thema Seasonal Patterns of Winnipeg Hospital Use Saisonale Muster der Belegung im Krankenhaus von Winnipeg vom Manitoba Centre for Health Policy dvdplayer sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Entwicklung eines neuen DVD Spielers geht Mithilfe eines Prototyps hat das Marketing Team Zielgruppendaten erfasst Jeder Fall entspricht einem befragten Benutzer und enth lt demografische Daten zu dem Benutzer sowie dessen Antworten auf Fragen zum Prototyp flying sav Diese Datendatei enth lt die Flugmeilen zwischen zehn St dten in den USA german_credit sav Diese Daten sind aus dem Daten Set German credit im Repository of Machine Learning Databases an der Universit t von Kalifornien in Irvine entnommen grocery_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei grocery_coupons sav wobei die w chentlichen Eink ufe zusammengefasst sind sodass jeder Fall einem anderen Kunden entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und der verzeic
31. aivem Pooling Kolmogorov Smirnov Test bei einer Stichprobe m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling Tests bei zwei unabh ngigen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt N bei naivem Pooling Tests bei mehreren unabh ngigen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt Anzahlen bei naivem Pooling Tests bei zwei verbundenen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt N bei naivem Pooling Tests bei mehreren verbundenen Stichproben m Die Tabelle R nge unterst tzt mittlerer Rang bei naivem Pooling Cox Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Variablen in der Gleichung unterst tzt B bei univariatem Pooling m Die Tabelle Kovariate Mittelwerte unterst tzt Mittelwert bei naivem Pooling 34 Kapitel 3 Multiple Imputation Optionen Abbildung 3 12 Dialogfeld Optionen Registerkarte Multiple Imputationen EEE rMarkierung der imputierten Daten Hintergrundfarbe f r Zellen 9 Schriftart w rAnalyseausgabe Ergebnisse f r beobachtete und imputierte Daten Ergebnisse nur f r beobachtete Daten
32. amilienstand et i 1 429 48 5 Imputierte Werte 46 40 0 60 0 69 72 62 6 55 47 8 70 60 9 66 57 4 Daten nach Imputation 502 50 2 vervollst ndigen 501 50 1 484 48 4 501 50 1 495 49 5 Die Tabelle f r marital Marital status hat jetzt eine Imputation 3 deren Verteilung mehr den Originaldaten entspricht die Mehrzahl zeigt aber im Vergleich zu den Originaldaten immer noch einen gro en Anteil von F llen die als verheiratet gesch tzt werden Das k nnte an der zuf lligen Variation liegen erfordert aber eventuell auch eine weitere Studie der Daten um festzustellen ob diese Werte nicht zuf llig fehlen missing at random MAR Dem gehen wir hier nicht weiter nach Abbildung 5 25 Deskriptive Statistik f r Ininc Log of income Daten mou tation N Mittelwert eichung Minimum Maximum Originaldaten 821 5305 Imputierte Werte 179 94574 179 98346 179 1 01487 179 82705 179 96403 9638 80842 81107 77228 80064 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Wie tenure und alle anderen metrischen Variablen zeigt Ininc Log of income keine negativen imputierten Werte Ferner liegen die Mittelwerte f r die Imputationen n her am Mittelwert f r die Originaldaten als im automatischen Imputationslauf f r income betr gt der Mittelwert f r die Originaldaten f r Ininc ungef hr e3 9291 50 86 w hrend der typische Mittelwert unter 69 Multip
33. an Frachtschiffen Die Vorfallsh ufigkeiten k nnen unter Angabe von Schiffstyp Konstruktionszeitraum und Betriebszeitraum gem einer Poisson Rate modelliert werden Das Aggregat der Betriebsmonate f r jede Zelle 94 Anhang A der durch die Kreuzklassifizierung der Faktoren gebildeten Tabelle gibt die Werte f r die Risikoanf lligkeit an site sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Unternehmens geht neue Standorte f r die betriebliche Expansion auszuw hlen Das Unternehmen beauftragte zwei Berater unabh ngig voneinander mit der Bewertung der Standorte Neben einem umfassenden Bericht gaben die Berater auch eine zusammenfassende Wertung f r jeden Standort als good gut fair mittelm ig oder poor schlecht ab siteratings sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Betatests der neuen Website eines E Commerce Unternehmens geht Jeder Fall entspricht einem Beta Tester der die Brauchbarkeit der Website auf einer Skala von 0 bis 20 bewertete smokers sav Diese Datendatei wurde aus der Umfrage National Household Survey of Drug Abuse aus dem Jahr 1998 abstrahiert und stellt eine Wahrscheinlichkeitsstichprobe US amerikanischer Haushalte dar Daher sollte der erste Schritt bei der Analyse dieser Datendatei darin bestehen die Daten entsprechend den Bev lkerungstrends zu gewichten smoking sav Hierbei handelt e
34. as Original Daten Set aktiv ist gt W hlen Sie zum Erstellen einer Variable log income die folgenden Men befehle aus Transformieren Variable berechnen Abbildung 5 15 Variable berechnen Dialogfeld Fl Variable berechnen Ininc In income so Imputationsnummer Im 8 Monate beim Anbieter Zielvariable Numerischer Ausdruck L Alter Age amp Familienstand MaritalSt L Jahre wohnhaft an glei 8 Einkommen Income Rg Ausbildung Educationa 2 Jahre beim gleichen Ar 5 Ruhestand Retirement amp Geschlecht Gender 8 Personen im Haushalt Fals ortionate Fallauswahlbedingung gt Geben Sie ninc als Zielvariable ein Funktionsguppe Aktuelles Datumsaktuelle Uhr z p Funktionen und Sondervariablen C Entien Zr sietzen Adsrecnen __ Hate 62 Kapitel 5 Geben Sie In income als numerischen Ausdruck ein Klicken Sie auf Typ amp Label Abbildung 5 16 Typ und Label Dialogfeld A Variable berechnen Typ und Label F rYariablenlabel Ausdruck als Label verwenden rTyp Numerisch String Breite 8 orten Auorecten _ te Geben Sie Log of income als Label an Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Variable berechnen auf OK 63 Multiple Imputation Abbildung 5 17 Registerkarte Variablen mit Log of income als Ersatz f r Hou
35. assung wird immer angezeigt Sie enth lt Tabellen in Bezug auf die Imputationsspezifikationen die Iterationen f r die Methode vollst ndiger konditionaler Spezifikation die abh ngigen imputierten Variablen die abh ngigen Variablen die von der Imputation ausgeschlossen sind und die 25 Multiple Imputation Imputationssequenz Wenn angegeben werden auch die Nebenbedingungen f r Analysevariablen angezeigt Imputationsmodell Zeigt das Imputationsmodell f r abh ngige Variablen und Einflussvariablen an und enth lt den univariaten Modelltyp Modelleffekte und die Anzahl der imputierten Werte m Deskriptive Statistik Zeigt die deskriptive Statistik f r abh ngige Variablen an f r die Werte imputiert sind F r metrische Variablen enth lt die deskriptive Statistik Mittelwert Anzahl Standardabweichung Minimum und Maximum f r die Original Eingabedaten vor der Imputation imputierte Werte durch Imputation und vollst ndige Daten Original und imputierte Werte gemeinsam durch Imputation F r kategoriale Variablen enth lt die deskriptive Statistik Anzahl und Prozent nach Kategorie f r die Original Eingabedaten vor der Imputation imputierte Werte durch Imputation und vollst ndige Daten Original und imputierte Werte gemeinsam durch Imputation Iterationsprotokoll Wenn die Methode vollst ndiger konditionaler Spezifikation verwendet wird k nnen Sie ein Daten Set anfordern das die Iterationsprotokolldaten f
36. atendatei bei der es um eine Kundendatenbank geht die zum Zwecke der Zusendung monatlicher Angebote erworben wurde Neben verschiedenen demografischen Informationen ist erfasst ob der Kunde auf das Angebot geantwortet hat demo_cs_1 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den ersten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einer anderen Stadt Au erdem sind IDs f r Region Provinz Landkreis und Stadt erfasst demo_cs_2 sav Hierbei handelt es sich um eine hypothetische Datendatei f r den zweiten Schritt eines Unternehmens das eine Datenbank mit Umfrageinformationen zusammenstellen m chte Jeder Fall entspricht einem anderen Stadtteil aus den im ersten Schritt ausgew hlten St dten Au erdem sind IDs f r Region Provinz Landkreis Stadt Stadtteil und Wohneinheit erfasst Die Informationen zur Stichprobenziehung aus den ersten beiden Stufen des Stichprobenplans sind ebenfalls enthalten demo_cs sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfrageinformationen enth lt die mit einem komplexen Stichprobenplan erfasst wurden Jeder Fall entspricht einer anderen Wohneinheit Es sind verschiedene Informationen zum demografischen Hintergrund und zur Stichprobenziehung erfasst dmdata sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen ber Demografie und Eink ufe f r ein Direktmarketing
37. aufgef hrt Diese Option ist nur f r Alle F lle verf gbar So geben Sie Muster fehlender Werte an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die Muster fehlender Werte angezeigt werden sollen Klicken Sie auf Muster W hlen Sie die anzuzeigenden Mustertabellen aus 8 Kapitel 2 Anzeigen deskriptiver Statistiken f r fehlende Werte Abbildung 2 3 Dialogfeld Analyse fehlender Werte Deskriptive Statistik E Analyse fehlender Werte Deskriptive Statistik M Univariate Statistiken r Statistik f r Indikatorvariablen F Prozent der nicht bereinstimmenden Variablen z F T Test f r Gruppen die durch Indikatorvariablen gebildet werden C Wahrscheinlichkeiten in Tabelle einschlie en Fi Kreuztabellen kategorialer und Indikatorvariablen Variablen weglassen die in weniger als der F lle fehlen ee rn ie Univariate Statistiken Univariate Statistiken k nnen zur Ermittlung des allgemeinen Ausma es der fehlenden Daten beitragen F r jede Variable werden folgende Daten angezeigt m Anzahl nichtfehlender Werte m Anzahl und Prozentsatz fehlender Werte F r quantitative metrische Variablen werden au erdem folgende Daten angezeigt m Mittelwert m Standardabweichung m Anzahl extrem hoher und niedriger Werte Statistik f r Indikatorvariablen F r jede Variable wird eine Indikatorvariable erstellt Diese kategoriale Variable gib
38. bei handelt es sich um eine hypothetische Datendatei zu den Wartezeiten f r Kunden bei drei verschiedenen Filialen einer Bank Jeder Fall entspricht einem Kunden und zeichnet die Wartezeit und die Filiale webusability sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Tests zur Benutzerfreundlichkeit eines neuen Internetgesch fts geht Jeder Fall entspricht einer von f nf Testpersonen die die Benutzerfreundlichkeit bewerten und gibt f r sechs separate Aufgaben an ob die Testperson sie erfolgreich ausf hren k nnte wheeze_steubenville sav Hierbei handelt es sich um eine Teilmenge der Daten aus einer Langzeitstudie zu den gesundheitlichen Auswirkungen der Luftverschmutzung auf Kinder Die Daten enthalten wiederholte bin re Messungen des Keuchens von Kindern aus Steubenville Ohio im Alter von 7 8 9 und 10 Jahren sowie eine unver nderlichen Angabe ob die Mutter im ersten Jahr der Studie rauchte oder nicht workprog sav Hierbei handelt es sich um eine hypothetische Datendatei zu einem Arbeitsprogramm der Regierung das versucht benachteiligten Personen bessere Arbeitspl tze zu verschaffen Eine Stichprobe potenzieller Programmteilnehmer wurde beobachtet Von diesen Personen wurden nach dem Zufallsprinzip einige f r die Teilnahme an dem Programm ausgew hlt Jeder Fall entspricht einem Programmteilnehmer Analyse fehlender Werte 3 37 Deskriptive Statistik 37 Deskriptive Statistiken 8 EM 10 Erwart
39. ch weder um MCAR Daten noch um MAR Daten Dies ist eine ungew hnliche Situation bei deren Eintreten keine der Methoden angemessen ist Verwandte Prozeduren Listenweise und paarweise Sch tzungen k nnen in vielen Prozeduren verwendet werden Mit der linearen Regression und der Faktorenanalyse k nne fehlende Werte durch die Mittelwerte ersetzt werden Im Erweiterungsmodul Forecasting sind verschiedene Methoden verf gbar um fehlende Werte in Zeitreihen zu ersetzen So berechnen Sie eine Analyse fehlender Werte W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Analyse fehlender Werte 5 Analyse fehlender Werte Abbildung 2 1 Dialogfeld Analyse fehlender Werte EH Analyse fehlender Werte Quantitative variablen E Einkommen Income E Monate beim Anbieter 8 Atter Age Jahre wohnhaft an glei Sch tzung rn E Jahre beim gleichen Ar L Personen im Haushalt U Listenweise C Paarweise Kategoriale Variablen Familienstand MaritalS N Ausbildung Educstion amp gt Ruhestand Retiremert Geschlecht Gender Maximalzahl der Kategorien nn Fallbeschriftungen W hlen Sie mindestens eine quantitative metrische Variable zur Sch tzung der Statistiken und der optionalen Imputation fehlender Werte aus Die folgenden Optionen sind verf gbar m W hlen Sie kategoriale Variablen numerisch oder String aus und gebe
40. chlie lich der Anzahl nichtfehlender Werte dem Mittelwert der Standardabweichung der Anzahl fehlender Werte und der Anzahl von Extremwerten Gesch tzte Mittelwerte Kovarianz und Korrelationsmatrix unter Verwendung der listenweisen paarweisen EM oder Regressionsmethode MCAR Test nach Little mit EM Ergebnissen Auswertung der Mittelwerte nach verschiedenen Methoden F r Gruppen die durch fehlende gegen ber nichtfehlende Werte definiert sind 7 Tests F r alle Variablen Muster der fehlenden Werte angezeigt nach F llen und Variablen 4 Kapitel 2 Erl uterung der Daten Daten Die Daten k nnen kategorial oder quantitativ metrisch oder stetig sein Die Berechnung von Statistiken und das Vorschreiben Imputieren fehlender Daten ist jedoch nur f r die quantitativen Variablen m glich Bei allen Variablen m ssen die fehlenden Werte die nicht als systemdefiniert fehlend kodiert sind als benutzerdefiniert fehlend definiert werden Wenn beispielsweise f r eine Frage in einem Fragebogen die Antwort Ich wei nicht als 5 kodiert ist und Sie diese als fehlend behandeln m chten muss f r diese Frage 5 als benutzerdefinierter fehlender Wert kodiert werden Annahmen Listenweisen paarweisen und Regressionssch tzungen liegt die Annahme zugrunde dass das Muster der fehlenden Werte nicht von den Datenwerten abh ngt Diese Bedingung ist als v llig zuf llig fehlend oder MCAR missing completely at random bekannt Daher ergeb
41. d erscheint demn chst Das Handbuch SPSS Statistics Guide to Data Analysis f r PASW Statistics 18 wird ebenfalls derzeit erstellt Ank ndigungen f r Ver ffentlichungen die ausschlie lich ber Prentice Hall verf gbar sind finden Sie auf der Website unter http www spss com estore w hlen Sie Ihr Land aus und klicken Sie auf Books Teil I Benutzerhandbuch 1 Missing Values Fehlende Werte Einleitung 2 Analyse fehlender Werte Anzeige der Muster fehlender Werte 222 oeoueeeeeeeeeeneenn Anzeigen deskriptiver Statistiken f r fehlende Werte Sch tzen von Statistiken und Imputieren fehlender Werte EM Sch tzung Optionen 2uceeeeeeereeene nennen Optionen f r die Regressionssch tzung 2222222 nenernn Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen Zus tzliche Funktionen beim Befehl MVA cn onen 3 Multiple Imputation Muster analysieren 22 2 co ooooeeeeeeeeeeeeeeeeneenenennenen Fehlende Datenwerte ersetzen nna Methode 222ceeeeeeenenenenener nenn nennen Nebenbedingungen 2 2 22 cceeeseeeeeeeeeeeeeennen nenn Ausgabe rsisi da gamae an a dr aa ea Dann amt Zus tzliche Funktionen beim Befehl MULTIPLE IMPUTATION Arbeiten mit Daten aus multipler Imputation 2ccceceeeeeenn Analysieren von Daten multipler Imputation 222cceceeeeeenn Multiple Imputation
42. den Anzahl Prozent Fehlend SysMis income WYorhanden Anzahl Prozent Fehlend SysMis vorhanden Anzahl Prozent Fehlend SysMis marital vorhanden Anzahl Prozent Fehlend SysMis vorhanden Anzahl Prozent Fehlend SysMis Eine weitere Diskrepanz ist f r gender Gender Geschlecht offensichtlich Die Angaben zur Adresse fehlen h ufiger bei M nnern als bei Frauen Diese Diskrepanzen k nnten zwar zufallsbedingt sein dies erscheint jedoch unwahrscheinlich Die Daten scheinen nicht v llig zuf llig zu fehlen Wir betrachten die Muster der fehlenden Daten um dies weiter zu untersuchen 45 Analyse fehlender Werte Erneute Durchf hrung der Analyse zur Anzeige von Mustern Abbildung 4 9 Dialogfeld Analyse fehlender Werte ii Analyse fehlender Werte X Quantitative Variablen Einkommen Income Monate beim Anbieter Besingtve St L Alter Age 2 Jahre wohnhaft an glei Sch tzung Jahre beim gleichen ar E Personen im Haushalt Listenweise Paarweise Kategoriale Variablen amp Familienstand MarttalS d Ausbildung Educstion 7 Regression EM Ruhestand Retirement Geschlecht Gender Yariablen Maximalzahl der Kategorien Fallbeschriftungen Rufen Sie das Dialogfeld Analyse fehlender Werte wieder auf Das Dialogfeld bernimmt die in der vorherigen Analyse verwendeten Variablen ndern Sie dies nic
43. den County verkauft wurden Jeder Fall in der Datendatei enth lt die Gemeinde in der sich die Immobilie befindet den Bewerter der die Immobilie besichtigt hat die seit dieser Bewertung verstrichene Zeit den zu diesem Zeitpunkt ermittelten Wert sowie den Verkaufswert der Immobilie property_assess_cs sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen US Bundesstaat zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien in dem betreffenden Bundesstaat Jeder Fall in der Datendatei enth lt das County die Gemeinde und das Wohnviertel in dem sich die Immobilie befindet die seit der letzten Bewertung verstrichene Zeit sowie zu diesem Zeitpunkt ermittelten Wert 93 Beispieldateien property_assess_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in property_assess_cs sav aufgef hrten Immobilien Die Stichprobe wurde gem dem in der Plandatei property_assess csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Die zus tzliche Variable Current value Aktueller Wert wurde nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt recidivism sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um
44. der Anzahl der Imputationen berechnet die f r das gemeinsame Ergebnis verwendet wurden Wenn der Bruchteil der fehlenden Informationen gro ist ist eine gr ere Anzahl von Imputationen erforderlich um die relative Effizienz n her an 1 und die gemeinsame Sch tzung n her an die idealisierte Sch tzung zu bringen Abbildung 5 38 Gemeinsame Parametersch tzer E Pivot Tabelle Parametersch tzer Datei Bearbeiten Ansicht Einf gen Pivot Format Hilfe Parametersch tzer Imputationsnummer Origi Pivot Leisten Imputationsnummer SPALTE address Plus service Konstanter Term employ marital 0 SCHICHT marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address 23 Customer catego I Parameter Aktivieren doppelklicken Sie jetzt wieder die Tabelle und w hlen Sie dann Pivot Leisten aus dem Kontextmen Verschieben Sie die Imputationsnummer von der Schicht in die Spalte gt Verschieben Sie Statistik von der Spalte in die Schicht W hlen Sie aus der Dropdown Liste Statistik B aus 83 Abbildung 5 39 Gemeinsame Parametersch tzer Imputationsnummer in Spalten und Statistik in Schicht E service Plus service Total service Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0 marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Konstanter Term employ marital 0
45. der Bearbeitungsleiste klicken Wechseln zwischen Imputationen W hlen Sie die folgenden Befehle aus den Men s aus Bearbeiten Gehe zu Imputation 28 Kapitel 3 gt W hlen Sie die Imputation oder die Originaldaten aus der Dropdown Liste Abbildung 3 9 Dialogfeld Gehe zu ii Gehe zu X a Variete Gehe zu Imputation Alternativ k nnen Sie in der Datenansicht des Daten Editors die Imputation aus der Dropdown Liste in der Bearbeitenleiste ausw hlen Abbildung 3 10 Daten Editor mit Imputationsmarkierungen EIN H Unbenannt3 telcolmputed Daten Editor Datei Bearbeiten Ansicht Daten Transformieren Analysieren Diagramme Extras Fenster Hilfe 1001 Imputation _ 10 Sichtbar 32 von 32 Yariablen MonthsWith vo EEE Imputation_ Years Service 11 Yariablenansicht Prozessor ist bereit Aufteilen nach Imputation_ Die relative Fallposition wird bei der Auswahl der Imputationen beibehalten Wenn es im Original Daten Set 1 000 F lle gibt wird Fall 1 034 der 34 Fall in der ersten Imputation oben im Raster angezeigt Wenn Sie Imputation 2 in der Dropdown Liste ausw hlen w rde Fall 2 034 der 34 Fall in Imputation 2 oben im Raster angezeigt werden Wenn Sie Originaldaten in der Dropdown Liste w hlen w rde Fall 34 oben im Raster angezeigt werden Auch die Spaltenposition wird beibehalten wenn zwischen Imputationen gewechselt wird sodass der Ve
46. die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr hren Straft ter und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Zeit bis zu seiner zweiten Festnahme sofern diese innerhalb von zwei Jahren nach der ersten Festnahme erfolgte recidivism_cs_sample sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Strafverfolgungsbeh rde geht einen Einblick in die R ckfallraten in ihrem Zust ndigkeitsbereich zu gewinnen Jeder Fall entspricht einem fr heren Straft ter der im Juni 2003 erstmals aus der Haft entlassen wurde und erfasst Daten zu dessen demografischen Hintergrund einige Details zu seinem ersten Verbrechen sowie die Daten zu seiner zweiten Festnahme sofern diese bis Ende Juni 2006 erfolgte Die Straft ter wurden aus per Stichprobenziehung ermittelten Polizeidirektionen ausgew hlt gem dem in recidivism_cs csplan angegebenen Stichprobenplan Da hierbei eine PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten recidivism_cs_jointprob sav rfm_transactions sav Eine hypothetische Datendatei mit Kauftransaktionsdaten wie Kaufdatum gekauften Artikeln und Geldbetrag f r jede Transaktion
47. die die Standardverfahren bei der Regression behindern 92 Anhang A pain_medication sav Diese hypothetische Datendatei enth lt die Ergebnisse eines klinischen Tests f r ein entz ndungshemmendes Medikament zur Schmerzbehandlung bei chronischer Arthritis Von besonderem Interesse ist die Zeitdauer bis die Wirkung des Medikaments einsetzt und wie es im Vergleich mit bestehenden Medikamenten abschneidet patient_los sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen zu Patienten die wegen des Verdachts auf Herzinfarkt in das Krankenhaus eingeliefert wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt patlos_sample sav Diese hypothetische Datendatei enth lt die Behandlungsaufzeichnungen f r eine Stichprobe von Patienten denen w hrend der Behandlung eines Herzinfarkts Thrombolytika verabreicht wurden Jeder Fall entspricht einem Patienten und enth lt diverse Variablen in Bezug auf den Krankenhausaufenthalt polishing sav Hierbei handelt es sich um die Datendatei Nambeware Polishing Times aus der Data and Story Library Sie bezieht sich auf die Bem hungen eines Herstellers von Metallgeschirr Nambe Mills Santa Fe New Mexico zur zeitlichen Planung seiner Produktion Jeder Fall entspricht einem anderen Artikel in der Produktpalette F r jeden Artikel sind Durchmesser Polierzeit Preis und Produkttyp erfasst poll_cs sav Hierbei hand
48. diesmal zur Berechnung der H ufigkeiten in jeder Kategorie f r jede einzelne kategoriale Variable verwendet Anhand dieser Werte k nnen Sie bestimmen ob zwischen den verschiedenen Kategorien Unterschiede bei den fehlenden Werten vorliegen Wenn wir die Tabelle marital Marital status Familienstand betrachten scheint die Anzahl der fehlenden Werte in den Indikatorvariablen nicht sonderlich stark zwischen den Kategorien von marital zu schwanken Ob eine Person verheiratet ist oder nicht scheint keine Auswirkungen darauf zu haben ob Daten f r irgendwelche quantitativen metrischen Variablen fehlen So machten beispielsweise unverheiratete Personen in 85 5 der F lle Angaben zu address Years at current a ddress Wohnhaft an gleicher Adresse in Jahren und verheiratete Personen in 83 4 der F lle Die Differenz ist minimal und wahrscheinlich zufallsbedingt 43 Abbildung 4 6 Kreuztabelle Level of education ed YearsAtAddress Income YearsWithEmployer MaritalStatus RetirementStatus vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend vorhanden Fehlend Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Anzahl Prozent SysMis Kein High School Abschluss High School Abschluss College Besuch Analyse fehlender Werte College Abschluss Post Undergraduate Abschluss Betrachten wir nun die Kre
49. dizinischen Datenbank der mehrere Dateneingabefehler aufweist stroke_survival In dieser hypothetischen Datendatei geht es um die berlebenszeiten von Patienten die nach einem Rehabilitationsprogramm wegen eines isch mischen Schlaganfalls mit einer Reihe von Problemen zu k mpfen haben Nach dem Schlaganfall werden das Auftreten von Herzinfarkt isch mischem Schlaganfall und h morrhagischem Schlaganfall sowie der Zeitpunkt des Ereignisses aufgezeichnet Die Stichprobe ist auf der linken Seite abgeschnitten da sie nur Patienten enth lt die bis zum Ende des Rehabilitationprogramms das nach dem Schlaganfall durchgef hrt wurde berlebten stroke_valid sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozedur Daten validieren berpr ft wurde Sie enth lt immer noch potenziell anomale F lle 95 Beispieldateien survey_sample sav Diese hypothetische Datendatei enth lt Umfragedaten einschlie lich demografischer Daten und verschiedener Meinungskennzahlen tastetest sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bewertung der Auswirkungen der Mulchfarbe auf den Geschmack von Pflanzenprodukten geht Der Geschmack von Erdbeeren die in rotem blauem und schwarzem Rindenmulch gezogen wurden wurde von Testpersonen auf einer ordinalen Skala weit unter bis weit ber dem Durchschnitt bewertet Jeder Fall entspricht einem Geschmackstest
50. dungsniveau Retired retire Im Ruhestand und Gender gender Geschlecht als kategoriale Variablen aus W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als quantitative metrische Variable aus Nun k nnten Sie die Prozedur durchf hren und univariate Statistiken erstellen lassen wir m chten jedoch zus tzliche deskriptive Statistiken ausw hlen Klicken Sie auf Deskriptive Statistik 39 Analyse fehlender Werte Abbildung 4 2 Analyse fehlender Werte Dialogfeld Deskriptive Statistik E Analyse fehlender Werte Deskriptive Statistik Y Univariate Statistiken r Statistik f r Indikatorvariablen F Prozent der nicht bereinstimmenden Variablen Fi T Test f r Gruppen die durch Indikatorvariablen gebildet werden Wahrscheinlichkeiten in Tabelle einschlie en Fi Kreuztabellen kategorialer und Indikatorvariablen Variablen weglassen die in weniger als der F lle fehlen C an in I Im Dialogfeld Deskriptive Statistik k nnen Sie verschiedene deskriptive Statistiken angeben die in der Ausgabe angezeigt werden sollen Mit den standardm ig aktivierten univariaten Statistiken k nnen Sie das allgemeine Ausma der fehlenden Daten ermitteln die Statistiken mit Indikatorvariablen bieten jedoch mehr Informationen dar ber wie das Muster der fehlenden Daten in einer Variablen die Werte einer anderen Var
51. durch diese vier Muster dargestellt Muster 14 60 und 56 sind die einzigen Muster unter den zehn am h ufigsten auftretenden Mustern um F lle mit fehlenden Werten bei mehr als einer Variable darzustellen Die Analyse fehlender Muster hat keine bestimmten Hindernisse f r die multiple Imputation gezeigt abgesehen davon dass die Verwendung der monotonen Methode nicht wirklich praktikabel ist Automatische Imputation fehlender Werte Jetzt sind Sie bereit die Imputation von Werten zu beginnen Wir beginnen mit einem Durchlauf mit automatischen Einstellungen bevor wir aber Imputationen anfordern legen wir den Startwert fest Durch die Festlegung des Startwerts k nnen sie die Analyse exakt reproduzieren gt Zur Festlegung des Startwerts w hlen Sie die folgenden Men befehle aus Transformieren Zufallszahlengeneratoren 55 vy vyv vy Vy v y Multiple Imputation Abbildung 5 6 Dialogfeld Zufallszahlengenerator E Zufallszahlengenerator X rAktiver Generator F Aktiven Generator festlegen Mit SPSS 12 kompatibel Mersenne Twister rInitialisierung des aktiven Generators M Antangswert festlegen Zuf llig Fester Wert Wert 20070525 Derzeit aktiver Generator Mit SPSS 12 kompatibel a Die Einstellung f r den aktiven Generator wird sofort bernommen und gilt auch f r zuk nftige Sitzungen Ca L Enton zuuersetzen Anerecnen nie W hlen Sie Zufallszahlengenera
52. e A Multinomiale logistische Regression Referenzkategorie X Referenzkategorie Erste Kategorie Letzte Kategorie Anpassen Wert Kategoriereihenfolge Aufsteigend Absteigend eter Anrechen me W hlen Sie Erste Kategorie Klicken Sie auf Weiter Klicken Sie im Dialogfeld Multinomiale logistische Regression auf Modell 76 Kapitel 5 Abbildung 5 32 Dialogfeld Modell F Muttinomiate logistische Regression Modell X Modell angeben Haupteffekte Ges ttigtes Modell Benutzerdefiniert Schrittweise Faktoren und Kovariaten Terme f r erzwungenen Einschluss r Terme konstruieren Terme f r schrittweisen Einschluss Schrittweise Methode A Konstanten Term in Modell einschlie en gt W hlen Sie Benutzerdefiniert Schrittweise W hlen Sie aus der Dropdown Liste Terme f r schrittweisen Einschluss Terme konstruieren die Option Haupteffekte aus W hlen Sie Ininc bis reside als schrittweise Terme aus Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Multinomiale logistische Regression auf OK 77 Multiple Imputation Zusammenfassung der Schritte Abbildung 5 33 Zusammenfassung der Schritte Kriterien f r die Modella npassung Effektauswahltests Imputations 2 Log nummer Mode j p Likelihood Quadrat grade kanz Originaldaten 0 Eingegeben
53. e W hlen Sie income Einkommen ed Bildungsniveau retire Ruhestandsstatus und gender Geschlecht aus und f gen Sie sie zur Liste Zus tzliche Informationen f r hinzu Klicken Sie auf Weiter Klicken Sie im Hauptdialogfeld Analyse fehlender Werte auf die Schaltfl che OK 47 Analyse fehlender Werte Evaluieren der Mustertabelle Abbildung 4 11 Tabelle Muster in Tabellen Retiremen Muster fehlender Werte Educationalleveld tStatusd PeoplelnHousehold MonthsWYithSemice EducationalLevel RetirementStatus YearswWithErnployer MaritalStatus YearsAtAddress Yollst ndig wenn e Kein High School Abschluss High School Abschluss College Besuch College Abschluss H N 2 E o W 2 lt 2 Ss 5 E a z Do o H gt o a 76 5853 54 4368 56 0000 77 2167 47 8125 76 2353 54 1111 59 4595 Muster mit weniger als 1 F llen 10 oder weniger werden nicht angezeigt a Variablen sind nach Mustern fehlender Werte sortiert b Anzahl der vollst ndigen F lle wenn die in diesem Muster fehlenden Variablen mit X gekennzeichnet nicht verwendet werden c Mittelwerte bei jedem eindeutigen Muster d H ufigkeitsverteilung bei jedem eindeutigen Muster Die Tabelle Muster in Tabellen zeigt an ob die Daten tendenziell f r mehrere Variablen in einzelnen F llen fehlen Sie k nnen damit also ermitteln ob die Daten gemeinsam f
54. e Sch tzung der zugeh rigen Parameterwerte f hren Der Grad der Untersch tzung ist proportional zu der Anzahl der F lle die gemeinsam unbeobachtet sind So legen Sie EN Optionen fest W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die fehlende Werte mithilfe der EM Methode gesch tzt werden sollen Aktivieren Sie im Gruppenfeld Sch tzung die Option EM Klicken Sie auf die Schaltfl che Variablen um die vorhergesagten Variablen und die Einflu variablen anzugeben F r weitere Informationen siehe Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 13 Klicken Sie auf EM W hlen Sie die gew nschten EM Optionen aus 12 Kapitel 2 Optionen f r die Regressionssch tzung Abbildung 2 5 Dialogfeld Analyse fehlender Werte Regression x ii Analyse fehlender Werte Regression Anpassung der Sch tzung Residuen Normale Yariaten Student T Variaten Freiheitsgrade b Keine e Maximale Anzahl der Einflussvariablen Fi WYervollst ndigte Daten speichern Neues Datenblatt erstellen Neue Datendatei schreiben Bei der Regressionsmethode werden fehlende Werte unter Verwendung der mehrfachen linearen Regression gesch tzt Es werden die Mittelwerte die Kovarianzmatrix und die Korrelationsmatrix der vorhergesagten Variablen angezeigt Anpassung der Sch tzung Bei der Regression kann den Regressionssch tzern eine
55. e Spalten auf die zu ernsten Problemen f r den Sch tzalgorithmus f hren k nnen Auch ann hernd singul re Matrizen k nnen zu schlechten Ergebnissen f hren daher behandelt die Prozedur eine Matrix deren Determinante unter dem Toleranzwert liegt als singul r Geben Sie einen positiven Wert ein Nebenbedingungen Abbildung 3 4 Registerkarte Fehlende Datenwerte ersetzen Nebenbedingungen A Fehlende Datenwerte imputieren rDatenscan f r Variablenzusammenfassung Daten neu durchsuchen F Anzahl der durchsuchten F lle beschr nken F lle sonr Yariablenzusammenfassung Variablen im Modell Prozent Fehlend 8 Months WithService 3 20 Beobachtetes Min Beobachtetes Max T Variablen mit gro en Mengen fehlender Daten ausschlie en Maximaler Prozentsatz Fehlend Maximale Fallziehungen Maximale Parameterziehungen Tv Eine Erh hung der maximalen Parameterziehungen kann die Analysezeit erheblich verl ngern LI sen ateen Leim Liam Mithilfe der Registerkarte Nebenbedingungen k nnen Sie die Rolle einer Variablen w hrend der Imputation beschr nken und den Bereich der imputierten Werte einer metrischen Variablen so einschr nken dass sie plausibel sind Zus tzlich k nnen Sie die Analyse auf Variablen mit weniger als einem maximalen Prozentsatz fehlender Werte einschr nken 23 Multiple Imputation Daten f r Variablenzusammenfassung durchsuchen Wenn
56. ehlen Es gibt drei Muster f r gemeinsam fehlende Daten die in mehr als 1 der F lle vorkommen Die Variablen employ Years with current employer Jahre beim derzeitigen Arbeitgeber und retire Retired Ruhestand fehlen zusammen fter als die anderen Paare Dies berrascht nicht da retire Ruhestand und employ Jahre beim derzeitigen Arbeitgeber hnliche Informationen erfassen Wenn Sie nicht wissen ob ein Befragter sich im Ruhestand befindet wissen Sie vermutlich auch nicht wie viele Jahre die betreffende Person beim derzeitigen Arbeitgeber besch ftigt ist Der Mittelwert f r income Household income in thousands Einkommen scheint in Abh ngigkeit vom Muster fehlender Werte erheblich zu schwanken Insbesondere ist der Mittelwert f r Income Einkommen wesentlich h her f r die 6 60 von 1000 der F lle in denen marital Marital status Familienstand fehlt Dieser Wert ist auch h her wenn tenure Months with service Besch ftigung fehlt doch dieses Muster betrifft nur 1 7 der F lle Erinnern Sie sich dass die Personen mit einem h heren Bildungsniveau die Frage nach dem Ehestand weniger h ufig beantworteten Dieser Trend ist in den f r ed Level of education Bildungsniveau angezeigten H ufigkeiten zu sehen Wir k nnten den Anstieg bei income Einkommen m glicherweise erkl ren indem wir annehmen dass die Personen mit einem h heren Bildungsniveau mehr Geld verdienen und weniger h ufig ihren Familienstand
57. ei Monate car_insurance_claims sav Ein an anderer Stelle vorgestelltes und analysiertes Daten Set bezieht sich auf Schadensanspr che f r Autos Die durchschnittliche H he der Schadensanspr che l sst sich mit Gamma Verteilung modellieren Dazu wird eine inverse Verkn pfungsfunktion verwendet um den Mittelwert der abh ngigen Variablen mit einer linearen Kombination aus Alter des Versicherungsnehmers Fahrzeugtyp und Fahrzeugalter in Bezug zu setzen Die Anzahl der eingereichten Schadensanspr che kann als Skalierungsgewicht verwendet werden car_sales sav Diese Datendatei enth lt hypothetische Verkaufssch tzer Listenpreise und physische Spezifikationen f r verschiedene Fahrzeugfabrikate und modelle Die Listenpreise und physischen Spezifikationen wurden von edmunds com und Hersteller Websites entnommen car_sales_uprepared sav Hierbei handelt es sich um eine modifizierte Version der Datei car_sales sav die keinerlei transformierte Versionen der Felder enth lt carpet sav In einem beliebten Beispiel m chte einen neuen Teppichreiniger vermarkten und dazu den Einfluss von f nf Faktoren auf die Bevorzugung durch den Verbraucher untersuchen Verpackungsgestaltung Markenname Preis G tesiegel Good Housekeeping und Geld zur ck Garantie Die Verpackungsgestaltung setzt sich aus drei Faktorenebenen zusammen die sich durch die Position der Auftrageb rste unterscheiden Au erdem gibt es drei Markennamen K2R Glory und Bissell
58. eines iterativen Prozesses die Mittelwerte die Kovarianzmatrix und die Korrelation der quantitativen metrischen Variablen mit fehlenden Werte gesch tzt 11 Analyse fehlender Werte Verteilung EM erstellt Schlussfolgerungen Inferenzen anhand der f r die jeweilige Verteilung geltenden Likelihood Standardm ig wird eine Normalverteilung angenommen Wenn Sie wissen dass die Flanken der Verteilung l nger sind als die einer Normalverteilung k nnen Sie anfordern dass die Prozedur die Likelihood Funktion aus einer Student 7 Verteilung mit n Freiheitsgraden erstellt Die gemischte Normalverteilung f hrt ebenfalls zu einer Verteilung mit l ngeren Flanken Geben Sie die Quotienten der Standardabweichungen der gemischten Normalverteilung und das Mischungsverh ltnis der beiden Verteilungen an Bei der gemischten Normalverteilung wird davon ausgegangen dass nur die Standardabweichungen der Verteilungen unterschiedlich sind Die Mittelwerte m ssen bereinstimmen Maximale Anzahl der Iterationen Legt die maximale Anzahl der Iterationen zur Sch tzung der wahren Kovarianz fest Die Prozedur wird beendet wenn diese Anzahl der Iterationen erreicht wurde auch wenn die Sch tzer nicht konvergiert haben Vervollst ndigte Daten speichern Sie k nnen ein Daten Set mit den imputierten Werten anstelle der fehlenden Werte speichern Beachten Sie jedoch dass kovarianzbasierte Statistiken die die imputierten Werte verwenden zu einer zu niedrig
59. eise die quantitativen metrischen Variablen beeinflusst Der T Test wird mithilfe einer Indikatorvariablen berechnet die angibt ob eine Variable f r einen bestimmten Fall vorhanden ist oder fehlt Die Untergruppenmittelwerte f r die Indikatorvariable werden ebenfalls tabellarisch dargestellt Beachten Sie dass nur dann eine Indikatorvariable erstellt wird wenn eine Variable in mindestens 5 der F lle fehlende Werte aufweist Es hat den Anschein dass ltere Befragte weniger h ufig ihr Einkommensniveau angeben Wenn Income Einkommen fehlt betr gt der Mittelwert f r Age Alter 49 73 im Vergleich zu 40 01 wenn Income Einkommen vorhanden ist In der Tat scheint das Fehlen von income Einkommen die Mittelwerte mehrerer quantitativer metrischer Variablen zu beeinflussen Dies ist ein Hinweis darauf dass die Daten m glicherweise nicht v llig zuf llig fehlen 42 Kapitel 4 Abbildung 4 5 Kreuztabelle f r Marital status marital Fehlend Unverheiratet Verheiratet address Vorhanden Anzah Prozent Fehlend SysMis income Worhanden Anzah Prozent Fehlend SysMis employ vorhanden Anzah Prozent Fehlend SysMis retire vorhanden Anzah Prozent Fehlend SvsMis Die Kreuztabelle kategorialer Variablen gegen ber Indikatorvariablen zeigt hnliche Informationen an wie die Tabelle T7 Tests bei unterschiedlicher Varianz Es werden erneut Indikatorvariablen erstellt allerdings werden sie
60. ell einschlie en eier aeerecnen re Rufen Sie das Dialogfeld Multinomiale logistische Regression auf und klicken Sie auf Modell Deaktivieren Sie die Variablen aus der Liste Terme f r schrittweisen Einschluss gt W hlen Sie aus der Dropdown Liste Terme f r erzwungenen Einschluss Terme konstruieren die Option Haupteffekte aus W hlen Sie employ marital ed und address als Terme f r erzwungenen Einschluss Klicken Sie auf Weiter gt Klicken Sie im Dialogfeld Multinomiale logistische Regression auf OK 79 Gemeinsame Parametersch tzer Multiple Imputation Diese Tabelle ist relativ gro durch Pivotieren erhalten wir jedoch eine Reihe von unterschiedlichen n tzlichen Ansichten der Ausgabe Abbildung 5 35 Gemeinsame Parametersch tzer Imputationsn e Originaldaten E service Plus service Datei Bearbeiten Ansicht Einf gen adare E Pivot Tabelle Parametersch tzer Pivot Format Hilfe Direkthilfe Kons empl marif maril Ausschneiden Kopieren Einf gen L schen ed 1 ed 2 Beschriftung f r Dimension ausblenden ed 3 Diagramm erstellen d ed Kons empl marit marif ed 1 Tabelleneigenschaften Zelleneigenschaften Tabellenvorlagen Fu note einf gen Fu noten l schen Fu noten ausblenden ed 2 ed 3 ed 4 ed 5 address Pivot Leisten Symbolleiste Parametersch a
61. ellannahme erfassen wie vielen Wochen nach der Postsendung die einzelnen Bestellungen aufgegeben wurden marketvalues sav Diese Datendatei betrifft Hausverk ufe in einem Neubaugebiet in Algonquin Illinois in den Jahren 1999 2000 Diese Verk ufe sind in Grundbucheintr gen dokumentiert mutualfund sav Diese Datendatei betrifft Aktienmarktdaten f r verschiedene Technologieaktien die in im Index S amp P 500 verzeichnet sind Jeder Fall entspricht einem Unternehmen nhis2000_subset sav Die National Health Interview Survey NHIS ist eine gro e bev lkerungsbezogene Umfrage in unter der US amerikanischen Zivilbev lkerung Es werden pers nliche Interviews in einer landesweit repr sentativen Stichprobe von Haushalten durchgef hrt F r die Mitglieder jedes Haushalts werden demografische Informationen und Beobachtungen zum Gesundheitsverhalten und Gesundheitsstatus eingeholt Diese Datendatei enth lt eine Teilmenge der Informationen aus der Umfrage des Jahres 2000 National Center for Health Statistics National Health Interview Survey 2000 Datendatei und Dokumentation ffentlich zug nglich ftp ftp cde gov pub Health_Statistics NCHS Datasets NHIS 20007 Zugriff erfolgte 2003 ozone sav Die Daten enthalten 330 Beobachtungen zu sechs meteorologischen Variablen zur Vorhersage der Ozonkonzentration aus den brigen Variablen Bei fr heren Untersuchungen fanden Wissenschaftler einige Nichtlinearit ten unter diesen Variablen
62. elt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die ffentliche Unterst tzung f r einen Gesetzentwurf zu ermitteln bevor er im Parlament eingebracht wird Die F lle entsprechen registrierten W hlern F r jeden Fall sind County Gemeinde und Wohnviertel des W hlers erfasst poll_cs_sample sav Diese hypothetische Datendatei enth lt eine Stichprobe der in poll_cs sav aufgef hrten W hler Die Stichprobe wurde gem dem in der Plandatei poll csplan angegebenen Stichprobenplan gezogen und in dieser Datendatei sind die Einschlusswahrscheinlichkeiten und Stichprobengewichtungen erfasst Beachten Sie jedoch Folgendes Da im Stichprobenplan die PPS Methode PPS probability proportional to size Wahrscheinlichkeit proportional zur Gr e verwendet wird gibt es au erdem eine Datei mit den gemeinsamen Auswahlwahrscheinlichkeiten poll_jointprob sav Die zus tzlichen Variablen zum demografischen Hintergrund der W hler und ihrer Meinung zum vorgeschlagenen Gesetzentwurf wurden nach der Ziehung der Stichprobe erfasst und zur Datendatei hinzugef gt property_assess sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines f r einen Bezirk County zust ndigen Immobilienbewerters geht trotz eingeschr nkter Ressourcen die Einsch tzungen des Werts von Immobilien auf dem aktuellsten Stand zu halten Die F lle entsprechen den Immobilien die im vergangenen Jahr in dem betreffen
63. en alle Sch tzmethoden einschlie lich der EM Methode bei MCAR Daten konsistente und unverzerrte Sch tzer der Korrelationen und Kovarianzen Die Verletzung der MCAR Annahme kann dazu f hren dass von der listenweisen paarweisen bzw Regressionsmethode verzerrte Sch tzer generiert werden Wenn es sich nicht um MCAR Daten handelt muss die EM Sch tzung verwendet werden Der EM Sch tzung liegt die Annahme zugrunde dass das Muster der fehlenden Daten nur mit den beobachteten Daten zusammenh ngt Diese Bedingung wird zuf llig fehlend oder MCAR missing at random genannt Aufgrund dieser Annahme k nnen die Sch tzungen unter Verwendung der verf gbaren Information korrigiert werden So kann es beispielsweise in einer Studie ber Bildung und Einkommen vorkommen dass bei Personen mit niedrigerer Bildung eine h here Anzahl fehlende Einkommenswerte vorliegt In diesem Fall handelt es sich um MAR Daten nicht um MCAR Daten Anders ausgedr ckt Bei MAR h ngt die Wahrscheinlichkeit dass ein Einkommen angegeben wird vom Bildungsniveau der betreffenden Person ab Die Wahrscheinlichkeit kann abh ngig von der Bildung nicht jedoch abh ngig vom Einkommen innerhalb des betreffenden Bildungsniveaus schwanken Wenn die Wahrscheinlichkeit dass ein Einkommen angegeben wird auch in Abh ngigkeit vom Einkommen innerhalb der einzelnen Bildungsniveaus schwankt wenn beispielsweise Personen mit hohem Einkommen ihr Einkommen nicht angeben handelt es si
64. en auf die Kunden angewendet Kunden mit einem Score von 50 oder h her streben vermutlich einen Anbieterwechsel an ceramics sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Herstellers geht der ermitteln m chte ob ein neue hochwertige Keramiklegierung eine gr ere Hitzebest ndigkeit aufweist als eine Standardlegierung Jeder Fall entspricht einem Test einer der Legierungen die Temperatur bei der das Keramikw lzlager versagte wurde erfasst 88 Anhang A cereal sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Umfrage geht bei der 880 Personen nach ihren Fr hst ckgewohnheiten befragt wurden Au erdem wurden Alter Geschlecht Familienstand und Vorliegen bzw Nichtvorliegen eines aktiven Lebensstils auf der Grundlage von mindestens zwei Trainingseinheiten pro Woche erfasst Jeder Fall entspricht einem Teilnehmer clothing_defects sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Qualit tskontrolle in einer Bekleidungsfabrik geht Aus jeder in der Fabrik produzierten Charge entnehmen die Kontrolleure eine Stichprobe an Bekleidungsartikeln und z hlen die Anzahl der Bekleidungsartikel die inakzeptabel sind coffee sav Diese Datendatei enth lt Daten zum wahrgenommenen Image von sechs Eiskaffeemarken Bei den 23 Attributen des Eiskaffee Image sollten die Teilnehmer jeweils alle Marken ausw hlen die durch dieses
65. en einen berblick dessen was w hrend des Imputationsvorgangs tats chlich geschieht Beachten Sie insbesondere Folgendes m Die Imputationsmethode in der Spezifikationentabelle war Automatisch und die von der automatischen Methodenauswahl gew hlten Methode war Vollst ndig konditionale Spezifikation Alle angeforderten Variablen wurden imputiert Die Imputationssequenz ist die Reihenfolge in der die Variablen auf der x Achse im Diagramm Muster fehlender Werte erscheinen Imputationsmodelle Abbildung 5 11 Imputationsmodelle EEE se Fehlende werte imouterte Ware Age in years Lineare Regression Months with service Lineare Regression Number of people in Lineare Regression household Level of education Logistische Regression Gender Logistische Regression Retired Logistische Regression Years with current Lineare Regression employer Marital status Logistische Regression Years atcurrentaddress Lineare Regression Household income in Lineare Regression thousands ed gender retire maritalitenure reside employ address income ed gender retire marital age reside employ address income ed gender retire marital age tenure employ address income gender retire marital age tenure reside employ address income ed retire marital age tenure reside employ address income ed gender marital age tenure reside employ address income ed gender retire marital age tenure reside address
66. en von links nach rechts in aufsteigender Reiehnfolge der fehlenden Werte geordnet Die Muster werden dann zuerst nach der letzten Variable nicht fehlende Werte zuerst dann fehlende Werte dann nach der zweiten bis zur letzten Variable usw sortiert Dabei wird von rechts nach links vorgegangen So wird aufgezeigt welche monotone Imputationsmethode f r Ihre Daten verwendet werden kann und in welchem Ma e Ihre Daten einem monotonen Muster entsprechen Wenn die Daten monoton sind sind alle fehlenden Zellen und nicht fehlenden Zellen im Diagramm fortlaufend Es gibt also keine Inseln nicht fehlender Zellen im unteren rechten Teil des Diagramms und keine Inseln fehlender Zellen im oberen linken Teil des Diagramms Dieses Daten Set ist monoton und es gibt viele Werte die imputiert werden m ssten um Monotonie zu erreichen 54 Kapitel 5 Abbildung 5 5 Musterh ufigkeiten Pct of Cases Missing Value Pattern Wenn Muster angefordert werden zeigt ein begleitendes Balkendiagramm den Prozentsatz an F llen f r jedes Muster an Das zeigt dass ber die H lfte der F lle im Daten Set Muster 1 besitzen Das Diagramm fehlender Werte zeigt dass dies das Muster f r F lle ohne fehlende Werte ist Muster 43 stellt F lle mit einem fehlenden Wert bei income Muster 30 F lle mit einem fehlenden Wert bei address und Muster 20 F lle mit einem fehlenden Wert bei marital dar Die gro e Mehrheit der F lle ungef hr 4 von 5 werden
67. end angeben werden Analysevariablen bei denen mehr als 50 der Werte fehlen nicht imputiert und sie werden auch nicht als Einflussvariablen bei Imputationsmodellen verwendet 24 Kapitel 3 Maximale Ziehungen Wenn Minimum oder Maximumwerte f r imputierte Werte von metrischen Variablen angegeben werden siehe Min und Max oben versucht die Prozedur Werte f r einen Fall zu ziehen bis ein Set an Werten gefunden ist das innerhalb des angegebenen Bereichs liegt Wenn mit der angegebenen Zahl an Ziehungen pro Fall kein Set an Werten gefunden wird zieht die Prozedur ein anderes Set an Modellparametern und wiederholt den Prozess der Fallziehung Ein Fehler tritt auf wenn ein Set von Werten im Bereich nicht in der angegebenen Zahl von Fall und Parameterziehungen gefunden wird Beachten Sie dass h here Werte eine l ngere Verarbeitungszeit bedeuten Wenn die Prozedur lange dauert oder keine geeigneten Ziehungen findet pr fen Sie die angegebenen Minimum und Maximumwerte um sicherzustellen dass sie angemessen sind Ausgabe Abbildung 3 5 Registerkarte Fehlende Datenwerte ersetzen Ausgabe FA Fehlende Datenwerte imputieren n Methode Neverisedrgungen rAnzeige Y Imputstionsmodell T Beschreibende Statistiken f r Variablen mit imputierten Werten riterationsprotokoll E kterationsprotokoll erstellen Anzeigen Steuert die Anzeige der Ausgabe Eine Gesamtimputationszusammenf
68. er telco sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Telekommunikationsunternehmens geht die Kundenabwanderung zu verringern Jeder Fall entspricht einem Kunden und enth lt verschiedene Informationen zum demografischen Hintergrund und zur Servicenutzung telco_extra sav Diese Datendatei hnelt der Datei relco sav allerdings wurden die Variablen tenure und die Log transformierten Variablen zu den Kundenausgaben entfernt und durch standardisierte Log transformierte Variablen ersetzt telco_missing sav Diese Datendatei ist eine Untermenge der Datendatei telco sav allerdings wurde ein Teil der demografischen Datenwerte durch fehlende Werte ersetzt testmarket sav Diese hypothetische Datendatei bezieht sich auf die Pl ne einer Fast Food Kette einen neuen Artikel in ihr Men aufzunehmen Es gibt drei m gliche Kampagnen zur Verkaufsf rderung f r das neue Produkt Daher wird der neue Artikel in Filialen in mehreren zuf llig ausgew hlten M rkten eingef hrt An jedem Standort wird eine andere Form der Verkaufsf rderung verwendet und die w chentlichen Verkaufszahlen f r das neue Produkt werden f r die ersten vier Wochen aufgezeichnet Jeder Fall entspricht einer Standort Woche testmarket_1month sav Bei dieser hypothetischen Datendatei handelt es sich um die Datendatei restmarket sav wobei die w chentlichen Verkaufszahlen zusammengefasst sind sodass jeder Fall einem Stand
69. erstellen Jeder Fall stellt einen Fahrer dar und erfasst das Geschlecht des Fahrers sein Alter in Jahren und die Anzahl der Autounf lle in den letzten f nf Jahren band sav Diese Datendatei enth lt die hypothetischen w chentlichen Verkaufszahlen von CDs f r eine Musikgruppe Daten f r drei m gliche Einflussvariablen wurden ebenfalls aufgenommen bankloan sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Bank geht den Anteil der nicht zur ckgezahlten Kredite zu reduzieren Die Datei enth lt Informationen zum Finanzstatus und demografischen Hintergrund von 850 fr heren und potenziellen Kunden Bei den ersten 700 F llen handelt es sich um Kunden denen bereits ein Kredit gew hrt wurde Bei den letzten 150 F llen handelt es sich um potenzielle Kunden deren Kreditrisiko die Bank als gering oder hoch einstufen m chte bankloan_binning sav Hierbei handelt es sich um eine hypothetische Datendatei die Informationen zum Finanzstatus und demografischen Hintergrund von 5 000 fr heren Kunden enth lt behavior sav In einem klassischen Beispiel wurden 52 Sch ler Studenten gebeten die Kombinationen aus 15 Situationen und 15 Verhaltensweisen auf einer 10 Punkte Skala von 0 ausgesprochen angemessen bis 9 ausgesprochen unangemessen zu bewerten Die Werte werden ber die einzelnen Personen gemittelt und als Un hnlichkeiten verwendet behavior_ini sav Diese Datendatei enth
70. esch tzte Statistiken angezeigt Die Nullhypothese f r den MCAR Test nach Little lautet dass die Daten in v llig zuf lliger Weise fehlen missing completely at random MCAR Daten fehlen v llig zuf llig MCAR wenn das Muster der fehlenden Werte nicht von den Datenwerten abh ngt Da der Signifikanzwert in unserem Beispiel weniger als 0 05 betr gt k nnen wir folgern dass die Daten nicht v llig zuf llig fehlen Dies best tigt die Schlussfolgerung die wir aus den deskriptiven Statistiken und den Mustern in Tabellen gezogen haben Da die Daten nicht v llig zuf llig fehlen ist es an dieser Stelle nicht sicher F lle mit fehlenden Werten oder einzeln imputierten fehlenden Werten listenweise zu l schen Dennoch k nnen Sie Multiple Imputation verwenden um diese Datenmenge weiter zu analysieren Kapitel Multiple Imputation Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmustern in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen Informationen die das Unternehmen gesammelt hat einige Werte Zudem fehlen diese Werte nicht v llig zuf llig daher wird das Daten Set mithilfe multipler Imputation vervollst ndigt Eine Zufallsstichprobe aus der Kundendatenbank finden Sie in telco_missing sav F r
71. et erstellen Daten Set Name telcoFCS In neue Datendatei schreiben W hlen Sie Iterationsprotokoll erstellen und geben Sie telcoFCS als Namen f r das neue Daten Set ein Klicken Sie auf OK 67 Multiple Imputation Imputationsnebenbedingungen Abbildung 5 22 Imputationsnebenbedingungen Rolle in der Imputation Imputierte Werte aa ee Tann Tan mu Abh ngig le Minimum Maximum Runden Months with service Ja ohne Age in years Ja ohne Marital status Ja Years at current address Ja ohne Level of education Ja Years with current Ja ohne Retired Ja Gender Ja Number of people in Ja ohne Ganzzahl Lninc Ja ohne Das angepasste Imputationsmodell resultiert in einer neuen Tabelle die die Nebenbedingungen f r das Imputationsmodell zusammenfasst Alles scheint Ihren Angaben zu entsprechen Deskriptive Statistik Abbildung 5 23 Deskriptive Statistik f r tenure Besch ftigungsdauer Bc E e a a o Daten ation N Mittelwert eichung Minimum Maximum Imputierte Werte 17 621 24 517 19 913 21 644 20 093 Daten nach Imputation vervollst ndigen 1 2 3 4 5 1 2 3 4 5 Die Tabelle Deskriptive Statistik f r tenure Months with service f r das angepasste Imputationsmodell mit Nebenbedingungen zeigt dass das Problem negativer imputierter Werte f r tenure gel st wurde 68 Kapitel 5 Abbildung 5 24 Deskriptive Statistik f r marital F
72. eten Werten Sie k nnen imputierte Werte von beobachteten Werten ber die Zellenhintergrundfarbe die Schriftart und den Fettdruck f r imputierte Werte unterscheiden Informationen zu den aktivierten Markierungen finden Sie unter Multiple Imputation Optionen auf S 34 Wenn Sie in der aktuellen Sitzung ein neues Daten Set mit Fehlende Werte ersetzen erstellen werden Markierungen standardm ig eingeschaltet Wenn Sie eine gespeicherte Datendatei ffnen die Imputationen enth lt werden Markierungen ausgeschaltet 27 Multiple Imputation Abbildung 3 7 Daten Editor mit Imputationsmarkierungen AUS Datei Bearbeiten Ansicht Daten Transformieren Analysieren Diagramme Extras Fenster Hilfe ion_ Sichtbar 32 von 32 Variablen Originaldaten 2 Income variablenansicht Prozessor ist bereit Aufteilen nach Imputation_ Um die Markierungen einzuschalten w hlen Sie aus den Men s im Daten Editor Ansicht Imputierte Daten markieren Abbildung 3 8 Daten Editor mit Imputationsmarkierungen EIN Datei Bearbeiten Ansicht Daten Transformieren Analysieren Diagramme Extras Fenster Hilfe ion_ Sichtbar 32 von32 Variablen 1 ze en Verisbienensicht Prozessor ist bereit Aufteilen nach Imputstion_ Alternativ k nnen Sie Markierungen einschalten indem Sie in der Datenansicht des Daten Editors auf die Schaltfl che zur Imputationsmarkierung rechts in
73. ethoden entstehen Analysevariablen Die Analysevariablen k nnen wie folgt gestaltet sein m Nominal Eine Variable kann als nominal behandelt werden wenn ihre Kategorien sich nicht in eine nat rliche Reihenfolge bringen lassen z B die Firmenabteilung in der eine Person arbeitet Beispiele f r nominale Variablen sind Region Postleitzahl oder Religionszugeh rigkeit m Ordinal Eine Variable kann als ordinal behandelt werden wenn ihre Werte f r Kategorien stehen die eine nat rliche Reihenfolge aufweisen z B Grad der Zufriedenheit mit Kategorien von sehr unzufrieden bis sehr zufrieden Ordinale Variablen treten beispielsweise bei Einstellungsmessungen Zufriedenheit oder Vertrauen und bei Pr ferenzbeurteilungen auf m Metrisch Eine Variable kann als metrisch stetig behandelt werden wenn ihre Werte geordnete Kategorien mit einer sinnvollen Metrik darstellen sodass man sinnvolle Aussagen ber die Abst nde zwischen den Werten machen kann Metrische Variablen sind beispielsweise Alter in Jahren oder Einkommen in Geldeinheiten Bei der Prozedur wird davon ausgegangen dass allen Variablen das richtige Messniveau zugewiesen wurde Sie k nnen das Messniveau f r eine Variable jedoch vor bergehend ndern Klicken Sie hierzu mit der rechten Maustaste auf die Variable in der Liste der Quellvariablen und w hlen Sie das gew nschte Messniveau im Kontextmen aus Messniveau und Datentyp sind durch ein Symbol neben der jeweilige
74. ezeigt m F llt imputierte fehlende Werte mit gesch tzten Werten mithilfe von Regressions oder EM Methoden Multiple Imputation wird in der Regel jedoch als Methode betrachtet die die genaueren Ergebnisse liefert Die Analyse fehlender Werte unterst tzt Sie beim Umgang mit Problemen die durch unvollst ndige Daten verursacht werden Wenn F lle mit fehlenden Werten sich systematisch von F llen ohne fehlende Werte unterscheiden k nnen die Ergebnisse irref hrend sein Fehlende Daten k nnen au erdem die Genauigkeit der berechneten Statistiken beeintr chtigen da weniger Informationen vorliegen als urspr nglich geplant Ein weiteres Problem ist die Annahme hinter vielen statistischen Prozeduren dass alle F lle vollst ndig sind Fehlende Werte k nnen den erforderlichen theoretischen Ansatz verkomplizieren Beispiel Bei der Auswertung einer Leuk miebehandlung werden verschiedene Variablen gemessen Es sind jedoch nicht alle Messwerte f r alle Patienten verf gbar Die Muster der fehlenden Daten werden angezeigt tabellarisch dargestellt und f r zuf llig befunden Eine EM Analyse wird f r die Sch tzung der Mittelwerte Korrelationen und Kovarianzen verwendet Sie dient au erdem dazu um festzustellen ob die Daten in v llig zuf lliger Weise fehlen Die fehlenden Werte werden dann durch abgeleitete imputierte Werte ersetzt und zur weiteren Analyse in einer neuen Datendatei gespeichert Statistiken Univariate Statistiken eins
75. fehlende Werte aufweist wird der betreffende Fall aus den Berechnungen ausgeschlossen Paarweise Methode Bei dieser Methode werden Paare von Analysevariablen betrachtet und ein Fall wird nur verwendet wenn er f r beide Variablen nichtfehlende Werte aufweist H ufigkeiten Mittelwerte und Standardabweichungen werden f r jedes Paar gesondert berechnet Da andere fehlende Werte im Fall ignoriert werden sind die f r zwei Variablen berechneten Korrelationen und Kovarianzen nicht von Werten abh ngig die in anderen Variablen fehlen EM Methode Bei dieser Methode wird von einer Verteilung f r die teilweise fehlenden Daten ausgegangen und die Schlussfolgerungen Inferenzen beruhen auf der Likelihood bei dieser Verteilung Jede Iteration besteht aus einem E Schritt und einem M Schritt Im E Schritt wird die bedingte Erwartung der fehlenden Daten ermittelt die auf den beobachteten Werten und den aktuellen 10 Kapitel 2 Sch tzern der Parameter beruht Anschlie end werden die fehlenden Daten durch diese Erwartungen ersetzt Im M Schritt werden Maximum Likelihood Sch tzer der Parameter so berechnet wie wenn die fehlenden Daten erg nzt worden w ren Fehlend steht in Anf hrungszeichen da die fehlenden Werte nicht direkt erg nzt werden Stattdessen werden bei der Log Likelihood Funktionen dieser Werte verwendet Die Chi Quadrat Statistik nach Roderick J A Little die dazu dient zu testen ob Werte in v llig zuf l
76. g EducationalLevel Jahre beim gleichen Arbeitgeber 5 Analysegewichtung gt VE Imputstionen s E Rd Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name On neue Datendatei schreiben Durchsuchen Generierung eines Daten Sets mit den imputierten Werten k nnen Sie herk mmliche PASW Statistics Analyseverfahren verwenden die mit dem Symbol E markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe SZ noen Zur eetzen _Abtrechen __ Hate W hlen Sie mindestens zwei Variablen im Imputationsmodell aus Die Prozedur imputiert mehrere Werte f r fehlende Daten f r diese Variablen Die Anzahl der zu berechnenden Imputationen Standardm ig ist dieser Wert 5 gt Geben Sie ein Daten Set oder eine Datendatei im PASW Statistics Format an in das die imputierten Daten geschrieben werden sollen Das Ausgabe Daten Set besteht aus den Originaldaten mit fehlenden Daten plus einem Set von F llen mit imputierten Werten f r jede Imputation Wenn beispielsweise das urspr ngliche Daten Set 100 F lle enth lt und Sie haben f nf Imputationen umfasst das Ausgabe Daten Set 600 F lle Alle Variablen im Eingabe Daten Set sind im Ausgabe Daten Set enthalten W rterbucheigenschaften Namen Labels etc von bestehenden Variablen werden in das neue 20 Kapitel 3 Daten Set kopiert Die Datei e
77. geben F r weitere Informationen siehe Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 13 Klicken Sie auf Regression W hlen Sie die gew nschten Regressionsoptionen aus Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen Abbildung 2 6 Dialogfeld Analyse fehlender Werte Variablen f r EM und Regression EH Analyse fehlender Werte Variablen f r EM und Regression r Variablen Alle quantitativen Yariablen verwenden Variablen ausw hlen Quantitative variablen Yorhergesagte variablen Months WithService Age YearsAt ddress gt YearsiWithEmployer PeoplelnHousehold Beide gt Einflussvariablen Ges Lian Standardm ig werden alle quantitativen Variablen f r EM und Regressionssch tzung verwendet Falls erforderlich k nnen Sie bestimmte Variablen als vorhergesagte Variablen bzw Einflussvariablen in den Sch tzungen ausw hlen Eine Variable kann prinzipiell in beiden Listen enthalten sein es gibt jedoch Situationen in denen es sinnvoll ist die Verwendung einer Variablen einzuschr nken So vermeiden es einige Analytiker die Werte von Ergebnisvariablen zu sch tzen Au erdem kann es sinnvoll sein f r verschiedene Sch tzungen auch unterschiedliche Variablen zu verwenden und die Prozedur mehrmals auszuf hren Wenn Ihnen beispielsweise ein Set von Items vorliegt bei denen es sich um die Bewertungen des Pflegepersonals handelt und
78. hnete ausgegebene Betrag ist nun die Summe der Betr ge die in den vier Wochen der Studie ausgegeben wurden 90 Anhang A grocery_coupons sav Hierbei handelt es sich um eine hypothetische Datendatei die Umfragedaten enth lt die von einer Lebensmittelkette erfasst wurden die sich f r die Kaufgewohnheiten ihrer Kunden interessiert Jeder Kunde wird ber vier Wochen beobachtet und jeder Fall entspricht einer Kundenwoche und enth lt Informationen zu den Gesch ften in denen der Kunde einkauft sowie zu anderen Merkmalen beispielsweise welcher Betrag in der betreffenden Woche f r Lebensmittel ausgegeben wurde guttman sav Bell legte eine Tabelle zur Darstellung m glicher sozialer Gruppen vor Guttman verwendete einen Teil dieser Tabelle bei der f nf Variablen die Aspekte beschreiben wie soziale Interaktion das Gef hl der Gruppenzugeh rigkeit die physische N he der Mitglieder und die Formalit t der Beziehung mit sieben theoretischen sozialen Gruppen gekreuzt wurden crowds Menschenmassen beispielsweise die Zuschauer eines Fu ballspiels audience Zuh rerschaften beispielsweise die Personen im Theater oder bei einer Vorlesung public ffentlichkeit beispielsweise Zeitungsleser oder Fernsehzuschauer mobs Mobs wie Menschenmassen jedoch mit wesentlich st rkerer Interaktion primary groups Prim rgruppen vertraulich secondary groups Sekund rgruppen freiwillig und m
79. ht Klicken Sie auf Muster 46 Kapitel 4 Abbildung 4 10 Dialogfeld Analyse fehlender Werte Muster Ei Analyse fehlender Werte Muster rAnzeige FA F lle in Tabellen gruppiert nach dem Muster fehlender Werte Muster weglassen die bei weniger als der F lle auftreten M variablen sortieren nach dem Muster fehlender Werte F lle mit fehlenden Werten sortiert nach dem Muster fehlender Werte F Alle F lle wahlweise sortiert nach der ausgew hlten Variablen r variablen Muster fehlender Werte f r Zus tzliche Informationen f r Months WithService YearsAtAddress Age EducstionalLevel YearsAt ddress RetirementStatus YearsiWithEmployer Gender PeoplelnHousehold EducstionalLevel ng RetirementStatus Sortierreihenfolge Gender Im Dialogfeld Muster k nnen Sie verschiedene Mustertabellen ausw hlen Wir zeigen Muster in Tabellen gruppiert nach dem Muster fehlender Werte an Da die Muster fehlender Werte in ed Level of education Bildungsniveau retire Retired Ruhestandsstatus und gender Gender Geschlecht Einfluss auf die Daten zu haben schienen lassen wir weitere Informationen f r diese Variablen anzeigen Au erdem nehmen wir weitere Informationen f r income Household income in thousands Einkommen auf da diese Variable eine so gro e Anzahl fehlender Werte aufweist Aktivieren Sie die Option F lle in Tabellen gruppiert nach dem Muster fehlender Wert
80. iable Die Methode wir fortgesetzt bis die maximale Zahl an Iterationen erreicht ist und die imputierten Werte in der maximalen Iteration werden in das imputierte Daten Set gespeichert Maximale Anzahl der Iterationen Gibt die Anzahl der Iterationen oder Schritte an die die von der Methode der vollst ndig konditionalen Spezifikation verwendete Markov Kette durchl uft Wenn die Methode der vollst ndig konditionalen Spezifikation automatisch gew hlt wurde verwendet sie die Standardzahl von 10 Iterationen Wenn Sie die vollst ndig Kkonditionale Spezifikation explizit w hlen k nnen Sie eine benutzerdefinierte Zahl an Iterationen angeben Sie m ssen ggf die Anzahl der Iterationen erh hen wenn die Markov Kette nicht konvergiert Auf der Registerkarte Ausgabe k nnen Sie die Iterationsprotokolldaten der vollst ndig konditionalen Spezifikation speichern und sie als Diagramm ausgeben um die Konvergenz zu beurteilen m Monoton Dies ist eine nicht iterative Methode die nur verwendet werden kann wenn die Daten ein monotones Muster fehlender Werte haben Ein monotones Muster existiert wenn Sie die Variablen so ordnen k nnen dass alle vorhergehenden Variablen auch nicht fehlende Werte haben wenn eine Variable einen nicht fehlenden Wert hat Wenn Sie dies als benutzerdefinierte Methode angeben stellen Sie sicher die Variablen in der Liste in einer Reihenfolge anzugeben die ein monotones Muster aufweist F r jede Variable in der mo
81. iablen beeinflussen kann Aktivieren Sie die Option T Test f r Gruppen die durch Indikatorvariablen gebildet werden Aktivieren Sie die Option Kreuztabellen kategorialer und Indikatorvariablen Klicken Sie auf Weiter vy v v y Klicken Sie im Hauptdialogfeld Analyse fehlender Werte auf die Schaltfl che OK Evaluieren der deskriptiven Statistiken In diesem Beispiel beinhalten die Ausgabe folgende Elemente m Univariate Statistiken m Tabelle der 7 Tests bei unterschiedlicher Varianz einschlie lich der Untergruppenmittelwerte wenn eine weitere Variable vorliegt oder fehlt m Tabellen f r jede kategoriale Variable die die H ufigkeiten der fehlenden Daten f r die einzelnen Kategorien in Abh ngigkeit von den einzelnen quantitativen metrischen Variablen anzeigt 40 Kapitel 4 Abbildung 4 3 Tabelle f r univariate Statistiken Fehlend Anzahl der Extremwerte N Mittelwert eichung Anzahl Prozent Niedrig Hoch 32 3 2 tenure 35 56 21 268 age 41 75 12 573 address 11 47 9 965 income 71 1462 83 14424 employ 11 00 10 113 reside 2 32 1 431 marital ed retire gender a Anzahl der F lle au erhalb des Bereichs Q1 1 5 IQR Q3 1 5 1OR Die univariaten Statistiken bieten einen ersten Einblick f r jede Variable gesondert in das Ausma der fehlenden Daten Die Anzahl der nichtfehlenden Werte f r die einzelnen Variablen wird in der Spalte N und die Anzahl der fehlenden Werte wird in der Spalte Fehle
82. iche zur Zeichenfl che hinzu denen Variablen zugewiesen werden k nnen a Clustervariable auf X A Clustervariable auf Z Gruppierungs Stapelvariable Zeilenfeldvariable E Spattenfeldvariable a Punkt ID Beschriftung W hlen Sie Zeilenfeldvariable W hlen Sie Auswertungsstatistik SummaryStatistic_ als Feldvariable Klicken Sie auf OK 73 Multiple Imputation FCS Konvergenzdiagramme Abbildung 5 29 FCS Konvergenzdiagramm Immsspaorsnummer 1 3 4 5 un oO g HamIap n Months with service u yoBuu y Syas ysyejs N Months with service Iterationszahl Sie haben ein Paar von Mehrfachliniendiagrammen erstellt die die mittlere und die Standardabweichung der imputierten Werte von Months with service tenure bei jeder literation der FCS Imputationmethode f r jede der 5 angeforderten Imputationen anzeigen Zweck dieser Darstellung ist nach Mustern in den Linien zu suchen Es sollte keine geben Diese sehen geeignet zuf llig aus Sie k nnen hnliche Darstellungen f r andere metrische Variablen erstellen Beachten Sie dass diese Darstellungen auch keine erkennbaren Muster zeigen Analyse vollst ndiger Daten Jetzt scheinen Ihre imputierten Werte zufriedenstellend zu sein Sie sind bereit eine Analyse der vollst ndigen Daten durchzuf hren Das Daten Set enth lt eine Variable Customer category custcat die den Kundenstamm nach Dien
83. ie Sie diese Tabelle f r ein Daten Set ohne fehlende Werte verwenden w rden Die Tabelle der Parametersch tzer fasst den Effekt der einzelnen Einflussvariablen zusammen Der Quotient des Koeffizienten zu seinem Standardfehler ergibt quadriert die Wald Statistik Wenn das Signifikanzniveau der Wald Statistik gering ausf llt kleiner als 0 05 ist der Parameter von 0 verschieden m Parameter mit signifikanten negativen Koeffizienten verringern die Likelihood dieser Antwortkategorie in Bezug auf die Referenzkategorie m Parameter mit positiven Koeffizienten erh hen die Likelihood dieser Antwortkategorie Die mit der letzten Kategorie jedes Faktors verbundenen Parameter sind mit konstantem Term redundant Es gibt drei zus tzliche Spalten in der Tabelle die weitere Informationen f r die gemeinsame Ausgabe bereitstellen Bruchteil der fehlenden Informationen ist eine Sch tzung des Verh ltnisses fehlender Informationen zu vollst ndigen Informationen basierend auf dem relativen Anstieg der Varianz aufgrund von Nichtantworten das wiederum ein modifiziertes Verh ltnis der Zwischenimputation und der durchschnittlichen Innenimputationsvarianz des 82 Kapitel 5 Regressionskoeffizienten ist Die relative Effizienz ist ein Vergleich dieser Sch tzung mit einer theoretischen Sch tzung die mit einer infiniten Anzahl von Imputationen berechnet wurde Die relative Effizienz wird durch den Bruchteil der fehlenden Informationen und
84. ie k nnen mit der Analyse fehlender Wert anhand der folgenden grundlegenden Schritte beginnen gt Untersuchen Sie das Fehlen Verwenden Sie die Analyse fehlender Werte und die Analyse von Mustern um die Muster der fehlenden Werte in Ihren Daten zu untersuchen und zu bestimmen ob eine multiple Imputation erforderlich ist gt Fehlende Werte vorschreiben Verwenden Sie Fehlende Datenwerte ersetzen um imputierte fehlende Werte zu multiplizieren Analysieren Sie die vollst ndigen Daten Verwenden Sie ein Verfahren das Daten der multiplen Imputation unterst tzt Informationen zur Analyse von Datensets der multiplen Imputation und 2 Kapitel 1 eine Liste der Verfahren die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Kapitel Analyse fehlender Werte Die Prozedur Analyse fehlender Werte dient prim r drei Funktionen m Beschreiben des Musters fehlender Daten Wo befinden sich die fehlenden Daten Welches Ausma weisen sie auf Tendieren Variablenpaare dazu fehlenden Werte in mehreren F llen aufzuweisen Sind die Datenwerte extrem Fehlen wahllos Werte m Sch tzen der Mittelwerte Standardabweichung Kovarianzen und Korrelationen f r verschiedene Methoden f r fehlende Werte listenweise paarweise Regression oder EM Maximierung des Erwartungswerts Bei der paarweisen Methode werden auch die H ufigkeiten der paarweise vollst ndigen F lle ang
85. in allen Sprachen zur Verf gung Wenn eine Beispieldatei nicht in einer Sprache zur Verf gung steht enth lt der jeweilige Sprachordner eine englische Version der Beispieldatei Beschreibungen Im Folgenden finden Sie Kurzbeschreibungen der in den verschiedenen Beispielen in der Dokumentation verwendeten Beispieldateien m accidents sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die alters und geschlechtsabh ngige Risikofaktoren f r Autounf lle in einer bestimmten Region untersucht Jeder Fall entspricht einer Kreuzklassifikation von Alterskategorie und Geschlecht m adl sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um Bem hungen geht die Vorteile einer vorgeschlagenen Therapieform f r Schlaganfallpatienten zu ermitteln rzte teilten weibliche Schlaganfallpatienten nach dem Zufallsprinzip jeweils einer von zwei Gruppen zu Die erste Gruppe erhielt die physische Standardtherapie die zweite erhielt eine zus tzliche Emotionaltherapie Drei Monate nach den Behandlungen wurden die F higkeiten der einzelnen Patienten bliche Alltagsaktivit ten auszuf hren als ordinale Variablen bewertet m advert sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen eines Einzelh ndlers geht die Beziehungen zwischen den in Werbung investierten Betr gen und den daraus resultierenden Ums tzen zu untersuchen Zu diesem
86. ive Statistik 59 67 FCS Konvergenzdiagramm 73 Fehlende Datenwerte ersetzen 18 fehlende Werte Muster 53 gemeinsame Ergebnisse 73 gemeinsame Sch tzer 79 Gesamtzusammenfassung der fehlenden Werte 51 Imputationsergebnisse 58 Imputationsspezifikationen 57 Modelle 58 Muster analysieren 17 Nebenbedingungen 67 Optionen 34 Variablenauswertung 52 Muster analysieren 17 Nicht bereinstimmung in Analyse fehlender Werte 8 Normale Variaten in Analyse fehlender Werte 12 Optionen Multiple Imputation 34 Paarweiser Ausschluss in Analyse fehlender Werte 3 93 Index Regression in Analyse fehlender Werte 12 Residuen in Analyse fehlender Werte 12 Sortieren von F llen in Analyse fehlender Werte 6 Standardabweichung in Analyse fehlender Werte 8 Student T Test in Analyse fehlender Werte 12 in Analyse fehlender Werte 41 t Test in Analyse fehlender Werte 8 T Test in Analyse fehlender Werte 41 Tabellarische Darstellung von Kategorien in Analyse fehlender Werte 8 in Analyse fehlender Werte 42 Univariate Statistiken in Analyse fehlender Werte 40 Unvollst ndige Daten siehe Analyse fehlender Werte 3 vollst ndig konditionale Spezifikation in Multiple Imputation 20
87. le Imputation den Imputationen ungef hr e 2 66 69 betr gt Zus tzlich liegen die Maximumwerte f r jede Imputation n her am Maximumwert f r die Originaldaten Pr fen auf FCS Konvergenz Wenn Sie die Methode der vollst ndig konditionalen Spezifikation verwenden empfiehlt es sich Darstellungen der Mittelwerte und Standardabweichungen je Iteration und Imputation f r jede abh ngige metrische Variable zu pr fen f r die Werte imputiert werden um bei der Bewertung der Modellkonvergenz zu helfen gt Um diese Art von Diagramm zu erstellen aktivieren Sie das Daten Set relcoFCS und w hlen Sie dann aus den Men befehlen Grafiken Diagrammerstellung 70 Kapitel 5 Abbildung 5 26 Diagrammerstellung Mehrere Linien Diagramm Variablen Diagrammvorschau verwendet Beispieldaten amp Imputationsnummer Im Farbe festlegen Monate beim Anbieter i 8 Alter Age o Familienstand MaritalS E Jahre wohnhaft an glei E Einkommen Income i kterstionszahl Iteratio amp Statistische Kenngr amp Ruhestand Retirement amp Geschlecht Gender E Personen im Haushalt L Log of income Ininc amp Imputationsnummer i n i i i i i i i i i i i i i i i i i i H i 1 i 1 1 1 1 1 1 1 1 1 1 1 1 1 1i Kategorie1 Kategorie 2 Mehr Doppelachsen W hlen Sie die Galerie Linien aus und w hlen Sie Mehrfachlinien W hlen Sie Mon
88. len Sie k nnen diese Ausgabe verwenden um zu bestimmen welche monotone Imputationsmethode f r Ihre Daten verwendet werden kann und in welchem Ma e Ihre Daten einem monotonen Muster entsprechen Die Prozedur ordnet Analysevariablen um ein monotones Muster preiszugeben bzw anzun hern Wenn kein nicht monotones Muster nach der Neuordnung existiert K nnen Sie daraus schlie en dass die Daten ein monotones Muster besitzen wenn die Analysevariablen als solche geordnet sind m Variablen mit der h chsten Frequenz fehlender Werte Zeigt eine Tabelle der Analysevariablen sortiert nach Prozent der fehlenden Werte in absteigender Reihenfolge an Die Tabelle enth lt deskriptive Statistiken Mittelwert und Standardabweichung f r metrische Variablen Sie k nnen die maximale Zahl an anzuzeigenden Variablen und den Mindestprozentsatz fehlender Werte f r eine Variable der dargestellt wird steuern Es wird die Menge von Variablen angezeigt die beiden Kriterien entspricht Zum Beispiel verlangt das Einstellen der Maximalzahl von Variablen auf 50 und des Mindestprozentsatzes fehlender Werte auf 25 dass die Tabelle bis zu 50 Variablen anzeigt die mindestens 25 fehlende Werte besitzen Wenn es 60 Analysevariablen gibt aber nur 15 25 oder mehr fehlende Werte haben enth lt die Ausgabe nur 15 Variablen Fehlende Datenwerte ersetzen Fehlende Datenwerte ersetzen wird verwendet um multiple Imputationen zu erzeugen Die vollst ndigen Daten
89. liger Weise fehlen missing completely at random MCAR ist als Fu note zu den EM Matrizen abgedruckt Bei diesem Test besagt die Nullhypothese dass die Daten v llig zuf llig fehlen und der p Wert ist auf dem Niveau 0 05 signifikant Wenn der Wert weniger als 0 05 betr gt fehlen die Werte nicht v llig zuf llig Die Daten fehlen m glicherweise zuf llig missing at random MAR oder fehlen nicht zuf llig missing at random NMAR Sie k nnen nicht von einer der Eigenschaften ausgehen sondern m ssen die Daten analysieren um zu ermitteln in welcher Form sie fehlen Regressionsmethode Factor Analysis Diese Methode berechnet Sch tzer f r die mehrfach lineare Regression und verf gt ber Optionen zur Erweiterung der Sch tzer durch Zufallskomponenten Zu jedem vorhergesagten Wert kann das Verfahren ein Residuum aus einem zuf llig ausgew hlten vollst ndigen Fall eine normale Zufallsabweichung oder eine Zufallsabweichung anhand der Quadratwurzel der Residualvarianz residual mean square aus der 1 Verteilung hinzuf gen EM Sch tzung Optionen Abbildung 2 4 Dialogfeld Analyse fehlender Werte EM zi Analyse fehlender Werte EM r Yerteilung Normal Gemischt normal Student T Maximalzahl der terationen Fj Vervollst ndigte Daten speichern Neues Datenblatt erstellen Datenblatt Neme Neue Datendatei schreiben T e an Beim EM Verfahren werden unter Verwendung
90. ltes PMML wird auf die gleiche Weise angefordert und wird statt nicht gepoolter PMML gespeichert Nicht unterst tzte Prozeduren erzeugen entweder gepoolte Ausgabe oder gepoolte PMML Dateien Pooling Stufen Die Ausgabe wird mittels einer von zwei Stufen gepoolt m Naive Kombination Nur der gepoolte Parameter ist verf gbar m Univariate Kombination Der gepoolte Parameter sein Standardfehler die Teststatistik und die effektiven Freiheitsgrade der p Wert das Konfidenzintervall und die Pooling Diagnose Bruchteil der fehlenden Informationen relative Effizienz relativer Anstieg der Varianz werden wenn verf gbar angezeigt Koeffizienten Regression und Korrelation Mittelwerte und mittlere Differenzen und H ufigkeiten werden typischerweise in Pools zusammengefasst Wenn der Standardfehler der Statistik verf gbar ist wird das univariate Pooling verwendet andernfalls das naive Pooling Prozeduren die Pooling unterst tzen Die folgenden Prozeduren unterst tzen MI Daten Sets mit den f r jeden Ausgabeteil angegebenen Poolingstufen H ufigkeiten m Die Statistik Tabelle unterst tzt Mittelwerte bei univariatem Pooling wenn auch der Standardfehler des Mittelwerts angefordert wird und G ltiges N und Fehlendes N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt H ufigkeit bei naivem Pooling Deskriptive Statistik m Die Tabelle Deskriptive Statistiken unterst tzt Mittelwerte bei univariatem Pooli
91. marital 1 ed 1 ed 2 ed 3 ed 4 ed 5 address Originald aten 05 817 366 030 09 Multiple Imputation 3 4 5 Kombiniert 613 Diese Ansicht der Tabelle empfiehlt sich f r den Vergleich von Werten zwischen Imputationen um eine schnelle optische Pr fung der Variation im Regressionskoeffizienten von Imputation zu Imputation und auch gegen ber den Originaldaten durchzuf hren Speziell durch das Umschalten der Statistik in der Schicht auf Standardfehler k nnen Sie sehen wie multiple Imputation die Variabilit t in den Koeffizientensch tzungen im Vergleich zum listenweisen Ausschluss Originaldaten verringert hat 84 Kapitel 5 Abbildung 5 40 Warnungen Die folgenden Yariablen retire gender age reside Ininc werden nur f r die Definition der Teilgesamtheiten und nicht zur Konstruktion des Modells verwendet Die Hesse Matrix enth lt unerwartete Singularit ten Dies bedeutet da entweder einige Einflu yariablen weggelassen oder einige Kategorien zusammengef gt werden sollten Die Prozedur NOMREG wird trotz obiger Warnungen fortgesetzt Die nachfolgend angezeigten Ergebnisse basieren auf der letzte Iteration Die G ltigkeit der Modellanpassung ist ungewiss In diesem Beispiel verursacht das Original Daten Set jedoch einen Fehler der die gro en Parametersch tzer f r den konstanten Term Plus service und die nicht redundanten Stufen von ed Level of education
92. monotonen Muster fehlender Werte Beachten Sie dass sich die in der Registerkarte variablen angegebene Reihenfolge der variablen auf das Ergebnis auswirkt 7 Zweifache Wechselwirkungseffekte bei kategorialen Einflussvariablen aufnehmen Modelltyp f r metrische Variablen Toleranz f r Pr fung auf Singularit t 1E02v 21 Multiple Imputation Die Registerkarte Methode gibt an wie fehlende Werte einschlie lich der verwendeten Modelltypen imputiert werden Kategoriale Einflussvariablen sind als Indicator Dummy kodiert Imputationsmethode Die Methode Automatisch scannt die Daten und verwendet die monotone Methode wenn die Daten ein monotones Muster fehlender Werte zeigen Anderenfalls wird die vollst ndig konditionale Spezifikation verwendet Wenn Sie sich sicher sind welche Methode Sie verwenden wollen k nnen Sie sie als eine Methode unter Benutzerdefiniert angeben m Vollst ndig konditionale Spezifikation Dies ist eine iterative Markov Chain Monte Carlo MCMC Methode die verwendet werden kann wenn das Muster fehlender Daten willk rlich monoton oder nicht monoton ist F r jede Iteration und jede Variable in der in der Variablenliste angegebenen Reihenfolge passt die Methode der vollst ndig konditionalen Spezifikation ein univariates einzelne abh ngige Variable Modell mit allen anderen Variablen im Modell als Einflussvariablen an und imputiert dann die fehlenden Werte f r die anzupassende Var
93. n Onkel Die beiden Analytiker baten vier Gruppen von College Studenten zwei weibliche und zwei m nnliche Gruppen diese Bezeichnungen auf der Grundlage der hnlichkeiten zu sortieren Zwei Gruppen eine weibliche und eine m nnliche Gruppe wurden gebeten die Bezeichnungen zweimal zu sortieren die zweite Sortierung sollte dabei nach einem anderen Kriterium erfolgen als die erste So wurden insgesamt sechs Quellen erzielt Jede Quelle entspricht einer hnlichkeitsmatrix mit 15 x 15 Elementen Die Anzahl der Zellen ist dabei gleich der Anzahl der Personen in einer Quelle minus der Anzahl der gemeinsamen Platzierungen der Objekte in dieser Quelle kinship_ini sav Diese Datendatei enth lt eine Ausgangskonfiguration f r eine dreidimensionale L sung f r kinship_dat sav kinship_var sav Diese Datendatei enth lt die unabh ngigen Variablen gender Geschlecht gener Generation und degree Verwandtschaftsgrad die zur Interpretation der Dimensionen einer L sung f r kinship_dat sav verwendet werden k nnen Insbesondere k nnen sie verwendet werden um den L sungsraum auf eine lineare Kombination dieser Variablen zu beschr nken mailresponse sav Hierbei handelt es sich um eine hypothetische Datendatei in der es um die Bem hungen eines Bekleidungsherstellers geht der ermitteln m chte ob die Verwendung von Briefsendungen f r das Direktmarketing zu schnelleren Antworten f hrt als Postwurfsendungen Die Mitarbeiter in der Best
94. n Sie f r die Anzahl der Kategorien eine Grenze Maximalzahl der Kategorien ein m Klicken Sie auf Muster zur tabellarischen Darstellung der Muster fehlender Daten F r weitere Informationen siehe Anzeige der Muster fehlender Werte auf S 6 m Klicken Sie auf Deskriptive Statistik zur Anzeige deskriptiver Statistiken fehlender Werte F r weitere Informationen siehe Anzeigen deskriptiver Statistiken f r fehlende Werte auf S 8 m W hlen Sie eine Methode zur Sch tzung der Statistiken Mittelwerte Kovarianzen und Korrelationen und optionalen Imputation fehlender Werte aus F r weitere Informationen siehe Sch tzen von Statistiken und Imputieren fehlender Werte auf S 9 m Wenn Sie EM oder Regression ausw hlen klicken Sie auf Variablen um die Untergruppe anzugeben die f r die Sch tzung verwendet wird F r weitere Informationen siehe Vorhergesagte Variablen und Vorhersagevariablen Einflussvariablen auf S 13 m W hlen Sie eine Variable f r die Fallbeschriftung aus Diese Variable dient zur Beschriftung von F llen in Mustertabellen die einzelne F lle anzeigen 6 Kapitel 2 Anzeige der Muster fehlender Werte Abbildung 2 2 Dialogfeld Analyse fehlender Werte Muster EH Analyse fehlender Werte Muster rAnzeige v F lle in Tabellen gruppiert nach dem Muster fehlender Werte Muster weglassen die bei weniger als es der F lle auftreten Fr variablen sortieren nach dem Muster fehlender Werte
95. n Variablen in der Variablenliste gekennzeichnet Messniveau Datentyp Numerisch Zeichenfolge Datum Zeit Metrisch stetig E entf llt s i 15 16 Kapitel 3 u ur ur a amp amp l H ufigkeitsgewichtungen H ufigkeitsgewichtungen Replikation werden von dieser Prozedur ber cksichtigt F lle mit einer negativen oder nullwertigen Replikationsgewichtung werden ignoriert Nichtganzzahlige Gewichtungen werden auf die n chste Ganzzahl gerundet Analysegewichtung Analysegewichtungen Regression oder Stichprobe werden in Zusammenfassungen von fehlenden Werten und in passende Imputationsmodelle integriert F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Komplexe Stichproben Das Verfahren der multiplen Imputation ist nicht explizit f r Schichten Cluster oder andere komplexe Stichprobenstrukturen gedacht es kann jedoch endg ltige Stichprobengewichtungen in Form der Analysegewichtungsvariablen akzeptieren Beachten Sie auch dass Prozeduren f r komplexe Stichproben nicht automatisch mehrere imputierte Daten Sets analysieren Eine komplette Liste der Prozeduren die Pooling unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 Fehlende Werte Sowohl benutzer als auch systemdefiniert fehlende Werte werden als ung ltige Werte behandelt Beide Arten von fehlenden Werten werden ersetzt wenn Werte imputier
96. n fehlenden Werte in dieser Reihenfolge 53 Multiple Imputation Muster Abbildung 5 4 Muster fehlender Werte Missing Value Patterns Type Breniend lnicht fehlend Pattern 7 p m gt z p m O pa lt z lt 5 Q Fa D a D o D 2 D 3 3 g v 3 w Ss D 2 Z D D 3 a 2 2 J 2 P Z 3 Q 53 I 2 3 1 a g v D m c a 7 E mi 2 3 a o 7 p z 5 n z 2 E Ss i gt 3 7 lt o 2 zZ Variable Das Diagramm Muster zeigt Muster fehlender Werte f r die Analysevariablen an Jedes Muster entspricht einer Gruppe von F llen mit dem gleichen Muster unvollst ndiger und vollst ndiger Daten Zum Beispiel stellt Muster 1 F lle dar die keine fehlenden Werte besitzen w hrend Muster 33 F lle darstellt die fehlende Werte bei reside Number of people in household Haushaltsgr e und address Years at current address Jahre an der aktuellen Adresse besitzen Muster 66 stellt F lle dar die fehlende Werte bei gender Gender Geschlecht marital Marital status Familienstand address Adresse und income Household income in thousands Einkommen besitzen Ein Daten Set kann potenziell 2Anzahl an Variablen Muster haben Bei 10 Analysevariablen ist das 210 1024 Es werden jedoch nur 66 Muster in den 1 000 F llen im Daten Set dargestellt Das Diagramm ordnet Analysevariablen und Muster um Monotonie falls vorhanden aufzuzeigen Speziell werden Variabl
97. n sind nur verf gbar wenn Lineare Regression als Modelltyp f r metrische Variablen auf der Registerkarte Methode ausgew hlt ist m Runden Einige Variablen k nnen als metrische Variablen verwendet werden haben aber Werte die weiter nat rlich beschr nkt sein k nnen z B muss die Anzahl der Personen in einem Haushalt eine Ganzzahl sein und der in einem Gesch ft ausgegebene Betrag kann keine Bruchteile von Cents umfassen In dieser Spalte kann die kleinste zul ssige St ckelung festgelegt werden Beispiel Um ganzzahlige Werte zu erhalten geben Sie 1 als Rundungswert an um Werte auf den n chsten Cent zu runden geben Sie 0 01 an Im Allgemeinen werden Werte auf das n chste ganzzahlige Vielfache des angegebenen Rundungswerts gerundet Die folgende Tabelle zeigt wie sich unterschiedliche Rundungswerte auf den imputierten Wert 6 64823 vor der Rundung auswirken Rundungswert Wert auf den 6 64832 gerundet wird 10 10 1 7 0 25 0 1 6 75 6 6 0 01 6 65 Variablen mit gro en Mengen an fehlenden Daten ausschlie en Normalerweise werden Analysevariablen imputiert und als Einflussvariablen verwendet unabh ngig davon wie viele fehlende Werte sie besitzen vorausgesetzt sie haben ausreichend Daten um ein Imputationsmodell zu sch tzen Sie k nnen Variablen ausschlie en die einen hohen Prozentsatz an fehlenden Werten haben Wenn Sie zum Beispiel 50 als Maximaler Prozentsatz fehl
98. nd Anzahl angezeigt In der Spalte Fehlend Prozent wird der Prozentsatz der F lle mit fehlenden Werten angezeigt Dieser Wert stellt ein gutes Ma f r den Vergleich des Ausma es der fehlenden Daten zwischen den verschiedenen Variablen dar income Household income in thousands Einkommen weist die h chste Anzahl von F llen mit fehlenden Werten 17 9 auf age Age in years Alter die geringste 2 5 Income Einkommen weist auch die h chste Anzahl an Extremwerten auf 41 Analyse fehlender Werte Abbildung 4 4 T Tests bei unterschiedlicher Varianz MonthsWithService YearsAtAddress YearsWithEmployer PeoplelnHousehold t R 5 g 35 df 313 6 Anzahl vorhanden 693 3 Anzahl fehlend 128 Mittelwert Vorhanden 74 0779 Mittelwert Fehlend 55 2734 t df A Anzahl vorhanden 82 Anzahl fehlend 0 Mittelwert Vorhanden 71 1462 Mittelwert Fehlend t 1 gt 3 5 df 114 9 3 Anzahl vorhanden 741 g Anzahl fehlend 80 Mittelwert Vorhanden 71 4953 Mittelwert Fehlend 67 9125 t i 8 df 121 2 Anzahl vorhanden 728 Anzahl fehlend 2 Mittelwert Vorhanden 70 3887 Mittelwert Fehlend 77 0753 T z e 3 3 df x 93 2 Anzahl vorhanden 751 Anzahl fehlend 70 Mittelwert Vorhanden 35 k F 71 3356 Mittelwert Fehlend i 69 1143 Mithilfe der Tabelle 7 Tests bei unterschiedlicher Varianz k nnen Sie Variablen ermitteln deren Muster fehlender Werte m glicherw
99. ng wenn auch der Standardfehler des Mittelwerts angefordert wird und N bei naivem Pooling Kreuztabellen m Die Tabelle Kreuztabelle unterst tzt Anzahl bei naivem Pooling 31 Multiple Imputation Mittelwerte m Die Tabelle Bericht unterst tzt Mittelwerte bei univariatem Pooling wenn auch der Standardfehler des Mittelwerts angefordert wird und N bei naivem Pooling T Test bei einer Stichprobe m Die Tabelle Statistik unterst tzt Mittelwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Test unterst tzt Mittelwertdifferenz bei naivem Pooling T Test bei unabh ngigen Stichproben m Die Tabelle Gruppenstatistik unterst tzt Mittelwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Test unterst tzt mittlere Differenz bei univariatem Pooling T Test bei gepaarten Stichproben m Die Tabelle Statistik unterst tzt Mittelwerte bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei naivem Pooling Die Tabelle Test unterst tzt Mittelwert bei univariatem Pooling Einfaktorielle ANOVA m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert bei univariatem Pooling und N bei naivem Pooling m Die Tabelle Kontrasttests unterst tzt Kontrastwert bei univariatem Pooling GLM Univariate GLM Multivariate und GLM Wiederholt m Die Tabelle Zwischensubjektfakt
100. notonen Reihenfolge passt die monotone Methode ein univariates einzelne abh ngige Variable Modell mit allen vorhergehenden Variablen im Modell als Einflussvariablen an und imputiert dann die fehlenden Werte f r die anzupassende Variable Diese imputierten Werte werden in das imputierte Daten Set gespeichert Zweistufige Interaktionen Wenn die Imputationsmethode automatisch gew hlt wird enth lt das Imputationsmodell f r jede Variable eine Konstante und Haupteffekte f r Einflussvariablen Wenn eine bestimmte Methode gew hlt wird k nnen Sie optional alle m glichen zweistufigen Interaktionen in die kategorialen Einflussvariablen aufnehmen Modellyp f r metrische Variablen Wenn die Imputationsmethode automatisch gew hlt wird wird lineare Regression als univariates Modell f r metrische Variablen verwendet Wenn eine bestimmte Methode gew hlt wird k nnen Sie alternativ Predictive Mean Matching PMM als Modell f r metrische Variablen w hlen PMM ist eine Variante der linearen Regression 22 Kapitel 3 die imputierte Werte die durch das Regressionsmodell berechnet wurden mit dem n chsten beobachteten Wert abgleicht Logistische Regression wird immer als univariates Modell f r kategoriale Variablen verwendet Unabh ngig vom Modelltyp werden kategoriale Einflussvariablen mit Indikatorkodierung Dummy gehandhabt Toleranz f r Pr fung auf Singularit t Singul re bzw nichtinvertierbare Matrizen weisen linear abh ngig
101. nth lt auch eine neue Variable Imputation_ eine numerische Variable die die Imputation angibt 0 f r Originaldaten 1 n f r F lle mit imputierten Werten Die Prozedur definiert automatisch die Variable Imputation_ als aufgeteilte Variable wenn das Ausgabe Daten Set erstellt wird Wenn bei Ausf hrung der Prozedur Aufteilungen wirksam sind enth lt das Ausgabe Daten Set ein Set an Imputationen f r jede Kombination von Werten von ausgeteilten Variablen Optionale Einstellungen Analysegewichtung Diese Variable enth lt Analysegewichtungen Regression oder Stichprobe Die Prozedur umfasst Analysegewichtungen in Regressions und Klassifizierungsmodellen die verwendet werden um fehlende Werte zu imputieren Analysegewichtungen werden auch in Zusammenfassungen imputierter Werte verwendet zum Beispiel Mittelwert Standardabweichung und Standardfehler F lle mit einer negativen oder nullwertigen Analysegewichtung werden ausgeschlossen Methode Abbildung 3 3 Registerkarte Fehlende Datenwerte ersetzen Methode F Fehlende Datenwerte imputieren rImputationsmethode Automatisch Diese Option w hlt automatisch eine Imputationsmethode auf der Basis einer Untersuchung Ihrer Daten Benutzerdefiniert vollst ndig konditionale Spezifikation MCMC Diese Methode eignet sich f r Daten mit einem willk rlichen Muster fehlender Werte Maximale tterationen Monoton Diese Methode eignet sich f r Daten mit einem
102. odern community die moderne Gesellschaft ein lockerer Zusammenschluss der aus einer engen physischen N he und dem Bedarf an spezialisierten Dienstleistungen entsteht healthplans sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Versicherungsgruppe geht vier verschiedene Pl ne zur Gesundheitsvorsorge f r Kleinbetriebe zu evaluieren Zw lf Inhaber von Kleinbetrieben Arbeitgeber wurden gebeten die Pl ne danach in eine Rangfolge zu bringen wie gern sie sie ihren Mitarbeitern anbieten w rden Jeder Fall entspricht einem Arbeitgeber und enth lt die Reaktionen auf die einzelnen Pl ne health_funding sav Hierbei handelt es sich um eine hypothetische Datei die Daten zur Finanzierung des Gesundheitswesens Betrag pro 100 Personen Krankheitsraten Rate pro 10 000 Personen der Bev lkerung und Besuche bei medizinischen Einrichtungen rzten Rate pro 10 000 Personen der Bev lkerung enth lt Jeder Fall entspricht einer anderen Stadt hivassay sav Hierbei handelt es sich um eine hypothetische Datendatei zu den Bem hungen eines pharmazeutischen Labors einen Schnelltest zur Erkennung von HIV Infektionen zu entwickeln Die Ergebnisse des Tests sind acht kr ftiger werdende Rotschattierungen wobei kr ftigeren Schattierungen auf eine h here Infektionswahrscheinlichkeit hindeuten Bei 2 000 Blutproben von denen die H lfte mit HIV infiziert war wurde ein Labortest durchgef hrt hourl
103. ogistische Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling Ordinale Regression m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling Diskriminanzanalyse Diese Prozedur unterst tzt gepooltes Modell XML m Die Tabelle Gruppenstatistik unterst tzt Mittelwert und G ltiges N bei naivem Pooling m Die Tabelle Gepoolt innerhalb von Gruppenmatrizen unterst tzt Korrelationen bei naivem Pooling 33 Multiple Imputation m Die Tabelle Kanonische Diskriminanzfunktionskoeffizienten unterst tzt nicht standardisierte Koeffizienten bei naivem Pooling m Die Tabelle Funktionen bei Gruppen Mittelpunkten unterst tzt nicht standardisierte Koeffizienten bei naivem Pooling m Die Tabelle Klassifizierungsfunktionskoeffizienten unterst tzt Koeffizienten bei naivem Pooling Chi Quadrat Test m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle H ufigkeiten unterst tzt Beobachtetes N bei naivem Pooling Test auf Binomialverteilung m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Test unterst tzt N beobachteter Anteil und Testanteil bei naivem Pooling Sequenzentest m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei n
104. oling Die Tabelle Gesch tzte Randmittel Sch tzkoeffizienten unterst tzt Mittelwert bei naivem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzungen unterst tzt Mittelwert bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Paarweise Vergleiche unterst tzt mittlere Differenz bei univariatem Pooling Bivariate Korrelationen m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei naivem Pooling Partielle Korrelationen m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen bei naivem Pooling Lineare Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Korrelationen unterst tzt Korrelationen und N bei naivem Pooling m Die Tabelle Koeffizienten unterst tzt B bei univariatem Pooling und Korrelationen bei naivem Pooling Die Tabelle Korrelationskoeffizienten unterst tzt Korrelationen bei naivem Pooling Die Tabelle Residuenstatistik unterst tzt Mittelwert und N bei naivem Pooling Bin re logistische Regression Diese Prozedur unterst tzt gepooltes PMML m Die Tabelle Variablen in der Gleichung unterst tzt B bei univariatem Pooling Multinomiale l
105. on nichtfehlenden Werten f r die anderen Variablen angezeigt Au erdem werden die Prozents tze f r jeden Typ von fehlenden Werten angezeigt Variablen weglassen die in weniger als n der F lle fehlen Um die Tabellen zu verkleinern k nnen Sie die Statistiken weglassen die nur f r eine kleine Anzahl von F llen berechnet werden So zeigen Sie deskriptive Statistiken an W hlen Sie im Dialogfeld Analyse fehlender Werte die Variablen aus f r die deskriptive Statistiken fehlender Werte angezeigt werden sollen Klicken Sie auf Deskriptive Statistik W hlen Sie die anzuzeigende deskriptive Statistik aus Sch tzen von Statistiken und Imputieren fehlender Werte Sie k nnen Mittelwerte Standardabweichung Kovarianzen und Korrelationen unter Verwendung der listenweisen Methode nur vollst ndige F lle der paarweisen Methode der EM Methode Maximierung des Erwartungswerts bzw der Regressionsmethode sch tzen Au erdem k nnen Sie ausw hlen dass die fehlenden Werte imputiert vorgeschrieben werden sollen d h dass Ersatzwerte gesch tzt werden sollen Beachten Sie dass Multiple Imputation im Allgemeinen bei der L sung des Problems fehlender Werte der einfachen Imputation berlegen ist Der MCAR Test von Little ist nach wie vor hilfreich bei der Bestimmung ob eine Imputation erforderlich ist Listenweise Methode Bei dieser Methode werden nur vollst ndige F lle verwendet Wenn eine der Analysevariablen
106. oren unterst tzt N bei naivem Pooling m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzungen unterst tzt Mittelwert bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Paarweise Vergleiche unterst tzt mittlere Differenz bei univariatem Pooling Lineare gemischte Modelle m Die Tabelle Deskriptive Statistik unterst tzt Mittelwert und N bei naivem Pooling m Die Tabelle Sch tzungen fester Effekte unterst tzt Sch tzer bei univariatem Pooling m Die Tabelle Sch tzungen von Kovarianzparametern unterst tzt Sch tzer bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Sch tzungen unterst tzt Mittelwert bei univariatem Pooling m Die Tabelle Gesch tzte Randmittel Paarweise Vergleiche unterst tzt mittlere Differenz bei univariatem Pooling 32 Kapitel 3 Verallgemeinerte lineare Modelle und verallgemeinerte Sch tzungsgleichungen Diese Prozeduren unterst tzen gepooltes PMML m Die Tabelle Informationen zu kategorialen Variablen unterst tzt N und Prozente bei naivem Pooling m Die Tabelle Informationen zu stetigen Variablen unterst tzt N und Mittelwert bei naivem Pooling Die Tabelle Parametersch tzer unterst tzt den Koeffizienten B bei univariatem Po
107. ort entspricht Dadurch entfallen einige der Variablen die w chentlichen nderungen unterworfen waren und die verzeichneten Verkaufszahlen sind nun die Summe der Verkaufszahlen w hrend der vier Wochen der Studie tree_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_credit sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt tree_missing_data sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zu fr heren Bankkrediten enth lt und eine gro e Anzahl fehlender Werte aufweist tree_score_car sav Hierbei handelt es sich um eine hypothetische Datendatei die demografische Daten sowie Daten zum Kaufpreis von Fahrzeugen enth lt tree_textdata sav Eine einfache Datendatei mit nur zwei Variablen die vor allem den Standardzustand von Variablen vor der Zuweisung von Messniveau und Wertelabels zeigen soll tv survey sav Hierbei handelt es sich um eine hypothetische Datendatei zu einer Studie die von einem Fernsehstudio durchgef hrt wurde das berlegt ob die Laufzeit eines erfolgreichen Programms verl ngert werden soll 906 Personen wurden gefragt ob sie das 96 Anhang A Programm unter verschiedenen Bedingungen ansehen w rden Jede Zeile entspricht einem Befragten jede Spalte entspricht einer Bedingung
108. r regionales B ro das Sie auf der Website unter http www spss com worldwide finden Halten Sie bitte stets Ihre Seriennummer bereit Ausbildungsseminare SPSS Inc bietet ffentliche und unternehmensinterne Seminare an Alle Seminare beinhalten auch praktische bungen Seminare finden in gr eren St dten regelm ig statt Wenn Sie weitere Informationen zu diesen Seminaren w nschen wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter hrtp www spss com worldwide finden Technischer Support Kunden mit Wartungsvertrag k nnen den Technischen Support in Anspruch nehmen Kunden k nnen sich an den Technischen Support wenden wenn sie Hilfe bei der Arbeit mit PASW Statistics oder bei der Installation in einer der unterst tzten Hardware Umgebungen ben tigen Informationen zum Technischen Support finden Sie auf der Website unter http www spss com oder wenden Sie sich an Ihr regionales B ro das Sie auf der Website unter http www spss com worldwide finden Bei einem Anruf werden Sie nach Ihrem Namen dem Namen Ihrer Organisation und Ihrer Seriennummer gefragt Weitere Ver ffentlichungen Das Handbuch SPSS Statistics Statistical Procedures Companion von Marija Noru is wurde von Prentice Hall ver ffentlicht Eine neue Fassung dieses Buchs mit Aktualisierungen f r PASW Statistics 18 ist geplant Das Handbuch SPSS Statistics Advanced Statistical Procedures Companion bei dem auch PASW Statistics 18 ber cksichtigt wir
109. rgleich von Werten zwischen Imputationen erleichtert wird 29 Multiple Imputation Transformieren und Bearbeiten imputierter Werte Manchmal m ssen Sie Transformationen an imputierten Daten durchf hren Zum Beispiel k nnten Sie das Protokoll aller Werte einer Gehaltsvariablen nehmen und das Ergebnis in einer neuen Variablen speichern Ein Wert der ber imputierte Daten berechnet wurde wird als imputiert behandelt wenn er sich von dem Wert der mit den Originaldaten berechnet wurde unterscheidet Wenn Sie einen imputierten Wert in einer Zelle des Daten Editors bearbeiten wird die Zelle immer noch als imputiert behandelt Es wird nicht empfohlen imputierte Werte auf diese Weise zu bearbeiten Analysieren von Daten multipler Imputation Viele Prozeduren unterst tzen das Pooling von Ergebnissen aus Analysen multipler imputierter Daten Sets Wenn Imputationsmarkierungen eingeschaltet sind wird ein Spezialsymbol neben den Prozeduren angezeigt die Pooling unterst tzen Im Untermen Deskriptive Statistik des Men s Analysieren zum Beispiel unterst tzen H ufigkeiten Deskriptive Statistik Explorative Datenanalyse und Kreuztabellen Pooling w hrend Verh ltnisskala P P Diagramme und Q Q Diagramme kein Pooling unterst tzen Abbildung 3 11 Men Analysieren mit Imputationsmarkierungen EIN Analysieren Diagramme Extras Fenster Hilfe Berichte Deskriptive Stati
110. riable ber cksichtigen die Aufteilungsdateigruppen gemeinsam in einer einzigen Tabelle darstellen Sie werden ferner feststellen dass die Tabelle Parametersch tzer keine gemeinsamen Sch tzer zeigt Sehen Sie sich hierzu die Zusammenfassung der Stufen an Wir haben die schrittweise Auswahl von Modelleffekten angefordert und nicht f r alle Imputationen wurde das gleiche Set an Effekten gew hlt Daher ist ein Pooling nicht m glich Es werden dennoch hilfreiche Informationen bereitgestellt da wir sehen dass ed Level of education employ Years with current employer marital Marital status und address Years at current address regelm ig durch die schrittweise Auswahl unter den Imputationen ausgew hlt werden Wir werden ein anderes Modell einsetzen das genau diese Einflussvariablen verwendet 78 Kapitel 5 Ausf hren des Modells mit einer Untermenge an Einflussvariablen Abbildung 5 34 Modell Dialogfeld F Muttinomiale logistische Regression Modell r Modell angeben Haupteffekte Ges ttigtes Modell Benutzerdefiniert Schrittweise Faktoren und Kovariaten Terme f r erzwungenen Einschluss ine YearsWithEmployer lZ YearswWithEmployer MaritalStatus lZ Age EducationalLevel L RetirementStatus YearsAtAddress U MaritalStatus r Terme konstruieren i EducstionalLevel L Gender Z YearsAtAddress lZ PeoplelnHousehold Terme f r schrittweisen Einschluss T Konstanten Term in Mod
111. rte grob gesch tzt weniger als 5 der Gesamtzahl an F llen gibt und diese Werte als zuf llig fehlend betrachtet werden also das Fehlen eines Werts nicht von anderen Werten abh ngt dann ist die typische Methode des listenweisen L schens relativ sicher Die Option Missing Values kann Ihnen helfen zu bestimmen ob das listenweise L schen ausreichend ist und bietet anderenfalls Methoden zur Handhabung fehlender Werte Die Analyse fehlender Werte im Vergleich zu Verfahren multipler Imputation Die Option Missing Values bietet zwei Arten von Verfahren f r die Handhabung fehlender Werte m Die Verfahren der Multiplen Imputation bieten die Analyse von Mustern fehlender Daten und zielen auf eine eventuelle multiple Imputation der fehlenden Werte ab Es werden mehrere Versionen des Daten Sets erzeugt von denen jede ein eigenes Set an imputierten Werten enth lt Wenn statistische Analysen durchgef hrt werden werden die Parametersch tzungen f r alle imputierten Daten Sets gesammelt Sie bieten Sch tzungen die im Allgemeinen genauer als die einzelner Imputationen sind m Die Analyse fehlender Werte bietet ein geringf gig anderes Set an beschreibenden Tools f r die Analyse fehlender Daten im Besonderen den MCAR Test von Little und umfasst eine Vielzahl einfacher Imputationsmethoden Beachten Sie dass die multiple Imputation im Allgemeinen als der einzelnen Imputation berlegen betrachtet wird Aufgaben fehlender Werte S
112. rte ersetzen die von der Prozedur erzeugt werden a Ken Klicken Sie in der angezeigten Warnung auf Ja 64 Kapitel 5 Abbildung 5 19 Registerkarte Methode rImputationsmethode Automatisch Diese Option w hlt automatisch eine Imputationsmethode auf der Basis einer Untersuchung Ihrer Daten Benutzerdefiniert Wollst ndig konditionale Spezifikation MCMC Diese Methode eignet sich f r Daten mit einem willk rlichen Muster fehlender Werte Maximale terationen Monoton Diese Methode eignet sich f r Daten mit einem monotonen Muster fehlender Werte Beachten Sie dass sich die in der Registerkarte Variablen angegebene Reihenfolge der Variablen auf das Ergebnis auswvirkt Zweifache Wechselwirkungseffekte bei kategorialen Einflussvariablen aufnehmen Modelltyp f r metrische variablen Lineare Regression v Toleranz f r Pr fung auf Singularit t 1en2v W hlen Sie Benutzerdefiniert und belassen Sie Vollst ndig konditionale Spezifikation als Imputationsmethode aktiviert Klicken Sie auf die Registerkarte Nebenbedingungen 65 Abbildung 5 20 Nebenbedingungen Registerkarte rDatenscan f r Yariablenzusam Yariablenzusammenfassung A Fehlende Datenwerte imputieren X menfassung E Anzahl der durchsuchten F lle beschr nken F lle 15000 Variablen im Modell Prozent Fehlend Beobachtetes Min 8 Monthswi
113. s sich um eine von Greenacre vorgestellte hypothetische Tabelle Die relevante Tabelle wird durch eine Kreuztabelle der Rauchgewohnheiten und der Berufskategorie gebildet Die Variable Berufsgruppe enth lt die Berufskategorien Senior Manager Junior Manager Angestellter mit Erfahrung Angestellter ohne Erfahrung und Sekretariat sowie die Kategorie National Average die als Erg nzung der Analyse dienen kann Die Variable Rauchen enth lt die Rauchgewohnheiten Nichtraucher Leicht Mittel und Stark sowie die Kategorien No Alcohol und Alcohol die als Erg nzung der Analyse dienen k nnen storebrand sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um die Bem hungen einer Verkaufsleiterin in einem Lebensmittelmarkt geht die die Verkaufszahlen des Waschmittels der Eigenmarke gegen ber den anderen Marken steigern m chte Sie erarbeitet eine Werbeaktion im Gesch ft und spricht an der Kasse mit Kunden Jeder Fall entspricht einem Kunden stores sav Diese Datendatei enth lt hypothetische monatliche Marktanteilsdaten f r zwei konkurrierende Lebensmittelgesch fte Jeder Fall entspricht den Marktanteilsdaten f r einen bestimmten Monat stroke_clean sav Diese hypothetische Datendatei enth lt den Zustand einer medizinischen Datenbank nachdem diese mithilfe der Prozeduren in der Option Data Preparation bereinigt wurde stroke_invalid sav Diese hypothetische Datendatei enth lt den urspr nglichen Zustand einer me
114. se fehlender Werte Beschreiben des Musters fehlender Daten Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmustern in seiner Kundendatenbank gewinnen Das Unternehmen m chte sicherstellen dass die Daten v llig zuf llig fehlen bevor weitere Analysen durchgef hrt werden Eine Zufallsstichprobe aus der Kundendatenbank finden Sie in telco_missing sav F r weitere Informationen siehe Beispieldateien in Anhang A in PASW Missing Values Fehlende Werte 18 Durchf hren der Analyse zur Anzeige deskriptiver Statistiken Zum Ausf hren der Prozedur Analyse fehlender Werte w hlen Sie die folgenden Men befehle aus Analysieren Analyse fehlender Werte 37 38 Kapitel 4 Abbildung 4 1 Dialogfeld Analyse fehlender Werte ai Analyse fehlender Werte X Quantitative variablen muster Einkommen Income amp Monate beim Anbieter Deskriptv Statik L Alter Age 8 Jahre wohnhaft an glei Sch tzung Jahre beim gleichen Ar RER E Personen im Haushalt Listenweise Paarweise Kategoriale Variablen amp Familienstand MartalS Ausbildung Educstion E Regression amp gt Ruhestand Retirement 000 amp Geschlecht Gender EM Variablen Maximalzahl der Kategorien Fallbeschriftungen B W hlen Sie Marital status marital Familienstand Level of education ed Bil
115. sehold income in thousands im Imputationsmodell Fehlende Datenwerte imputieren Yariablen variablen im Modell amp Imputationsnummer Imputation_ 8 Einkommen Income i aa RR nee vr E Jahre wohnhaft an gleicher Adre A Ausbildung EducationalLevel 2 Jahre beim gleichen Arbeitgeber amp b Ruhestand RetirementStatus amp Geschlecht Gender E Personen im Haushalt PeoplelnHo amp Log of income ninc Analysegewichtung amp O Imputationen b Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name telcolmputed In neue Datendstei schreiben Generierung eines Daten Sets mit den imputierten Werten k nnen Sie herk mmliche PAS Statistics Analyseverfahren verwenden die mit dem Symbol Ko markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe C enten Zr sietzen Adirecnen _ Hate gt Rufen Sie das Dialogfeld Fehlende Datenwerte ersetzen wieder auf und klicken Sie auf die Registerkarte Variablen gt Deaktivieren Sie Household income in thousands income und w hlen Sie Log of income Ininc als Variablen im Modell Klicken Sie auf die Registerkarte Methode Abbildung 5 18 Warnung ber das Ersetzen eines bestehenden Daten Sets Der Name des neuen Datenbl tter wird bereits f r ein anderes ge ffnetes Datenblatt verwendet M chten Sie die Werte im Datenblatt durch die We
116. ssung der fehlenden Werte zeigt drei Kreisdiagramme an die unterschiedliche Aspekte fehlender Werte in den Daten darstellen 52 Kapitel 5 m Das Diagramm Variablen zeigt dass jede der 10 Analysevariablen mindestens einen fehlenden Wert in einem Fall besitzt m Das Diagramm F lle zeigt dass 525 der 1 000 F lle mindestens einen fehlenden Wert in einer Variable besitzen m Das Diagramm Werte zeigt dass 792 der 10 000 Werte F lle x Variablen fehlen Jeder Fall mit fehlenden Werten besitzt im Durchschnitt fehlende Werte bei ungef hr 1 5 der 10 Variablen Ein listenweiser Ausschluss w rde zu einem Verlust eines Gro teils der Informationen in dem Daten Set f hren Variablenauswertung Abbildung 5 3 Variablenauswertung Fehlend Standardabw N Prozent G ltige N Mittelwert eichung Household income in 179 17 9 821 71 1462 83 14424 Years at current address 150 15 0 850 11 47 9 965 Marital status 115 11 5 885 Die Variablenzusammenfassung wird f r Variablen mit mindestens 10 fehlenden Werte angezeigt und zeigt die Anzahl und den Prozentsatz fehlender Werte f r jede Variable in der Tabelle Sie zeigt zudem die mittlere und Standardabweichung f r die g ltigen Werte der metrischen Variablen und die Anzahl an g ltigen Werten f r alle Variablen an Household income in thousands Haushaltseinkommen in Tausend Years at current address Jahre an der aktuellen Adresse und Marital status Familienstand haben die meiste
117. stiken Tabellen RFM Analyse FO H ufigkeiten Fo Deskriptive Statistik K Explorative Datenanalyse K Kreuztabellen frz verh ltnis Eal P P Diagramme Eal Q Q Diagramme Mittelwerte vergleichen Allgemeines lineares Modell Verallgemeinerte lineare Modelle Gemischte Modelle Korrelation Regression Loglinear Neuronale Netze Klassifizieren Dimensionsreduzierung Skalierung Nichtparametrische Tests Zeitreihen berleben vvvvvvvvvvvvvvvvvvv Mehrfachantworten Analyse fehlender Werte Multiple Imputation gt Komplexe Stichproben gt Qualit tskontrolle gt A ROC Kurye 30 Kapitel 3 Sowohl die Tabellenausgabe als auch Modell PMML unterst tzen Pooling Es gibt keine neue Prozedur f r die Anforderung gepoolter Ausgabe Stattdessen haben Sie ber eine neue Registerkarte im Dialogfeld Optionen die M glichkeit die Ausgabe multipler Imputation zu steuern m Pooling der Tabellenausgabe Standardm ig werden die Ergebnisse wenn Sie eine unterst tzte Prozedur an einem Multiple Imputation MI Daten Set ausf hren automatisch f r jede Imputation die Originaldaten nicht imputiert und gepoolte final Ergebnisse erzeugt die die Variation ber die Imputationen ber cksichtigen Die gepoolten Statistiken unterscheiden sich je nach Prozedur m Pooling von PMML Sie k nnen auch gepoolte PMML von unterst tzten Prozeduren erhalten die PMML exportieren Gepoo
118. stnutzungsmustern segmentiert und die Kunden in vier Gruppen einteilt Wenn Sie ein Modell mit demografischen Informationen anpassen k nnen um die Gruppenmitgliedschaft vorherzusagen k nnen Sie die Angebote f r die einzelnen potenziellen Kunden anpassen 74 Kapitel 5 Aktivieren Sie das Daten Set telcolmputed Um ein multinomiales logistisches Regressionsmodell f r die vollst ndigen Daten zu erstellen w hlen Sie aus dem Men Analysieren Regression Multinomial logistisch Abbildung 5 30 Multinomiale logistische Regression Dialogfeld F Muttinomiale logistische Regression Abh ngige Variable amp Imputationsnummer Imp e custcat Letzter Wert E Monate beim Anbieter Be Faktor en Familienstand MarttalSt Bl Ausbildung Educstional Ruhestand Retiremert Koyariate n Jahre beim gleichen L Personen im Hausha L Log of income ninc T W hlen Sie Customer category als abh ngige Variable aus W hlen Sie Marital status Level of education Retired und Gender als Faktoren W hlen Sie Age in Years Years at current address Years with current employer Number of people in household und Log of income als Kovariaten aus gt Sie m chten andere Kunden mit denen vergleichen die den Basisservice erhalten W hlen Sie daher Customer category und klicken Sie auf Referenzkategorie 75 Multiple Imputation Abbildung 5 31 Dialogfeld Referenzkategori
119. t an ob die Variable f r einen einzelnen Fall vorhanden ist oder fehlt Die Indikatorvariablen werden verwendet um die Tabellen mit Nicht bereinstimmungen T Tests und H ufigkeiten zu erstellen Prozent der nicht bereinstimmenden Variablen F r jedes Variablenpaar wird der Prozentsatz von F llen angezeigt in denen eine Variable einen fehlenden Wert und die andere Variable einen nichtfehlenden Wert aufweist Jedes diagonale Element in der Tabelle enth lt den Prozentsatz von fehlenden Werten f r eine einzelne Variable T Test f r Gruppen die durch Indikatorvariablen gebildet werden F r jede quantitative Variable werden die Mittelwerte von zwei Gruppen mithilfe der Student 7 Statistik verglichen Die Gruppen geben an ob eine Variable vorhanden ist oder fehlt Es werden die T7 Statistik Freiheitsgrade H ufigkeiten von fehlenden und nichtfehlenden Werten sowie die Mittelwerte der beiden Gruppen angezeigt Au erdem k nnen Sie alle zweiseitigen Wahrscheinlichkeiten anzeigen die der 7 Statistik zugeordnet sind Wenn Ihre Analyse zu mehreren Tests f hrt d rfen 9 Analyse fehlender Werte Sie diese Wahrscheinlichkeiten nicht f r Signifikanztests verwenden Die Wahrscheinlichkeiten sind nur geeignet wenn nur ein einziger Test berechnet wird Kreuztabellen kategorialer und Indikatorvariablen F r jede kategoriale Variable wird eine Tabelle angezeigt In der Tabelle werden f r jede Kategorie die H ufigkeit und der Prozentsatz v
120. t werden und beide Arten werden als ung ltige Werte von als Einflussfaktoren in Imputationsmodellen verwendeten Variablen behandelt Benutzer und systemdefiniert fehlende Werte werden auch bei Fehlanalysen als fehlende Werte behandelt Replikation von Ergebnissen Fehlende Datenwerte ersetzen Wenn Sie Ihre Imputation exakt reproduzieren m chten m ssen Sie nicht nur dieselben Einstellungen f r die Prozedur sondern auch denselben Initialisierungswert f r den Zufallszahlengenerator dieselbe Datenreihenfolge und dieselbe Variablenreihenfolge verwenden m Generierung von Zufallszahlen Die Prozedur verwendet Zufallszahlengenerierung bei der Berechnung der imputierten Werte Um zu einem sp teren Zeitpunkt dieselben randomisierten Ergebnisse zu reproduzieren m ssen Sie vor jeder Ausf hrung der Prozedur Fehlende Datenwerte ersetzen denselben Initialisierungswert f r den Zufallszahlengenerator verwenden m Fallreihenfolge Werte werden in der Fallreihenfolge imputiert m Reihenfolge der Variablen Die Imputationsmethode der vollst ndig konditionalen Spezifikation imputiert Werte in der Reihenfolge der Liste der Analysevariablen F r multiple Imputation stehen zwei spezielle Dialogfelder zur Verf gung m Muster analysieren bietet deskriptive Messungen der Muster von fehlenden Werten in den Daten und eignet sich als Untersuchungsschritt vor der Imputation m Fehlende Datenwerte ersetzen wird verwendet um multiple Imputationen z
121. thService 3 20 Beobachtetes Max Maximale Fallziehungen Maximale Parameterziehungen Klicken Sie auf Daten durchsuchen Maximaler Prozentsatz Fehlend Variablen mit gro en Mengen fehlender Daten ausschlie en Tv Eine Erh hung der maximalen Parameterziehungen kann die Analysezeit erheblich verl ngern oJ Enten Zuactsetzen averecnen tite Multiple Imputation Geben Sie im Raster Nebenbedingungen definieren 1 als Minimumwert f r Months with service tenure ein Geben Sie 18 als Minimumwert f r age Age in years ein Geben Sie 0 als Minimumwert f r address Years at current address ein Geben Sie 0 als Minimumwert f r employ Years with current employer ein Geben Sie 1 als Minimumwert und 1 als Rundungsstufe f r reside Number of people in household ein Beachten Sie dass zwar viele der anderen metrischen Variablen als ganzzahlige Werte ausgewertet werden es sich aber empfiehlt zu formulieren dass jemand f r 13 8 Jahre an seiner aktuellen Anschrift gewohnt hat aber nicht wirklich anzunehmen dass 2 2 Personen dort leben Geben Sie 0 als Minimumwert f r Ininc Log of income ein Klicken Sie auf die Registerkarte Ausgabe 66 Kapitel 5 Abbildung 5 21 Registerkarte Ausgabe Anzeige Imputationsmodell Beschreibende Statistiken f r Variablen mit imputierten Werten kterstionsprotokoll tterationsprotokoll erstellen Neues Daten S
122. ths with service tenure als auf der Y Achse darzustellende Variable gt W hlen Sie Iteration Number Iteration_ als auf der X Achse darzustellende Variable aus gt W hlen Sie mputationszahl Imputationen_ als Variable um die Farben danach einzustellen 71 Multiple Imputation Abbildung 5 27 Diagrammerstellung Elementeigenschaften iiil Elementeigenschaften PR Eigenschaften bearbeiten von Linie1 X Achse1 Linie1 Y Achse1 Linie1 GruppeFarbe Linie1 r Statistiken variable 8 Monate beim Anbieter Statistik Standardfehler Multiplikator Standardabweichung Multiplikator rInterpolation Lage Linksb ndig Durch fehlende Werte interpolieren W hlen Sie in den Elementeigenschaften Wert als anzuzeigende Statistik Klicken Sie auf Zuweisen gt Klicken Sie in der Diagrammerstellung auf die Registerkarte Gruppen Punkt ID 72 Kapitel 5 Abbildung 5 28 Diagrammerstellung Registerkarte Gruppen Punkt ID Yariablen Diagrammvorschau verwendet Beispieldaten amp Imputationsnummer Im Monate beim Anbieter L Alter age amp b Familienstand MaritalS E Jahre wohnhaft an glei E Einkommen Income ki terationszahl teratio Farbe festlegen amp b Ruhestand Retirement amp Geschlecht Gender Personen im Haushalt E Log of income Ininc Kategorie1 Kategorie 2 Mehr Markierte Elemente f gen Ablagebere
123. tokopieren Aufzeichnen oder sonstige Mittel reproduziert in einem Datenabfragesystem gespeichert oder bertragen werden Vorwort PASW Statistics 18 ist ein umfassendes System zum Analysieren von Daten Das optionale Zusatzmodul Fehlende Werte definieren bietet die zus tzlichen Analyseverfahren die in diesem Handbuch beschrieben sind Die Prozeduren im Zusatzmodul Fehlende Werte definieren m ssen zusammen mit PASW Statistics 18 Core verwendet werden Sie sind vollst ndig in dieses System integriert Installation Zur Installation von Fehlende Werte definieren Erweiterungsmodul f hren Sie den Lizenzautorisierungsassistenten mit dem Autorisierungscode aus den Sie von SPSS Inc erhalten haben Weitere Informationen finden Sie in den Installationsanweisungen im Lieferumfang von Fehlende Werte definieren Erweiterungsmodul Kompatibilit t PASW Statistics kann auf vielen Computersystemen ausgef hrt werden Mindestanforderungen an das System und Empfehlungen finden Sie in den Unterlagen die mit Ihrem System geliefert werden Seriennummern Die Seriennummer des Programms dient gleichzeitig als Identifikationsnummer bei SPSS Inc Sie ben tigen diese Seriennummer wenn Sie sich an SPSS Inc wenden um Informationen zum Kundendienst zu Zahlungen oder zu Aktualisierungen des Systems zu erhalten Die Seriennummer wird mit dem Core System ausgeliefert Kundendienst Wenden Sie sich bei Fragen zur Lieferung oder Ihrem Kundenkonto an Ih
124. tor bestimmen W hlen Sie Mersenne Twister W hlen Sie Anfangswert festlegen W hlen Sie Fester Wert und geben Sie 20070525 als Wert ein Klicken Sie auf OK Um mehrfach fehlende Datenwerte zu ersetzen w hlen Sie aus dem Men Analysieren Multiple Imputation Fehlende Datenwerte ersetzen 56 Kapitel 5 Abbildung 5 7 Fehlende Datenwerte ersetzen Dialogfeld Fehlende Datenwerte imputieren x Yariablen Yariablen im Modell 8 Personen im Haushalt PeoplelnHous SB Ausbildung EducstionalLevei EG Jahre beim gleichen Arbeitgeber Analysegewichtung amp a er Imputationen b Ort der imputierten Daten Neues Daten Set erstellen Daten Set Name In neue Datendatei schreiben e Generierung eines Daten Sets mit den imputierten Werten k nnen Sie herk mmliche PAS Statistics Analyseverfahren verwenden die mit dem Symbol EO markiert sind um Ihre Daten zu analysieren Eine vollst ndige Liste der unterst tzten Analyseverfahren finden Sie in der Hilfe W hlen Sie Months with service tenure Besch ftigungsdauer bis Number of people in household reside Haushaltsgr e als Variablen im Imputationsmodell aus gt Geben Sie telcolmputed als Daten Set an in das die imputierten Daten gespeichert werden sollen gt Klicken Sie auf die Registerkarte Ausgabe 57 Multiple Imputation Abbildung 5 8 Registerkarte Ausgabe A Fehlende Datenwerte imputieren X
125. u erzeugen Die vollst ndigen Daten Sets k nnen mit Prozeduren analysiert werden die Daten Sets mit multipler Imputation unterst tzen Informationen zur Analyse von Datensets der multiplen Imputation und eine Liste der Verfahren die diese Daten unterst tzen finden Sie unter Analysieren von Daten multipler Imputation auf S 29 17 Multiple Imputation Muster analysieren Muster analysieren bietet deskriptive Messungen der Muster der fehlenden Werte in den Daten und eignet sich als Untersuchungsschritt vor der Imputation Beispiel Ein Telekommunikationsanbieter m chte einen besseren Einblick in die Servicenutzungsmuster in seiner Kundendatenbank gewinnen Er verf gt ber die vollst ndigen Daten der von seinen Kunden genutzten Services jedoch fehlen in den demographischen Informationen die das Unternehmen gesammelt hat einige Werte Eine Analyse der Muster von fehlenden Werten kann helfen die n chsten Schritte f r die Imputation zu bestimmen F r weitere Informationen siehe Verwendung von multipler Imputation f r die Vervollst ndigung und Analyse einer Daten Sets in Kapitel 5 auf S 50 So analysieren Sie Muster fehlender Daten W hlen Sie die folgenden Befehle aus den Men s aus Analysieren Multiple Imputation Muster analysieren Abbildung 3 1 Dialogfeld Muster analysieren ER Muster analysieren variablen ber Variablen analysieren Geschlecht Gender amp Monate beim Anbieter
126. ungs Maximierung 13 Imputieren fehlender Werte 9 MCAR Test 10 Methoden 9 Muster 6 45 Regression 12 Sch tzen von Statistiken 9 zus tzliche Funktionen beim Befehl 14 Beispieldateien Lage 85 EM in Analyse fehlender Werte 10 F lle in Tabellen in Analyse fehlender Werte 6 FCS Konvergenzdiagramm bei multipler Imputation 73 Fehlende Datenwerte imputieren 18 Ausgabe 24 Imputationsmethode 20 Nebenbedingungen 22 Fehlende Werte Univariate Statistiken 8 40 fehlende Werte Muster 47 gemeinsame Ergebnisse bei multipler Imputation 73 gemeinsame Sch tzer bei multipler Imputation 79 H ufigkeiten extremer Werte in Analyse fehlender Werte 8 H ufigkeitstabellen in Analyse fehlender Werte 8 Indikatorvariablen in Analyse fehlender Werte 8 Indikatorvariablen f r fehlende Werte in Analyse fehlender Werte 8 Iterationsprotokoll in Multiple Imputation 24 97 Index Korrelationen in Analyse fehlender Werte 10 12 Kovarianz in Analyse fehlender Werte 10 12 Listenweiser Ausschlu in Analyse fehlender Werte 3 MCAR Test in Analyse fehlender Werte 3 in Analyse fehlender Werte 48 MCAR Test nach Little 10 in Analyse fehlender Werte 3 in Analyse fehlender Werte 48 Mittelwert in Analyse fehlender Werte 8 10 12 monotone Imputation in Multiple Imputation 20 Multiple Imputation 15 25 29 50 Deskript
127. uztabelle f r ed Level of education Bildungsniveau Wenn der Befragte als Bildungsniveau mindestens Some college Einige Semester am College studiert angab ist die Wahrscheinlichkeit dass Angaben f r den Familienstand MaritalStatus fehlen h her Mindestens 98 5 der Befragten ohne College Ausbildung machten Angaben zum Familienstand Dagegen gaben nur 81 1 der Personen mit College Abschluss College degree ihren Familienstand an Bei Personen die einige Semester studiert aber keinen Abschluss haben Some College liegt der Wert sogar noch niedriger 44 Kapitel 4 Abbildung 4 7 Kreuztabelle f r Retired retire Fehlend address Worhanden Anzahl Prozent Fehlend SysMis income Worhanden Anzahl Prozent Fehlend SysMis employ Worhanden Anzahl Prozent Fehlend SysMis marital vorhanden Anzahl Prozent Fehlend SysMis Ein deutlicherer Unterschied ist f r retire Retired Ruhestandsstatus zu verzeichnen Personen die sich im Ruhestand befinden geben mit wesentlich geringerer Wahrscheinlichkeit ihr Einkommen an als Personen die noch nicht im Ruhestand sind Nur 46 3 der Kunden im Ruhestand gaben ihr Einkommensniveau Income an w hrend der Prozentsatz der Personen die sich nicht im Ruhestand befinden und ihr Einkommensniveau angaben bei 83 7 lag Abbildung 4 8 Kreuztabelle f r Gender Igender Geschlecht M nnlich Weiblich address Yorhan
128. ywagedata sav Hierbei handelt es sich um eine hypothetische Datendatei zum Stundenlohn von Pflegepersonal in Praxen und Krankenh usern mit unterschiedlich langer Berufserfahrung insurance_claims sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die ein Modell zur Kennzeichnung verd chtiger potenziell betr gerischer Anspr che erstellen m chte Jeder Fall entspricht einem Anspruch insure sav Hierbei handelt es sich um eine hypothetische Datendatei bei der es um eine Versicherungsgesellschaft geht die die Risikofaktoren untersucht die darauf hinweisen ob ein Kunde die Leistungen einer mit einer Laufzeit von 10 Jahren abgeschlossenen Lebensversicherung in Anspruch nehmen wird Jeder Fall in der Datendatei entspricht einem Paar von Vertr gen je einer mit Leistungsforderung und der andere ohne wobei die beiden Versicherungsnehmer in Alter und Geschlecht bereinstimmen 91 Beispieldateien judges sav Hierbei handelt es sich um eine hypothetische Datendatei mit den Wertungen von ausgebildeten Kampfrichtern sowie eines Sportliebhabers zu 300 Kunstturnleistungen Jede Zeile stellt eine Leistung dar die Kampfrichter bewerteten jeweils dieselben Leistungen kinship_dat sav Rosenberg und Kim haben 15 Bezeichnungen f r den Verwandtschaftsgrad untersucht Tante Bruder Cousin Tochter Vater Enkelin Gro vater Gro mutter Enkel Mutter Neffe Nichte Schwester Soh
Download Pdf Manuals
Related Search
Related Contents
アトラス・ビンテージ Edital 049/2015 Kamera Maple T.A. User Guide Piscine Tubulaire Metal Ronde ウォッチマン・ジュニア WD-2J お問い合わせフォーム L-TOOL Inquiry (ver 4.1) 取扱説明書 Copyright © All rights reserved.
Failed to retrieve file