Home
R-Pakete und -Syntax in SPSS Statistics verwenden
Contents
1. AirPassengers Monthly Airline Passenger Numbers 1949 1960 A BJsales Sales Data with Leading Indicator 7 BJsales lead BJsales Sales Data with Leading Indicator BOD Biochemical Oxygen Demand co2 Carbon Dioxide Uptake in Grass Plants ChickWeight Weight versus age of chicks on different diets DNase Elisa assay of DNase EuStockMarkets Daily Closing Prices of Major European Stock Indices 1991 1998 Formaldehyde Determination of Formaldehyde HairEyeColor Hair and Eye Color of Statistics Students Harman23 cor Harman Example 2 3 Harman74 cor Harman Example 7 4 Indometh Pharmacokinetics of Indomethacin InsectSprays Effectiveness of Insect Sprays JohnsonJohnson Quarterly Earnings per Johnson amp Johnson Share LakeHuron Level of Lake Huron 1875 1972 LifeCycleSavings Intercountry Life Cycle Savings Data Loblolly Growth of Loblolly pine trees Nile Flow of the River Nile Orange Growth of Orange Trees OrchardSprays Potency of Orchard Sprays 2 Interessiert man sich f r die Datens tze in einem bestimmten Paket kann man wie im folgenden Beispiel vorgehen gt library multilevel gt data package multilevel An die zur Nutzung eines Datensatzes erforderlichen Informationen kommt man mit der help Funktion heran z B 90 R Pakete und Syntax in SPSS Statistics verwenden gt help bhr280 Man erh lt u a technische und inhaltliche Informationen ber die Variablen Datei Bearbeiten Ansicht Chronik Lesezeichen Extras H
2. gt matz lt matrix c 1 2 3 4 5 6 2 byrow TRUE gt matz 21 Lt 153 en i 2 3 2 A 5 6 ae 5 3 4 4 2 Vektoren und oder Matrizen zu einer neuen Matrix koppeln Mit den Funktionen rbind und cbind lassen sich dimensional passende Matrizen und oder Vektoren hintereinander bzw nebeneinander koppeln z B gt matz2 lt matz 3 gt matz2 et 2 3 EN 4 5 6 ER 7 8 9 gt Fertig lt rbind cbind matz matz2 c 1 1 1 1 1 1 gt Fertig EN 1 1 2 4 3 1 Werden benannte Vektoren gekoppelt resultiert eine Matrix mit benannten Spalten bzw Zeilen z B gt vi lt c 1 2 3 gt v2 lt c 4 5 6 gt m lt cbind v1 v2 gt m BER 2 5 1 60 R Pakete und Syntax in SPSS Statistics verwenden v1 v2 1 1 4 2 2 5 St 2 6 5 3 4 4 3 Eigenschaften einer Matrix ber die Struktur einer Matrix informiert die Funktion str z B gt str matz num 1 2 1 3 1425 3 6 Wir erfahren im Beispiel dass die Matrix 2 Zeilen und 3 Spalten hat Ihre Elemente werden spaltendominant auf gelistet Die Funktion dim liefert die Maximalindizes zu den beiden Dimensionen z B gt dim matz 1 2 3 ber die Funktionen nrow bzw ncol kann man die Anzahl der Zeilen bzw Spalten auch separat er mitteln z B gt nrow matz 1 2 gt ncol matz 1 3 Uber die Funktionen rownames bzw colnames lassen sich die Zeilen bzw Spaltennamen einer Mat rix setzen oder ermitteln z B
3. gt rownames matz lt c A BI C colnames matz lt c I II gt matz I II A1 4 B2 5 c3 6 gt rownames matz 1 A SB C Vv Wie bei einem Vektor gilt bei einer Matrix fiir die den Datentyp der Elemente e Alle Elemente miissen vom selben Datentyp sein e Neben numeric sind auch alternative Datentypen m glich z B character logical 5 3 4 4 4 Matrizen transponieren Zum Transponieren einer Matrix steht die Funktion t bereit z B gt matz lt matrix c 1 2 3 4 5 6 2 byrow TRUE gt matz ot Lat La 1 3 2 1 4 5 6 61 R Pakete und Syntax in SPSS Statistics verwenden gt tmatz lt t matz gt tmatz 1 2 1 1 4 2 2 5 2z 3 6 gt str tmatz hum 1 3 12 123456 5 3 4 4 5 Funktionen auf Zeilen oder Spalten anwenden H ufig soll eine Funktion z B max zur Bestimmung des Maximums auf alle Zeilen oder Spalten einer Matrix angewendet werden In dieser Situation bietet die Funktion apply eine bequeme und effiziente L sung Ihre Argumente sind e X Hier ist die zu analysierende Matrix anzugeben e MARGIN Hier w hlt man zwischen den Werten o 1 fiir Zeilenbezug und o 2 fiir Spaltenbezug e FUN Hier ist der Name einer Funktion ohne Parameterliste anzugeben die Vektoren verarbeiten kann Im folgenden Beispiel werden die maximalen Spaltenwerte ermittelt gt daten lt matrix c 4 5 7 4 3 7 8 9 3 4 6 2 3 7 3 4 ncol 2 gt daten 51 2 1
4. gt abline a 98 b 8 9 col blue F r das Erg nzen von horizontalen oder vertikalen Linien ist die Funktion abline ebenfalls zust ndig Den Argumenten h und v ist als Wert die Achsenposition zu bergeben z B gt abline h 68 Gr e 100 10 Gr e 100 0 9 90 0 9 Gr e 127 R Pakete und Syntax in SPSS Statistics verwenden 9 2 4 2 3 Gruppiertes Streudiagramm Mit der folgenden Anweisung erg nzen wir im aktuellen Bespiel mit den Variablen numerischen Vekto ren groesse und gewicht noch einen Faktor mit dem Geschlecht der Probanden gt geschl lt factor c 2 2 2 1 1 1 1 2 1 2 1 2 labels c Frau Mann Nun soll das folgende gruppierte Streudiagramm erstellt werden das die Geschlechtszugeh rigkeit an hand der Symbole erkennen l sst Regression von Gewicht auf Gr e und Geschlecht 80 1 gt Gewicht 65 70 75 60 Gruppen Frau Mann 55 1 D 50 T T T T T T 160 165 170 175 180 185 Gr e ber die in Abschnitt 7 3 1 beschriebene Rekodierung erstellen wir den Vektor syms der f r jeden Fall eine Symbolnummer enth lt Wir verwenden f r Frauen das Symbol Nummer 16 und f r M nner das Symbol Nummer 5 gt syms lt numeric length geschl gt syms geschl Frau lt 16 gt syms geschl Mann lt 5 Analog gelangen wir zum character Vektor cols mit der Farbe Rot f r die Frauen und der Far
5. Modelliibersicht Standardfehle Angepasstes r der Modell R Quadrat R Quadrat Schatzung a Pradiktoren Konstante x b Abhangige Variable y In die deutsche Ubersetzung der Tobit Ausgabe haben sich zwei Fehler eingeschlichen e Die Tabellenzeile mit der logarithmierten Skalierung enth lt einen berfl ssigen Bindestrich der bei Deutung als Minuszeichen zu einem groben Fehler f hrt Der angezeigte Wert ist korrekt Log 2 238 0 806 e Inder Fu note muss es Skalierung hei en statt Saklierung Die englische Tobit Ausgabe ist fehlerfrei 1 In R sind verschiedene Tobit L sungen vorhanden z B in den Paketen AER VGAM und censReg SPSS verwendet die Funktion tobit aus dem Paket AER 26 R Pakete und Syntax in SPSS Statistics verwenden Coefficients Coefficient sta Error Intercept x Log scale Lower bound None Upper bound 2 tobit formula y x left Inf right 2 dist gaussian data dta na action na exclude Scale 2 2380 Residual d f 197 Log likelihood 274 573 Df 3 Wald statistic 50 290 Dr 21 R Pakete und Syntax in SPSS Statistics verwenden 4 R Funktionen uber das SPSS Syntaxfenster nutzen Um R Funktionen zu nutzen die nicht ber SPSS Erweiterungskommandos oder benutzerdefinierte Dia loge erschlossen sind ist R Syntax zu verfassen Die bergabe von SPSS Variablen an R und der R ck transport von R Ergebnissen f llt aber nicht schwer
6. summary huber END PROGRAM Ben tigte R Funktionen befinden sich oft in Paketen die zun chst ber einen Aufruf der Funktion li brary geladen werden m ssen siehe Beispiel Wie schon mehrfach zu sehen war erscheint die Standardausgabe von R in einen Log Abschnitt des SPSS Ausgabefensters ta Ausgabe4 Dokument4 IBM SPSS Statistics Viewer Datei Bearbeiten Ansicht Daten Transformieren Einf gen Format Analysieren Direktmarketing Grafik Extras Fenster Hilfe T TIETEN e 2s Ca E Ausgabe M Log Robuste Regression per rlm und Huber M Sch tzer BEGIN PROGRAM R library MASS casedata lt spssdata GetDataFromSPSS HuberM lt rlm y x data casedata na action na exclude summary HuberM END PROGRAM Call rlm formula y x data casedata na action na exclude Residuals Min 10 Median 30 Max 10 8768 2 4436 0 3755 2 2621 6 9434 Coefficients Value Std Error t value Intercept 0 2214 0 5299 0 4178 x 0 8862 0 5073 1 7470 Residual standard error 3 601 on 48 degrees of freedom IBM SPSS Statistics Prozessor ist bereit Unicode ON Im Programm wird die rlm Ausgabe in die Variable huber geleitet und von dort per summary Funktion in einiger Ausf hrlichkeit hervorgelockt Auf direktem Weg rlim y x data casedata erh lt man nur eine spartanische Ausgabe 33 R Pakete und Syntax in SPSS Statistics ve
7. 8 2 Modellformulierung Ein univariates Modell z B f r die Funktionen Im glmQ oder rlm verwendet folgende Syntax Kriterium Design Das zu modellierende Kriterium kann sein e eine Variable e ein Funktionsausdruck z B log y x Das Design enthalt mindestens einen Term Treten mehrere Terme auf sind diese durch den Operator zu trennen z B y x1 x2 Erlaubte Terme e Variablen z B Vektoren oder Faktoren aus einer Datentabelle e Die Zahl 1 steht f r den konstanten Term eines linearen Modells und muss nicht angegeben wer den weil der konstante Term implizit enthalten ist e Wechselwirkungsterme bestehend aus mindestens zwei per Operator getrennten Variablen z B y xa b a b Formuliert man einen Wechselwirkungsterm per Operator sind alle Terme niedrigerer Ordnung ein bezogen z B Kurzschreibweise enthaltene Terme a b a b a b a b c a b c a b a c bic a b c Wenn ein Faktor b in einem Faktor a geschachtelt ist wenn also jede Kategorie von Faktor b unter ge nau einer Kategorie von Faktor a auftritt wird das Design folgenderma en notiert y a b ber den Minus Operator kann ein Term aus dem Design entfernt werden was gelegentlich mit dem im plizit enthaltenen konstanten Term eines linearen Modells symbolisiert durch die Zahl 1 geschieht Im folgenden Beispiel mit den numerischen Vektoren x und y resultiert das Modell einer bivariaten linearen Regress
8. R Pakete und Syntax in SPSS Statistics verwenden O 5 o O O z e O O o a Ka o CO re oO o o o o e OO gt OD o O O O O o o o CO o o o o o o O O H o O 25 CO 2 00 1 00 0 00 1 00 2 00 3 00 4 00 In der OLS Regression erh lt man folgende Sch tz und Testergebnisse Modellzusammenfassung Korrigiertes R Standardfehler R Quadrat Quadrat des Sch tzers a Einflu variablen Konstante x b Abh ngige Variable y Koeffizienten Nicht standardisierte Standardisierte Koeffizienten Koeffizienten Konfidenzintervall f r B 95 0 Standardfehler Beta Untergrenze Obergrenze on 816 1 306 613 1 213 403 1 628 a Abh ngige Variable y Die Sch tzung zum Steigungskoeffizienten ist deutlich gemindert 0 61 statt 1 00 und der Signifikanz test erlaubt es nicht die falsche Nullhypothese zu verwerfen p 0 231 gt 0 05 In der Tabelle mit den Cook Distanzen zur Beurteilung der Einflussst rke von Einzelf llen erreicht der Fall 25 den gr ten Wert zur Definition der Cook Distanzen siehe z B Baltes G tz 2014a Abschnitt 3 1 3 In SPSS per Syntax anzufordern mit dem folgenden Subkommando der Regressionsprozedur RESIDUALS outliers cook 19 R Pakete und Syntax in SPSS Statistics verwenden Ausrei erstatistik Cook Distanz 2 3 4 5 6 7 8 9 1 a Abhangige Variable y Als kritische Cook Distanzen werden in der Literatur die Werte 1 z B
9. in eine Datei mit der Namenserweiterung R gespeichert werden sollten Um ein vorhandenes Skript zu nutzen kann man es ber den Men befehl Datei gt ffne Skript ffnen und dann wie oben beschrieben ausf hren lassen Oft ist es sinnvoller ein Skript ber die source Funktion auszuf hren wobei im Skript definierte Da ten und Funktionsobjekte angelegt werden Wenn sich die Skript Datei nicht im Arbeitsverzeichnis be findet ist der komplette Pfadname anzugeben wobei die Pfadbestandteile unter Windows durch einen einfachen Vorw rtsschr gstrich oder einen doppelten R ckw rts Schr gstrich zu trennen sind z B gt source u eigene dateien r Schleife R Wenn in Schleife R das obige Beispielprogramm gespeichert ist bleibt der source Aufruf allerdings ohne Ausgabe weil in dieser Situation implizite print Aufrufe nicht klappen Wer eine Ausgabe sehen m chte muss entweder im Skript den impliziten print Aufruf durch einen expliziten ersetzen vgl Ab schnitt 5 3 3 2 oder im source Aufruf ein Echo anfordern z B gt source u eigene dateien r Schleife R echo TRUE Trotz der Empfehlung das direkte Abschicken von Anweisungen an der Eingabeaufforderung der R Konsole eher zu vermeiden werden auch im weiteren Verlauf des Manuskripts der besseren Unterscheid barkeit halber die Anweisungen im Stil von Direkteingaben pr sentiert mit Prompt und in roter Farbe 5 5 Generische Funktionen und Ausgabenverwa
10. ticktype detailed gt dev off WW WW WW WW Weil f r das PNG Ausgabeger t eine relativ hohe Aufl sung gew hlt wurde ist das Ergebnis recht an sehnlich 9 3 Das Grafikpaket ggplot2 Das von Wickham 2009 erstellte R Paket ggplot2 basiert auf der von Wilkinson 2005 entwickelten Grammar of Graphics Seine anspruchsvolle aber gut durchdachte Konstruktion macht die Anweisungen zur Definition von Diagrammen relativ bersichtlich Im Ergebnis ist im Vergleich zur traditionellen Gra fik bei einfachen Diagrammen der Aufwand etwas h her bei komplexen Diagrammen aber deutlich ge ringen Weil die GG Grafik nicht mit der traditionellen Technik arbeitet sind die in Abschnitt 9 2 2 beschriebe nen Grafikparameter hier bedeutungslos Um die Funktionen in ggplot2 nutzen zu k nnen m ssen Sie das Paket einmalig installieren gt install packages ggplot2 Neben dem Paket ggplot2 werden in der Regel ca 10 weitere von ggplot2 vorausgesetzte Pakete instal liert Vor jeder Verwendung muss ggplot2 geladen werden 140 R Pakete und Syntax in SPSS Statistics verwenden gt library ggplot2 Das Paket ggplot2 bietet zum Erstellen eines Diagramms zwei Optionen e Den einfachen Weg ber die Funktion gplot Bei den Argumenten und Voreinstellungen dieser auf einfache Bedienbarkeit getrimmten Funkti on Quick Plot hat man sich an der traditionellen Graphik Funktion plot orientiert e Den flexiblen Weg ber die Funktion g
11. uenuesessensensensenneneneenennennennennennnnenensennenn 75 186
12. 1 factor 1 ordered factor Factor w 2 levels Jung Alt 11 2 2 Per class Funktion erh lt man die Auskunft dass casedata gruppe ein Faktor und casedata stufe ein geordneter Faktor ist Der str Ausgabe ist u a zu entnehmen dass die Kategorien des R Faktors casedata gruppe gem factorMode Spezifikation durch die SPSS Wertelabels beschriftet sind 4 1 6 Indikatoren f r fehlende Werte Bei numerischen SPSS Variablen werden per Voreinstellung benutzerdefinierte Missing Data Indikato ren ab jetzt kurz MD Indikatoren ebenso wie SYSMIS in der R Datentabelle zum Wert NaN Not a Number Bei alphanumerischen SPSS Variablen resultiert in R der Wert NA Not Available Das Erset zen der benutzerdefinierten MD Indikatoren ist erforderlich weil es in R nicht m glich ist beliebige Werte als Indikatoren f r fehlende Werte zu deklarieren Das folgende Beispielprogramm DATA LIST LIST numvar F2 strvar Al BEGIN DATA 9 A 7 M B END DATA MISSING VALUES numvar 9 strvar M BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS print casedata END PROGRAM liefert die Ausgabe numvar strvar 1 NaN A 2 7 lt NA gt 3 NaN B Setzt man wie es z B von Muenchen 2011 S 34 empfohlen wird in der Funktion spssdata GetDataFromSPSS das optionale Argument missingValueToNA auf den Wert TRUE BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS missingValueToNA TRUE print c
13. Authors Resources Frequently Asked Questions Thanks User Manuals Technical papers Material specific to the Windows port CHANGES up to R 2 15 0 Windows FAQ ist erreichbar ber das Kommando gt help start oder den RGui Men befehl Hilfe gt HTML Hilfe ber den Link Packages gelangt man zu einer Liste mit allen installierten Paketen und ber einen Mausklick auf ein Paket erreicht man die zugeh rige Hilfeseite z B beim Paket datasets 47 R Pakete und Syntax in SPSS Statistics verwenden S http 127 0 0 1 19906 library datasets hi GR The R Datasets Package 4 The R Datasets Package Documentation for package datasets version 2 15 3 e DESCRIPTION file Help Pages datasets package The R Datasets Package A ability cov Ability and Intelligence Tests airmiles Passenger Miles on Commercial US Airlines 1937 1960 AirPassengers Monthly Airline Passenger Numbers 1949 1960 airquality New York Air Quality Measurements anscombe Anscombe s Quartet of Identical Simple Linear Regressions Informationen zu einem Schliisselwort der Programmiersprache R oder zu einer R Funktion aus einem geladenen Paket erh lt man ber die Funktion help z B gt help mean Kurzform gt mean Bei vielen Suchbegriffen kann die Umrahmung durch Anf hrungszeichen entfallen z B gt help mean gt mean Bei Schl sselw rtern der Programmiersprache R ist sie jedoch e
14. Weitere Mengenoperationen mit R werden in Wollschl ger 2010 S 40ff beschrieben 179 R Pakete und Syntax in SPSS Statistics verwenden 10 2 Lineare Algebra Um das folgende Gleichungssystem zu l sen HU T kann man die R Funktion solve verwenden die als ersten Parameter die Koeffizientenmatrix und als zweiten Parameter den Zielvektor oder die Zielmatrix erwartet gt xmat lt matrix c 1 2 2 3 2 gt xmat 51 52 1 1 2 2 2 3 gt b lt c 5 8 gt solve xmat b 11 12 L sst man den zweiten Parameter weg wird dort die Einheitsmatrix angenommen so dass die Inverse der Koeffi zientenmatrix als L sung verlangt wird 1 oj 1 Zo c 0 1 2 3b d Im Beispiel gt ix lt solve xmat gt 2X 51 52 1 3 2 2 2 sd Um das Ergebnis zu pr fen multiplizieren wir die Matrizen xmat und ix wobei das Operatorzeichen zu verwenden ist gt xmat ix 1 2 1 1 H 2 H 1 180 R Pakete und Syntax in SPSS Statistics verwenden Literatur Baltes G tz B 2014a Lineare Regressionsanalyse mit SPSS Online Dokument http www uni trier de index php id 22489 Baltes G tz B 2014b Mediator und Moderatoranalyse per multipler Regression mit SPSS Online Dokument http www uni trier de index php id 22528 Baltes G tz B 2014c Statistisches Praktikum mit SPSS f r Windows Online Dokument http www uni trier de index php id
15. e Man erstellt ein Grafikfenster durch die implizite oder explizite Verwendung der Funktion windows und speichert seinen Inhalt in eine Datei was ber den Men befehl Datei gt Speichern als in den Formaten Metafile Postscript PDF Png Bmp TIFF und Jpeg gelingt Mit Ausnahme der Dateiformate Postscript und PDF erh lt man ein Bitmap Ergebnis mit einer bescheidenen Auf l sung die f r Publikationszwecke nicht ausreicht e Man ffnet ein Ausgabeger t das mit einer Datei verbunden ist durch Aufruf der Format spezifischen Funktion z B svg png win metafile Bei einem Bitmap Format sollten die Gr e und die Aufl sung korrekt gew hlt werden um eine gute Qualit t zu erzielen was im an schlie enden Beispiel demonstriert wird Im folgenden Beispiel entsteht eine PNG Datei mit einer Breite und H he von 10 cm bei einer Aufl sung von 600 dpi gt png NormDens png 10 18 units cm res 60 Nach dem ffnen des Ausgabeger ts f hrt man die Grafikfunktionsaufrufe durch z B gt plot x y type 1 main Dichte der Standardnormalverteilung lwd 3 Daraufhin wird die Ausgabedatei mit der Gr e von 0 Bytes angelegt und ist durch das RGui blockiert 114 R Pakete und Syntax in SPSS Statistics verwenden GO Computer Daten U Eigene Dateien R Datei Bearbeiten Ansicht Extras Organisieren he ffnen v Drucken Brennen Neuer Ordner a Name Anderungsdatum R RDa
16. sthetischen Attributs group auf den Wert 1 zu beach ten Damit wird die Gruppierung aufgrund des X Achsen Faktors KFA aufgehoben und die beiden aus der Zusammenfassung hervorgegangenen Punkte geh ren zu einer Gruppe Diese Ma nahme ist erforder lich weil das Geom line zu jeder Gruppe eine Linie erstellt die alle enthaltenen Punkte verbindet Um die Ver nderung zwischen den beiden Bedingung ohne bzw mit KFA f r jede einzelne Person zu betrachten legen wir die Variable fnr mit der Fallnummer als farbdefinierend und gruppenbildend fest nachdem sie in einen Faktor gewandelt worden ist gt ggplot kfa long aes x kfa y value colour factor fnr geom _point show_guide FALSE geom_line aes group fnr show_guide FALSE labs x nKFA y Mittlerer rger n Es resultiert ein Spaghettidiagramm wobei die Legenden zum point bzw line Geom durch den Wert FALSE f r das Argument show guide unterdr ckt werden Mittlerer Arger KFA Vorschl ge zu vielen weiteren Liniendiagrammen finden sich z B bei Chang 2013 S 49ff und Field 2012 S 155ff 177 R Pakete und Syntax in SPSS Statistics verwenden 9 3 5 ggplot2 Diagramm in eine Datei sichern Zum Sichern eines ggplot2 Diagramms in eine Datei steht neben den in Abschnitt 9 1 beschriebenen Optionen die ggsave Funktion zur Verf gung Im ersten Parameter gibt man den Dateinamen an wo bei das Dateiformat bzw das zu verwendende Ausgab
17. 1 Frau Mann Geschlecht In der m nnlichen Teilstichprobe zeigt sich zudem ein Ausrei er der um mehr als 1 5 Boxbreiten vom 3 Quartil dem oberen Rand der Box entfernt ist Um diesen Fall zu etikettieren wird eine Variable vorbe reitet welche bei Personen mit dem Argerwert 10 die Fallnummer den Wert der Variablen fnr enth lt und ansonsten den Indikator f r fehlende Werte gt etikett lt kfa fnr etikett kfa aergo lt 10 lt NA Nun wird eine Schicht mit text Geom unter Verwendung der vorbereiteten Etikettierungsvariablen er ganzt gt box geom_boxplot fill lightblue labs x Geschlecht y Arger geom _text aes label etikett vjust 1 4 Mit der Eigenschaft vjust wird der Text in vertikaler Richtung vom Datenpunkt weg bewegt um eine Uberlagerung zu verhindern Arger Geschlecht 168 R Pakete und Syntax in SPSS Statistics verwenden 9 3 4 3 Balkendiagramme Mit einem einfachen Balkendiagramm kann man darstellen e der Verteilung einer diskreten z B kategorialen Variablen e die Mittelwerte oder andere statistische Zusammenfassungen einer metrischen Variablen fiir die Auspr gungen einer kategorialen Variablen e die Mittelwerte von mehreren metrischen Variablen Zur Demonstration der verschiedenen Balkendiagramme verwenden wir weiterhin die SPSS Datendatei kfa sav siehe Abschnitt 9 3 4 1 9 3 4 3 1 Diskrete Verteilungen Uber die Funktion geom_bar l sst sich mit s
18. 4 3 EIN gt 4 3 7 6 4 4 2 5 3 3 6 7 7 K N 8 3 8 9 4 gt apply daten 2 max 1 97 5 3 4 5 Array Die Klasse Array erweitert die Klasse Matrix indem statt zwei beliebig viele Dimensionen erlaubt sind Wie bei der Matrix miissen auch beim Array alle Elemente denselben elementaren Datentyp besitzen z B numeric logical character Man erstellt einen Array ber die Funktion array mit den folgenden Parametern 62 R Pakete und Syntax in SPSS Statistics verwenden e data Vektor mit den Elementen e dim Hier ist ein Vektor anzugeben der durch seine Lange die Anzahl der Array Dimensionen und durch seine Elemente den Maximalindex pro Dimension angibt Beispiel gt Arri lt array c 1 2 3 4 5 6 7 8 c 2 2 2 gt Arri sx 1 52 1 1 3 2 2 A p22 1 52 5 3 4 6 Liste Eine Liste besteht wie ein Vektor aus einer Anzahl von Elementen die aber nicht vom selben Typ sein m ssen F r die Elemente sind alle Typen erlaubt insbesondere auch der Typ Liste Weil die Liste somit eine enorme Flexibilit t bietet wird sie von vielen R Funktionen zur Organisation ihrer Ausgaben ver wendet Die von der Funktion length gelieferte L nge einer Liste wird durch die Anzahl ihrer Elemente auf oberster Ebene festgelegt Um die strukturelle Flexibilit t bei den Bestandteilen einer Liste zu beto nen spricht man von den Komponenten einer Liste Muenchen 2011 S 83 5 3 4 6 1 Liste erstellen Man ers
19. DATA LIST FREE salary BEGIN DATA 1 2 3 4 END DATA BEGIN PROGRAM R dict lt spssdictionary GetDictionaryFromSPSS casedata lt spssdata GetDataFromSPSS varSpec lt c meansal Mean Salary 8 F8 2 scale dict lt data frame dict varSpec stringsAsFactors FALSE spssdictionary SetDictionaryToSPSS results dict casedata lt data frame casedata mean casedata salary spssdata SetDataToSPSS results casedata spssdictionary EndDataStep END PROGRAM Mit der R Funktion spssdictionary GetDictionaryFromSPSS werden die Variablendeklarationen aus der SPSS Arbeitsdatei in eine R Datentabelle mit dem Namen dict bernommen dict lt spssdictionary GetDictionaryFromSPSS Um eine neue Variablendeklaration zu erg nzen wird zun chst ein Vektor vom Datentyp character er stellt und im R Objekt varSpec abgelegt varSpec lt c meansal Mean Salary F8 2 scale Hier m ssen 5 SPSS Variablenattribute in vorgeschriebener Reihenfolge durch eine Zeichenkette festge legt werden e Variablenname Im Beispiel meansal e Variablenlabel Bei Verzicht auf ein Label ist eine leere Zeichenkette anzugeben Im Beispiel Mean Salary e Variablentyp F r numerische Variablen ist eine 0 anzugeben f r Zeichenkettenvariablen die L nge von 1 bis 32767 Im Beispiel 0 35 R Pakete und Syntax in SPSS Statistics verwenden e Anzeigeformat Im Beispiel F8 2 e Messniveau Erlaubte Wer
20. Man erstellt in einem SPSS Syntaxfenster einen Block mit R Syntax eingerahmt durch die SPSS Kommandos BEGIN PROGRAM R und END PROGRAM In der R Syntax spielen Funktionen aus dem R Paket zu SPSS das mit den R Essentials automatisch installiert wird eine wesentliche Rolle z B Funktion spssdata GetDataFromSPSS f r den Zugriff auf die Variablen der SPSS Arbeitsdatei Eine Dokumentation dieser R Funktionen zur SPSS Unterst tzung finden Sie im Dokument R Integration Package for IBM SPSS Statistics Es ist nach der Installation der R Essentials ber das Hilfemen in SPSS Statistics verf gbar Hilfe gt Programmierbarkeit gt R Plugin Das R Paket zur SPSS Unterst tzung wird bei der R Nutzung via SPSS automatisch geladen so dass ein explizites Laden mit der R Funktion library vgl Abschnitt 5 2 1 nicht erforderlich ist Bei der in diesem Abschnitt vorgestellten Arbeitsweise sind nur wenige Kenntnisse der R Syntax erfor derlich so dass wir eine Behandlung von R als Programmiersprache bis zum Abschnitt 5 aufschieben Sollte eine R Anweisung nicht in eine Zeile passen kann sie auf Folgezeilen fortgesetzt werden z B BEGIN PROGRAM R dta lt spssdata GetDataFromSPSS factorMode labels boxplot dta aergo dta geschl col lightblue3 varwidth TRUE boxwex 0 75 xlab Geschlecht ylab Arger ohne KFA END PROGRAM 4 1 SPSS Variablen an R bergeben 4 1 1 bergabe der kompletten Arbeitsdatei Mit Hilfe der Funktion spssdat
21. Mit der Funktion cut l sst sich ein numerischer Vektor ber eine Liste von Aufteilungspunkten in einen Faktor wandeln Im folgenden Beispiel enth lt der Ausgangsvektor standardnormalverteilte Zufallszah len die von der Funktion rnorm erstellt werden siehe Abschnitt 7 4 1 1 gt numvec lt rnorm 100 1 gt fac lt cut numvec breaks c Inf 2 1 0 1 2 Inf gt str fac Factor w 6 levels Int 2 C 2 1 4 7 2435142435 vas gt table fac fac Inf 2 2 1 1 0 0 1 1 2 2 Inf 2 14 34 40 8 2 Durch die im Argumentvektor breaks enthaltenen Aufteilungspunkte werden links offene und rechts abgeschlossene Intervalle festgelegt Die Funktion table siehe Abschnitt 8 1 2 liefert die absoluten H ufigkeiten der Kategorien 7 3 2 Berechnen Einen neuen Vektor aus bereits vorhandenen Vektoren zu berechnen ist in R eine leichte bung Als Beispiel soll aus zwei Vektoren mit der K rpergr e in cm bzw mit dem K rpergewicht in kg von 12 Personen gt groesse lt c 186 178 182 160 168 NA 165 179 158 175 176 176 gt gewicht lt c 80 71 75 5 65 66 76 55 76 5 50 5 80 62 NA der Body Mass Index BMI nach folgender Formel berechnet werden Gewicht in kg Gr e in m Hinweise zur Formulierung des numerischen Ausdrucks e Als Symbol f r das Potenzieren sind zwei unmittelbar aufeinanderfolgende Sternchen oder ein Dach zu verwenden e Die K rpergr e muss von der Einhei
22. alter geschlecht gt names dt lt c age gender Die Namen der Zeilen F lle k nnen ber die Funktion row names abgefragt und ge ndert werden z B gt row names dt 1 a E SC Zen gt row names dt lt alpha beta gamma Per Voreinstellung werden laufende Nummern verwendet 5 3 4 7 3 Bestandteile einer Datentabelle ansprechen Auf eine einzelne Variable greift man ber den Operator zu z B gt mean dt alter 1 45 Befindet sich eine Matrix als Komponente in einer Datentabelle werden ihre Spalten wie Vektoren be handelt anzusprechen ber den Matrixnamen mit angeh ngter Spaltennummer z B gt dfm lt data frame mat matrix c 1 2 3 4 5 6 ncol 2 vec factor c 1 1 2 gt dfm mat 1 mat 2 vec I 1 4 1 2 2 5 1 3 3 6 2 gt dfm mat 2 1 456 Zur Ansprache einzelner Werte kann bei Datentabellen abweichend von gew hnlichen Listen die Nota tion der Matrizen verwendet werden z B gt dt lt data frame alter c 45 32 58 geschlecht factor c 1 1 2 gt dt 3 1 1 58 Weitere M glichkeiten zur Auswahl von Bestandteilen einer Datentabelle werden in Abschnitt 5 3 6 vor gestellt 5 3 4 7 4 Variablen erg nzen oder entfernen Um eine zus tzliche Variable in eine Datentabelle gt dt lt data frame alter c 45 32 58 geschlecht factor c 1 1 2 aufzunehmen kann man die Funktion data frame erneut aufrufen Man verwendet die vorhandene Da tentabelle als er
23. bin mapping aes label count hjust 4 size 4 colour gray50 coord flip Das Ergebnis 171 R Pakete und Syntax in SPSS Statistics verwenden Mann 6 Geschlecht Frau 25 10 15 H ufigkeit 9 3 4 3 2 Statistische Kennwerte einer abh ngigen Variablen f r die Stufen eines Faktors Kombiniert man geom_bar mit der statistischen Transformation stat_summary an Stelle der Vor einstellung stat_bin kann man statistische Kennwerte einer abh ngigen Variablen z B Mittelwert Median Maximum f r die Faktorstufen darstellen Das sthetische Attribut y l sst man von einer indivi duellen Zusammenfassungsfunktion liefern die ber das Argument fun y bestimmt wird z B gt ggplot kfa aes x geschl y aergo geom_bar stat summary fun y median fill cornflowerblue labs x Geschlecht y Median f r rger Das resultierende Balkendiagramm zeigt die Mediane der Variablen rger f r Frauen und M nner gt 1 Median f r rger N 1 0 1 1 Frau Mann Geschlecht 172 R Pakete und Syntax in SPSS Statistics verwenden Im n chsten Diagramm ersetzen wir den Median durch das arithmetische Mittel und erg nzen eine von der Funktion geom_errorbar erstellte Schicht mit den normalverteilungsbasierten 95 Vertrauensin tervallen der beiden Gruppen i i Frau Mann Geschlecht Mittlerer rger gt Auch in der Funktion geom_errorbar kommt die s
24. geom_point size 3 gt gsd geom_text aes y gewicht 1 label rownames ggg show_guide FALSE Im Beispiel wird so vermieden dass aufgrund der Text Geoms an die Legendensymbole ein unvorteilhaf tes a angeheftet wird Unerw nschter Legendenbeitrag Korrekte L sung Geschlecht Geschlecht Frau Frau Mann Mann Um den Titel einer Achse oder Legende zu ndern kann man die zum sthetischen Attribut geh rige scale Funktion aufrufen und das name Attribut auf den gew nschten Wert setzen z B gt gsd scale colour_discrete name Geschlecht In Abschnitt 9 3 1 4 2 wird eine bequemere Alternative zur scale Funktion vorgestellt fiir den Fall dass lediglich Titel zu ndern sind 9 3 1 4 1 Wertebereiche Geht es lediglich um eine nderung der zu ber cksichtigenden Wertebereiche geht sind die folgenden Bequemlichkeitsfunktionen engl convenience functions einfacher zu handhaben als die scale Funktionen e lm Mit dieser Funktion legt man den Wertebereich der X Achse fest z B gt sd xlim 150 190 e ylim Mit dieser Funktion legt man den Wertebereich der Y Achse fest z B gt sd ylim 5 90 F lle au erhalb dieser Grenzen werden ausgeschlossen was sich auch auf andere Schichten z B mit ei ner Regressionsfunktion auswirkt 147 R Pakete und Syntax in SPSS Statistics verwenden 9 3 1 4 2 Beschriftungen Geht es lediglich um eine Anderung der Beschriftung sind
25. gt dt lt dtl 7 Um den Editor zu beenden k nnen Sie e den Men befehl Datei gt Schlie e benutzen e oder auf das SchlieBkreuz in der Titelzeile des Fensters klicken Es gibt kein Bedienelement zum Speichern Wenn Sie das Fenster des Dateneditors schlieBen wird das Ergebnis Ihrer Arbeit in das beim Editorstart vereinbarte Zielobjekt im fl chtigen Hauptspeicher ber tragen Damit ist der Dateneditor f r umfangreiche manuelle Dateneingaben bzw modifikationen wenig geeignet denn zum Zwischenspeichern an einen sicheren Ort muss man e den Dateneditor schlie en e das Datenobjekt auf einen nichtfl chtigen Speicher z B eine Festplatte sichern z B mit der sa ve Funktion siehe Abschnitt 5 1 2 e den Dateneditor erneut ffnen Als Alternativen bieten sich an e bei sehr gro en Datenmengen ein Datenerfassungsspezialist wie Data Collection Data Entry aus der SPSS Familie e der SPSS Dateneditor e ein Tabellenkalkulationsprogramm wie z B Excel aus dem Office Paket von Microsoft oder Calc aus dem freien Paket Open bzw LibreOffice Wer zur Datenerfassung ein Tabellenkalkulationsprogramm verwendet sollte nominalskalierte Merkmale z B Geschlecht numerisch kodieren z B 1 Frau 2 Mann und sp ter in R die explizite Wandlung in einen Faktor vornehmen Field 2012 S 97 84 R Pakete und Syntax in SPSS Statistics verwenden 6 2 R Commander Der von John Fox 2005 entwickelte R Commander reali
26. ndern also insbesonde re die Referenzkategorie beliebig festlegen Im folgenden Beispiel werden die F lle mit dem Wert 3 der Kontroll bzw Referenzgruppe zugeordnet z B gt gruppe lt factor c 1 2 2 1 1 3 3 levels c 3 1 2 labels c KG EG1 EG2 gt str gruppe Factor w 3 levels KG EG1 EG2 2332211 e Man kann einzelne Werte des numerischen Datenvektors ausschlie en als fehlende Werte behan deln in dem man sie im levels Argument wegl sst Im folgenden Beispiel werden F lle mit dem Wert 3 ausgeschlossen gt gruppe2 lt factor c 1 2 2 1 1 3 3 levels c 1 2 labels c KG EG gt str gruppe2 Factor w 2 levels KG EG 12 2 11 NA NA Die Faktorstufen m ssen ber ihr Etikett angesprochen werden z B richtig syms gruppe KG lt 5 falsch syms gruppe 1 lt 5 5 3 4 3 2 Ordinale Faktoren Einen ordinalen Faktor erstellt man mit der Funktion ordered z B gt of de ordered c A ie eee Br A A ET By gt of 1 ACBAAC Levels A lt B lt B C 5 3 4 4 Matrix Eine Matrix ist zur Aufnahme empirischer Daten geeignet wenn alle Werte vom selben Datentyp sind z B numeric Im Vergleich zur sp ter vorzustellenden Datentabelle siehe Abschnitt 5 3 4 7 ist die Matrix e weniger flexibel e aber Speicherplatz schonender Damit eignet sich die Matrix speziell f r Anwendungen aus dem Bereich der linearen Algebra wobei viele Matrixfunktionen zur Verf gung stehen sieh
27. ufigkeit 207 T 6 00 4 00 2 00 00 2 00 4 00 y Bei einer OLS Regression Ordinary Least Squares mit dem zensierten Kriterium ist die Sch tzung des Regressionskoeffizienten erheblich verzerrt Koeffizienten Nicht standardisierte Standardisierte Koeffizienten Koeffizienten Konfidenzintervall f r B 95 0 Standardfehler Beta Untergrenze een 6 959 314 a Abh ngige Variable y 23 R Pakete und Syntax in SPSS Statistics verwenden Das Erweiterungskommando zur Berechnung einer Tobit Regression mit Hilfe von R Funktionen ist ver f gbar ber den Men befehl Analysieren gt Regression gt Tobit Regression Es resultiert eine Sch tzung nahe beim wahren Wert 1 Koeffizienten Kosfizient Standard Fehler Konstanter Term D Log Skalierung Untergrenze Keines Obergrenze 2 tobit formula y x left Inf right 2 dist gaussian data dta na action na exclude Saklierung 2 2380 Residuum d f 197 Log Likelihood 274 573 D f 3 Wald Statistik 50 290 D f 1 Neben dem Regressionsgewicht wird unter der Bezeichnung Skalierung noch ein Koeffizient mitgeteilt welcher die Standardabweichung der Residuen sch tzt und im konkreten Fall nahe bei dem Wert liegt den eine OLS Regression f r die unzensierten Daten ermittelt Bezeichnung Standardfehler des Sch tzers in der Tabelle Modellzusammenfassung
28. 0 5 Dabei wird allerdings die bequeme und leider oft unrealistische Annahme gemacht dass alle Werte vor handen sind Auf das Schl sselwort function folgt zwischen runden Klammern eine Liste mit den formalen Argumen ten Im Rumpf einer Funktion verwendet man die formalen Argumente wie lokale Variablen die beim Aufruf durch die bergebenen Argumente initialisiert worden sind R verwendet generell Wertargumente d h funktionsintern vorgenommene nderungen haben keinen Effekt auf die aufrufende Umgebung In der letzten Anweisung einer Funktion legt man ihre R ckgabe fest Im Beispiel wird in Anlehnung an Muenchen 2011 S 107 mit der e Funktion ein Vektor mit einem benanntem Element erstellt vgl Ab schnitt 5 3 4 2 6 um f r eine informative Ausgabe der Funktionsr ckgabe zu sorgen siehe unten Zur Funktionsdefinition kann man das in Abschnitt 5 4 beschriebene Skriptfenster verwenden z B R Namenlos R Editor keck Funktion zur Berechnung der Pearson Korrelation Zum Testen zwei Vektoren mit r x y 0 8894574 x lt c 1 2 3 4 5 6 7 6 5 4 3 2 1 y lt c 2 2 3 4 4 5 6 4 3 3 2 1 2 pCor lt function x y xz lt x mean x yz lt y mean y c cor sum xz yz sum xz 2 sum yz 2 0 5 Nachdem das Skript ausgef hrt worden ist z B ber den Men befehl Bearbeiten gt Alles ausf h ren hat R die Funktionsdefinition zur Kenntnis genommen und es ist
29. 1 Daraus entstehen durch vergr berndes Messen die ordinalen Indikatoren X3 und Y3 mit jeweils 3 Aus pr gungen z B mit Hilfe der folgenden SPSS Syntax RECODE X LO THRU 1 1 1 THRU 1 2 ELSE 3 INTO X3 RECODE Y LO THRU 1 THRU 2 2 ELSE 3 INTO Y3 VARIABLE LEVEL X3 Y3 ORDINAL Verwendet man die SPSS Prozedur zur Berechnung von Pearson Korrelationen dann resultieren deutlich geminderte Sch tzungen f r die interessierende Korrelation von X und Y durch die Korrelationen von X3 und Y3 beide Variablen ordinal bzw X und Y3 nur Y3 ordinal Cov X Y _ Cov X 0 5X e _ 0 5 u 0 5 8 Var X Var Y Var 0 5X e f0 25 Mantel 0 25 0 75 Cor X Y H 23 R Pakete und Syntax in SPSS Statistics verwenden Korrelationen Korrelation nach Pearson Signifikanz 2 seitig N Korrelation nach Pearson Signifikanz 2 seitig N Korrelation nach Pearson Signifikanz 2 seitig N Korrelation nach Pearson Signifikanz 2 seitig N Das Erweiterungskommando zur Berechnung von polychorischen und polyserialen Korrelationen mit Hilfe von R und Python ist verf gbar ber den Men befehl Analysieren gt Korrelation Im Beispiel erhalten wir im polychorischen und im polyserialen Fall deutlich verbesserte Sch tzungen in der Nahe des wahren Wertes Pearson polyseriale und polychorische Korrelationen Variablen Variablen Statistik x3 Y3 Korrelationstypen Standard Fehl
30. 2 4 1 3 Variablen in einer R Datentabelle ansprechen Auf eine einzelne Variable in einer R Datentabelle kann man ber die per Zeichen verbundene Kom bination aus dem Datentabellen und dem Variablennamen zugreifen z B BEGIN PROGRAM R casedata age END PROGRAM 4 1 4 Persistenz und L schen von R Objekten W hrend SPSS gro e Datens tze nur teilweise im Arbeitsspeicher RAM h lt befindet sich ein R Data Frame stets komplett im Speicher Das Beispiel in Abschnitt 4 1 3 zeigt au erdem dass der R Workspace mit allen Variablen innerhalb einer SPSS Sitzung zwischen zwei R Eins tzen erhalten bleibt d h e Die in fr heren R Bl cken angelegten Objekte stehen weiter zur Verf gung e Eventuell ist es sinnvoll belegten Speicherplatz im RAM durch explizites Entfernen von Objek ten mit der R Funktion rm alias remove wieder frei zu geben z B 30 R Pakete und Syntax in SPSS Statistics verwenden BEGIN PROGRAM R rm casedata END PROGRAM Weil SPSS nicht darauf angewiesen ist alle Daten im Hauptspeicher RAM zu halten miissen SPSS Anwender nicht tiber das Einsparen von Speicherplatz nachdenken R hingegen muss die zu analysieren den Daten komplett im Hauptspeicher halten so dass es empfehlenswert ist tiberfliissige Objekte explizit zu entfernen Muenchen 2011 S 33 4 1 5 Kategoriale SPSS Variablen als Faktoren an R bergeben Ein ordinaler Faktor in R siehe Abschnitt 5 3 4 3 ist das Analog
31. 2 2 g 3 4 3 Mit der Funktion aggregate l sst sich daraus eine Datentabelle mit den Klassen als F llen erstellen wobei die Auspr gungen bei den Variablen math und geo durch Mittelwertsbildung in den Klassen ent stehen gt dfGr lt aggregate dfInd 2 3 list dfInd group mean na rm TRUE Im ersten Argument werden aus dfInd per Indexzugriff die Aggregierungsvariablen gew hlt Das zweite Argument legt die Liste mit den Gruppierungsvariablen fest wobei das Beispiel mit einer Variablen aus kommt Im dritten Argument wird die Aggregierungsfunktion mean gew hlt Mit dem optionalen Argu ment na rm wird schlie lich daf r gesorgt dass bei Gruppen mit fehlenden Werten nicht das Ergebnis NA resultiert sondern das arithmetische Mittel der vorhandenen Werte Im Beispiel resultiert die Daten tabelle gt dfGr Group 1 math geo 1 12 223223 14333322 2 2 4 000000 3 333333 3 3 3 000000 2 333333 Um diese Daten auf der Gruppen bzw Makroebene z B f r eine Mehrebenenanalyse wieder mit den Daten auf der Mikroebene in der Tabelle dfInd zusammen zu f hren ist die in Abschnitt 7 6 vorge stellte Funktion merge zu verwenden 7 8 Sekundarstichproben ziehen Mit der Funktion sample kann man aus einem Vektor mit einer Prim rstichprobe durch Ziehen mit Zu r cklegen eine Sekund rstichprobe gleicher Gr e gewinnen z B gt prim lt 1 9 gt sec lt sample prim size length prim replace TRUE 11 506523 3293 Um f r ei
32. 3 a 55 R Pakete und Syntax in SPSS Statistics verwenden 5 3 4 2 4 Vektoren mit Elementtyp character oder logical Als Elemente vom Typ character sind einzelne Zeichen und Zeichenfolgen erlaubt wobei zur Begren zung alternativ einfache oder doppelte Anf hrungszeichen verwendet werden d rfen z B gt s lt c Otto s Welt ist simpel gt 5 1 Otto s Welt ist simple Hinter den Werten vom Typ logical TRUE FALSE stecken intern die Zahlen 1 und 0 z B gt cond lt TRUE gt mode cond 1 logical gt cond 4 1 5 Es ist erlaubt aber nicht empfehlenswert die Wahrheitswerte durch ihre Anfangsbuchstaben abzuk rzen weil diese Symbole T F umdefiniert worden sein k nnten z B gt cond lt T gt mode cond 1 logical gt 1 amp 4 gt cond lt T gt mode cond 1 numeric 5 3 4 2 5 Vektoren mit Datumsangaben Um Vektoren mit Datumsangaben zu erzeugen die z B eine Differenzberechnung zulassen kann man so vorgehen e Per Verkettungsoperator einen Zeichenkettenvektor mit Werten im Format jjjj mm tt erstellen e und die Funktion as Date auf diesen Vektor anwenden Beispiel gt geboren lt as Date c 1978 12 31 1988 07 24 1998 11 08 gt geboren 2 geboren 1 Time difference of 3493 days 5 3 4 2 6 Elemente benennen Beim Erzeugen eines Vektors tiber die Verkettungsfunktion kann man die Elemente benennen z B gt b lt c one 1 too 2
33. 5 1 2 Im Unterschied zu den elementweisen logischen Operatoren ber cksichtigen die folgenden Operatoren nur das jeweils erste Element 75 R Pakete und Syntax in SPSS Statistics verwenden amp amp und Il oder Beispiele gt t1 lt c FALSE FALSE TRUE gt t2 lt e FALSE TRUE FALSE oa ae 1 FALSE 5 3 7 4 Sequenzoperator Das Zeichen steht in R fiir den Sequenzoperator der einen Vektor aus Zahlen produziert beginnend mit dem linken Operanden und dann im Einserabstand wachsend bis zur letzten Zahl die den rechten Ope randen nicht bertrifft z B gt 125 1 12345 Mit der seq Funktion l sst sich eine alternative Schrittweite einstellen auch eine negative z B gt seq 3 8 36 by 8 01 1 8 38 8 31 8 32 0 33 8 34 8 35 8 36 5 3 7 5 Recycling Regel Sind zwei Objekte elementweise zu verarbeiten werden bei ungleicher L nge Elemente der k rzeren Struktur wie derverwendet bis L ngengleichheit besteht z B gt a lt 5 gt b lt 1 2 3 gt a b DI 678 Ist die L nge des gr eren Objekts kein Vielfaches der kleineren L nge vermutet R ein Problem und warnt z B gt a lt c 5 6 gt b lt 1 2 3 gt atb 1 6838 Warnmeldung In a b Lange des l ngeren Objektes ist kein Vielfaches der L nge des k rzeren Objektes 5 3 7 6 Zuweisungsoperatoren Wie Sie mittlerweile aus zahlreichen Beispielen wissen wird in R bevorzugt das Zeichenduo lt bei W
34. 5 6 7 8 4 o WE A EN EE E E Oe DH oO mom oO Oo Om OO now NOO Math DN oder bearbeiten wobei im letztgenannten Fall ein Dateneditorfenster in der R Konsole erscheint 6 2 2 Datenverwaltung Als Beispiel fiir die Datenverwaltung mit dem R Commander wandeln wir den Vektor geschlecht in einen Faktor vgl Abschnitt 5 3 4 7 1 Nach dem Start mit dem Men befehl Datenmanagement gt Variablen bearbeiten gt Konvertieren numerische Variablen in Faktoren markieren wir im folgenden Dialog G Konvertiere numerische Variablen in Faktoren Variablen eine oder mehrere ausw hlen Faktorstufen geschlecht A gewicht z Verwende Ziffern gr e Neuer Variablenname oder Pr fix f r mehrere Variablen lt gleich der Variablen gt om die Variable geschlecht und geben keinen neuen Variablennamen an so dass keine neue Variable entsteht sondern die vorhandene einen neuen Typ erh lt Um Wertbeschriftungen zu erm glichen w hlen wir die Faktorstufen Option Verwende Etiketten so dass nach dem Quittieren mit OK der folgende Dialog erscheint und die Definition von Etiketten er laubt G Level Stufen f r geschlecht Numerischer Wert Name der Faktorstufe 1 Frau 2 Mann ef OK 9G Abbrechen Im Script Fenster des Commanders wird der involvierte factor Funktionsaufruf protokolliert der aufgrund unserer Lernerfahrungen aus Abschnitt 5 3 4 7 leicht zu verstehen ist geetgeschlec
35. Argumenten f r die Funktion lines zu kommen wird ein neuer Vektor mit Werten im Bereich des Regressors erzeugt gt dfx lt data frame groesse seq 155 190 1 Auf den Vektor dfx groesse in der Datentabelle dfx wird das Modell aus den realen Daten ange wendet und die lines Funktion erh lt schlie lich 2 gleichlange Vektoren gt qmodGG lt Im gewicht groesse I groesse 2 gt lines dfx groesse predict qmodGG newdata dfx Mit Hilfe der Funktionen lines und lowess l sst sich eine lokal optimierte Modellprognose einzeich nen Im Beispiel steigt der technische Aufwand etwas weil die Vektoren groesse und gewicht jeweils einen NA Wert enthalten Alle unvollst ndigen F lle m ssen entfernt werden was mit einer neuen Daten tabelle und der subset Funktion siehe Abschnitt 7 5 gelingt gt daten lt data frame groesse gewicht gt daten lt subset daten is na groesse amp is na gewicht gt lines lowess daten gewicht daten groesse lty 2 col blue Das Ergebnis Regression von Gewicht auf Gr e 80 Gewicht 65 70 75 e 60 50 T T T T T T 160 165 170 175 180 185 Gr e Mit der Low Level Grafikfunktion abline kann man eine durch die Argumente a und b definierte Li nie zeichnen z B eine normative Regressionsgerade zur Idealgewichtsempfehlung Gr e 100 10 die in mathematischer Formulierung zu folgenden Koeffizienten f hrt
36. B 69 R Pakete und Syntax in SPSS Statistics verwenden gt is na dt alter 1 1 TRUE Bei einem mehrelementigen Objekt z B Vektor Matrix Datentabelle als Argument erh lt man ein strukturgleiches Ergebnisobjekt z B gt is na dt alter geschlecht 1 TRUE FALSE 2 FALSE FALSE 3 FALSE FALSE Uber die Funktion any kann man feststellen ob berhaupt Werte fehlen z B gt any is na dt 1 TRUE Die Anzahl fehlender Werte l sst sich mit der Funktion sum ermitteln weil die logischen Werte TRUE und FALSE intern als 1 und 0 gespeichert werden z B gt sum is na dt 131 Misslingt eine Berechnung z B 0 0 resultiert der Ersatzwert NaN Not a Number z B gt x lt 0 0 gt x 1 NaN Uber die Funktion is nan l sst sich berpr fen ob der Ersatzwert NaN vorliegt z B gt is nan x 1 TRUE In der Regel benimmt sich ein NaN wie NA und entsprechend liefert die Funktion is na auch beim Er satzwert NaN das Ergebnis TRUE gt is na x 1 TRUE Gelegentlich ist es sinnvoll sich auf die F lle mit einem vollst ndigen Datensatz zu beschr nken Von der Funktion na omit erh lt man die um F lle mit fehlenden Werten NA oder NAN bereinigte Variante einer Datentabelle z B gt dt lt dt lt data frame alter c 45 32 NA groesse c NaN 167 178 gt dt lt na omit dt gt dt alter groesse 2 32 167 Enth lt ein Vektor einen fehlenden Wert NA oder NaN lie
37. Bearbeiten Ansicht Daten Transformieren Einf gen Format Analysieren Direktmarketing Grafik Extras Fenster Hilfe EL ERS e BB Z022 B E Ausgabe JE Protokoll DATA LIST FREE age F4 income F8 2 car F8 2 employ F4 BEGIN DATA 55 72 36 20 23 56 153 76 90 35 28 28 13 70 4 END DATA BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS print casedata END PROGRAM age income car employ 135 72 36 2 23 2 56 153 76 9 35 3 28 28 13 7 4 IBM SPSS Statistics Prozessor ist bereit Unicode ON Deutsche Umlaute in Variablennamen oder Wertbeschriftungen machen bei der Daten bergabe an R kei nen Arger 4 1 2 Eine Auswahl von SPSS Variablen bergeben Um eine Auswahl der SPSS Variablen in der aktuellen Arbeitsdatei an R zu bergeben verwendet man in der R Funktion spssdata GetDataFromSPSS das Argument variables dem ein Vektor mit Variab lennamen zu bergeben ist Diesen Vektor bildet man in der Regel ber die R Funktion e Weil diese Funktion sehr oft ben tigt wird hat sie einen kurzen Namen erhalten wobei das c f r combine oder con catenate steht Die folgende Syntax BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS variables c age income car print casedata END PROGRAM liefert aufgrund der eben vorgestellten SPSS Arbeitsdatei die Tabelle Die Funktion print wird hier der Deutlichkeit halber explizit notiert Der Variablenname casedata gen gt eigentlich weil er von
38. Datenmatrix in SPSS Es ist eine Liste von Vektoren Faktoren und Matrizen die alle gleich lang sind Fast alle in einer SPSS Datendatei oder einer Textdatei zum Import in R bereitstehende Datens tze sind als Tabelle nach dem F lle x Variablen Prinzip aufgebaut d h e In einer Zeile stehen alle von einem Fall stammenden Daten e In einer Spalte steht eine Variable die f r jeden Fall einen Wert oder einen Indikator f r fehlende Werte enth lt In einem gr eren Forschungsprojekt werden eventuell mehrere Datentabellen ben tigt 5 3 4 7 1 Datentabelle erzeugen Man kann eine Datentabelle mit der Funktion data frame erstellen z B gt alter lt c 45 32 58 gt geschlecht lt factor c 1 1 2 gt dt lt data frame alter geschlecht 65 R Pakete und Syntax in SPSS Statistics verwenden gt dt alter geschlecht 1 45 1 2 32 1 3 58 2 Ein Vektor mit Elementen vom Typ character wird bei Aufnahme in eine Datentabelle per Voreinstel lung in einen Faktor umgewandelt z B gt augenfarbe lt c blau braun gr n gt dt lt data frame alter geschlecht augenfarbe gt str dt data frame 3 obs of 3 variables alter num 45 32 58 geschlecht Factor w 2 levels 1 2 11 2 augenfarbe Factor w 3 levels blau braun 1 2 3 Ist diese Wandlung unerw nscht kann sie folgenderma en verhindert werden e f r einen einzelnen character Vektor durch Schachteln in einen Aufruf d
39. Man verwendet eine stat Funktion und spezifiziert n tigenfalls das gew nschte Geom per geom Argument Das Resultat aus dem letzten Beispiel l sst sich auch so anfordern gt ggplot ggg aes x geschlecht y gewicht stat_summary geom bar fun y mean Ist eine statistische Transformation zu konfigurieren werden die f lligen Argumente f r die zust ndige Funktion z B stat_bin bei einer Klassenbildung an die generierende Geom Funktion z B geom_histogram bergeben und durchgeschleust z B gt ggplot ggg aes gewicht geom_histogram binwidth 10 Sollte unklar sein welche Argumente die zu einem Geom geh rige statistische Transformation unter st tzt kann man e per args Funktion die voreingestellte statistische Transformation des Geoms ermitteln siehe oben e und per Hilfesystem die Argumente der Transformationsfunktion anzeigen lassen z B stat_bin Gelegentlich muss man von einer statistischen Transformation gelieferte Variablen explizit ansprechen z B einem sthetischen Attribut zuweisen Das geschieht im folgenden Beispiel mit der Variablen densi ty welche von der bei geom_histogram voreingestellten Transformation stat_bin produziert wird vgl Abschnitt 9 3 4 1 Um Verwechslungen mit Dataframe Variablen zu vermeiden sind vor und hinter die Namen von Transformationsergebnissen jeweils zwei Punkte zu setzen Im folgenden Beispiel wird die Y Achsenwert auf das Transformationsergebnis density abgeb
40. My NCOs are interested in my personal welfare 10 AS16 numeric My officers are interested in what I think and feel about things 11 AS17 numeric My NCOs are intested in what I think and fell about things 12 AS28 numeric My chain of command works well 13 HRS numeric How many hours do you usually work in a day 14 RELIG numeric How often do you gain strength of comfort from religious beliefs Um ein Datenobjekt analysieren zu k nnen bef rdert man es mit einem data Aufruf in den Work space z B gt data bhr2808 7 2 Daten in Fremdformaten lesen und schreiben 7 2 1 Textdateien mit separierten Daten Eine Textdatei mit separierten Daten enth lt pro Fall eine Zeile in der alle Werte in einer festen Reihen folge stehen wobei sich zwischen zwei Werten ein Trennzeichen befindet In Abh ngigkeit vom Separa torzeichen unterscheidet man die Typen e Tabulator separierte Textdatei Typische Namenserweiterungen sind dat beim Erstellen durch SPSS und txt beim Erstellen durch Excel e Komma separierte Textdatei Trotz der Typbezeichnung verwenden SPSS und Excel beim Erstellen einer solchen Datei zu mindest in unseren Landen ein Semikolon als Trennzeichen weil das Komma als Dezimaltrenn zeichen ben tigt wird Als Namenserweiterung wird einheitlich csv verwendet Eine Datei mit separierten Daten enth lt oft in der ersten Zeile die Variablennamen so dass z B die in Abschnitt 6 2 1 vorgestellten Dat
41. R Pakete und Syntax in SPSS Statistics verwenden facet list of shrink logi TRUE a attr Class chr 142 null Prager plot_env lt environment R_GlobalEnv gt labels list of 2 x chr gr e s y chr gewicht e attr class j chr 1 2 ge geplat Es ist durchaus m glich einzelne Bestandteile dieser Liste z B die Achsenbeschriftungen zu modifizie ren gt sd labels x lt Gr e sd labels y lt Gewicht sd geom_point colour red size 3 und das Ergebnis auszugeben 80 Gewicht a i i 160 170 180 Gr e Wir lernen allerdings in Abschnitt 9 3 1 4 2 eine einfachere Methode zur nderung der Achsenbeschrif tungen kennen Weitere Beispiele f r Geome bzw generierende Funktionen e geom_histogram erstellt ein Histogramm e geom _ line erstellt einen Linienverlauf e geom_boxplot erstellt Boxplots f r die Kategorien eines Faktors e geom_text erstellt Beschriftungen z B zu den Datenpunkten eines Streudiagramms Auf der Webseite http docs ggplot2 org current werden zur Version 0 9 3 1 von ggplot2 37 Geome be schrieben Ein Diagramm muss mindestens eine Schicht ein Geom enthalten und kann beliebig komplex aufgebaut sein Man verwendet den Operator um Schichten zu erg nzen 9 3 1 2 Aesthetics Ein Geom besitzt visuelle Attribute sogenannte Aesthetics die jeweils auf eine Variable oder auf einen konstanten Wert abgebildet werden Das G
42. Syntax in SPSS Statistics verwenden 9 1 5 R Diagramme im SPSS Ausgabefenster Es ist selbstverst ndlich m glich R Diagramme per SPSS Syntaxfenster zu erstellen und im Abschnitt 9 2 werden wir von dieser M glichkeit mehrfach Gebrauch machen Im folgenden Beispiel wird mit Funktionen aus dem traditionellen Grafiksystem von R ein Histogramm mit Dichtesch tzung zu einer Variablen der SPSS Arbeitsdatei erstellt BEGIN PROGRAM R data lt spssdata GetDataFromSPSS hist data aergo freq FALSE breaks 18 col grey main Histogramm mit Dichte ylab Dichte xlab rger lines density data aergo col red lwd 2 END PROGRAM Das Ergebnis landet im SPSS Ausgabefenster ta Ausgabe2 Dokument2 IBM SPSS Statistics Viewer Datei Bearbeiten Ansicht Daten Transformieren Einf gen Format Analysieren Direktmarketing Grafik Extras Fenster Hilfe ahar De a 843 00 FARD E 2 BB ZDS Ge El Ausgabe BEGIN PROGRAM R D SE data lt spssdata GetDataFromspss Bi Titel hist dataSaergo freq FALSE breaks 10 col grey main Histogranm mit Dichte EN Anmerkungen ylab Dichte xlab Arger il RGraphic lines density data aergo col red lwd 2 END PROGRAM gt RGraph Histogramm mit Dichte IBM SPSS Statistics Prozessor ist bereit Unicode ON und kann von dort via Windows Zwischenablage in andere Anwendungen z B Word weiterbef rde
43. Vektor a 5 3 3 Funktionen R besitzt eine gro e Zahl von eingebauten Funktionen die sich durch Zusatzpakete oder eigene Definiti onen noch beliebig erweitern l sst Damit kann man e mathematische und insbesondere auch statistische Operationen anfordern e Diagramme erstellen e Datenverarbeitungsaufgaben erledigen 50 R Pakete und Syntax in SPSS Statistics verwenden R betrachtet Funktionen als modifizierbare Datenstrukturen Eine R Funktion kann andere Funktionen ver ndern oder auch neu erstellen Details finden sich in der R Sprachbeschreibung R Development Core Team 2014 5 3 3 1 Regeln f r den Aufruf von Funktionen Die Argumente von Funktionsaufrufen werden als Wertargumente behandelt d h die Funktion erh lt eine Kopie des Arguments und funktionsintern vorgenommenen Ver nderungen bleiben ohne Effekt auf den Aufrufer Beim Funktionsaufruf sind Positions und Namensargumente m glich e Wird die Argumentreihenfolge der Definition eingehalten kann man die Werte ohne Namen hin tereinander durch Kommata getrennt angeben e Paare aus dem Argumentnamen einem Gleichheitszeichen und dem zugeh rigen Wert d rfen in beliebiger Reihenfolge auftreten Man darf die Argumentnamen abk rzen solange Eindeutigkeit besteht sollte aber dabei auf die Lesbarkeit achten e Namentlich bedachte Argumente gelten als versorgt und werden nicht mehr ber cksichtigt wenn die unbenannten Werte des Funktionsaufrufs in der Reihenfolge ihre
44. Weisberg 1985 und 4 n z B Gor don 2010 S 367 genannt wobei wohl die zweite strengere Grenze herangezogen werden sollte In unse rem Beispiel ergibt sich der Grenzwert 0 08 den der kritische Fall 25 deutlich tiberschreitet Das ausgelassen studentisierte Residuum von 3 441 fiir Fall 25 deutet auf einen ernst zu nehmenden Ausrei er hin zur Definition der ausgelassen studentisierten Residuen siehe z B Baltes G tz 2014a Ab schnitt 1 7 2 2 25 44 T Studentized Deleted Residual Entfernt man den Fall 25 aus der Analyse liefert die OLS Regression ein deutlich verschiedenes Ergeb nisbild Modellzusammenfassung Korrigiertes R Standardfehler R Quadrat Quadrat des Sch tzers a Einflu variablen Konstante x 20 R Pakete und Syntax in SPSS Statistics verwenden Koeffizienten Nicht standardisierte Standardisierte Koeffizienten Koeffizienten Konfidenzintervall f r B 95 0 t Si B Standardfehler ig 1 Konstante 289 477 606 548 670 1 248 x 1 122 480 323 2 339 024 157 2 087 a Abh ngige Variable y Die SPSS Erweiterung zur robusten Regression ist verf gbar ber den Men befehl Analysieren gt Regression gt Robuste Regression und verwendet die Funktion rlm aus dem R Paket MASS Dabei w hlt SPSS von den verf gbaren ro busten Sch tzmethoden den so genannten biquadratischen Sch tzer engl bisquare estimator der fol gende Gew
45. dem Webserver der Universit t Trier von der Startseite http www uni trier de ausgehend fol genderma en zu finden ZIMK Rechenzentrum gt Infos f r Studierende gt EDV Dokumentationen gt Statistik gt R Pakete und Syntax in SPSS Statistics verwenden Kritik und Verbesserungsvorschl ge zum Manuskript werden dankbar entgegen genommen z B unter der Mail Adresse baltes uni trier de Trier im April 2015 Bernhard Baltes G tz R Pakete und Syntax in SPSS Statistics verwenden 1 Einleitung R ist eine freie Programmierumgebung fiir Datenanalyse und Grafik dt Ubersetzung des Untertitels von Venables et al 2014 die als Implementation der statistik orientierten Programmiersprache S Chambers 1998 entstanden ist Dank einer von IBM SPSS unter dem Namen R Essentials gelieferten Integrationsl sung kann R von SPSS Statistics aus genutzt werden z B e zur Verwendung der zahlreichen Analysefunktionen in R Paketen So werden Analyseoptionen zug nglich die in SPSS fehlen z B robuste Regression polychori sche Korrelation Rasch Itemanalyse e zur Realisation von Algorithmen in der Programmiersprache R Dabei ist es problemlos m glich Variablen aus einem SPSS Datenblatt in einen R Data Frame zu ko pieren und in R Funktionen ber ihre SPSS Namen anzusprechen Die mit R erzeugten Ergebnisse k nnen wiederum an SPSS bergeben werden e Ausgaben Normale R Ausgaben landen als Text im SPSS Ausgabefenster Durch Verwe
46. dem Wert 1 erh lt man Gitterlinien 121 R Pakete und Syntax in SPSS Statistics verwenden e labels Mit diesem Zeichenketten Vektor kann man die Teilstrichbeschriftungen festlegen Unterl sst man es kommen die Werte im Vektor at zum Einsatz e las Sollen bei einer senkrechten Achse side gleich 2 oder 4 die Teilstrichbeschriftungen parallel zur Achse Wert 0 oder orthogonal zur Achse Wert 1 geschrieben werden e pos Per Voreinstellung landet eine Achse am Rand des Ausgaberechtecks siehe linkes Beispiel Dichte der Standardnormalverteilung Dichte der Standardnormalverteilung Mit dem Argument pos l sst sich der Schnittpunkt mit der orthogonalen Achse festlegen was im rechten Beispiel f r die Y Achse geschehen ist pos 0 9 2 3 2 2 Linienz ge erg nzen mit der Funktion lines Mit der Funktion lines f gt man zus tzliche Linienz ge ein wobei die Daten Argumente x und y und der Linientyp Argument lty genauso konfiguriert werden wie bei der plot Funktion Als Plot Typ Argument type ist bei der lines Funktion der meist passende Wert I voreingestellt Die folgenden Anweisungen Ex lt 1 55 y lt c 2 4 5 4 5 4 y2 lt gt 3 3 4 4 3 gt plot x y type 1 lwd 2 gt lines x y2 col red lty 2 lwd 2 produzieren dieses Diagramm KS vi 122 R Pakete und Syntax in SPSS Statistics verwenden Bei einem Streudiagramm siehe Abschnitt 9
47. der Abstand zwischen den Y Werten 1 und 2 10 20 3 0 KEE 10 15 20 25 3 0 Neben ihren eigenen Argumenten versteht die Funktion plot auch viele generelle Grafikparameter sie he Abschnitt 9 2 2 z B zur Anderung der Zeichenfarbe mit dem Argument col gt plot x y col red Statt fiir alle Datenpunkte dieselbe Farbe zu verwenden kann man dem Argument col einen Vektor tiber geben der f r jeden Datenpunkt eine eigene Farbe enth lt siehe Abschnitt 9 2 4 2 3 9 2 3 2 Erg nzende Low Level Grafikfunktionen Zur Erg nzung zur plot Ausgabe kommen u a die folgenden Low Level Grafikfunktionen in Frage 9 2 3 2 1 Achsengestaltung mit der Funktion axis Um eine spezielle Achsengestaltung zu erreichen schaltet man die Standardvariante ber das plot Ar gument xaxt bzw yaxt ab siehe Abschnitt 9 2 3 1 und erstellt mit der axis Funktion ein individuelles Exemplar wobei neben generellen Grafikparametern siehe Abschnitt 9 2 2 folgenden Argumente ver f gbar sind e side ber eine Zahl wird der Erscheinungsort der Achse festgelegt 1 unten 2 links 3 oben 4 rechts at Ein numerischer Vektor mit den Positionen f r die Teilstriche z B axis side 1 at 0 25 e tek ber einen Anteil der Zeichenfl chengr e legt man die L nge der Teilstriche fest wobei positive Werte auf der Innenseite und negative Werte auf der Au enseite der Achse erscheinen Vorein stellung 0 02 Mit
48. der globalen Umgebung befindet Mit der Funktion detach l sst sich eine Datentabelle wieder aus dem Suchpfad entfernen z B gt detach dt Es ist zu beachten dass attach Kopien der Variablen erzeugt so dass sich Schreibzugriffe nicht auf die Originale auswirken Wollschl ger 2010 S 126 z B gt dt lt data frame alter c 45 32 58 geschlecht factor c 1 1 2 gt attach dt gt alter 1 45 32 58 gt alter 1 lt 99 gt alter 1 99 32 58 gt dt alter 1 45 32 58 Die Kopien persistieren auch nach der detach Anweisung z B gt detach dt gt alter 1 99 32 58 68 R Pakete und Syntax in SPSS Statistics verwenden Wegen des gro en Fehlerrisikos warnen viele R Kenner vor der attach Funktion z B Bliese 2013 S 11 Muenchen 2011 S 422ff Wenn in einem Funktionsaufruf mehrere Variablen aus einer Datentabelle angesprochen werden m ssen kann die with Funktion eine Vereinfachung bewirken Im folgenden Aufruf der hist Funktion zur Erstellung eines Histogramms f r eine Teilstichprobe vgl Abschnitt 9 2 4 5 stammen die Variablen x und treat aus der Datentabelle dtlongname gt with dtlongname hist x treat 0 Im Vergleich zur alternativen Schreibweise gt hist dtlongname x dtlongname treat 0 ist allerdings nur ein kleiner Einspareffekt festzustellen Der with Rahmen muss f r jeden Funktions aufruf wiederholt werden und tr gt durch das zus tzliche Klammernpaar n
49. dieser Funktionen und damit ber die unterst tzten Ausgabeformate informiert die R Hilfe nach der Anweisung gt device Bei R 2 15 3 erscheint unter Windows die folgende Ger teliste e windows The graphics device for Windows on screen to printer and to Windows metafile e pdf Write PDF graphics commands to a file e postscript Writes PostScript graphics commands to a file e xfig Device for XFIG graphics file format e bitmap bitmap pseudo device via Ghostscript if available e pictex Writes TeX PicTeX graphics commands to a file of historical interest only e cairo_pdf cairo_ps PDF and PostScript devices based on cairo graphics e svg SVG device based on cairo graphics e png PNG bitmap device e jpeg JPEG bitmap device e bmp BMP bitmap device e tiff TIFF bitmap device W hrend das erste Ger t in dieser Liste zur Ausgabe in ein Grafikfenster siehe Abschnitt 9 1 2 taugt sind die anderen Ger te jeweils mit einer Datei verbunden 112 R Pakete und Syntax in SPSS Statistics verwenden Das in der obigen Liste fehlende Ger t zur Direktausgabe in eine Datei vom Typ Enhanced Windows Metafile EMF wird zumindest in der Windows Version von R durch die Funktion win metafile be reitgestellt 9 1 2 Grafikfenster Bei Verwendung der RGui Bedienoberfl che ist das voreingestellte Ausgabeger t ein Grafikfenster das beim ersten Aufruf einer Grafikfunktion automatisch initialisiert wird Als Beispiel erstellen wir mit dem tradi
50. gel scht wird Zur L sung des Problems sollten Sie vor der Installation eines Erweiterungsbundles jeweils eine benutzereigene Windows Umgebungsvariable f r Erweiterungskommandos und benutzerdefiniere Dialo ge von SPSS definieren ber Systemsteuerung gt Benutzerkonten gt Benutzerkonten gt Eigene Umgebungsvariablen ndern Als Namen sind f r diese Umgebungsvariablen sind zu verwenden e SPSS_EXTENSIONS_PATH e SPSS_CDIALOGS_PATH Zu jeder Umgebungsvariablen ist ein bereits existenter Ordner anzugeben wobei ein Ordner auf Ihrem pers nlichen Laufwerk U verwendet werden sollte weil dieses Laufwerk auf jedem Pool PC verf gbar ist z B e U Eigene Dateien SPSS Extensions e U Eigene Dateien SPSS CustomDialogs Wenn Sie anschlie end ein Erweiterungsbundle installieren landen das Erweiterungskommando und das benutzerdefinierte Dialogfeld in den vereinbarten Ordnern und stehen auf jedem Pool PC zur Verf gung Aus der benutzerbezogenen Installation der Bundles 14 R Pakete und Syntax in SPSS Statistics verwenden e PROPOR mit Erweiterungskommando und benutzerdefiniertem Dialog e RRegDiagGraph mit benutzerdefiniertem Dialog ohne Erweiterungskommando entstanden der folgende Ordner mit den Bundle Dateien und dem Erweiterungskommando JL U Eigene Dateien SPSS Extensions Datei Bearbeiten Ansicht Extras Neuer Ordner Organisieren z Brennen a Name Anderungsdatum Typ 1 PROPOR J RRegDiagG
51. gre amp o o oe Bo loco P 1 007700 amp BS o 3 5 o o de o O88 OB g o 007 2 9 Do o o o S o 1 004 o 2 00 T T T T T 00 1 00 2 00 3 00 4 00 xt In R erlaubt die jitterQ Funktion einen einstellbaren Verwacklungsgrad 131 R Pakete und Syntax in SPSS Statistics verwenden BEGIN PROGRAM R data lt spssdata GetDataFromSPSS plot jitter data xt 4 jitter data yt 4 main Streudiagramm mit Jitter xlab xt ylab xt END PROGRAM und die plot Funktion liefert mit den so behandelten Daten ein besser interpretierbares Bild Streudiagramm mit Jitter o 9 o o o oo o 7 og o o N a o S o o o o o oO o o o o o o 08 D oo o o o o o R S o 6 op 9 S E o o o oo D o o o oo o o oo Po e o o o o o Ka o at o o o o a2 o D o o o o o o 8 o o CH o xt 9 2 4 2 6 Farbliche Dichtedarstellung bei groBen Stichproben Sind sehr viele Datenpunkte vorhanden ist ein Streudiagramm auch bei Wahl von winzigen Markierun gen nicht ideal z B 6 007 4 007 2 007 007 2 004 4 00 Die R Standardgrafik bietet f r diesen Fall mit der Funktion smoothScatter eine zumindest sthetisch interessante Alternative wobei die Wahrscheinlichkeitsdichte durch die Farbintensit t ausgedr ckt wird z B 132 R Pakete und Syntax in SPSS Statistics verwenden smoothScatter data y 0 dataSx Das Beispiel wurde ber ein SPSS Syntaxfenste
52. im Erscheinungsbild eines Diagramms kontrollieren z B Schriftarten und Farben von Texten Man kann e das Standard Theme komplett durch eine Alternative ein anderes Einstellungspaket ersetzen e und oder einzelne Elemente eines Themes modifizieren 9 3 1 7 1 Themes im Ganzen ggplot2 besitzt eingebaute Themen die per Funktionsaufruf zu w hlen sind In der Version 1 0 0 sind vor allem zu nennen e theme_grey Dieses Theme mit einem grauen Hintergrund und wei en Gitterlinien ist voreingestellt z B 151 R Pakete und Syntax in SPSS Statistics verwenden count e dergo e theme_bw Dieses Theme mit einem wei en Hintergrund und grauen Gitterlinien liefert ein eher traditionelles Design z B a count r T T 3 6 9 aergo Uber weitere Themes informiert die mit gglpot2 angeforderte Hilfeseite unter dem Stichwort ggtheme Um ein Theme auf ein einzelnes Diagramm anzuwenden addiert man es zum Plot Objekt z B gt histo theme_bw Um ein Theme f r alle im weiteren Verlauf einer R Sitzung angefertigten ggplot2 Diagramme zu w h len verwendet man die Funktion theme_set welche das bisherige Theme als R ckgabe liefert so dass eine sp tere Wiederherstellung m glich ist gt actTheme lt theme_set theme_bw Den Funktionen zur Theme Auswahl ist gemeinsam dass mit den Argumenten base_size bzw base_family f r die Beschriftungen eine Basisgr e und eine Schriftartenfamilie gew hlt werd
53. in SPSS Statistics verwenden sep Zwischen Anf hrungszeichen kann das gew nschte Trennzeichen angegeben werden wobei ins besondere in Frage kommen o t Tabulatorzeichen o oder Um eine CSV Datei zu erzielen verwendet man in Abh ngigkeit vom Dezimaltrennzei chen zum Separieren das Komma oder das Semikolon dec Per Voreinstellung verwendet R in der Ausgabedatei den Punkt als Dezimaltrennzeichen Ist das Komma gew nscht setzt man den Parameter dec auf den Wert na Bei fehlenden Werten schreibt R per Voreinstellung NA in die Exportdatei ber das Argumetn na l sst sich ein alternativer Ersatzwert vereinbaren z B eine leere Zeichenfolge durch row names Per Voreinstellung gibt R die Zeilenbeschriftungen aus verzichtet aber in der einleitenden Zeile auf einen zugeh rigen Variablennamen Beim Einlesen durch Fremdprogramme kommt es daher oft zu einer falschen Zuordnung der Variablennamen oder zu einem Fehler Um dieses Problem zu vermeiden verzichtet man in der Regel auf die Ausgabe der Zeilenbeschriftungen und setzt das Argument row names auf den Wert FALSE quote Per Voreinstellung begrenzt R die Variablennamen und die Werte von Faktoren durch Anf h rungszeichen Dies l sst sich mit dem Wert FALSE f r das Argument quote verhindern Um die Datentabelle ggg gt 888 geschlecht gr e gewicht 1 Mann 186 82 0 2 Mann 178 72 0 13 Mann 176 NA in eine e Textdatei im aktuellen Arbeitsverzeichnis e mit Tabulator getre
54. libPaths zeigt gt libPaths 1 C Users baltes Documents R win library 2 15 2 C Program Files R R 2 15 3 library In dieser Lage kann man zur Installation die Funktion install packages benutzen und ber das Argu ment lib den Installationsort bestimmen z B gt install packages irr lib C Program Files R R 2 15 3 library Eine weitere M glichkeit die Paketinstallation in der allgemeinen Bibliothek zu erzwingen besteht darin den pers nlichen Bibliotheksordner vor bergehend vor dem Start von R durch Umbenennen zu deakti vieren Bei der automatisch ablaufenden Installation werden auch Abh ngigkeiten von anderen Paketen ber ck sichtigt wie die Konsolen Protokollausgabe zum Beispiel zeigt Bitte einen CRAN Spiegel f r diese Sitzung ausw hlen Warnung in install packages NULL libPaths 1L dependencies NA type type lib C Program Files R R 2 15 3 library ist nicht schreibbar also installing the dependency lpSolve versuche URL http ftp5 gwdg de pub misc cran bin windows contrib 2 15 1pSolve_5 6 7 zip Content type application zip length 678055 bytes 662 Kb URL ge ffnet downloaded 662 Kb versuche URL http ftp5 gwdg de pub misc cran bin windows contrib 2 15 irr_8 84 zip Content type application zip length 94601 bytes 92 Kb URL ge ffnet downloaded 92 Kb Paket lpSolve erfolgreich ausgepackt und MD5 Summen abgeglichen Paket irr erfolgrei
55. load bef rdert man das in einer Datei befindliche Datenobjekt in den Workspace einer sp teren Sitzung gt load Daten RData Eine bequeme M glichkeit zum ffnen einer RData Datei besteht darin die Datei per Drag amp Drop vom Fenster des Windows Explorers auf das Fenster der R Konsole zu bewegen 5 1 4 Konfigurationsoptionen Diverse Verhaltensmerkmale von R lassen sich ber die Funktion options beeinflussen Ein Funktions aufruf ohne Argumente hat eine l ngliche Auflistung s mtlicher Optionen zur Folge bergibt man eine Option als Zeichenfolgen Argument erf hrt man den aktuellen Wert z B gt options digits digits 1 7 Um die meisten Optionen muss man sich wegen sinnvoller Voreinstellungen nicht k mmern Anschlie Bend werden Optionen vorgestellt bei denen sich eine Anderung lohnen k nnte Soll eine Einstellungs nderung bei jedem R Start g ltig sein f gt man den zugeh rigen options Aufruf in eine Initialisie rungsdatei ein siehe Abschnitt 5 1 5 Genauigkeit der Ergebnisausgabe Per Voreinstellung werden Berechnungsergebnisse mit 7 Stellen Genauigkeit angezeigt z B gt log 2 1 8 6931472 Uber das Argument digits der Funktion options l sst sich eine alternative Anzeigegenauigkeit einstel len z B 41 R Pakete und Syntax in SPSS Statistics verwenden gt options digits 15 gt log 2 1 8 693147180559945 Automatisch geladene Pakete Alle R Funktionen befinden sich in Pak
56. utern k nnen z B die Argumente lty pch und col gemeinsam verwendet werden Das oben erstellte Liniendiagramm erh lt durch den folgenden Funktionsaufruf gt legend 3 95 2 5 title Parameter legend c Terodose Altapie lty c 1 2 col c black red eine Legende 123 R Pakete und Syntax in SPSS Statistics verwenden Parameter Terodose Altapie T T T T T 1 2 3 4 5 In Abschnitt 9 2 4 2 3 wird f r ein gruppiertes Streudiagramm eine Legende zur Erl uterung von Symbo len erstellt Gruppen Frau Mann Nach Erweiterung dieses Streudiagramms um gruppenspezifische Regressionsgeraden werden in der Le gende zu jeder Gruppe ein Symbol und eine Linie angezeigt Gruppen Frau Mann Nach dem Kommando gt legend liefert die R Hilfe zahlreiche weitere Details zur Legendenbildung 9 2 4 Wichtige Diagrammtypen 9 2 4 1 Liniendiagramm Wenn sich bei einem plot Aufruf alle Punkte auf einer Linie befinden und das type Argument einen passenden Wert erh lt z B 1 gt x lt 155 y lt 2 4 5 45 2 gt plot x y type 1 col red lwd 2 dann resultiert ein Liniendiagramm z B 124 R Pakete und Syntax in SPSS Statistics verwenden 4 5 l 4 0 3 0 l 2 5 9 2 4 2 Streudiagramm In diesem Abschnitt nutzen wir die Funktion plot dazu Streudiagramme zu erstellen Z
57. vielen Beitragenden Tippen Sie contributors f r mehr Information und citation um zu erfahren wie R oder R packages in Publikationen zitiert werden k nnen Tippen Sie demo f r einige Demos help f r on line Hilfe oder help start f r eine HTML Browserschnittstelle zur Hilfe Tippen Sie q um R zu verlassen Vorher gesicherter Workspace wiederhergestellt gt x lt c 1 2 3 gt mean x 1 2 gt Bei einer Windows Version mit 64 Bit Architektur steht das RGui als 32 oder 64 Bit Anwendung bereit Mittlerweile ist auch die 64 Bit Version ausgereift und sollte in der Regel bevorzugt werden Hier ist die Startmen gruppe zu R 2 15 3 zu sehen Wr a R2 15 3 Help R R386 2153 R R642153 Die im RGui blichen Farben f r Eingaben rot und Ausgaben blau werden auch im Manuskript ver wendet 38 R Pakete und Syntax in SPSS Statistics verwenden Weil im Konsolenfenster der RGui Bedienoberfl che s mtliche Eingaben und R Antworten protokolliert werden ist gelegentlich sinnvoll per Kontextmenii oder mit dem Tastenbefehl Strg L fiir eine leere R Konsole zu sorgen 5 1 1 Arbeitsverzeichnis In einer R Sitzung dient das Arbeitsverzeichnis engl working directory als Voreinstellung beim Lesen und Schreiben von Dateien Initial ist es identisch mit dem aktuellen Verzeichnis beim Start von R Startverzeichnis Startet man das RGui ber seine Verkn pfung im Startmen h ngt das d
58. w hlt das Item Stopp aus dem Kontextmen zum Grafikfenster 9 2 4 2 5 Jitter Darstellung Das folgende mit SPSS erstellte Streudiagramm zeigt zwei deutlich miteinander korrelierte metrische Variablen 4 007 o o o o g H o o o e 8 o 2 o 200 o 00 2 007 Ga S o 2 EES oo o oO o o 90 00 o 20 o O o o O o o oo o e o o O oo gt o ao 6 EN o o o 3g o o 007 o o 2 o o e 9 o o 000 e o 2 007 6 T T T 00 1 00 2 00 3 00 4 00 5 00 Sind statt der metrischen Variablen nur vergr berte Messungen vorhanden mit wenigen Auspr gungen vgl Abschnitt 3 3 dann ergeben sich im Streudiagramm zahlreiche mehrfach besetzte Punkte und die Interpretation ist erschwert z B 130 R Pakete und Syntax in SPSS Statistics verwenden 3 007 o o o 2 007 o o o o 1007 o o o o 5 07 o o o o 1 007 2 007 T T T T T 00 1 00 2 00 3 00 4 00 xt Der Zusammenhang wird etwas deutlicher wenn die Farbintensit t der Punkte von der H ufigkeit ab h ngt Skala EY 15 CA 3 004 2 004 o 1 004 1 004 2 1004 Bei der Jitter Technik zur L sung des Problems addiert man kleine Zufallsschwankungen zu den Be obachtungswerten um die Punkte auseinander zu ziehen In SPSS ist diese Technik mit Hilfe der GPL Syntax realisierbar doch l sst sich der Jitter Grad nicht einstellen so dass im Beispiel kein gro er Nutzen entsteht oO oo o 3 007 o o o 8 2 004 8 Ko
59. zahlreich vorhandenen Sch tz und Testmethoden f r univariate Verteilungen vorzustellen 8 1 1 Univariate Verteilungsbeschreibung f r metrische Variablen 8 1 1 1 Kompakte Verteilungsbeschreibung Von der Funktion summary erh lt man f r die Stichprobe in einem Vektor das Minimum das Maxi mum das 1 2 und 3 Quartil sowie den Mittelwert Im folgenden Beispiel werden die se Statistiken f r eine per rnorm siehe Abschnitt 7 4 1 1 generierte Zufallsstichprobe aus einer normalverteilten Popu lation ermittelt gt summary rnorm 1 3 2 Min 1st Qu Median Mean 3rd Qu Max 2 649 2 126 3 287 34336 4 515 8 401 8 1 1 2 Statistische Funktionen f r numerische Vektoren Statistische Funktionen f r numerische Vektoren e min max Die Funktionen min bzw max liefert das kleinste bzw gr te Element z B mintet1 2 3 5 fi 2 gt max c 1 2 3 5 1 5 e sum Liefert die Summe der Elemente z B gt sum c 1 2 3 5 EL 21 e mean Liefert das arithmetische Mittel der Elemente z B gt mean c 1 2 3 5 fa 2 75 105 R Pakete und Syntax in SPSS Statistics verwenden e median Liefert den Median der Elemente z B gt median c 1 2 3 5 D 2 5 e var und sd Diese Funktionen liefern die Varianz bzw Standardabweichung einer Stichprobe z B gt Varel 1 2 3 5 4 5 2 3 1 4 5 7 8 2 3 4 2 3 8 1 4 508772 Sd cl1 2 5 5345 2 3 1 2 5 7 8 2 3 4 2 3 8 1 2 123387 e quantile Liefert per Vor
60. 1 7 6 01 PET 2 5 SA a1 71 Residual standard error 0 03247 on 1 degrees of freedom Multiple R squared 0 9989 Adjusted R squared 08 9978 F statistic 918 8 on 1 and 1 DF p value 0 02109 Analoge Unterschiede im Ausgabeumfang von print und summary zeigen sich bei der Funktion mean Der Klarheit halber ist diesmal der print Aufruf explizit notiert gt maus lt mean y gt print maus 1 2 625219 gt summary maus Min 1st Qu Median Mean 3rd Qu Max 2 625 2 625 2 625 2 625 2 625 2 625 In der unterschiedlichen Behandlung der beiden Ausgabeobjekte erzeugt per Im bzw mean zeigt sich die Generizit t der summary Funktion Im Grunde dient die summary Funktion nur dazu auf grund des Argumenttyps die im Hintergrund tats chlich auszuf hrende Funktion zu w hlen 80 R Pakete und Syntax in SPSS Statistics verwenden 5 6 Eigene Funktionen Als einfaches Beispiel fiir die Entwicklung von statistischen Algorithmen mit R soll eine Funktion na mens pCor erstellt werden die f r zwei numerische Vektoren x und y die folgenderma en definierte Pearson Korrelation berechnet Cov x y Var x Var y r x y Bei der Definition kommt man dank der n tzlichen Operatoren und Funktionen in R mit drei Anweisun gen aus siehe Abschnitt 8 1 1 2 zu den Funktionen mean und sum pCor lt function x y XZ lt x mean x yz lt y mean y c cor sum xz yz sum xz 2 sum yz 2
61. 2 1 1 EIN 1 74 R Pakete und Syntax in SPSS Statistics verwenden 5 3 7 2 Vergleichsoperatoren Bei den Symbolen fiir die Vergleichsoperatoren in R ist vor allem zu beachten dass der Identit tsoperator wie in den Programmiersprachen C und Java durch zwei Zeichen ausgedriickt wird gleich i verschieden lt kleiner oder gleich lt kleiner gt gr er gt gr er oder gleich Beispiel gt a lt c 1 2 3 gt b lt c 1 4 5 gt a lt b 1 FALSE TRUE TRUE Beim Identitatstest fiir Gleitkommazahlen m ssen technisch bedingte Abweichungen von der reinen Ma thematik ber cksichtigt werden z B gt 0 1 10 0 9 9 1 FALSE Hier hilft die Funktion all equal gt all equal 1 18 8 9 9 1 TRUE 5 3 7 3 Logische Operatoren Die folgenden logischen Operatoren wirken elementweise nicht amp und oder Beispiel gt a lt c 1 3 5 za az Lach 1 FALSE TRUE FALSE Bei elementweisen logischen Operationen mit einem Vektor von Wahrheitswerten als Ergebnis kann man e ber die Funktion all pr fen ob alle Ergebniselemente gleich TRUE sind z B gt allla gt 1 amp a lt 5 1 FALSE e ber die Funktion any pr fen ob mindestens ein Ergebniselement gleich TRUE ist z B gt any a gt i1 amp a lt 5 1 TRUE Ist man an den Indexpositionen der TRUE Werte interessiert hilft die Funktion which weiter z B gt which a gt 1 amp a lt
62. 2 4 2 kann die lines Funktion z B dazu dienen eine lokal optimierte Modellprognose einzuzeichnen gt lines lowess daten gewicht daten groesse lty 2 col blue 9 2 3 2 3 Legenden bilden mit der Funktion legend Wenn ein Diagramm mehrere Linien oder mehrere Datengruppen Symbole enth lt ist eine Legende zur Erl uterung der Linien bzw Gruppen empfehlenswert Die daf r zust ndige Low Level Funktion le gend kennt u a die folgenden generellen Argumente unabh ngig vom Grafiktyp e X y Die Koordinaten der linken oberen Ecke des Legendenrahmens Statt ber ein x y Zahlenpaar kann man den Ort auch ber ein Schl sselwort aus der folgenden Liste als x Wert festlegen bottomright bottom bottomleft left topleft top n n topright right center e title Eine Zeichenfolge mit dem Titel der Legende e legend Zeichenfolgen Vektor mit den Etiketten zu den Linien bzw Symbolen Sollen Linien erl utert werden die sich nach Typ St rke und oder Farbe unterscheiden sind folgende Argumente zu verwenden e ity Ein Vektor mit den Linientypen e lwd Ein Vektor mit den Linienst rken e col Ein Vektor mit den Linienfarben Sollen Datengruppen erl utert werden die sich nach Symbol und oder Farbe unterscheiden sind folgende Argumente zu verwenden e pch Ein Vektor mit den Symbolen e col Ein Vektor mit den Linienfarben Um Datengruppen und Linien gemeinsam in einer Legende zu erl
63. 22552 Bellio R amp Ventura L 2005 An Introduction to Robust Estimation with R Functions Online Dokument abgerufen 17 11 2013 http www dst unive it rsr BelVenTutorial pdf Bliese P D 2013 Multilevel Modeling in R 2 5 A Brief Introduction to R the multilevel package and the nlme package Online Dokument abgerufen 07 11 2014 http cran r project org doc contrib Bliese_Multilevel pdf Chambers J 1998 Programming with Data A Guide to the S Language New York Springer Chang W 2013 R Graphics Cookbook 2 ed Beijing O Reilly Cohen R 2013 Extension Bundles from IBM SPSS Online Dokument abgerufen 30 11 2014 https www ibm com developerworks community files form anonymous api library b5bb8a42 04d2 4503 93bb dc45d7a145c2 document 1d445b76 d706 44a6 85bf 9e3738d223a4 media Extension 20Bundles 20from 20IBM 20SPSS pdf Field A 2012 Discovering Statistics Using R London SAGE Publications Fox J 2002 Robust Regression Online Dokument abgerufen am 21 01 2011 http cran r project org doc contrib Fox Companion appendix robust regression pdf Fox J 2005 The R Commander A Basic Statistics Graphical User Interface to R Journal of Statistical Software 14 9 1 42 Fox J amp Weisberg S 2011 An R Companion to Applied Regression 2 ed Thousand Oaks SAGE Publications Fox J amp Bouchet Valat M 2013 Getting Started With the R Commander Online Dokument abger
64. 25 ses cee ies E 76 Body Mass Index 95 BOM Sequenz 89 Bootstrap Stichprobe s sssssssesesessssreerereseseresrsrsrsreersrsrsrsrerenenes 99 boxplot 0 129 breaks 131 Bre sch Pagan Test anna in a Ne 21 car R Paket cbind character ee reiste eerie aia Chiquadratverteilte Zufallszahlen seseseseseeeeeeseeerersreeerereseses 96 citation el EEN NEE ee DE 59 colors Comprehensive R Archive Network 43 48 CRAIN er near aR eigen 43 48 Data Collection Data Entre 82 Data NIT 28 64 data frame EE 64 Datenblatt 2 RE On Ee EE 54 E EE 55 density 130 dependeniciess lu ER nasse 83 E CR EE 66 dev cur dev list AS dev set une 110 Deztmaltrennzeichen nsr r nEn TE RREO TE Ra 48 Dichtelinien 10 1 110 E NOT EEN Dreipunktargument Dynamische Typisierung ccceeceeseeeeceseeeceeseceeeeaeeneeeaeeeeeaes 52 E Ee EE 77 edit 81 85 e Mt adil ele Mal he ede ia lian abs iad he 89 md Uiatasteptt geen dette ei i gens enee iere ER Enhanced Windows Metafile SN Erweiterungsbundle rssi e i A ss 8 10 Erweterungskommandos 7 52 211111 0 es Eeer Eege e 47 R Pakete und Syntax in SPSS Statistics verwenden IS EE 145 factor rn areas hak lee as ee ees factorMode Faktor seis eae a a ea A AAA ATATA Fallauswahl Farbe Farben Fehlende EE reese AE F
65. 9 Schreiben intel innen aes 91 UU EE 148 theme_bw 147 theme_grey ae theme Sekt eisen dust suenendehlerene 147 R Pakete und Syntax in SPSS Statistics verwenden Trans paren Zwert c cic ccessessessscsiesssostsescoottestseaseseestnas EENS dE 113 RE e Trellis Grafiken LE KEEN U UNION rear Reese ees 174 Oe UR 174 Oe E EE 45 update views 45 use value labels 1 nscenstesiiseestesiseesstetigenesiten 93 Vv KOCH 141 KC BEE 101 Nanablennamen ee oseireorerinesessssrnene siiin tinner essre i 48 KE EE 53 Vereinigung von Mengen eessessesessersessrsersessesrisessesresessesesees 174 Vergleichsopera f ten uu 2en ea Bea 73 Verkettungsfunktion ssesessseeesesssesssisseestsrsrsrsrsreresesesrersirseeees 50 KI EE 163 W Waagerechte Balken 166 Wertatzumente snn essre ie tiini eege WANO 2 3 r a e E Wiederholungsanweisung WIN MEtAfIle EE windowsFonts cccsccceesseccesssecceseecessseccesssecceeseecessseecessseees WIth wee WME Workspace Write CSV2 O enana este igual eer X XDA sapere see E EE 143 KIMO DEE 142 Y DEA OE L E E A E te ee 143 yim tege RRE E A E A E seine 142 Z Zitieren von Paketen ioen nee 45 Zufallszahlen Binomialverteilung 0 0 0 neiii 97 Chiquadratverteilung 00 eee eseceeeseeseeeceeceeenesseeaeeeeeeeeees 96 Norimal verter Unig eko edel Aa E R ois 96 VZusammenfassungsfunkttonen 167 168 Zuweisungsoperatoren
66. 9 3 1 7 2 m glich ist gt gsd geom_smooth method 1m geom_point size 3 labs x Gr e y Gewicht theme legend position none Wie man die Attribute einzelner Geome aus der Legende fernh lt wurde in Abschnitt 9 3 1 4 beschrie ben Im Beispiel kann man auch durch eine doppelte Verzichtserkl rung f r das komplette Verschwinden der Legende sorgen gt gsd geom_smooth method 1m show_guide FALSE geom_point size 3 show_guide FALSE labs x Gr e y Gewicht Im folgenden Kommando nach einem Vorschlag von Field 2012 S 141 werden die Konfidenzzonen Geschlechts abh ngig gef rbt und au erdem mit einem st rkeren Transparenzgrad versehen gt gsd geom_point size 3 geom_smooth method 1m aes fill geschlecht alpha 1 labs x GroBe y Gewicht Ergebnis 156 R Pakete und Syntax in SPSS Statistics verwenden Geschlecht Frau e Mann Gewicht Gr e Wenn sich die gruppenspezifischen Anpassungsfunktionen kaum unterscheiden kommt eine gemeinsame Anpassungsfunktion in Frage wobei es aber in der Regel trotzdem sinnvoll ist die Gruppen farblich zu unterscheiden Sobald auf Plot Ebene dem sthetischen Attribut colour eine Variable zugewiesen ist besteht eine Gruppierung die sich auch auf das Gl ttungs Geom auswirkt Um dies zu verhindern muss im geom_smooth Aufruf das sthetische Attribut group auf den konstanten Wert 1 abgebildet wer den gt gsd geom_s
67. ALSE breaks seq 5 5 0 5 col lightgoldenrod3 main BG xlab ylab Dichte lines density g1 col red lwd 2 par mfrow c 1 1 END PROGRAM Wegen der identischen Klassendefinitionen Argument breaks wird der Behandlungseffekt gut sicht bar KG 2 O CH E S N Qo 2 S l T T T 4 2 0 2 4 BG Dichte 00 02 04 4 2 0 2 4 Am Ende wird der Grafikparameter mfrow wieder auf seinen Standardwert c 1 1 zuriickgesetzt In SPSS l sst sich mit dem Kommando GRAPH HISTOGRAM NORMAL y PANEL ROWVAR treat ROWOP CROSS ein analoges Diagramm erstellen wobei die Dichtesch tzung eine Normalverteilung voraussetzt 137 R Pakete und Syntax in SPSS Statistics verwenden addnubjjosjuoy H ufigkeit addn s unjpueyag ddn 9 Als alternative Darstellung zum Vergleich von zwei Histogrammen bietet die Diagrammerstellung von SPSS die Populationspyramide an treat Kontrollgruppe Behandlungsgruppe 4 00 2 00 4 00 6 00 4 00 2 00 2 00 4 00 T T T 30 0 20 0 10 0 0 0 H ufigkeit 9 2 4 6 Funktionsplots T 10 0 T 20 0 H ufigkeit 30 0 Mit der High Level Grafikfunktion curve kann man den Graphen einer Funktion von einer Ver nderli chen plotten z B den Sinus im Intervall 0 27 gt curve sin
68. Dialoge mitgeliefert z B zum automatischen Erstellen der Kodier variablen zu einem Faktor Men befehl Transformieren gt Dummy Variablen erstellen Sollten Sie bei der Installation von SPSS Statistics 22 auf die Python Option verzichtet haben k nnen Sie deren Installation so nachholen e Installationsprogramm zu SPSS Statistics 22 erneut starten unter Windows 64 SPSS_Statistics_22_win64_ exe e Im Dialog Programmverwaltung w hlen Programm ndern e Im Dialog IBM SPSS Statistics Essentials for Python der Installation zustimmen 2 1 2 R Essentials Die R Essentials zu SPSS Statistics 22 werden ber die folgende Webseite angeboten http www ibm com developerworks spssdevcentral Hier ist der Link Downloads for IBM SPSS Statistics zu w hlen Auf dem weiteren Weg zum Download besteht die Firma IBM auf einer Registrierung Als Erg nzung zu SPSS Statistics 22 mit FixPack 1 auf einem Windows System mit 64 Bit Architektur erh lt man z B die folgende Installationsdatei SPSS_Statistics_REssentials_22 0 FP1_win64 exe 10 R Pakete und Syntax in SPSS Statistics verwenden In dem auf derselben Webseite unter dem Titel Installation Instructions for Windows angebotenen Ar chiv SPSS_Statistics_REssentials_Installation_Documents_22_win zip findet sich die folgende PDF Datei mit Installationshinweisen Essentials for R Installation Instructions pdf In den R Essentials zu SPSS Statistics 22 sind enthalten e Das R Inte
69. Ein sthetisches Attribut kann auf einen festen Wert abgebildet werden z B die Form von x y Daten punkten gt sd geom_point shape 3 Weit wichtiger f r den intendierten Zweck eines Diagramms ist es jedoch sthetische Attribute auf zu visualisierende Variablen abzubilden Dazu ist die Funktion aes zu verwenden die als Argumente eine Liste von Aesthetic Variable Zuordnungen erh lt wobei auch Funktionen von Variablen erlaubt sind Im folgenden Beispiel erzeugt die Funktion geom_smooth zu einem gruppierten Streudiagramm eine Schicht mit Anpassungsfunktion und Konfidenzstreifen wobei die F llfarbe von der Variablen geschlecht abh ngig gemacht wird w hrend der Transparenzgrad datenunabh ngig festgelegt wird gt sd geom_point geom_smooth method 1m aes fill geschlecht alpha 8 1 W hrend die konstante Wertzuweisung nur f r Schichten bzw Geome m glich ist kann die Variablen gebundene via aes realisierte Zuweisung auf eine Schicht oder das gesamte Plot Objekt angewendet werden H ufig arbeiten die Geome zu den Schichten eines Diagramms mit der voreingestellten auf Plot Ebene vereinbarten Datentabelle und den dazu definierten Abbildungen von Attributen Aesthetics auf Variab len Es ist jedoch erlaubt dass ein Geom eine eigene Datentabelle mit eigenen Aesthetics Abbildungen verwendet 9 3 1 3 Statistische Transformationen F r eine Schicht bzw das dort pr sentierte Geom kann eine statistische T
70. Hintergrund verwendet wird Der folgenden Tabelle nach Hain 2011 S 67 ist zu entnehmen welche Einstellungen bzgl e der Einf hrungszeile mit Variablennamen Argument header e des Separatorzeichens Argument sep e und des Dezimaltrennzeichens Argument dec mit den verschiedenen Funktionen verbunden sind t steht f r das Tabulatorzeichen Funktion header sep dec read table FALSE read csv TRUE I read csv2 TRUE Inn read delim TRUE t n read delim2 TRUE t Weil das Merkmal Geschlecht in den Beispieldateien numerisch kodiert war ist beim Einlesen ein nume rischer Vektor entstanden der durch die folgende Anweisung in einen Faktor gewandet werden sollte gt ggg geschlecht lt factor ggg geschlecht labels c Frau Mann gt 888 Das Ergebnis geschlecht gr e gewicht 1 Mann 186 82 0 2 Mann 178 72 0 13 Mann 176 NA 7 2 1 2 Schreiben Zum Zweck der Kooperation mit anderen Programmen ist es oft sinnvoll die Variablen einer R Datentabelle in eine Textdatei mit separierten Daten zu bef rdern weil dieses Dateiformat von praktisch jeder Statistik Software gelesen werden kann Zust ndig ist die R Funktion write table die als erstes Argument den Namen der Datentabelle und als zweites Argument den Namen der Zieldatei erwartet H ufig werden au erdem die Argumente mit den folgenden Namen ben tigt 94 R Pakete und Syntax
71. Importfunktion mit dem Argument row names dar ber informieren in welcher Eingabe spalte sich die Fallbezeichnungen befinden So gt setwd U Eigene Dateien R gt ggg lt read delim2 gggNr dat header TRUE fileEncoding UTF 8 BOM row names nr gt 888 erhalten wir das angestrebte Ergebnis geschlecht gr e gewicht 1 2 186 82 0 2 2 178 22 8 13 2 176 NA Beim Lesen der CSV Variante der Eingabedaten inkl Fallidentifikationsvariable nr nr geschlecht gr e gewicht 1 2 186 82 2 2 178 72 352 182 75 5 4 1 160 65 5 1 168 66 6 1 76 7313105355 8 2 179 76 5 9 1 158 50 5 10 2 175 80 11 1 176 62 13525176 ersparen wir uns den UTF 8 Arger verwenden also eine Textdatei mit ANSI Kodierung Als R Funktion verwenden wir read csv2 wobei die 2 am Ende des Funktionsnamens signalisiert dass ein Komma als Dezimaltrennzeichen und ein Semikolon als Separatorzeichen erwartete werden Im folgen 93 R Pakete und Syntax in SPSS Statistics verwenden den Kommando verwenden wir unser Wissen tiber die Zeilenbezeichnungsvariable und kommen gleich im ersten Versuch gt ggg lt read csv2 U Eigene Dateien R gggNr csv header TRUE row names nr gt 888 zum gewiinschten Ergebnis geschlecht gr e gewicht 1 2 186 82 0 2 a 178 72 8 13 2 176 NA Die im aktuellen Abschnitt vorgestellten Funktionen zum Lesen von Textdateien stellen Aufrufvereinfa chungen f r die Funktion read table dar die jeweils im
72. Konkre tisierungen zu ersetzen if Logischer Ausdruck Anweisung Die Anweisung wird nur dann ausgef hrt wenn der logische Ausdruck den Wert TRUE besitzt Beispiel gt if a gt 1 b lt log a 5 3 8 2 if else Anweisung Soll auch dann etwas passieren wenn der steuernde logische Ausdruck den Wert FALSE besitzt erwei tert man die if Anweisung um eine else Klausel if Logischer Ausdruck Anweisung 1 else Anweisung 2 Beispiel gt if a gt 1 b lt log a else b lt 1 12345 71 R Pakete und Syntax in SPSS Statistics verwenden 5 3 8 3 Wiederholungsanweisungen Durch eine for Schleife sorgt man daf r dass eine Anweisung wiederholt ausgef hrt wird wobei in der Anweisung eine Schleifenvariable Var auftritt die beim i ten Schleifendurchgang das i te Element eines Objekts als Wert annimmt for Var in Objekt Anweisung Beispiel gt sq lt Di a lt c 4 7 8 gt for i in a sq lt sq i 2 gt sq 1 129 In R kann und sollte man Schleifen weitgehend vermeiden um eine elegante und performante Program mierung zu erhalten Auch die for Schleife im letzten Beispiel l sst sich leicht ersetzen gt sq lt sum a 2 gt sq 1 129 Die Funktion sum addiert die Elemente eines Vektors siehe Abschnitt 8 1 1 2 5 3 8 4 Blockanweisung Speziell bei bedingten Anweisungen oder Wiederholungsanweisungen ist es oft niitzlich aus mehreren Einzelanw
73. PSS Statistics verwenden gt 1 3 4 1 7 76 e Logischer Indexvektor Durch einen Indexvektor mit dem Modus logical werden alle Indexelemente mit den Wert TRUE ausgew hlt z B gt t lt c TRUE TRUE FALSE FALSE FALSE Sylt DI 72 Im folgenden Beispiel werden mit Hilfe des Modulo Operators vgl Abschnitt 5 3 7 1 die Ele mente mit geradzahligem Wert gew hlt gt viv 2 1 54 76 ber eine Wertzuweisung an den Indexvektorausdruck lassen sich die ausgew hlten Elemente ndern Im folgenden Beispiel werden die negativen Werte eines Vektors auf 0 gesetzt gt v lt c 1 3 5 7 2 gt v v lt lt 8 gt v 1 03502 Enth lt ein logischer Indexvektor NA Werte sollte er durch die Funktion which siehe Abschnitt 5 3 7 3 in einen numerischen Indexvektor berf hrt werden Wollschl ger 2010 S 38 which liefert einen Vektor mit den Indexpositionen der TRUE Werte im Argumentvektor z B gt daten lt data frame alter c 45 55 NA 58 geschlecht factor c 1 2 1 2 gt indLog lt Daten alter gt 50 1 FALSE TRUE NA TRUE gt indNum lt which indLog 1 2 4 ber den logischen Indexvektor gelingt es im Beispiel nicht eine Datentabelle mit den Positivf llen zu extrahieren gt Daten indLog alter geschlecht 2 55 2 NA NA lt NA gt 4 58 2 Mit der which Riickgabe wird dieses Ziel hingegen erreicht gt Daten indNum alter geschlecht 2 55 2 4 58 2 W
74. Paketbiindel findet sich hier http cran r project org web views Um Task Views nutzen zu k nnen muss zun chst das R Paket ctv CRAN Task Views installiert werden 5 2 5 Pakete entladen Ein zuvor per library geladenes Paket kann per detach wieder entladen werden z B gt detach package MASS 46 R Pakete und Syntax in SPSS Statistics verwenden 5 2 6 Pakete zitieren Wenn eine Ver ffentlichung auf R Paketen basiert sollte der Urheber aus Respekt vor seiner geistigen Leistung und zur Orientierung des Lesers angegeben werden Mit der Funktion citation erf hrt man wie ein R Paket zitiert werden muss z B gt citation MASS Im Beispiel stellen sich mit W N Venables und B D Ripley zwei herausregende F rderer der R Entwicklung als Autoren heraus To cite the MSS package in publications use Venables W N amp Ripley B D 2882 Modern Applied Statistics with S Fourth Edition Springer New York ISBN 0 387 95457 0 5 3 Elementare Eigenschaften der Programmiersprache R 5 3 1 Hilfe und Dokumentation 5 3 1 1 Hilfe aufrufen Die HTML Startseite der R Hilfe d EE Google http 127 0 0 1 19906 doc htm inde ht Fe The R Language l Statistical Data Analysis CSS Manuals An Introduction toR The R Language Definition Writing R Extensions R Installation and Administration R Data Import Export R Internals Reference Packages Search Engine amp Keywords Miscellaneous Material
75. R Programms BEGIN PROGRAM R library MASS casedata lt spssdata GetDataFromSPSS huber lt rlm formula y x data casedata results lt summary huber spsspivottable Display results coefficients title Koeffizienten format formatSpec GeneralStat END PROGRAM erhalten wir als Ausgabe die folgende Pivot Tabelle Koeffizienten Intercept 221 530 418 x 886 507 1 747 Statistische Auswertungsfunktionen in R organisieren ihre Ausgabe in der Regel als Liste mit Kompo nenten unterschiedlichen Typs Wir behandeln diesen flexiblen R Datentyp in Abschnitt 5 3 4 6 Um zu 34 R Pakete und Syntax in SPSS Statistics verwenden erfahren welche Komponenten in einer Listenausgabe vorhanden und fiir die Wandlung in eine Pivot Tabelle verfiigbar sind kann man die str Funktion verwenden z B str results Im Beispiel hat sich herausgestellt dass results eine Komponente namens coefficients enth lt Die se Komponente wird in obigem spsspivottable Display Aufruf als erstes Argument verwendet Ihm folgen ein frei w hlbarer Titel und die Formatangabe formatSpec GeneralStat die in den meisten F llen zu einem sinnvollen Ergebnis f hrt 4 3 SPSS Variablen mit R erstellen Das folgende Programm nach Levesque 2011 S 347 berechnet f r eine SPSS Variable mit Hilfe der R Funktion mean den Mittelwert aller F lle und erstellt in SPSS ein um die Mittelwertsvariable erweiter tes Datenblatt
76. R als impliziter Aufruf der Funktion print verstanden wird 29 R Pakete und Syntax in SPSS Statistics verwenden age income car 1 55 72 36 2 2 56 153 76 9 3 28 28 13 7 In R ist die Gro Kleinschreibung signifikant und muss auch bei SPSS Variablennamen beachtet wer den Daher w rde das folgende Kommando zu einem Fehler f hren casedata lt spssdata GetDataFromSPSS variables c Age income car Hingegen besteht einige syntaktische Freiheit beim Verfassen der Variablenliste so dass folgende Varian ten erlaubt sind a Eine gemeinsame Zeichenfolge mit Leerzeichen zwischen den Variablennamen casedata lt spssdata GetDataFromSPSS variables c age income car b Mit dem Schl sselwort TO bildet man eine Liste von Variablen die in der Arbeitsdatei dem aktiven Datenblatt hintereinander stehen casedata lt spssdata GetDataFromSPSS variables c age to car Beim Schl sselwort TO ist die Gro Kleinschreibung beliebig Selbstverst ndlich d rfen mit TO gebil dete Sequenzen zusammen mit Einzelvariablen aufgelistet werden c Anstelle der Namen kann man die Positionen der Variablen im SPSS Datenblatt angeben casedata lt spssdata GetDataFromSPSS variables c 1 2 Es ist zu beachten dass die Elemente mit 0 beginnend nummeriert werden d Bei einer Liste von aufeinanderfolgenden Positionen ist der R Sequenzoperator erlaubt siehe Ab schnitt 5 3 4 2 1 casedata lt spssdata GetDataFromSPSS variables
77. SPSS results casedata Am Ende der Datenblatt Erstellung sollte die Funktion spssdictionary EndDataStep aufgerufen wer den Das Ergebnis Die voreingestellte Wandlung w re f r die weitere Verarbeitung im konkreten Beispielprogramm kein Problem doch sollte generell die Struktur einer R Datentabelle zur Aufbewahrung von SPSS Variablenattributen respektiert werden Im Hinblick auf den Abschnitt 5 3 4 7 soll darauf hingewiesen werden dass im Beispiel auf das explizite Benennen der neuen Variablen in der R Datentabelle verzichtet wird so dass eine automatische Namensvergabe stattfindet Das Ergebnis verr t der R Funktionsaufruf str casedata data frame 4 obs of 2 variables salary num 1234 mean casedata salary num 2 5 2 5 2 5 2 5 36 R Pakete und Syntax in SPSS Statistics verwenden fa Unbenannt4 results IBM SPSS Statistics Dateneditor Datei Bearbeiten Ansicht Daten Transformieren Analysieren Direktmarketing Grafik Extras Fenster Hilfe BS a Sichtbar 2 von 2 Variablen IBM SPSS Statistics Prozessor ist bere Unicode ON Mit der Mittelwertsbildung wurde ein m glichst einfaches Beispiel gew hlt um die Erstellung von SPSS Variablen durch R zu demonstrieren Diese Aufgabe ist mit SPSS internen Mitteln einfacher zu l sen AGGREGATE OUTFILE MODE ADDVARIABLES meansal MEAN salary Es kann sich aber leicht die Situation ergeben dass z
78. Schichten e Die erste Balkenschicht erh lt keine Rahmenfarbe e Die zweite Balkenschicht erh lt die gew nschte Rahmenfarbe wird aber mit dem folgenden geom_bar Argument von der Legendenbildung ausgeschlossen show_guide FALSE Leider verschwindet aber auch die Umrahmung der Legendenelemente Geschlecht Frau Mann Im Beispiel f hrt der Trick zum folgenden Aufruf gt ggplot kfa long aes kfa value fill geschl geom_bar stat summary fun y mean position position_dodge geom_bar stat summary fun y mean position position_dodge colour black show_guide FALSE 9 3 4 4 Liniendiagramme Wir erstellen zun chst eine Linienvariante des in Abschnitt 9 3 4 3 3 vorgestellten Balkendiagramms mit dem Messwiederholungsfaktor KFA Mittlerer rger i 1 Ohne Mit KFA 176 R Pakete und Syntax in SPSS Statistics verwenden Im Schichtenaufbau werden zun chst mit geom_point zwei Punkte zur Darstellung der beiden Mittel werte ausgegeben wobei wie auf der Schicht mit dem Geom line die statistische Transformation sum mary mit der Zusammenfassungsfunktion fun y zum Einsatz kommt gt ggplot kfa long aes x kfa y value geom_point stat summary fun y mean size 5 geom_line stat summary fun y mean aes group 1 size 1 geom_errorbar stat summary fun data mean_cl_normal width 0 5 size 1 colour gray50 labs x KFA y Mittlerer Arger n Im Aufruf von geom_line ist die Abbildung des
79. Syntax in SPSS Statistics verwenden gt i Haufigkeit e Arger Uber die Funktion geom_density kann man die univariate Verteilung einer metrischen Variablen durch eine geschatzter Dichtefunktion beschreiben lassen gt dichte lt ggplot kfa aes aergo gt dichte geom_density labs x rger y Dichtesch tzung Im Beispiel resultiert eine M tze 0 10 Dichtesch tzung 8 10 Ss Wird im Aufruf der Geom Funktion das sthetische Attribut fill auf einen konstanten Farbwert gesetzt gt dichte geom_density fill lightblue size 1 labs x Arger y Dichtesch tzung geht es etwas bunter zu 164 R Pakete und Syntax in SPSS Statistics verwenden 0 10 Dichteschatzung 0 05 D 1 2 4 8 10 ER Im Beispiel wird au erdem die Linienst rke ber das Attribut size erh ht Zur Steuerung des Gl ttungsgrads besitzt die Funktion geom_density das Argument adjust mit dem Voreinstellungswert 1 Mit dem alternativen Wert 0 5 gt dichte geom_density adjust 0 5 fill lightblue size 1 labs x Arger y Dichteschatzung wird im Beispiel aus der Miitze eine Tiersilhouette Dichteschatzung gt EN 1 6 8 10 Arger 1 2 Im folgenden Beispiel basierend auf einer Anregung aus Chang 2013 S 125f wird dem Histogramm eine Dichtesch tzung berlagert Von den Variablen welche die bei geom_histogram voreingestellte Transformation stat_bin produziert verwe
80. Universitat Trier Zentrum fiir Informations Medien und Kommunikationstechnologie ZIMK Trier den 01 04 2015 B Baltes Gotz R Pakete und Syntax in SPSS Statistics verwenden R Pakete und Syntax in SPSS Statistics verwenden Inhalts bersicht INHALTS BERSICHT VORWORT 1 EINLEITUNG 2 SPSS FUNKTIONSERWEITERUNGEN AUF R BASIS INSTALLIEREN 2 1 Python und R Essentials 2 1 1 Python Essentials 2 1 2 R Essentials 2 2 Erweiterungsbundles 2 2 1 Inhalt 22 2 Erstellung 2 2 3 Installation 2 3 Benutzerdefinierte Dialoge 2 3 1 Inhalt 2 3 2 Erstellung 2 3 3 Installation 3 ERWEITERUNGSBUNDLES IN DEN R ESSENTIALS 3 1 Robuste Regression 3 2 Breusch Pagan Heteroskedastizit ts Test 3 3 Polyseriale und polychorische Korrelationen 3 4 Tobit Regression 4 R FUNKTIONEN BER DAS SPSS SYNTAXFENSTER NUTZEN 4 1 SPSS Variablen an R bergeben 4 1 1 Ubergabe der kompletten Arbeitsdatei 4 1 2 Eine Auswahl von SPSS Variablen bergeben 4 1 3 Variablen in einer R Datentabelle ansprechen 4 1 4 Persistenz und L schen von R Objekten 4 1 5 Kategoriale SPSS Variablen als Faktoren an R bergeben 4 1 6 Indikatoren f r fehlende Werte 4 2 R Auswertungsfunktionen verwenden und Ausgaben im SPSS Viewer anzeigen 4 3 SPSS Variablen mit R erstellen 5 R ALS STATISTIKORIENTIERTE PROGRAMMIERUMGEBUNG 18 22 23 25 5 1 R Pakete und Syntax in SPSS Statistics verwenden RGui zur direkten Interaktion mit R 5 1 1 Arbei
81. a GetDataFromSPSS die im R Paket spss220 enthalten ist kann man in R leicht auf die Variablen der SPSS Arbeitsdatei zugreifen Im folgenden Beispiel aus Levesque 2011 S 341 werden alle Variablen der Arbeitsdatei bertragen amp Variablen von SPSS an R bergeben sps IBM SPSS Statistics Syntaxeditor Datei Bearbeiten Ansicht Daten Transformieren Analysieren Direktmarketing Grafik Extras Ausf hren Tools Fenster Hilfe DATA LIST FREE age F4 income F8 2 car F8 2 employ F4 BEGIN DATA 55 72 36 20 23 56 153 76 90 35 28 28 13 704 a END PROGRAM BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS print casedata OIEND PROGRAM IC LO OD SS OO amp WN L m z 2 gt gt el maa ZZ IBM SPSS Statistics Prozessor ist bereit Unicode ON In 12 Col 0 28 R Pakete und Syntax in SPSS Statistics verwenden In R resultiert ein so genannter Data Frame deutsch Datentabelle vgl Abschnitt 5 3 4 7 der einem SPSS Datenblatt weitgehend entspricht Der Data Frame wird mit dem Operator lt der R Variablen man sagt auch dem R Objekt casedata zugewiesen Uber die R Funktion print kann man die in einer Datentabelle vorhandenen Variablen aus geben las sen Im Beispiel erh lt man im SPSS Ausgabefenster eine Protokollausgabe der SPSS und R Kommandos sowie das print Ergebnis ta Ausgabe1 Dokument1 IBM SPSS Statistics Viewer Datei
82. ability and Agreement DO e DESCRIPTION file Help Pages agree Simple and extended percentage agreement anxiety Anxiety ratings by different raters bhapkar Bhapkar coefficient of concordance between raters diagnoses Psychiatric diagnoses provided by different raters Finn coefficient for oneway and twoway models Cohen s Kappa and weighted Kappa for two raters kappam_fleiss Fleiss Kappa for m raters kappam light Light s Kappa for m raters kendall Kendall s coefficient of concordance W Documentation for package irr version 0 84 Intraclass correlation coefficient ICC for oneway and twoway models iota coefficient for the interrater agreement of multivariate observations Durch einen Klick auf ihren Namen erh lt man eine Beschreibung der Funktion kappam fleiss Firefox Se C hitp 127 0 0 1 31397 library irr html kappam fleiss html 8 Google e m AN R R Fleiss Kappa for m raters be kappam feiss irr Fleiss Kappa for m raters Description Kappas could be computed Usage kappam fleiss ratings exact FALSE detail FALSE Arguments ratings n m matrix or dataframe n subjects m raters exact a logical indicating whether the exact Kappa Conger 1980 or the Kappa described by Fleiss 1971 should be computed detail a logical indicating whether category wise Kappas should be computed Details Missing data are omitted in a
83. acettierung wobei die Ge samtstichprobe nach einer oder nach mehreren Variablen aufgespalten und f r jede Teilstichprobe ein Diagramm mit allen Schichten erstellt wird Um die Anordnung der einzelnen Diagramme zu kontrollieren stehen zwei Facettierungs Funktionen zur Verf gung e facet_wrap Diese Funktion produziert eine Sequenz von Diagrammen die per Zeilenumbruch auf der recht eckigen Ausgabefl che angeordnet werden Meist gibt man nur eine steuernde Variable an e facet_grid Diese Funktion erlaubt es durch zwei steuernde Variablen eine Anordnungsmatrix zu definieren Im folgenden Beispiel gt ggplot ggg aes gr e gewicht geom_point facet_wrap geschlecht wird ein einfaches Streudiagramm vgl Abschnitt 9 3 2 mit den Variablen gr e und gewicht defi niert wobei die Funktion facet_wrap daf r sorgt dass separate Diagramme f r Frauen und M nner die Stufen des Faktors geschlecht erstellt werden vgl die einfache Variante in Abschnitt 9 3 1 1 150 R Pakete und Syntax in SPSS Statistics verwenden Frau Mann 807 x gewicht 50 I 160 170 180 160 170 180 gr e Um das Anordnungsdesign zu definieren gibt man im Argument von facet_wrap eine Tilde und an schlie end die steuernde Variable an Ausf hrliche Informationen zur Facettierung sind im Kapitel 7 von Wickham 2009 zu finden 9 3 1 7 Themes ber das Themes System von ggplot2 lassen sich Daten unabh ngige Aspekte
84. afikfunktionen z B plot von Interesse sind Die folgende Liste eignet sich weniger zum Studieren als zum Nachschlagen col Die Zeichenfarbe kann ber einen Farbnamen oder einen RGB Wert aus drei Hexadezimalzahlen von 00 bis FF optional erg nzt durch einen Transparenzwert im selben Wertebereich festgelegt werden z B gt boxplot x col red gt boxplot x col ff0000 Rot gt boxplot x col ff000080 Rot halb transparent ber die Funktion colors erh lt man einen Vektor mit den 657 verf gbaren Farbnamen col axis col lab col main col sub Mit diesen Parametern wird die Farbe f r bestimmte Bestandteile eines Diagramms gew hlt Teil strichbeschriftungen col axis Achsenbeschriftungen col lab berschriften erster und zweiter Ordnung col main col sub bg Mit dem Parameter bg wird die Hintergrundfarbe f r ein Ausgabeger t gesetzt Voreinstellung f r bg ist Wei Einige Grafikfunktionen z B points haben ein Argument mit demselben Namen aber unterschiedlicher Bedeutung fg Mit dem Parameter fg wird die Vordergrundfarbe gesetzt Geschieht dies in einer Grafikfunktion sind vor allem Achsen und Rahmen betroffen Geschieht es in einem part Aufruf wird der Pa rameter col auf denselben Wert gesetzt Voreinstellung f r fg ist Schwarz family Mit diesem Parameter w hlt man eine Schriftfamilie Generell verf gbar sind Familienname Unter Windows abgebildet auf mono TT Couri
85. alternative M glichkeit zur Fallauswahl bietet der in Abschnitt 5 3 6 3 beschriebene logische In dexvektor z B gt dtf lt dt dt ges f Beim Indexzugriff auf eine Datentabelle muss hinter dem logischen Ausdruck f r die Auswahl der Zeilen auf jeden Fall ein Komma stehen Dann kann optional z B ein numerischer Vektor mit Spaltennummern zur einschr nkenden Wahl der Variablen folgen siehe Abschnitt 7 5 2 7 5 2 Auswahl von Variablen Bei einer gro en Datentabelle kann es sich lohnen die bei einer Auswertung tats chlich ben tigten Vari ablen in eine reduzierte Datentabelle zu extrahieren Weil R alle geladenen Datenobjekte komplett im Hauptspeicher des Computers h lt ist bei einer gro en Anzahl von F llen das Entfernen von irrelevanten Variablen sinnvoll Die in Abschnitt 7 5 1 beschrieben Funktion subset erm glicht erg nzend zur bzw anstatt einer Fal lauswahl ber das Argument select auch eine Variablenauswahl Im ersten Beispiel findet ausschlie lich eine Variablenauswahl statt die ber einen Index vektor erfolgt gt dt12 lt subset dt select c 1 2 Im zweiten Beispiel finden eine Fall und eine Variablenauswahl statt Zur Variablenauswahl dient ein logischer Ausdruck wobei mit Hilfe der Funktion grepl alle Variablen mit einer bestimmten Teilzei chenfolge im Namen ausgew hlt werden gt dtf lt subset dt ges f select grepl e names dt Auch beim Indexzugriff auf eine Datentabelle ist ein
86. as Startver zeichnis vom Feld Ausf hren in des Eigenschaftsdialogs zur Verkn pfung ab z B IR Eigenschaften von R x64 2 15 3 Sicherheit Details Vorgangerversionen Allgemein Verkn pfung Kompatibilit t R Rx64 2 15 3 Anwendung x64 agram Files R R 2 15 3 bin x64 Rgui exe Ausf hren in C Users baltes Documents Tastenkombination Keine Ausf hren Nomales Fenster Kommentar Dateipfad ffnen Anderes Symbol Erweitert Man kann in der R Konsole das aktuelle Arbeitsverzeichnis mit der Funktion getwd ermitteln z B gt getwd 1 C Users baltes Documents Um das Arbeitsverzeichnis zu wechseln kann man den RGui Men befehl Datei gt Verzeichnis wechseln oder die R Funktion setwd verwenden z B gt setwd U Eigene Dateien R Weil in R wie in vielen anderen Programmiersprachen der R ckw rts Schr gstrich als Einleitungszei chen f r Escape Sequenzen reserviert ist z B n f r den Zeilenwechsel muss bei Windows Pfadan gaben ersatzweise ein doppelter R ckw rts Schr gstrich oder ein Vorw rts Schr gstrich verwendet wer den Mit der Funktion dir fordert man eine Liste der Dateisystemobjekte im Arbeitsverzeichnis an gt dir 5 1 2 Workspace und Anweisungsged chtnis Die in einer Sitzung erzeugten Objekte z B Vektoren und Datentabellen landen im so genannten Work space Mit der Funktion Is kann man sich die Objekte im Workspace aufl
87. asedata END PROGRAM dann resultiert bei fehlenden Werten von numerischen SPSS Variablen in der R Datentabelle der Wert NA Not Available numvar strvar 1 NA A 2 7 lt NA gt 3 NA B Der MD Indikator NA f r die Variable strvar wird durch eckige Klammern begrenzt weil die Variable alphanumerische Kategorien Labels besitzt und keine Textbegrenzungszeichen f r die Ausgabe angefor dert wurden z B mit print casedata quote TRUE 32 R Pakete und Syntax in SPSS Statistics verwenden In der Regel werden in R bei numerischen Variablen die beiden Werte NA und NaN gleich behandelt und die Funktion is na liefert f r beide Werte ein TRUE Wer gezielt auf den Wert NaN pr fen will hat die R Funktion is nan zur Verfiigung die bei NaN ein TRUE und bei NA ein FALSE liefert 4 2 R Auswertungsfunktionen verwenden und Ausgaben im SPSS Viewer anzeigen In Abschnitt 3 1 haben wir per SPSS Erweiterungskommando eine robuste Regressionsanalyse mit der R Funktion rlm aus dem Paket MASS durchgef hrt und dabei den biquadratischen M Sch tzer akzeptiert den SPSS in der Erweiterungsprozedur verwendet Wer stattdessen Hubers M Sch tzer bevorzugt kann in einem R Syntax Block die Variablen der SPSS Arbeitsdatei an R bergeben und die R Funktion rim direkt verwenden die per Voreinstellung mit dem M Sch tzer arbeitet BEGIN PROGRAM R library MASS casedata lt spssdata GetDataFromSPSS huber lt rlm y x data casedata
88. aten lt data frame alter c 45 55 NA 58 geschlecht factor c 1 2 1 2 gt daten 1 alter geschlecht 1 45 1 Die von Datentabellen bekannte Notation zur Auswahl von Spalten Variablen gt Daten alter 1 45 55 NA 58 klappt bei Matrizen mit benannten Spalten nicht z B gt v1 lt c 1 2 3 gt v2 lt c 4 5 6 gt m lt cbind v1 v2 gt m an 1 1 2 2 41 3 gt m v1 Fehler Fehler in m v1 operator is invalid for atomic vectors v2 4 5 6 Auf folgende Weise lassen sich vorhandene Spaltenlabel bei Matrizen aber doch zur Spaltenauswahl nut zen gt m y1 1 123 5 3 6 3 Indexvektoren ber ein Vektor Argument f r den allgemeinen Index Operator w hlt man eine Teilmenge der Ele mente e ineinem Vektor e inden Zeilen oder Spalten einer Matrix e in einer Datentabelle e in einer Liste Als Indexvektor sind u a erlaubt e Numerischer Indexvektor Durch einen Vektor mit ausschlie lich positiven Eintr gen werden die Elemente mit den entspre chenden Indexwerten ausgew hlt z B gt v lt 2 11 7 13 594 76 gt v c 1 3 4 4 11 13 54 Im n chsten Beispiel wird per Sequenzoperator ein Indexvektor f r die Auswahl von Matrixspal ten gebildet gt m 1 2 1 2 13 1 3 25 2 4 Durch einen Vektor mit ausschlie lich negativen Eintr gen werden die Elemente mit den entspre chenden Indexwerten ausgeschlossen z B 72 R Pakete und Syntax in S
89. au lty 1 col red gt abline 1lm gewicht geschl Mann groesse geschl Mann lty 2 col blue Mit einer um die Linientypen erweiterten Legende in der rechten unteren Ecke gt legend bottomright title Gruppen legend c Frau Mann pch c 16 5 Ity c 1 2 col c red blue sieht das gruppierte Streudiagramm jetzt so aus Regression von Gewicht auf Gr e und Geschlecht 2 s wo _ rR O R E 2 D o D o J Kai D 4 Gruppen Frau e Je Mann Hal T T T T T T 160 165 170 175 180 185 Gr e Das klassische Grafiksystems bietet noch weitere Optionen f r Streudiagramme z B Konfidenzinterval le Streudiagramm Matrizen ber die z B Muenchen 2011 S 480ff informiert 9 2 4 2 4 Fallidentifikation Befindet sich im aktiven Grafikfenster ein Streudiagramm mit den Variablen groesse und gewicht dann kann man nach Ausf hrung der Anweisung identify Funktion gt identify groesse gewicht die Datenpunkte im Grafikfenster per Mausklick beschriften z B 129 R Pakete und Syntax in SPSS Statistics verwenden IR R Graphics Device 2 ACTIVE EEE Regression von Gewicht auf Gr e SS 4 e e e wo _ e e KL oO _ EI e O KL o yg Kal BA e 9 g 4 T T T T T T 160 165 170 175 180 185 Gr e Um den Fallidentifikationsmodus zu beenden e dr ckt man die Esc Taste e oder
90. be Blau f r die M nner gt cols lt character length geschl gt cols geschl Frau lt red gt cols geschl Mann lt blue Mit den Vektoren syms bzw cols als Werten f r die Argumente pch bzw col erstellen wir das Dia gramm neu gt plot groesse gewicht main Regression von Gewicht auf Gr e und Geschlecht xlab Gr e ylab Gewicht pch syms col cols Schlie lich erstellen wir noch eine Legende mit Hilfe der Low Level Grafikfunktion legend gt legend 181 57 title Gruppen legend c Frau Mann pch c 16 5 col c red blue Wenn man damit einverstanden ist die Symbole mit den Nummern 1 bzw 2 f r Frauen bzw M nner zu verwenden interne Werte f r die geschl Faktorstufen und auf Farben keinen Wert legt dann l sst sich der Aufwand f r die geschlechtsspezifischen Markierungen reduzieren 128 R Pakete und Syntax in SPSS Statistics verwenden gt plot groesse gewicht main Regression von Gewicht auf Gr e und Geschlecht xlab Gr e ylab Gewicht pch as numeric geschl Man erstellt aus dem geschl Faktor mit der Funktion as numeric einen numerischen Vektor und ver wendet diesen als Wert fiir das plot Argument pch Um geschlechtsbedingte Regressionsgeraden einzuzeichnen erweitert man den in Abschnitt 9 2 4 2 2 vorgestellten abline Funktionsaufruf um eine Fallauswahl tiber Indexvektoren gt abline Im gewicht geschl Frau groesse geschl Fr
91. ch ausgepackt und MD5 Summen abgeglichen 45 R Pakete und Syntax in SPSS Statistics verwenden Weil R bei fehlenden Schreibrechten im Programmordner geschickt ausweicht k nnen Benutzer z B auf einem ZIMK Pool PC pers nlich ben tigte Pakete problemlos nachr sten Das gilt nat rlich auch f r Pakete die von SPSS aus genutzt werden sollen wobei die Installation aber ber das RGui geschehen muss 5 2 3 Installierte Pakete aktualisieren Vor einer geplanten Aktualisierung der installierten Pakete muss R mit administrativen Rechten gestartet werden damit ein Schreibzugriff auf das Programmverzeichnis m glich ist Um die Aktualit t der instal lierten Pakete zu pr fen und n tigenfalls Updates zu installieren bietet das RGui den Men befehl Pakete gt Aktualisiere Pakete Nachdem die Liste der betroffenen Pakete mit OK quittiert worden ist l uft die Aktualisierung automa tisch ab Packages to be updated KernSmooth lattice Abbrechen Die Aktualisierung aller Pakete l sst sich auch ber die Funktion update packages anfordern gt update packages 5 2 4 Task Views Um das Installieren und Aktualisieren von R Paketen zu erleichtern wurden sogenannte Task Views definiert die aus einer mehr oder weniger gro en Zahl von Paketen bestehen und komplett mit gt install views name installiert sowie mit gt update views name aktualisiert werden k nnen Eine Beschreibung der verf gbaren
92. che R Pakete wird versucht diese aus dem Internet herunter zu laden und zu installieren wobei Administratorrechte unter eine Internetverbindung erforder lich sind siehe Abschnitt 2 2 17 R Pakete und Syntax in SPSS Statistics verwenden 3 Erweiterungsbundles in den R Essentials In diesem Abschnitt nutzen wir einige mit den R Essentials installierte Erweiterungsbundles die allesamt ber ein Dialogfeld verf gen Damit stehen relevante Funktionserg nzungen bei gr tm glicher Bequem lichkeit zur Verf gung und wir k nnen uns in diesem Abschnitt auf die Forschungsmethodik konzentrie ren 3 1 Robuste Regression Techniken der robusten Regression kommen als Alternative zur OLS Regression Ordinary Least Squares in Frage wenn problematische Einzelwerte die Interpretation erschweren e Gro e Residuen Hier geht es um F lle mit extremen Residuen die nicht auf Erhebungs oder Erfassungsfehler zu r ckgehen und auch nicht berzeugend als au erhalb der Betrachtung liegend z B zu anderen Populationen geh rig entfernt werden k nnen Ausrei er e Starke Hebel F lle mit extremen Werten bei unabh ngigen Variablen verf gen ber eine gro e Hebelwirkung und damit ber einen oft unerw nscht starken Effekt auf die Sch tz und Testergebnisse Der Gesamteinfluss eines Falls auf die Ergebnisse ist im Wesentlichen ein Produkt aus der Hebelwirkung und der absoluten Gr e des Residuums Wenn man die sch dlichen Einfl sse vo
93. core Abgleich RBoxplotFamily R based dialog for box plots from the box plot family RegBestSubsets Best subsets regression RegBoxCoxTransforms Box Cox transformations RegCompResPlots Component Residual Plots aka Partial Residual Plots RLogRegBestSubsets Best subsets logistic regression RMosaicAndAssociationPlots Produces Mosaic and Association plots RRegDiagGraph Provides a large set of diagnostic plots and some tests for regresssion analysis RRegDiagTest Regression diagnostic tests Erweiterung die nicht von IBM entwickelt wurde bersicht Aktuellste Versi Installierte Versi Voraussetzungen Auswahl CFA Configural Frequency Analysis after von Eye and Krauth 620 ColPropTest Column proportions test z test CWD CWD Current Working Directory Extension command to emulate the old SPSS behavior that the current working directory cwd is equal to the FormatCorrelations Improve presentation of a correlation matrix requires SPSSINC MODIFY TABLES FUZZY Genauen oder groben Fallkontrollabgleich ausf hren freedeg left ededeg boooooooo 35556565 Ausgew hlte Erweiterungsbundles herunterladen und installieren Ausgew hlte Erweiterungsbundles herunterladen aber nicht installieren omg GoaaaaaaaRaaama Um eine Erweiterung zu installieren oder zu aktualisieren markiert man das Ausw hlen Kontroll k stchen in der zugeh rigen Zeile und klickt auf OK Im nun erscheinenden Dial
94. d koppeln diese Vektoren mit der Funktion cbind vgl Abschnitt 5 3 4 4 2 zu einer Matrix gt raterl lt 1 4 5 3 5 4 3 5 2 3 gt r ter2 lt c 1 3 5 3 3 5 2 3 3 3 rater3 lt c 4 3 5 3 4 5 3 3 2 3 rater lt cbind rateri rater2 rater3 rater rater1 rater2 rater3 1 1 2 35 4 5 6 75 8 9 1 3 Iw wi y m A VUn A P un Wun P Ww w UI M VW W U w w M Wun w uw P In Abschnitt 5 2 2 haben wir das R Paket irr Inter Rater Reliability installiert Nun soll es dazu ver wendet werden mit dem Fleiss Kappa ein Ma f r die bereinstimmung von k gt 2 Beurteilern bei der Einsch tzung eines kategorialen Merkmals zu bestimmen Wir laden das Paket mit einem Aufruf der Funktion library gt library irr Um die ben tigte Funktion aus dem Paket irr kennen zu lernen starten wir mit der Anweisung gt help start oder mit dem RGui Men befehl Hilfe gt HTML Hilfe die HTML Hilfe zu R klicken zun chst auf den Link Packages und in der nun erscheinenden Paketliste auf den Paketnamen irr In der angezeigten Paketbeschreibung ist die gesuchte Funktion zum Fleiss Kappa leicht zu finden 108 R Pakete und Syntax in SPSS Statistics verwenden Firefox 7 re G JO http 127 0 01 31397 library in htmi 00Index htm ce IR Google SS e 2 2 lt R Various Coefficients of Interrater Relia Various Coefficients of Interrater Reli
95. de ON Wird SPSS mit Administratorrechten ausgefiihrt stehen das Erweiterungskommando und das benutzerde finierte Dialogfeld nach einem Neustart von SPSS allen Benutzern zur Verfiigung Die voreinstellten In stallationsorte unter Windows 7 sind e Erweiterungskommandos landen zusammen mit den Dateien zur Bundle Konfiguration in einem Unterordner von C Program Files IBM SPSS Statistics 22 extensions e Benutzerdefinierte Dialoge landen in einem Unterordner von C Program Files IBM SPSS Statistics 22 ext lib Wird SPSS mit normalen Benutzerrechten ausgef hrt stehen das Erweiterungskommando und das Dia logfeld nach einem Neustart von SPSS dem Installateur zur Verf gung Die voreinstellten Installationsor te unter Windows 7 sind f r den Benutzer Otto e Erweiterungskommandos landen zusammen mit den Dateien zur Bundle Konfiguration in einem Unterordner von C Users Otto A ppData Local IBM SPSS Statistics 22 extensions e Benutzerdefinierte Dialoge landen in einem Unterordner von C Users Otto AppData Local IBM SPSS Statistics 22 CustomDialogs Auf einem Pool PC an der Universit t Trier ist die Installation eines Erweiterungsbundles mit normalen Benutzerrechten von r umlich und zeitlich begrenzter Wirkung Zun chst landet die Installation auf ei nem einzelnen Pool PC kann sich also nicht auf andere Pool PCs auswirken Au erdem landet die Instal lation in einem Teil des Windows Benutzerprofils der beim Abmelden von diesem Pool PC
96. den Beispiel entsteht ein numerischer Vektor mit 8 Nullen gt n amp lt numeric 8 gt ng 1 000000909 Mit der character Funktion erh lt man einen Vektor mit leeren Zeichenfolgen als Elementen z B gt c3 lt character 3 gt ES 1 mn mu mu Mit dem durch einen Doppelpunkt bezeichneten Sequenzoperator l sst sich ein Vektor aus Zahlen pro duzieren beginnend mit dem linken Operanden und dann im Einserabstand wachsend bis zur letzten Zahl die den rechten Operanden nicht bertrifft z B gt x lt 1 5 fa 223 45 Um eine Sequenz mit alternativer auch negativer Schrittweite zu erzeugen verwendet man die seq Funktion z B gt x lt seq 3 8 36 by 0 01 1 8 30 8 31 8 32 0 33 0 34 0 35 8 36 5 3 4 2 2 Vektorelemente ansprechen Ein Element eines Vektors l sst sich per Operator ber einen 1 basierten Index wert ansprechen z B gt x lt ELL 2 5 gt X 2 DI 2 Ein versuchter Zugriff auf eine nicht vorhandene Indexposition liefert den Ersatzwert NA Not Availab le z B x 7 1 NA In Abschnitt 5 3 6 werden weitere Optionen zum Indexzugriff behandelt 5 3 4 2 3 Automatische Typanpassung Werden Elemente mit verschiedenen Typen in einen Vektor eingef gt findet eine Anpassung zum allge meinsten Typ statt z B gt weck lt 1 3 gt mode weck 1 numneric gt weck lt c weck a gt mode weck 1 character gt weck a ET ar
97. den einzelnen Auspr gungen sukzessive die Darstellungsvarianten z B Farben oder Symbole aus einer vorgegebenen Palette zugeordnet ber das values Argument einer scale Funktion kann man die Voreinstellungen durch individuelle Werte er setzen was im folgenden Beispiel mit den F llfarben Attribut fill geschieht gt gsd scale fill manual values c violet lightcyan4 146 R Pakete und Syntax in SPSS Statistics verwenden Eine Legende wird dann von ggplot2 bei Bedarf automatisch eingefiigt wenn fiir eine visuelle Eigen schaft die R ck bersetzung in Datenwerte erl utert werden muss Das ist z B erforderlich wenn in einem gruppierten Streudiagramm Markierungen mit unterschiedlichen Farben auftreten gt gsd lt ggplot ggg aes gr e gewicht colour geschlecht geom_point size 3 Bei der Legendenerstellung versucht ggplot2 die Beitr ge mehrerer Skalen bzw sthetischer Attribute zu kombinieren so dass z B in einem gruppierten Streudiagramm mit gruppenspezifischen Anpassungs funktionen eine Kombilegende mit Symbolfarbe und Linientyp entsteht z B Geschlecht Frau Mann Ist der zu einem Geom erscheinende Legendenbeitrag unerw nscht l sst er sich mit dem Argument show_guide der Geom Funktion abschalten z B beim folgenden Geom zur Anzeige von Beschriftungen f r Datenpunkte in einem gruppierten Streudiagramm vgl Abschnitt 9 3 2 gt gsd lt ggplot ggg aes gr e gewicht colour geschlecht
98. die folgenden Funktionen einfacher zu hand haben als die scale Funktionen xlab Mit dieser Funktion l sst sich die Beschriftung der X Achse ndern z B xlab Gr e gt sd xlab Gr e ylabQ Mit dieser Funktion l sst sich die Beschriftung der Y Achse ndern z B gt sd ylab Gewicht ggtitle Mit dieser Funktion kann man einen Diagrammtitel erg nzen wobei ein Zeilenwechsel mit der Escape Sequenz n New Line veranlasst wird z B gt sd ggtitle Regression von Gewicht nauf Gr e und Geschlecht n labs Mit dieser Funktion kann man die Beschriftung von Achsen Legende und Diagramm ndern z B gt sd labs x Gr e y Gewicht colour Geschlecht Eine Legendenbeschriftung muss dem zust ndigen sthetischen Attribut zugewiesen werden Auch ein Diagrammtitel l sst sich vereinbaren z B gt sd labs title Regression von Gewicht nauf Gr e und Geschlecht n Uber expression Aufrufe k nnen Formeln mit mathematischer Typographie in die Beschriftungen aufgenommen werden z B y expression f 2 9 3 1 5 Positionsanpassungen Um die berlappung ihrer Elemente zu verhindern kann eine Schicht Positionsanpassungen vornehmen siehe Wickham 2009 Abschnitt 4 8 Bei einem Streudiagramm hilft manchmal die einfache Jitter Technik wobei kleine Zufallswerte zu den Daten addiert werden vgl Abschnitt 9 2 4 2 5 Im folgenden Beispiel mit simulierten Daten gt gt gt gt gt
99. e Abschnitt 10 2 Sollen numerische Variablen in einer Datentabelle durch eine R Funktion verarbeitet werden die nur Matrizen unterst tzt dann hilft die Funktion as matrix weiter 5 3 4 4 1 Matrix aus einem Vektor erstellen Wird fiir die Elemente eines Vektors eine Doppelindizierung definiert resultiert eine Matrix In der Regel verwen det man zum Erzeugen die Funktion matrix mit den folgenden Argumenten e data Hier ist ein Vektor anzugeben e nrow Anzahl der Zeilen 59 R Pakete und Syntax in SPSS Statistics verwenden e ncol Anzahl der Spalten e byrow Zeilen statt Spaltendominanz beim Verteilen der Vektorelemente auf die Matrixzellen siehe unten Man muss nur die Zeilen oder die Spaltenzahl angeben Um auf die Spaltenangabe zu verzichten l sst man den Parameter ncol weg z B gt matz lt matrix c 1 2 3 4 5 6 2 gt matz 1 2 53 1 1 3 5 2 2 4 6 Soll nur die Spaltenzahl genannt werden ist ncol als Namensargument statt als Positionsargument zu verwen den z B gt matz lt matrix c 1 2 3 4 5 6 ncol 2 gt matz Loi G i 3 1 1 4 2 2 5 3 3 3 6 Wie die Beispiele zeigen verwendet R per Voreinstellung ein Indizierungsschema mit Spaltendomi nanz d h die verf gbaren Vektorelemente f llen zun chst die Spalte 1 von oben nach unten dann die Spalte 2 usw Sollen statt dessen die Zeilen nacheinander bef llt werden ist f r das Argument byrow der Wert TRUE anzugeben z B
100. e Funktion mit der gewiinschten Darstellungsart im Namen auf z B geom_point fiir eine Schicht mit Datenpunkten die x y Wertepaare darstellen Die R ckgabe der Schicht Funktion wird mit dem Operator zum Plot Objekt hinzugefiigt gt sd geom_point colour red size 3 Optional kann man mit ihren Argumenten z B schichtspezifische Abbildungen der sthetischen Attribute des Geoms siehe unten auf Variablen oder feste Werte sowie eine schichtspezifische Datentabelle fest legen wenn keine passenden Voreinstellungen auf Plot Ebene bestehen Im Beispiel erhalten wir folgen des Ergebnis 80 70 gewicht E 60 50 7 i i 160 170 180 gr e Ein ggplot2 Objekt hat den Datentyp Liste z B gt str sd List of 9 data data frame 12 obs of 3 variables geschlecht Factor w 2 levels Frau Mann 2221111212 gr e num 1 12 186 178 182 168 168 NA 165 179 158 175 gewicht gt num 1 12 82 72 75 5 65 66 76 55 78 5 58 5 80 us layers g Dec scales Reference class Scales package ggplot2 with 1 fields scales NULL and 21 methods of which 9 are possibly relevant add clone find get_scales has_scale initialize input n non_position_scales mapping list of 2 x symbol gr e y symbol gewicht theme s listt coordinates List of 1 so Limits List of 2 x NULL y NULL attr class chr 1 2 cartesian coord 142
101. e Variablenauswahl m glich wobei die zweite In dexdimension nach dem Komma einen numerischen oder logischen Auswahlvektor erh lt Es folgen die beiden obigen Beispiele mit Indexsyntax gt dt12 lt dt c 1 2 gt dtf lt dt dt ges f grepl e names dt 7 6 Daten aus verschiedenen Tabellen zusammenf hren Wurden Daten mit einer hierarchischen Struktur erhoben z B Clusterstichproben mit Beobachten zu den Individuen und den Gruppen L ngsschnittdaten mit Beobachtungen zu den Messzeitpunkten und den Subjekten dann liegen die Daten zur Mikro bzw Makroebene oft in zwei getrennten Datentabellen vor 102 R Pakete und Syntax in SPSS Statistics verwenden Im folgenden Beispiel sind die Daten der Mikroebene Leistungsmessungen in den Fachern Mathematik und Geographie f r Sch ler in drei Klassen in der Datentabelle df Ind zu finden und die Daten der Mak roebene Gr e der Klasse in der Datentabelle dfGr gt dfInd lt data frame group c 1 1 1 2 2 2 3 3 3 math c 2 3 2 4 3 5 3 2 4 geo c 1 2 1 3 3 4 2 2 3 gt dfInd group math geo 1 1 2 1 2 1 3 2 a 1 2 1 4 2 4 3 5 2 3 3 6 2 5 4 7 3 3 2 8 3 2 2 9 3 4 3 gt dfGr lt data frame group c 1 2 3 size c 21 40 32 gt dfGr group size 1 1 21 2 2 40 3 3 32 Um eine Mehrebenenanalyse zu erm glichen muss die Tabelle mit den Mikroebenendaten um die Mak rovariable size erweitert werden siehe z B Bliese 2013 wobei die in beiden Datentabellen v
102. e in die Bil dung von Variablennamen zu stecken die einerseits kurz und andererseits informativ sein sollten Auf der folgenden Webseite http google styleguide googlecode com svn trunk Rguide xml finden sich die folgenden formalen Kriterien e Es sollten ausschlie lich Kleinbuchstaben verwendet werden Dieses Kriterium zu verletzen und Variablennamen mit einem Gro buchstaben beginnen zu las sen hat allerdings bei graphischen Darstellungen die angenehme Konsequenz dass spontan per fekte Beschriftungen erscheinen z B der Achsentitel Gewicht statt gewicht e Bei zusammengesetzten Bezeichnungen sollten die W rter durch einen Punkt getrennt werden z B buecher gelesen e Alternativ ist bei zusammengesetzten Bezeichnungen das sogenannte Camel Casing erlaubt z B buecherGelesen womit an speziellen Positionen doch Gro buchstaben toleriert werden e Unterstriche zur Trennung von W rtern sind unerw nscht z B bueeher gelesen F r numerische Literale Zahlen als Bestandteile von R Anweisungen ist als Dezimaltrennzeichen der Punkt zu verwenden z B gt 2 3 1415926 1 6 283185 Speziell bei gespeicherten Sequenzen von R Anweisungen die als Skripte bezeichnet werden vgl Ab schnitt 5 4 sind Kommentare hilfreich f r der Verwendung durch andere Personen und f r die sp tere Nutzung durch den Autor Mit dem Doppelkreuz wird der Zeilenrest als Kommentar gekennzeichnet z B sq lt sum a 2 Summe der quadrierten Elemente im
103. ead spss per Voreinstellung eine Liste vgl Abschnitt 5 3 4 6 was man in der Regel durch den Wert TRUE f r das Argument to data frame verhindert 96 R Pakete und Syntax in SPSS Statistics verwenden Uber das Argument use value labels mit dem Voreinstellungswert TRUE entscheidet man dariiber ob numerische Variablen in Faktoren konvertiert werden sollen wenn fiir alle Werte ein Etikett vorhanden ist Im Beispiel ist diese Konvertierung bei der Variablen geschlecht passiert Im Unterschied zu den Funktionen zum Lesen von separierten Textdateien siehe Abschnitt 7 2 besitzt read spss kein Argument um f r eine vorhandene Eingabevariable die Verwendung zur Zeilenbeschrif tung zu veranlassen Dieses Ziel l sst sich aber in zwei kurzen Anweisungen doch realisieren Zun chst werden die gew nschten Fallbeschriftungen aus der Variablen nr gelesen Dann wird der Variablen nr der Wert NULL zugewiesen um sie aus der Datentabelle zu entfernen gt row names ggg lt ggg nr gt ggg nr lt NULL Das Ergebnis geschlecht gr e gewicht 1 Mann 186 82 0 13 Mann 176 NA Eine M glichkeit mit R eine SPSS Datendatei zu schreiben ist mir nicht bekannt Insgesamt sind f r den Datenaustausch zwischen R und SPSS die in Abschnitt 4 beschrieben Techniken auf der Basis der R Essentials gegen ber dem Dateitransfer zu bevorzugen 7 2 3 Dateiauswahl per Dialogbox Um eine Datei per GUI Dialog w hlen zu k nnen W hle Datei Bor gt C
104. echt Gr e Gewicht zuf lligerweise alle 86 R Pakete und Syntax in SPSS Statistics verwenden f r passende Werte sorgen und den Dialog dann per Schlie kreuz beenden Zur Anpassung der Spaltenbreiten k nnen Sie e im Bereich der Spaltenbeschriftung die rechten Spaltengrenzen per Maus packen und verschieben e oder nach einem rechten Mausklick auf die Tabelle aus dem Kontextmenii das Item Autosize Spalte wihlen Wenn Sie die Dateneingabe beenden z B mit dem Men befehl Datei gt Schlie e zeigt der R Com mander in der Script Zone an dass die R Funktion edit im Einsatz war R Commander Datei Bearbeiten Datenmanagement Statistik Grafiken Modelle Verteilungen Extras Hilfe CES Datenmatrix 999 Z Datenmatrix bearbeiten Q Datenmatrix betrachten Modell 2 lt Kein aktuelles Modell gt eier R Script R Markdown ggg lt edit as data frame NULL Output Ke Befehl ausf hren gt ggg lt edit as data frame NULL Meldungen with the single document interface SDI see Commander 3 HINWEIS Die Datenmatrix ggg hat 12 Zeilen und 4 Spalten Au erdem ist nun die Datenmatrix ggg eingestellt Man kann sie im folgenden Fenster betrachten 87 R Pakete und Syntax in SPSS Statistics verwenden geschlecht gr e gewicht n Jo NN om o A ann uw oo 1 2 3 4
105. eformate und ger te 9 1 1 Verf gbare Ausgabeger te 9 1 2 Grafikfenster 9 1 3 Ausgabe in eine Datei 9 1 4 Ausgabeger te verwalten 9 1 5 R Diagramme im SPSS Ausgabefenster 83 85 88 99 100 100 101 102 102 102 102 103 104 105 105 105 105 105 106 107 108 108 110 112 112 112 113 114 115 116 R Pakete und Syntax in SPSS Statistics verwenden 9 2 Das traditionelle Grafiksystem 9 2 1 High und Low Level Grafikfunktionen 9 2 2 Grafikparameter und Beschriftungen 9 2 3 Die generische Funktion plot 9 2 3 1 Argumente 9 2 3 2 Erg nzende Low Level Grafikfunktionen 9 2 4 Wichtige Diagrammtypen 9 2 4 1 Liniendiagramm 9 2 4 2 Streudiagramm 9 2 4 3 Boxplot 9 2 4 4 Histogramm mit Dichtesch tzung 9 2 4 5 Mehrere Diagramme kombinieren 9 2 4 6 Funktionsplots 9 3 Das Grafikpaket ggplot2 9 3 1 Grammatik eines ggplot2 Plots 9 3 1 1 Plot Objekte Schichten und Geome 9 3 1 2 Aesthetics 9 3 1 3 Statistische Transformationen 9 3 1 4 Skalen Achsen und Legenden 9 3 1 5 Positionsanpassungen 9 3 1 6 Facetten 9 3 1 7 Themes 9 3 2 Inkrementelle Erstellung eines gruppierten Streudiagramms 9 3 2 1 Plot Objekt anlegen 9 3 2 2 Einfaches Streudiagramm 9 3 2 3 Einfaches Streudiagramm mit Konfidenzzone 9 3 2 4 Gruppiertes Streudiagramm 9 3 2 5 Schichtaufbau mit qplot starten 9 3 2 6 Dichtedarstellung bei gro en Stichproben 9 3 3 Werte f r datengebundene sthetische Attribute ndern 9 3 4 Weitere Dia
106. eger t automatisch aus der Namenerweiterung abgeleitet wird z B gt ggsave kfa svg Man kann den Namen des zu sichernden Plots weglassen wenn der zuletzt angezeigte Plot gemeint ist Uber die optionale Argumente width und height lassen sich Breite und H he in der Einheit Zoll engl Inch festlegen 1 Zoll 2 54 cm z B gt ggsave kfa svg width 15 height 15 Bei einem Bitmap Format z B PNG kann die Aufl sung ber das Argument dpi gew hlt werden z B gt ggsave kfa png width 15 height 15 dpi 600 Ein Bitmap Format mit einer Aufl sung von 600 dpi ist z B dann zu empfehlen wenn ein Diagramm unter Windows an ein Textverarbeitungsprogramm Libre MS oder Open Office bergeben werden soll siehe Wickham 2009 Abschnitt 8 3 Das unter Windows popul re Metafile bzw Vektordateiformat WMF bzw EMF ist zur Aufnahme von ggplot2 Grafiken nicht zu empfehlen e Es unterst tzt keine Transparenz so dass z B die von geom_smooth erstellten Konfidenzinter valle siehe Abschnitt 9 3 2 verloren gehen e Im Vergleich zu anderen Vektorformaten z B SVG sind Kurven sehr grob aufgel st Das traditionelle R Verfahren zur Grafikausgabe in eine Datei ist z B dann gegen ber der Funktion ggsave zu bevorzugen wenn mehrere Diagramme jeweils auf einzelnen Seiten einer PDF Datei abge legt werden sollen 178 R Pakete und Syntax in SPSS Statistics verwenden 10 Weitere Anwendungen von R 10 1 Mengenlehre Ei
107. ehr wenig Aufwand gt ggplot kfa aes x geschl geom_bar ein Balkendiagramm zur Anzeige der absoluten H ufigkeiten f r die Kategorien einer diskret verteilten Variablen erstellen z B 1 I Frau Mann geschl Ein kleiner Zusatzaufwand gt ggplot kfa aes x geschl geom_bar fill cornflowerblue colour blue labs x Geschlecht y H ufigkeit erlaubt die wahlfreie F rbung und Achsenbeschriftung z B 169 R Pakete und Syntax in SPSS Statistics verwenden 257 20 15 10 Oo 0 Frau Mann Geschlecht H ufigkeit Indem das sthetische Attribut y auf die folgende Funktion count 188 sum count der Transformations Ergebnisvariablen count abgebildet wird gt ggplot kfa aes x geschl y count 100 sum count geom_bar ill cornflowerblue colour blue labs x Geschlecht y Prozent erh lt man die relativen H ufigkeiten in Prozent 807 60 407 207 D I I Frau Mann Geschlecht Prozent Eigentlich sollte das Ziel mit der Transformationsvariablen density leichter erreichbar sein Es hat sich aber ein leicht selt sames Verhalten gezeigt Wenn man das sthetische Attribut group auf den Wert 1 setzt klappt es mit der Variablen densi ty Tipp von http stackoverflow com questions 17406082 using density in stat bin with factor variables gt ggplot kfa aes x geschl geom_bar aes y density 100 group 1 fill cornflowerbl
108. ein Objekt von Typ function vor handen gt class pCor 1 function Zum Testen verwenden wir die folgenden Vektoren mit der bekannten Korrelation r 0 8894574 x lt c 1 2 3 4 5 6 7 6 5 4 3 2 1 y lt c 2 2 3 4 4 5 6 4 3 3 2 1 2 Die Funktion arbeitet offenbar korrekt gt pCor x y cor 8894574 81 R Pakete und Syntax in SPSS Statistics verwenden Wenn eine Funktion ein Objekt ausgeben soll muss die print Funktion explizit ausgerufen werden weil implizite print Aufrufe in Funktionen nicht klappen vgl Abschnitt 5 3 3 2 Abgespeicherte Funktionen lassen sich nach dem ffnen der Skriptdatei wiederverwenden vgl Ab schnitt 5 4 Oft ist es sinnvoller ein Skript ber die source Funktion einzulesen wobei im Skript definierte Funkti onsobjekte angelegt werden Wenn sich die Skript Datei nicht im Arbeitsverzeichnis befindet ist der komplette Pfadname anzugeben wobei die Pfadbestandteile unter Windows durch einen einfachen Vor w rtsschr gstrich oder einen doppelten R ckw rtsschr gstrich zu trennen sind z B gt source u eigene dateien r pcor r Selbstverst ndlich l sst sich eine selbst definierte und in einer Datei gespeicherte R Funktion auch von SPSS aus nutzen Im folgenden Beispiel wird f r zwei Variablen der SPSS Arbeitsdatei die Pearson Korrelation mit der Funktion pCor berechnet BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS source u e
109. einstellung die Quartile z B gt quatitile c 1 2 3 554 552 33 1545 557 852 354525355 0 25 50 75 100 1 2 3 5 8 ber einen Parametervektor mit Wahrscheinlichkeiten sind auch andere Quantile verf gbar z B gt guantile amp 1 2 3 5 4 5 2 3 1 4 5 7 8 2 3 4 2 3 8 1 3 2 3 33 33333 66 66667 3 4 Als R ckgabe erh lt man einen Vektor mit benannten Elementen vgl Abschnitt 5 3 4 2 6 e IQRO Liefert den Interquartilsabstand Abstand vom 1 bis zum 3 Quartil z B gt IQR c 1 2 3 5 4 5 2 3 1 4 5 7 8 2 3 4 2 3 8 1 3 Enth lt ein Vektor einen fehlenden Wert NA oder NaN liefern die genannten Funktionen das Ergebnis NA oder NaN z B gt a lt c 1 NA 3 gt mean a 1 NA Soll stattdessen aus den vorhandenen Argumenten ein Ergebnis ermittelt werden ist das Argument na rm auf den Wert TRUE zu setzen z B gt mean a na rm TRUE 1 2 8 1 2 Absolute und relative H ufigkeiten fiir kategoriale Variablen ausgeben Die Funktion table liefert f r einen Vektor oder Faktor die absoluten H ufigkeiten der Kategorien z B gt daten de 21 1123 2 3 3 333 4 455 55 gt tabelle lt table daten daten 12345 34424 Zu den relativen H ufigkeiten verhilft die Funktion prop table die eine Tabelle mit absoluten H ufig keiten als Argument ben tigt z B 106 R Pakete und Syntax in SPSS Statistics verwenden gt prop table tabelle daten 1 2 3 4 5 00 1764706 8 2352941 2352941 8 1176471 2352941
110. eisungen eine Blockanweisung zu erstellen Der gesamte Block ist durch ein Paar geschweifter Klammern zu begrenzen z B gt if a gt 8 b lt log a c lt bta 5 4 Mit Skripten arbeiten Statt mehrere zusammengeh rige Anweisungen Zeile f r Zeile in der R Bedienoberfl che RGui abzu schicken erstellt man besser ein R Skript was im RGui nach dem Men befehl Datei gt Neues Skript ber einen integrierten Editor unterst tzt wird R Namenlos R Editor e E mie Summe der quadrierten nat rlichen Zahlen von 1 bis 10 s lt 0 for i in 1 10 s s i 2 s Um das Skript komplett ausf hren zu lassen kann man den Men befehl Bearbeiten gt Alles ausf hren verwenden oder e den Text vollst ndig markieren z B ber die Tastenkombination Strg A e und dann den Schalter bet tigen oder die Tastenkombination Strg R verwenden Im Beispiel erscheint in der R Konsole das Ergebnis 1 385 78 R Pakete und Syntax in SPSS Statistics verwenden Um ein Skript partiell ausf hren zu lassen e markiert man die gew nschten Kommandos wie im folgenden Beispiel IR Namenlos R Editor baba Summe der quadrierten nat rlichen Zahlen von 1 bis 10 s lt H for i in 1 10 3 3 i 2 e und veranlasst die Ausf hrung mit dem Schalter oder der Tastenkombination Strg R Mit dem Skripteditor entstehen schnell wiederverwendbare Anweisungsfolgen die ber den Men befehl Datei gt Speichern unter
111. eitere Details zu Indexvektoren erl utert das R Development Core Team 2014 Abschnitt 3 4 1 S 16 5 3 6 4 Indexmatrizen Einen Vektor mit einer Auswahl der Elemente einer Matrix gewinnt man mit einer Indexmatrix die 2 Spalten aufweist so dass jede Zeile die Indexpositionen eines ausgew hlten Elements der Ausgangs matrix enth lt z B gt m lt matrix c 1 2 3 4 2 gt m 73 gt im lt matrix c 1 1 2 2 ncol 2 byrow TRUE R Pakete und Syntax in SPSS Statistics verwenden 1 32 1 1 3 2 2 4 gt im s1 32 ER A 1 2 2 2 gt m im 1 14 5 3 7 Operatoren In R arbeiten die Operatoren meist elementweise 5 3 7 1 Arithmetische Operatoren Symbole f r die arithmetischen Operationen IS EI oder Diese Operatoren werden auf Vektoren und Matrizen elementweise angewendet wie das folgende Bei spiel zeigt gt M lt matrix c 1 2 3 4 2 Addition Subtraktion Multiplikation Division Potenzieren Modulo Divisionsrest gt M 1 52 1 1 3 2 2 4 gt IM lt solve M gt IM 1 52 1 2 15 2 1 1 0 5 gt M IM 1 2 fac ep 33 2 7 2 2 0 Obiger Aufruf der Funktion solve liefert die inverse Matrix IM zum Argument M vgl Abschnitt 10 2 Weil der Produktoperator elementweise arbeitet ergibt das Produkt M IM nicht die Einheitsmatrix Dazu muss mit dem Operator das Matrixprodukt berechnet werden gt M IM 1 5
112. ekte der aktuellen Sitzung in eine w hlbare Datei mit der Namenserweiterung RData zu sichern bzw von dort zu laden kann man die folgenden Men befehle e Datei gt Sichere Workspace bzw e Datei gt Lade Workspace verwenden oder mit Kommandos arbeiten z B e gt save image ws RData e gt load ws RData Vor dem Speichern aller Objekte kann es sinnvoll sein mit der Funktion rm berfl ssige Objekt aus dem Workspace zu entfernen z B 40 R Pakete und Syntax in SPSS Statistics verwenden gt rm v1 v2 matz Um das Kommandoged chtnis der aktuellen Sitzung in eine w hlbare Datei zu sichern bzw von dort zu laden kann man die Men befehle e Datei gt Speichere History bzw e Datei gt Lade History verwenden oder mit Kommandos arbeiten z B e gt savehistory komm Rhistory e gt loadhistory komm Rhistory Alle per save image oder savehistory ohne Pfadangabe geschriebenen Dateien landen im Arbeitsver zeichnis Wie man es ermittelt oder ver ndert wurde im Abschnitt 5 1 1 erl utert 5 1 3 Sichern und Laden einzelner Datenobjekte im Bin rformat von R Eine RData Datei kann in R als bin rformatige Datendatei analog zu einer SAV Datei in SPSS genutzt werden Oft ist es sinnvoll ein wichtiges Datenobjekt z B eine Datentabelle mit den Variablen einer Studie in einer eigenen Datei zu speichern Dazu eignet sich die Funktion save z B gt save Daten file Daten RData Mit der Funktion
113. elt werden steigert den Benutzerkom fort noch siehe Abschnitt 3 1 Alternativ oder erg nzend zu einem Erweiterungskommando kann ein benutzerdefinierter Dialog defi niert und in das SPSS Men integriert werden so dass die mit Hilfe von R implementierte Funktionalit t auch ohne Syntaxfenster nutzbar ist z B R Pakete und Syntax in SPSS Statistics verwenden ei Solide Regression Variablen Abhangige Variable Hor oy Unabhangige Variablen Kategorielle Variablen werden automatisch in Faktoren umgewandelt Fehlende Werte definieren F r dieses Dialogfeld sind das Listenweises L schen Integrations Plugin f r R und das R MASS Paket erforderlich Fehlgeschlagen ox JI Entgen Zur cksetzen wegen H te _ Dieser Dialog bildet zusammen mit dem eben vorgestellten Erweiterungskommando und der realisieren den R Syntax ein Erweiterungsbundle das in einer Datei mit der Namenserweiterung SPE angeboten wird Es handelt sich um das zusammen mit den R Essentials installierte Bundle SPSSINC ROBUST REGR zur Unterst tzung der robusten Regression Es sind auch benutzerdefinierte Dialoge ohne beglei tendes Erweiterungskommando verf gbar die in einer Datei mit der Namenserweiterung SPD angeboten werden In Abschnitt 2 wird erl utert wie die f r SPSS Statistics 22 zahlreich vorhandenen Erweite rungsbundles und benutzerdefinierten Dialoge auf R Basis installiert werden k nnen R Pakete und S
114. en Argumente gemeinsam e name Mit dem ersten Argument kann man den Titel einer Achse x oder y als Aesthetic oder einer Le gende colour fill size shape oder linetype als Aesthetic festlegen e limits Minimaler und maximaler zu ber cksichtigender Wert F lle au erhalb dieser Grenzen werden ausgeschlossen was sich auch auf andere Schichten z B mit einer Regressionsfunktion aus wirkt e breaks In einem Vektor liefert man die Hauptunterteilungspunkte Diese erhalten Etiketten w hrend die bei einer kontinuierlichen Skala per Voreinstellung mittig zwischen zwei Hauptunterteilungen eingef gten Nebenunterteilungen ohne Etikett bleiben e labels Ein Vektor mit den Etiketten zu den Hauptunterteilungspunkten Im folgenden Streudiagramm gt sd lt ggplot ggg aes gr e gewicht gt sd geom_point colour red size 3 scale _x_continuous Gr e limits c 150 190 breaks seq 150 190 by 5 minor_breaks NULL wird mit der Funktion scale_x_continuous die Skala zur X Achse modifiziert Der Titel wird ge ndert Die Endpunkte werden festgelegt Per seq Funktion werden Haupteinteilungspunkte im 5er Abstand gew hlt Die Nebenunterteilungspunkte minor_breaks werden abgeschaltet Offenbar kann man ber den Operator nicht nur Schichten zu einem Plot Objekt hinzuf gen sondern auch andere Modifikationen vornehmen z B eine Skala konfigurieren Ist ein Attribut mit einem diskreten Merkmal verbunden werden
115. en Variablen Die Prozedur verwendet die Funktion hetcor aus dem R Polycor Paket Autor IBM SPSS Releasedatum 6 7 2013 Version 1 3 1 Mindestversion von SPSS Statistics 18 Verkn pfungen Komponenten Benutzerdefiniertes Dialogfeld Name Men position Analysieren gt Korrelation gt Heterogene Korrelationen Heterogene Korrelationen Erweiterungsbefehl e SPSSINC HETCOR Abh ngigkeiten Python Plug in erforderlich Ja _ R Plug in erforderlich R Pakete ipolycor Python Module 15 R Pakete und Syntax in SPSS Statistics verwenden Ben tigt ein Bundle zus tzliche R Pakete versucht der Bundle Installer diese aus dem Internet herunter zu laden und zu installieren was nur unter den folgenden Voraussetzungen gelingen Kann e Administratorrechte Um die in der Regel je nach dem R Installationsordner erforderlichen Administratorrechte bereit zu stellen muss SPSS Statistics mit dem Administratorkonto ausgef hrt werden Bei einer Windows Version ab Vista w hlt man zum Starten von SPSS aus dem Kontextmen zur Startver kn pfung den Eintrag Als Administrator ausf hren e Internetkontakt Hat der Zielrechner keinen Internetkontakt miissen die R Pakete vor der Bundle Installation mit Hilfe von Dateien ber R Verfahren installiert werden vgl Absc
116. en in einer Tabulator getrennten Textdatei so aussehen 91 R Pakete und Syntax in SPSS Statistics verwenden geschlecht gr e gewicht 2 186 82 2 178 72 2 182 75 5 1 160 65 1 168 66 1 76 1 165 55 2 179 76 5 1 158 50 5 2 175 80 1 176 62 2 176 Fehlt bei einem Fall eine Variablenauspr gung bleibt die betroffene Zelle leer 7 2 1 1 Lesen Um diese Daten in eine Datentabelle einzulesen eignet sich in R die Funktion read delim2 die im Un terschied zu read delim das Komma als Dezimaltrennzeichen interpretiert Im folgenden Beispiel wird mit dem header Argument die Anwesenheit einer einleitenden Zeile mit Variablennamen bekannt gege ben gt ggg lt read delim2 U Eigene Dateien R ggg dat header TRUE gt ggg Im Ergebnis i geschlecht grA AYe gewicht 1 2 186 82 0 2 2 178 72 0 3 2 182 1343 4 1 160 65 0 5 1 168 66 0 6 1 NA 76 0 7 1 165 55 0 8 2 179 76 5 9 1 158 50 5 10 2 175 80 0 11 1 176 62 0 12 2 176 NA zeigen sich zwei Macken e Am Dateianfang sind unerwartete Zeichen erkannt und dem ersten Variablennamen zugeschlagen worden mit dem Ergebnis geschlecht e Im Variablennamen gr e sind 6 und f falsch erkannt worden Die Probleme resultieren daraus dass die Eingabedatei keine ANSI Kodierung verwendet sondern die modernere UTF 8 Kodierung Im folgenden Funktionsaufruf gt ggg lt read delim2 U Eigene Dateien R ggg dat header TRUE encoding UTF 8 gt 888 wird R p
117. en kann z B gt histo theme_bw base_size 14 base_family serif In der Basisschriftgr e Voreinstellung 20pt erscheinen die Achsentitel Davon abgeleitete Gr en sind e Gr e des Titels 120 der Basisgr e e Gr e der Teilstrichbeschriftungen 80 der Basisgr e 152 R Pakete und Syntax in SPSS Statistics verwenden Zu den m glichen Schriftartenfamilien siehe Abschnitt 9 2 2 9 3 1 7 2 Elemente von Themes modifizieren Mit der Funktion theme welche die veraltete Funktion opts ersetzt kann man Elemente eines Themes modifizieren Im folgenden Beispiel gt histo theme panel background element_rect fill lightblue wird die Hintergrundfarbe eines Diagramms mit dem Standard Theme ver ndert count 6 aergo Auf der nach theme erscheinenden Hilfeseite werden in der ggplot2 Version 1 0 0 ber 50 Elemente beschrieben z B e panel background Uber die Elementfunktion element_rect l sst sich der Hintergrund des Zeichenbereichs gestal ten z B Rand und F llfarbe ber die Argumente colour und fill z B theme panel background element_rect fill lightblue e axis text x axis text y plot title ber die Elementfunktion element_text lassen sich Textattribute der Achsen und Diagrammti tel beeinflussen z B Schriftartenfamilie Farbe und Gr e ber die Argumente family colour und size z B theme plot title element_text colour red e axis line ber die Elem
118. eneration von R Wenn Sie R auf einem Rechner mit 64 Bit Windows installieren m ssen Sie unbedingt die 32 Bit Version von R in die Installation mit aufnehmen Voreinstellung e R Essentials f r SPSS Statistics 22 mit dem aktuellen FixPack Zusammen mit einem FixPack zu SPSS Statistics werden auch die R Essentials aktualisiert Es ist also darauf zu achten das korrekte R Essentials Installationsprogramm zu verwenden Zu SPSS Statistics 22 mit FixPack 1 passt z B auf einem Windows Rechner mit 64 Bit Architektur das Installationsprogramm SPSS_Statistics_REssentials_22 0 FP1_win64 exe zu verwenden 2 2 Erweiterungsbundles 2 2 1 Inhalt Erweiterungsbundles erg nzen die SPSS Funktionalit t durch zus tzliche Verfahren zur Datenanalyse und oder verwaltung die durch SPSS interne Programmieroptionen z B Makrotechnik Programmier sprache MATRIX oder externe Programmieroptionen z B R oder Python realisiert werden Zur Nut zung der erweiterten Funktionalit t bietet ein Bundle ein Erweiterungskommando und oder einen be nutzerdefinierten Dialog Das in der Einleitung vorgestellte Bundle SPSSINC ROBUST REGR unter st tzt beide Bediensysteme Speziell bei den nicht von IBM SPSS entwickelten Bundles ist die Beschr n kung einen benutzerdefinierten Dialog anzutreffen So bietet z B Hans Gr ner vom Rechenzentrum der 11 R Pakete und Syntax in SPSS Statistics verwenden FU Berlin diverse benutzerdefinierte Dialoge mit R Implementier
119. entfunktion element_line lassen sich Linienattribute von X und Y Achse gestal ten z B die Linienst rke ber das Argument size theme axis line element_line size 2 Uber die Funktion element_blank l sst sich die Aus gabe bestimmter Elemente unterdriicken um z B ein Diagramm ohne Gitterlinien zu erstellen gt histo theme panel grid element_blank Ein modifiziertes Theme l sst sich zur sp teren Anwendung auf Diagramme in einem R Objekt spei chern z B gt redTitle lt theme_grey theme plot title element_text colour red gt histo redTitle 153 R Pakete und Syntax in SPSS Statistics verwenden 9 3 2 Inkrementelle Erstellung eines gruppierten Streudiagramms 9 3 2 1 Plot Objekt anlegen In diesem Abschnitt wird die inkrementelle Diagrammerstellung mit ggplot2 demonstriert Starten Sie R und laden Sie n tigenfalls das Paket ggplot2 gt library ggplot2 Als Beispiel erstellen wir ein gruppiertes Streudiagramm unter Verwendung der in Abschnitt 6 1 erstell ten Beispieldaten mit den Variablen geschlecht gr e und gewicht gt load U Eigene Dateien R ggg RData gt 888 geschlecht gr e gewicht 1 Mann 186 82 0 2 Mann 178 72 0 3 Mann 182 73 3 4 Frau 160 65 0 5 Frau 168 66 0 6 Frau NA 76 0 7 Frau 165 55 0 8 Mann 179 7049 9 Frau 158 50 5 10 Mann 175 80 0 11 Frau 176 62 0 13 Mann 176 NA Wir legen zun chst durch einen Aufruf der Funktion ggplot ein Plot Objekt an gt
120. eom mit den x y Datenpunkten eines Streudiagramms un terst tzt z B die folgenden Aesthetics mit den ggplot2 Namen in Klammern wobei die beiden ersten Attribute obligatorisch zu versorgen sind 143 R Pakete und Syntax in SPSS Statistics verwenden X Koordinaten der Datenpunkte x Y Koordinaten der Datenpunkte y Form der Datenpunkte shape Farbe der Datenpunkte colour Transparenzgrad der Datenpunkte alpha Gr e der Datenpunkte size Auch jedes andere Geom besitzt eine Menge von unterstiitzten sowie eine Menge von obligatorischen Attributen Eine Liste mit allen vom Paket ggplot2 unterst tzten Geomen mitsamt den jeweiligen verf gbaren bzw obligatorischen sthetischen Attributen findet sich z B in Wickham 2009 Tabelle 4 3 in Abschnitt 4 6 Selbstverst ndlich kann man sich auch ber die R Hilfe informieren und z B mit gt geom_point u a die Attribute zum Streudiagramm abrufen Die Datentabelle mit den zu visualisierenden Variablen sowie die Attribut Abbildungen k nnen auf Plot Ebene festgelegt werden und sind dann f r alle enthaltenen Schichten bzw Geome g ltig Im folgenden Beispiel wird die ggplot Funktion vgl Abschnitt 9 3 2 benutzt um ein Plot Objekt anzulegen gt sd lt ggplot ggg aes gr e gewicht So vermeidet man es die Spezifikation f r mehrere Schichten wiederholen zu m ssen Wird ein Attribut auf Plot und Schichtebene abgebildet dann dominiert die lokale Zuordnung
121. er 000 052 Variablen 500 000 500 000 Korrelation 494 1 000 Standard Fehler 052 000 x 500 000 500 000 X3 Polychoric ke Polychoric Durch das R Hetcor Paket berechnete Korrelationen Pearson polyseriale und polychorische Korrelationen Ee Variablen Statistik Korrelationstypen Korrelation 1 000 469 Standard Fehler 000 043 Variablen Variablen x 500 000 500 000 Korrelation 469 1 000 Standard Fehler 043 000 x 500 000 500 000 x Polyserial Y3 Polyserial Durch das R Hetcor Paket berechnete Korrelationen 24 R Pakete und Syntax in SPSS Statistics verwenden 3 4 Tobit Regression Die Tobit Regression kommt als Alternative zur OLS Regression bei zensierten Daten siehe z B IRDE UCLA 2014b in Frage Als Anwendungsbeispiel betrachten wir eine bivariate Regression mit dem fol genden wahren Modell mit Regressionsgewicht 1 Y 1 X e mit N 4 und Cov e amp 0 Aus der Kriteriumsvariablen mit der folgenden Stichprobenverteilung n 200 Histogramm 407 Mittelw ert 2 48 Std Abw 2 545 200 H ufigkeit entsteht eine rechts zensierte Variante indem alle Werte gr er oder gleich 2 auf den Randwert 2 gesetzt werden Histogramm 1207 Mittelw ert 1 20 Std Abw 1 402 N 200 1007 807 607 H
122. er Funktion IQ z B gt values lt c 1 2 3 gt names lt c A B C gt tcv lt data frame values I names e f r den gesamten data frame Aufruf durch den Wert FALSE f r das Argument stringsAsFactors z B gt tcv lt data frame values names stringsAsFactors FALSE Mit dem Typ der in eine Datentabelle aufgenommenen Vektoren legt man das Messniveau der repr sen tierten Merkmale fest e F r quantitative kontinuierliche intervallskalierte Merkmale verwendet man numerische Vekto ren e F r rangskalierte Merkmale verwendet man ordinale Faktoren vgl Abschnitt 5 3 4 3 2 e F r nominalskalierte Merkmale verwendet man nominale Faktoren vgl Abschnitt 5 3 4 3 1 e Ein Zeichenkettenvektor z B mit dem Namen der F lle wird von R als nominalskaliert behan delt 5 3 4 7 2 Eigenschaften einer Datentabelle ermitteln und ndern Uber die aktuelle Struktur einer Datentabelle informiert die Funktion str gt str dt data frame 3 obs of 2 variables alter num 45 32 58 geschlecht Factor w 2 levels 1 2 11 2 Wie bei einer Matrix kann man ber die Funktionen dim nrow bzw ncol die Anzahl der F lle bzw Variablen ermitteln z B gt dim dt ij 32 gt nrow dt 1 3 gt ncol dt 2 2 66 R Pakete und Syntax in SPSS Statistics verwenden Die Namen der Spalten Variablen k nnen ber die Funktion names abgefragt und ge ndert werden z B gt names dt 1
123. er New serif TT Times New Roman sans TT Arial ber die Funktion windowsFonts lassen sich andere im Windows Betriebssystem des Rechners installierte Schriftarten einbinden siehe R Hilfe font font axis font lab font main font sub Mit diesem Parameter w hlt man eine Schriftauszeichnung Wert Auszeichnung normal fett kursiv fett kursiv Verwendet die Schriftart Symbol On BY OQ ho Der folgenden PDF Datei abgerufen am 24 12 2014 sind die in R verfiigbaren Farbnamen zu entnehmen http www stat columbia edu tzheng files Rcolor pdf 118 R Pakete und Syntax in SPSS Statistics verwenden Diese Einstellung kann fiir die gesamte Grafik font oder fiir die Teilstrichbeschriftungen font axis die Achsenbeschriftungen font lab sowie die Uberschriften erster und zweiter Ord nung font main font sub vorgenommen werden ps Dieser Parameter legt die generelle Schriftgr e f r ein Ausgabeger t in Point Size Einheiten fest eine Einheit 1 72 Zoll voreingestellter ps Wert 12 Wie sich daraus ber Skalierungsfak toren die Gr en f r spezielle Beschriftungen ableiten lassen wird anschlie end beschrieben cex cex axis cex lab cex main cex sub Durch diesen positiven Skalierungsfaktor kann Gr e von Symbolen cex Teilstrichbeschriftun gen cex axis Achsenbeschriftungen cex lab sowie berschriften erster und zweiter Ordnung cex main cex sub
124. er encoding Argument ber die Kodierung der Eingabedatei informiert was zumindest das Um laute Problem behebt X U FEFF geschlecht gr e gewicht 1 2 186 82 0 2 2 178 72 0 92 R Pakete und Syntax in SPSS Statistics verwenden Der verunstaltete Name der ersten Variablen resultiert aus der falsch verstandenen BOM Sequenz Byte Order Mark die viele unter Windows erstellte UTF 8 Dateien am Dateianfang enthalten Mit der fol genden leider erst ab R 3 0 unterstiitzten Variante gt ggg lt read delim2 U Eigene Dateien R ggg dat header TRUE fileEncoding UTF 8 BOM gt 888 gelingt ein korrekter Datenimport geschlecht gr e gewicht 1 2 186 82 0 2 2 178 72 0 Die F lle erhalten automatisch fortlaufende Nummern im Beispiel von 1 bis 12 Gelegentlich sind Da tendateien einzulesen die als erste Variable eine Fallidentifikation enthalten die nicht unbedingt eine mit 1 beginnende l ckenlose Nummerierung enth lt In der folgenden Variante nr geschlecht gr e gewicht 1 2 186 82 2 2 178 72 der obigen Beispieldatei ist eine einleitende Variable namens nr vorhanden wobei der letzte Fall ver mutlich aus gutem Grund den Wert 13 besitzt In einer solchen Situation sollte man den R Textdatenimport dazu berreden die erste Variable zur Fallidentifikation zu verwenden und auf eine au tomatische Nummerierung zu verzichten Dazu kann man e den Namen fiir diese Eingabevariable aus der Datei l schen e oder die
125. erbalken genutzt werden k nnte Bei der beschriebenen Fehlerbalkenerstellung bleibt unber cksichtigt dass ein Messwie derholungsfaktor dargestellt wird Folglich harmoniert der optische Eindruck aus dem Vergleich der bei den Fehlerbalken oft schlecht mit der inferenzstatistischen Beurteilung durch den t Test f r abh ngige Stichproben der die interindividuellen Unterschiede aus den Fehlervarianzen eliminiert Field 2012 S 361ff schl gt daher vor aus den Messwerten die Personeneffekte zu entfernen und die Fehlerbalken aus diesen adjustierten Messwerten zu erstellen 9 3 4 3 4 Gruppierte Balken Bislang wurden einfache Balkendiagramme vorgestellt die entweder eine univariate Verteilung oder den Effekt eines gruppierten oder messwiederholten Faktors auf eine abh ngige Variable darstellen Nun erstellen wir ein gruppiertes Balkendiagramm das die kombinierten Effekte von zwei Faktoren auf ein metrisches Kriterium zeigt Wie in Abschnitt 9 3 4 3 3 zu sehen war werden Messwiederholungsfaktoren durch den Wechsel zum Langformat auf den Gruppierungsfall zur ckgespielt Im aktuellen Abschnitt kommt eine Langvariante der Datendatei kfa sav zum Einsatz die auch den Faktor geschl aus der Aus gangstabelle bernimmt siehe melt Argument id vars gt library reshape2 gt kfa long lt melt kfa id vars c fnr geschl measure vars c aergo aergm variable name kfa gt kfa long kfa lt factor kfa long kfa labels c O
126. ert 0 2 und der Varianz 1 gt sam lt rnorm 5 8 2 1 gt t test sam gt t test sam alternative greater Beim ungerichteten t Test als Folge des ersten t test Aufrufs resultiert ein p Level von 0 063 und die Nullhypothese muss beibehalten werden Das zweiseitige Konfidenzintervall zum voreingestellten Ni veau von 0 95 enth lt dementsprechend den Wert Null One Sample t test data sam t 1 9022 df 49 p value 0 06303 alternative hypothesis true mean is not equal to 95 percent confidence interval 01514014 55151178 sample estimates mean of x 2681858 Beim gerichteten t Test als Folge des zweiten t test Aufrufs resultiert ein p Level kleiner als 0 05 so dass die einseitige Nullhypothese verworfen werden kann Das einseitige Konfidenzintervall liegt dem entsprechend komplett rechts von der 0 One Sample t test data sam t 1 9022 df 49 p value 0 03152 alternative hypothesis true mean is greater than 95 percent confidence interval 03181230 Inf sample estimates mean of x 2681858 111 R Pakete und Syntax in SPSS Statistics verwenden 9 Grafik Optionen in R Das traditionelle Grafiksystem in R basiert auf dem stets installierten und auch automatisch geladenen Paket graphics Daneben bietet R als alternatives Grafiksystem die so genannte Gittergrafik engl grid graphics auf der folgende Optionen zur Grafikproduktion basieren e Trellis Grafiken Das zur Grundinstallati
127. ertzuweisungen verwendet In fast allen Situationen ist das Zeichen quivalent Siehe z B http google styleguide googlecode com svn trunk google r style html Exotische Ausnahme Wer bei einem Funktionsaufruf in einem Aktualparameter Ausdruck eine Variable definieren m ch te muss den offiziellen Zuweisungsoperator verwenden z B gt mean g 1 5 Fehler ons gt mean g lt 1 5 1 3 gt 8 76 R Pakete und Syntax in SPSS Statistics verwenden Beim empfohlenen Zweizeichen Zuweisungsoperator kann es durch ein versehentlich eingef gtes Leer zeichen zu einem Fehler kommen z B gt oh lt 3 1 TRUE gt oh 1 4 Es ist erlaubt aber nicht blich den rechtsorientierten Zuweisungsoperator gt zu verwenden z B gt 13 gt k 5 3 3 Anweisungen Eine komplette R Anweisung kann durch ein Semikolon oder eine Zeilentrennung abgeschlossen werden ber das Semikolon ist es m glich mehrere Anweisungen in einer Zeile unterzubringen z B gt g lt 1 5 mean g 1 3 Bei einer unfertigen Anweisung erwartet R nach einem Zeilenwechsel die Fortsetzung der Anweisung In dieser Situation pr sentiert die graphische R Bedienoberfl che RGui einen Fortsetzungs Prompt z B gt g lt 5 3 8 1 if Anweisungen Durch die if Anweisung kann man die Ausf hrung einer Anweisung von einer Bedingung abh ngig ma chen In der folgenden Syntaxbeschreibung sind die kursiv gesetzten Platzhalter durch zul ssige
128. eten und k nnen erst nach dem Laden ihres Pakets genutzt wer den siehe Abschnitt 5 2 Uber die Option defaultPackages legt man fest welche Pakete automatisch geladen werden sollen Hier ist die Voreinstellung f r die Option zu sehen gt options defaultPackages defaultPackages 1 datasets utils srDevices graphics stats methods 5 1 5 Initialisierungsdateien Als Initialisierungsdateien mit Anweisungen die beim Programmstart ausgef hrt werden sollen fungie ren e Rprofile site im etc Unterordner des R Programmordners C Program Files R R 2 15 3 etc e Rprofile im Startverzeichnis mit einem Punkt als erstem Zeichen im Dateinamen Mit der folgenden Datei Rprofile im Startverzeichnis wird eine Ausgabegenauigkeit von 15 Dezimalstel len angeordnet 7 Rprofile Editor Datei Bearbeiten Format Ansicht options digits 15 5 2 Pakete R Funktionen befinden sich in Paketen die geladen sein m ssen um die darin enthaltenen Funktionen nutzen zu k nnen Welche Pakete aktuell geladen sind erf hrt man durch einen Aufruf der Funktion packages z B gt packages 1 stats graphics grDevices utils datasets methods 7 base In der etwas gew hnungsbed rftigen Syntax sorgen die runden Klammern um den Funktionsaufruf daf r dass seine R ckgabe ein Vektor mit Elementen vom Typ character ausgegeben wird Einige Pakete darunter stets das Paket base werden automatisch
129. f eine Vari able abgebildet und die G ltigkeit beschr nkt sich auf die aktuelle Schicht Neben den geom Funktionen die jeweils eine neue Schicht anlegen kennt das ggplot2 Paket Funktionen f r Detail nderungen die ebenfalls per Operator auf ein Plot Objekt angewendet werden Im folgen den Beispiel werden die Achsenbeschriftungen per labs Funktion modifiziert 154 R Pakete und Syntax in SPSS Statistics verwenden gt sd geom_point colour red size 3 labs x Gr e y Gewicht Das Ergebnis Gewicht e Gr e Dieses Diagramm ist der Bequemlichkeit halber aus dem Grafikfenster im RGui via Windows Zwischenablage in das Manuskript bernommen worden wobei eine bescheidene Aufl sung von 96 dpi und somit eine suboptimale Qualit t in Kauf genommen wurde ber die Erstellung eines Diagramms in ansprechender Qualit t informieren die Abschnitte 9 1 3 und 9 3 5 9 3 2 3 Einfaches Streudiagramm mit Konfidenzzone Um eine 95 Konfidenzzone zu erg nzen addieren wir eine Schicht mit einem Gl ttungs Geom Die zust ndige Funktion geom_smooth beherrscht unterschiedliche Gl ttungsverfahren z B die lokal op timierte Anpassung Aufruf ohne Parameter und die Anpassung einer linearen Funktion geom_smooth geom_smooth method 1m Gr e Gr e Damit die Markierungspunkte ber der partiell transparenten Konfidenzzone liegen und nicht berlagert werden siehe Negativbei
130. fad f r Objekte auf z B gt search 1 GlobalEnv package stats package graphics 4 package grDevices package utils package datasets 7 package methods Autoloads package base Er startet mit der globalen Umgebung welche die Workspace Objekte enth lt und endet mit dem Paket base quit bzw q0 Mit dieser Funktion wird R beendet z B gt q 5 3 4 Datentypen W hrend SPSS mit der rechteckigen Datenmatrix als der einzigen Datenstruktur auskommt bietet R mehrere Datentypen an Zusammen mit einem Datentyp werden anschlie end auch die bei seiner Ver wendung h ufig ben tigten Funktionen vorgestellt Statt von Datentypen spricht die R Literatur auch von Klassen Dementsprechend werden Variablen oft als Objekte bezeichnet 5 3 4 1 Datentypbezogene Funktionen Mit der class Funktion befragt nennt ein Objekt seine Klasse z B gt ma lt matrix c 1 2 3 4 2 gt class ma 1 matrix 53 R Pakete und Syntax in SPSS Statistics verwenden gt v lt c L2 gt class v 1 numeric Befragte Vektor Objekte nennen den Typ ihrer Elemente siehe zweites Beispiel Bei numerischen Vek toren erscheint statt numeric in Abh ngigkeit von der Erstellungsmethode eventuell eine genauere Typangabe z B gt y Se 12 gt class v 1 integer Bei Objekten mit typidentischen Elementen Vektor Faktor Matrix Array meldet die Funktion mode den Elementtyp z B gt mode mat 1 nu
131. fern statistische Funktionen wie sum oder mean das Ergebnis NA oder NaN z B gt a lt c 1 NA 3 gt mean a 1 NA Soll stattdessen aus den vorhandenen Argumenten ein Ergebnis ermittelt werden ist das Argument na rm auf den Wert TRUE zu setzen z B gt mean a na rm TRUE 1 2 70 R Pakete und Syntax in SPSS Statistics verwenden 5 3 6 Indexzugriff 5 3 6 1 Zugriff auf einzelne Elemente Zugriff auf einzelne Elemente Indexstart mit 1 e Bei einem Vektor i Beispiel gt i lt 3 SV lt 1 2 3 gt vii 1 3 e Bei einer Matrix i j Beispiel gt m lt matrix c 1 2 3 4 5 6 3 gt m e Bei einer Liste i Bei einer Liste mit benannten Elementen name oder liste name Beispiel gt Ist lt list name Brgl vorname Thea anzKinder 4 alterKinder c 12 10 8 2 Ansprache per Index gt 1st 2 1 Thea Ansprache per Elementname gt Ist Vorname 1 Thea gt lst alterKinder 3 1 8 5 3 6 2 Zugriff auf einen Zeilen oder Spaltenvektor aus einer Matrix oder Datentabelle Um die k te Zeile oder Spalte einer Matrix auszuw hlen verwendet man den Indexausdruck k oder X z B gt m lt matrix c 1 2 3 4 5 6 2 gt m Lott L t La 1 1 3 5 251 2 4 6 gt m 2 1 246 gt m 1 11 a2 Analog kann man einen Fall bzw eine Variable aus einer Datentabelle w hlen z B 71 R Pakete und Syntax in SPSS Statistics verwenden gt d
132. folgende Webseite von IBM SPSS https www ibm com developerworks community files app lang en collection bbe88aaf f3cd 466a 83fb 592d48eecblc ein Erweiterungsbundle per SPE Datei bezogen hat und es nun installieren m chte w hlt folgenden Me n befehl Erweiterungsbundles gt Lokales Erweiterungsbundle installieren Seit der Version 22 kann SPSS Statistics Erweiterungsbundles selbst ndig aus dem Internet beziehen um sie zu installieren oder zu aktualisieren so dass der vorherige separate Download entf llt Nach dem fol genden Men befehl Extras gt Erweiterungsbundles gt Erweiterungsbundles herunterladen und installieren erscheint ein Dialog der die installierten und die verf gbaren Erweiterungen samt Versionsstand anzeigt F r die Erweiterung zur Berechnung von heterogenen Korrelationen sind auch die Python Essentials erforderlich 12 Erweiterungsbundles herunterladen R Pakete und Syntax in SPSS Statistics verwenden ber SPSS Community in IBM developerWorks verf gbare Erweiterungsbundles Nach Suchbegriffen filtern Ete D Zielordner GATHERMD Dataset mit Variableninformationen aus mehreren Datasets erstellen General Open Open an SPSS file in the user interface LSMON LSMON Monitor concurrent license usage PLS Partielle Regression nach der Methode der kleinsten Quadrate Roron Binomial and Poisson confidence intervals for proportions PSM Propensity S
133. geladen Welche Pakete neben base automatisch ge laden werden kann man ber die Option defaultPackages erfahren und festlegen vgl Abschnitt 5 1 4 Alternativ zu packages kann man die Funktion search dazu benutzen die geladenen Pakete aufzulis ten z B gt search 1 GlobalEnv package stats package graphics 4 package grDevices package utils package datasets 7 package methods Autoloads package base 42 R Pakete und Syntax in SPSS Statistics verwenden Die eigentliche Aufgabe der Funktion search besteht darin den Suchpfad fiir Objekte der R Sitzung aufzulisten siehe Abschnitt 5 3 3 2 Im RGui unter Windows l sst sich der search Aufruf auch mit dem folgenden Men befehl ausl sen Verschiedenes gt Liste Suchpfad auf 5 2 1 Pakete laden Zum Laden eines Pakets taugt die Funktion library z B gt library MASS Ein Funktionsaufruf ohne Argumente gt library f hrt zu einer Liste mit allen installierten Paketen e in der installations allgemeinen Bibliothek z B C Program Files R R 2 15 3 library e und in der pers nlichen Bibliothek z B C Users baltes Documents R win library 2 15 ber das Argument lib loc ist es m glich ein Paket aus einen beliebigen Ordner zu laden z B gt library mice lib loc E Daten R library 2 15 Beinhalten mehrere geladene Pakete namensgleiche Funktionen gewinnt das zuletzt geladene Paket Uber den Operator ist es aber m glich d
134. gplot Dabei wird ein Diagramm inkrementell aus Schichten aufgebaut was f r gro e Flexibilit t bei der Erstellung individueller L sungen sorgt Es ist durchaus m glich ein Diagramm Objekt mit gplot zu initialisieren und mit der Flexibilit t mit ggplot weitere Schichten zu erg nzen Im Manuskript wird bevorzugt die Funktion ggplot verwendet Derzeit beschr nkt sich das Paket ggplot2 auf 2D Darstellungen so dass sich z B keine Reaktionsober fl chen von Funktionen darstellen lassen vgl Abschnitt 9 2 4 6 Auf 3D Effekte in genuin zweidimen sionalen Diagrammen z B in einem Balkendiagramm zur Verteilung einer nominalskalierten Variablen wird bewusst verzichtet Zur vertieften und systematischen Einarbeitung in die Verwendung des ggplot2 Pakets eignen sich die folgenden B cher e In Wickham 2009 liegt der Schwerpunkt auf der Logik der Grafikproduktion wobei aber auch die Anwendungsm glichkeiten demonstriert werden e Chang 2013 liefert mit seinem Kochbuch L sungen f r typische Aufgaben Eine vollst ndige technische Dokumentation ist hier zu finden http docs ggplot2 org current Es ist auf eine aktuelle Dokumentation zu achten weil aufgrund der dynamischen Weiterentwicklung des ggplot2 Pakets so manches Beispiel aus einem lteren Lehrbuch nicht mehr klappt 9 3 1 Grammatik eines ggplot2 Plots 9 3 1 1 Plot Objekte Schichten und Geome Ein ggplot2 Plot besteht aus bereinander liegenden Schichte
135. grammtypen 9 3 4 1 Histogramm und Dichteplot 9 3 4 2 Boxplot 9 3 4 3 Balkendiagramme 9 3 4 4 Liniendiagramme 9 3 5 ggplot2 Diagramm in eine Datei sichern 10 WEITERE ANWENDUNGEN VON R 10 1 Mengenlehre 10 2 Lineare Algebra LITERATUR STICHWORTVERZEICHNIS 117 117 117 119 119 121 124 124 125 133 135 136 138 140 141 141 143 144 145 148 150 151 154 154 154 155 156 158 158 160 163 163 167 169 176 178 179 179 180 181 183 R Pakete und Syntax in SPSS Statistics verwenden Herausgeber Universitat Trier Zentrum fiir Informations Medien und Kommunikationstechnologie ZIMK Universitatsring 15 D 54286 Trier Tel 0651 201 3417 Fax 0651 3921 Autor Bernhard Baltes G tz E Mail baltes uni trier de Copyright 2015 ZIMK R Pakete und Syntax in SPSS Statistics verwenden Vorwort In diesem Manuskript geht es um die Nutzung der freien Statistik Entwicklungsumgebung R als Erweite rung zu SPSS Statistics Wer die Benutzerfreundlichkeit und Funktionsvielfalt von SPSS Statistics sch tzt aber auch in R realisierte L sungen nutzen und vielleicht sogar eigene L sungen in R entwickeln m chte kann sich ber die Kooperationsbereitschaft der beiden Programme freuen und hat ein leistungs f higes Gespann zur Verf gung Im Manuskript werden SPSS Statistics 22 und R 2 15 verwendet Die aktuelle Version des Manuskripts ist als PDF Dokument zusammen mit den im Kurs benutzen Datei en auf
136. gration Plugin f r SPSS Statistics 22 e Das R Paket spss220 e R basierte Erweiterungsbundles Es werden etliche mit Hilfe von R implementierte Erweiterungsbundles installiert die aus einem Erweiterungskommando und einen benutzerdefinierten Dialog bestehen siehe Abschnitt 3 Zusammen mit einer Version von SPSS Statistics und dem zugeh rigen R Integrationspaket ist eine fest vorgegeben R Version zu verwenden Die von SPSS Statistics unterst tzte R Version ist in der Regel nicht ganz aktuell ca 1 Jahr alt Mit SPSS Statistics 22 ist die R Version 2 15 zu verwenden Im R Essentials Installationspaket zu SPSS Statistics 22 ist die vorausgesetzte R Version nicht enthal ten Diese muss aus anderer Quelle beschafft und vor den R Essential installiert werden den Das eben genannte PDF Dokument empfiehlt die R Version 2 15 2 zu verwenden und nennt u a den folgenden Download Link ftp ftp stat math ethz ch Software CRAN bin windows base old Gehen Sie folgenderma en vor um SPSS Statistics 22 R 2 15 und die zugeh rigen R Essentials zu in stallieren e SPSS Statistics 22 inkl Python Essentials und dem aktuellen FixPack Falls noch nicht geschehen m ssen Sie zuerst SPSS Statistics 22 installieren wobei Sie nicht auf die Option der Python Essentials verzichten sollten vgl Abschnitt 2 1 1 Anschlie end sollten Sie das aktuelle FixPack zu SPSS Statistics 22 installieren e R 2 15 2 oder die letzte Version R 2 15 3 aus der 2er G
137. gsd scale_fill_manual values c violet lightcyan4 scale_shape_manual values c 21 24 162 R Pakete und Syntax in SPSS Statistics verwenden 9 3 4 Weitere Diagrammtypen In diesem Abschnitt wird die L sung wichtiger Visualisierungsaufgaben mit Hilfe des ggplot2 Pakets demonstriert 9 3 4 1 Histogramm und Dichteplot Zur Demonstration des Histogramms verwenden wir die SPSS Datendatei kfa sav mit den Variablen aus dem statistischen Praktikum mit SPSS siehe Baltes G tz 2014c die sich an dem im Vorwort vereinbar ten Ort befindet Die Variable aergo enth lt den auf einer Skala von 0 bis 10 gemessenen rger von 31 Probanden tiber einen verpassten Flug Zun chst erstellen wir mit der Funktion ggplot ein Plot Objekt und vereinbaren per aes Funktion die darzustellende Variable gt histo lt ggplot kfa aes aergo Wir erg nzen die Schicht mit dem Histogramm und sorgen im zust ndigen geom_histogram Funkti onsaufruf ber das Argument binwidth f r eine passende Intervallbreite Au erdem werden die Achsen beschriftungen per labs Funktion modifiziert gt histo geom_histogram binwidth 1 labs x Arger y H ufigkeit Im Ergebnis st rt die triste schwarze Balkenfarbe gt 1 H ufigkeit 6 rger Mit dem folgenden Kommando gt histo geom_histogram binwidth 1 colour black fill lightblue labs x rger y H ufigkeit kommt eine freundlichere Farbe ins Spiel 163 R Pakete und
138. gt n lt 200 set seed 18 x lt round runif n 1 5 digits 0 e lt round rnorm n 2 digits y lt 0 6 x e df lt data frame x y kann die Starke der Beziehung von der Variablen x und y relativ schlecht beurteilt werden 148 R Pakete und Syntax in SPSS Statistics verwenden x Daher wird ber das position Argument der Funktion geom_point f r eine Positionsanpassung gesorgt gt ggplot df aes x y geom_point colour red position position_jitter width 0 height 5 Es kommt die Funktion position_jitter zum Einsatz wobei die Verwacklung in X und Y Richtung ber entsprechende Argumente gesteuert werden kann Im Beispiel bleiben die Regressorwerte unver n dert w hrend die Kriteriumswerte eine Darstellungskorrektur erhalten Nun sind die Dichteverh ltnisse der bedingten Verteilungen und die St rke der Beziehung besser zu beurteilen 10 were Werden auch die X Positionen verwackelt EEE He tee Feb Hth atte Sr e n sn e ese rergerrege me oe gt ggplot df aes x y geom_point colour red position position _jitter width 0 5 height 8 5 dann resultiert ein ausdrucksstarkes Diagramm das allerdings erkennbar von der Realit t mit 5 stufig erfasstem Regressor abweicht erwe o D 149 R Pakete und Syntax in SPSS Statistics verwenden 9 3 1 6 Facetten Die in ggplot2 realisierte Grammar of Graphics bietet die M glichkeit der F
139. gt b one too 1 2 ber die Funktion names kann man die Namen der Elemente ermitteln gt names b 1 one too und auch ndern z B 56 R Pakete und Syntax in SPSS Statistics verwenden gt names b lt c alpha beta gt b alpha beta 1 2 Ein Elementname l sst sich an Stelle des zugeh rigen Indexwerts verwenden z B gt b alpha alpha 3 5 3 4 2 7 Sortieren und R nge Die Funktion sort liefert die sortierte Variante eines Argumentvektors z B gt y lt c 40 55 23 11 77 gt sv sort v 1 11 23 40 77 87 Mit dem Argument decreasing l sst sich eine absteigende Sortierung veranlassen z B gt sv sort v decreasing TRUE 1 87 77 40 23 11 Die Funktion order liefert einen Ergebnisvektor der zu den Elementen des sortierten Vektors ihre In dexpositionen im Argumentvektor angibt z B gt ov order v 1 42152 Das i te Element von ov gibt an welche Indexposition das Element mit dem Rang i das i te Element von sv im Originalvektor v besitzt Verwendet man das order Ergebnis als Indexvektor vgl Abschnitt 5 3 6 3 auf den urspr nglichen Vektor an dann resultiert das sort Ergebnis z B gt v ov 1 11 23 40 55 77 Auch die Funktion order kennt das Argument decreasing ber die Funktion rank erh lt man einen Ergebnisvektor mit den R ngen der Elemente des Argument vektors z B gt rank v 1 34215 Zur Veranschaulichung der drei Funktionen
140. h Vektoren erlaubt so dass man z B bequem einen Vek tor verl ngern kann gt x lt C x 4 5 51 R Pakete und Syntax in SPSS Statistics verwenden Mit Hilfe des Zuweisungsoperators l sst sich auch ein einzelner Wert der in R als einelementiger Vektor aufgefasst wird in eine Variable schreiben gt k lt 13 Wertausgabe mit print Mit der Funktion print gibt man den Inhalt einer Variablen aus z B gt print x 1 12345 Weil dies sehr oft erforderlich ist kann man die print Funktion beim interaktiven Arbeiten implizit aufrufen indem man einen Variablennamen per Kommandozeile abschickt z B gt X DI 127323 Der implizite print Aufruf klappt auch bei der R Nutzung ber ein SPSS Syntaxfenster Er klappt hingegen nicht e in der eingebetteten Anweisung einer for Schleife vgl Abschnitt 5 3 8 3 e in einem per source ausgef hrten Skript vgl Abschnitt 5 4 e in einer selbst definierten R Funktion vgl Abschnitt 5 6 Am Zeilenanfang einer print Ausgabe erscheint zwischen eckigen Klammern die Indexnummer des ersten Ergebniswerts in der jeweiligen Zeile was nur bei einer mehrzeiligen Ergebnisausgabe von Bedeu tung ist Zwecks Demonstration verwenden wir im Vorgriff den Sequenzoperator vgl Abschnitt 5 3 7 4 gt y lt 1 30 gt y 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 26 27 28 29 30 Um den Wert einer Zuweisung ohne expliziten print Aufruf a
141. h bei diesem Einstsieg fragt das RGui nach dem bevorzugten Spiegel Server Ist auf dem Zielrechner keine Internet Verbindung vorhanden kann man die ben tigten Pakete auf einem lokalen Datentr ger als ZIP Dateien bereithalten und ber den folgenden Men befehl installieren 44 R Pakete und Syntax in SPSS Statistics verwenden Pakete gt Installiere Paket e aus lokalen Zip Dateien Sofern entsprechende Schreibrechte bestehen werden neue Pakete im library Unterordner des R Installationsordners abgelegt und die Pakete stehen allen Benutzern zur Verfiigung Bei einer Installation von R 2 15 3 unter Windows 7 landen die Pakete per Voreinstellung hier C Program Files R R 2 15 3 library Bestehen bei der Installation eines Zusatzpakets keine Schreibrechte fiir diesen Ordner wird die Einrich tung einer pers nlichen Bibliothek vorgeschlagen Frage a Would you like to create a personal library Would you like to use a personal library instead S C Users baltes Documents R win library 2 15 to install packages into Vor der geplanten Installation von Paketen die in der allgemeinen Bibliothek im Programmordner lan den und damit f r alle Benutzer verf gbar sein sollen muss R mit administrativen Rechten gestartet wer den damit ein Schreibzugriff auf den Programmordner m glich ist Sobald ein pers nlicher Bibliotheks ordner vorhanden ist wird dieser jedoch vorgezogen wie die Ausgabe der Funktion
142. h gr ere Stichprobe aus einer Standardnormalverteilung zu sehen Normalverteilung 0 1 0 3 J 0 2 Density 0 1 rnorm 1000 0 1 Es wurde durch den folgenden Aufruf der R Funktion hist erstellt vgl Abschnitt 9 2 4 4 gt hist rnorm 1000 1 freq FALSE col grey main Normalverteilung 8 1 7 4 1 2 f verteilte Zufallszahlen Uber die Funktion rchisq erh lt man n Zufallszahlen aus einer x Verteilung wobei die Anzahl der Freiheitsgrade und der Nonzentralit tsparameter einstellbar sind z B gt sampchisq lt rchisq 10 3 8 sampchisq 1 1 1991623 1 1538841 9253693 3756986 1 2608549 6 2716147 6392600 8 1 9859259 9282716 3 458797 Hier ist das Histogramm f r eine erheblich gr ere Stichprobe aus einer y Verteilung mit 3 Freiheitsgra den und Nonzentralit tsparameter 0 zu sehen 100 R Pakete und Syntax in SPSS Statistics verwenden Chiquadrat Verteilung 3 0 0 20 0 15 L Density 0 10 L 0 05 L 0 00 L rchisq 1000 3 0 Es wurde durch den folgenden Aufruf der R Funktion hist erstellt vgl Abschnitt 9 2 4 4 gt hist rchisq 1880 3 8 freq FALSE col grey main Chiquadrat Verteilung 3 7 4 1 3 Binomialverteilte Zufallszahlen ber die Funktion rbinom erh lt man n Zufallszahlen aus einer b
143. hne Mit Um das folgende Ergebnis zu erzielen Geschlecht Frau Mann Mittlerer rger 1 i Ohne Mit KFA wird das sthetische Attribut fill auf den Faktor geschl abgebildet gt ggplot kfa long aes kfa value fill geschl geom_bar stat summary fun y mean position position_dodge colour black geom_errorbar stat sSummary fun data mean_cl_normal position position_dodge width 0 9 width 5 size 1 labs x KFA y Mittlerer Arger n fill Geschlecht scale _fill_manual values c mediumorchid lightsteelblue3 175 R Pakete und Syntax in SPSS Statistics verwenden An den beiden X Achsenpositionen definiert durch den Faktor kfa sind jeweils zwei Balken auszuge ben f r Frauen und M nner Ohne Ma nahme zur Positionsanpassung vgl Abschnitt 9 3 1 5 w rden die Balken bereinander gestapelt Mit der Positionsanpassungsmethode position_dodge wird stattdes sen die Ausgabe von gruppierten Balken erreicht Auf der Schicht mit den Fehlerbalken ben tigt die Funktion position_dodge das Argument width weil Balken und Fehlerbalken unterschiedlich breit sind Mit der Funktion scale_fill_manual wird f r eine individuelle Farbauswahl gesorgt Zusammen mit einer Rahmenfarbe f r die Balken z B colour black erh lt man leider auch eine diagonale Linie in jedem Legendenelement siehe obige Abbildung Mit dem folgenden Trick entf llt die Diagonale e Man erzeugt zwei bar
144. hnitt 5 2 2 Eine kurze Funktionsbeschreibung der von IBM SPSS erstellten Erweiterungsbundles bietet Cohen 2013 2 3 Benutzerdefinierte Dialoge 2 3 1 Inhalt Neben dem Erweiterungsbundle das einen benutzerdefinerten Dialog und oder ein Erweiterungskom mando enthalten kann existiert als kleineres Distributionsformat der isolierte benutzerdefinierte Dia log Er pr sentiert eine bequeme Bedienoberfl che und realisiert seine Funktionalit t entweder durch eine SPSS interne Programmieroption z B Makrotechnik Programmiersprache MATRIX oder durch eine externe Programmieroption z B R oder Python Es fehlt die M glichkeit zur Integration in SPSS Programme doch die in vielen Situationen bzw von vielen Benutzern bevorzugte interaktive Nutzung wird perfekt unterst tzt 2 3 2 Erstellung Wer mit SPSS ein benutzerdefiniertes Dialogfeld erstellen m chte steigt mit dem folgenden Men befehl ein Extras gt Benutzerdefinierte Dialogfelder gt Dialogfelderstellung Es resultiert eine Custom Dialog Package Datei mit der Namenserweiterung SPD Eine Anleitung fin det sich z B im Core System Benutzerhandbuch IBM SPSS 2013 Kapitel 20 2 3 3 Installation Viele freundliche Menschen haben benutzerdefinierte Dialoge erstellt und dabei oft R zur Realisation verwendet Auf der folgenden Webseite http gruener userpage fu berlin de spss dialogs htm bietet Hans Griiner vom Rechenzentrum der FU Berlin diverse benutzerdefinier
145. ht lt factor ggg geschlecht labels c Frau Mann Wenn wir die Datentabelle erneut betrachten ist das Ergebnis der Datentyp Konvertierung zu besichti gen 88 R Pakete und Syntax in SPSS Statistics verwenden a 2 3 4 5 6 7 8 WE ee een ee oO mom oO oO um OO Um die Datentabelle ggg in eine RData Datendatei zu sichern w hlen wir den Meniibefehl Datei gt Datendatei speichern unter Wir wihlen R Data Files als Dateityp und geben keine Namenserweiterung an so dass eine Datei mit dem Namen ggg RData entsteht Speichern unter go IK Daten U Eigene Dateien R DEN R durchsuchen Organisieren Neuer Ordner Name nderungsdatum Typ Es wurden keine Suchergebnisse gefunden Dateiname 999 Dateityp R Data Files RData rda Rda RDA Ordner ausblenden Wir beenden den Commander und verzichten darauf das Skript und weitere Commander Produktionen zu speichern 89 R Pakete und Syntax in SPSS Statistics verwenden 7 Datenverwaltung und transformation mit R Mit der Datenverwaltung und transformation in R siehe z B Hain 2011 Kap 3 und 4 oder Muenchen 2011 Kap 10 werden wir uns aus Zeitgr nden nur knapp besch ftigen Typische und h ufig bis regel m ig anfallende Datentransformationen z B Variablen berechnen oder rekodieren sind bequemer in SPSS Statistics mit der Standard Syntax oder Dialogboxen zu erledigen Bei komplexen O
146. icht zur bersichtlichkeit bei Daher wird die syntaktisch weit bequemere attach Funktion trotz der damit verbundenen Risiken viel fach doch verwendet Bei Modellierungsfunktionen kann man im data Argument eine Datentabelle angeben und deren Variab len in anderen Argumenten mit einfachen Namen ansprechen z B gt lm formula y x data casedata 5 3 4 7 6 Funktionen auf Variablen oder Falle anwenden Wie bei Matrix Objekten siehe Abschnitt 5 3 4 4 5 l sst sich auch bei Datentabellen per apply eine Funktion auf alle Spalten oder alle Zeilen anwenden Im folgenden Beispiel werden die maximalen Werte der Variablen in einer Datentabelle ermittelt gt dt lt data frame alter c 45 32 58 groesse c 166 167 178 gt apply dt 2 max alter groesse 58 178 Mit dem zweiten Parameter legt man fest ob die Funktion auf die Zeilen Wert 1 oder auf die Spalten Wert 2 wirken soll 5 3 5 Fehlende Werte Bei beliebigen Datentypen dient NA Not Available als Ersatz fiir fehlende Werte z B bei einer Daten tabelle mit zwei numerischen Vektoren gt dt alter 1 lt NA gt dt alter geschlecht 1 NA 1 2 32 1 3 58 2 oder bei einem Vektor mit Modus character gt like ely NA TN EC gt like 1 y NA SCH Mn Es ist zu beachten dass NA auch bei Variablen mit character Modus ohne Anf hrungszeichen geschrie ben wird Uber die Funktion is na l sst sich berpr fen ob der Ersatzwert NA vorliegt z
147. ichtungsfunktion verwendet Abbildung bernommen aus Fox 2002 S 3 Q wg e 0 0 0 2 04 0 6 0 8 6 4 2 0 2 4 6 e Der Einfluss eines Falles wird mit wachsendem Betrag seines Residuums reduziert wobei auch kleine Abweichungsbetr ge bereits zu einer schwachen Minderung f hren F r die Beispieldaten inkl Fall 25 resultiert die folgende Tabelle mit rlm Ergebnissen Koeffizienten Konstanter Term 1 903 rim formula y x data dta na action na exclude method NE model FALSE Residuum Standardfehler 3 48643 Freiheitsgrade 48 Der Steigungskoeffizient wird sehr pr zise gesch tzt wahrer Wert 1 Leider werden zu den Regressi onskoeffizienten mangels Vertrauen in die Verteilung der Pr fstatistik berechnet als Quotient aus dem Sch tzer und seinem Standardfehler keine berschreitungswahrscheinlichkeiten p Werte geliefert Ebenso fehlen Vertrauensintervalle In Abschnitt 4 2 wird demonstriert wie man mit Hilfe von R Syntax approximative p Werte ermitteln kann Ist an Stelle des biquadratischen Sch tzers den SPSS in der Erweiterungsprozedur verwendet Hubers M Sch tzer mit der folgenden Gewichtungsfunktion Abbildung bernommen aus Fox 2002 S 3 Bis zur Version 1 2 1 des Erweiterungsbundles zur robusten Regression hie das Men item Solide Regression 21 R Pakete und Syntax in SPSS Statistics verwenden W le 0 0 02 0 4 06 08 1 0 gew nscht kann man in einem R Syntax Bloc
148. ie Funktion aus einem bestimmten Paket anzusprechen z B gt mypack func Um ein Paket per Dialogbox zu laden kann man im RGui den Meniibefehl Pakete gt Lade Paket verwenden aus der Liste mit allen installierten Paketen siehe oben ein Exemplar w hlen und mit OK quittieren Select one abind aplpack base boot car class cluster codetools colorspace compiler datasets e1071 effects eRm graphics grDevices grid Hmisc irr KernSmooth lattice leaps Imtest IpSolve MASS Matrix matrixcalc methods mgcv multcomp multilevel mvtnorm nime x OK Abbrechen 43 R Pakete und Syntax in SPSS Statistics verwenden In den meisten Fallen ist jedoch das Laden von Paketen per library Funktion sinnvoller z B im Rahmen von Skripten Zum Laden von Paketen per Syntax taugt auch die Funktion require die im Vergleich zu library fol gende Vorteile besitzt e Scheitert das Laden produziert library eine Fehlermeldung require hingegen eine Warnung Beim Aufruf innerhalb einer Funktion f hrt eine Fehlermeldung zum Abbruch der Funktion eine Warnung hingegen nicht e require liefert eine boolesche R ckgabe zum Erfolg des Aufrufs und kann daher gut in eine be dingte Anweisung integriert werden vgl Abschnitt 5 3 8 5 2 2 Pakete installieren Bei der Arbeit mit R ist es h ufig erforderlich Zusatzpakete zu installieren die bestimmte Auswertungs verfahren implementieren Wir wollen
149. igene dateien r pCor r pCor casedata x casedata y END PROGRAM 82 R Pakete und Syntax in SPSS Statistics verwenden 6 Bedienungserleichterungen fur R 6 1 Dateneditor Die R Bedienoberfl che h lt einen einfachen Dateneditor bereit mit dem sich Datentabellen und Matri zen anzeigen und ndern lassen 6 R Dateneditor fo amp Um die Bearbeitung eines Datenobjekts zu starten verwendet man entweder die Funktion fix gt fix dt oder man w hlt bei aktiver Konsole den Men befehl Bearbeiten gt Dateneditor und nennt anschlie end das zu bearbeitende Datenobjekt Question Name von Data Frame oder Matrix dt Abbrechen Soll das Bearbeitungsergebnis in einem anderen Datenobjekt landen w hlt man die Funktion edit mit Angabe des R ckgabeziels gt dt2 lt edit dt Der fix Funktion entspricht ein Aufruf der edit Funktion mit einem Ausgabeziel das mit dem Ar gument bereinstimmt z B gt dt lt edit dt Achtung Wenn Sie den folgenden Einstieg w hlen gt edit dt wird das Bearbeitungsergebnis nach Verlassen des Editors nicht in dt gespeichert Um die nderungen zu retten bleibt ihnen noch der Zugriff auf das zuletzt abgeschickte Objekt das in R ber den Namen Last value angesprochen werden kann Muenchen 2011 S 117 gt dt lt Last value Mit dem Editor kann man nicht nur Daten anzeigen und editieren sondern auch Variablen deklarie
150. ildet so dass auf der Y Achse relative statt absoluter H ufigkeiten angezeigt werden gt ggplot ggg aes gewicht geom_histogram binwidth 18 aes y density 9 3 1 4 Skalen Achsen und Legenden Bei der Abbildung von Variablen auf sthetische Attribute sind Skalen und das verwendete Koordinaten system relevant 145 R Pakete und Syntax in SPSS Statistics verwenden e Skalen Rohwerte z B Gr enangaben in cm m ssen auf Werte abgebildet werden die das Grafiksystem verarbeiten kann Weil die ggplot2 Grafik auf dem grid Paket basiert sind z B fiir die X bzw Y Positionen Werte im Intervall 0 1 erlaubt Eine Skalierung sorgt fiir die Abbildung der Roh werte auf Werte die das Grafiksystem versteht Skalen sind nicht nur bei X und Y Koordinaten beteiligt sondern auch bei anderen sthetischen Attributen Farbe Form Gr e Linientyp e Koordinatensystem Meist verwendet man das kartesische Koordinatensystem mit Achsen im Winkel von 90 Gele gentlich kommen Alternativen wie Polarkoordinaten in Betracht Von den Skalen h ngen auch die Achsen und die Legende eines Diagramms ab die gemeinsam als Gui des bezeichnet werden Eine Skala muss alle Schichten eines Diagramms ber cksichtigen Zur Modifikation von Skalen dienen Funktionen mit einem Namen nach dem folgenden Schema scale_ lt aesthetic gt _ lt type gt Als type Werte sind z B discrete continuous und gradient erlaubt Den scale Funktionen sind die folgend
151. ilfe CR R Data from Bliese Halver xX http 127 0 0 1 21530 library multilevel html bhr2000 htm c Suchen A A e A e Data from Bliese Halverson and Rothberg 2000 Description This data set contains the complete data used in Bliese Halverson amp Rotheberg 2000 The data set contains 14 variables with individual ratings of US Army Company leadership work hours and the degree to which individuals find comfort from religion The leadership and workhours variables are subsets of the Bliese and Halveson 1996 data set however in the case of leadership the agree data set contains the 11 items that make up the scale whereas the bh1996 data set contains only the scale score Most items are on a strongly disagree to strongly agree scale The RELIG item is ona never to always scale Usage data bhr2000 Format A data frame with 14 columns and 5 400 observations from 99 groups 1 GRP numeric Group Identifier 2 AF06 numeric Officers get willing and whole hearted cooperation 3 AF07 numeric NCOS most always get willing and whole hearted cooperation 4 AP12 numeric I am impressed by the quality of leadership in this company 5 AP17 numeric I would go for help with a personal problem to the chain of command 6 AP33 numeric Officers in this Company would lead well in combat L7 AP34 numeric NCOs in this Company would lead well in combat 8 AS14 numeric My officers are interested in my personal welfare 9 AS15 numeric
152. im Vergleich zum Standard Wert 1 reduziert Wert lt 1 oder erh ht wer den Wert gt 1 Iwd Durch diesen positiven Skalierungsfaktor kann die Linienst rke im Vergleich zum Standard Wert 1 reduziert Wert lt 1 oder erh ht werden Wert gt 1 z B gt boxplot x lwd 2 Mit den folgenden Argumenten lassen sich in High Level Grafikfunktionen Beschriftungen einf gen main sub Titel und Untertitel xlab ylab Beschriftungen f r die X bzw Y Achse Um die voreingestellten Beschriftungen abzuschalten wei t man den Argumenten eine leere Zeichenfolge oder den Wert NA zu z B gt plot x y type S xlab NA ylab NA 9 2 3 Die generische Funktion plot Mit der generischen High Level Grafikfunktion plot erstellt man f r k Koordinatenpaare x y Punkte ein Liniendiagramm siehe Abschnitt 9 2 4 1 oder ein Streudiagramm siehe Abschnitt 9 2 4 2 9 2 3 1 Argumente Die Funktion plot kennt u a die folgenden Argumente X k elementiger Vektor mit den x Koordinaten der Punkte L sst man den x Vektor weg verwendet R die Indexnummern der y Elemente 1 2 3 ee Vektor mit den y Koordinaten der Punkte type Zur Gestaltung der Punktmarkierungen und Linien stehen folgende Plot Typen zur Verf gung o p Nur Punkte Voreinstellung o I Nur Linien o b Beides Punkte und Linien o c Nur die Linien aus Typ b o o Beides Punkte und Linien overplotted o hi Senkrechte Linien analog zu e
153. in Abschnitt 8 3 1 das in SPSS Statistics nicht verf gbare Fleiss Kappa zur Beurteilung der Inter Rater bereinstimmung bei mehr als 2 Diagnostikern berechnen lassen und ben tigen dazu das R Paket irr Inter Rater Reliability das nicht zum Standardumfang einer R Installation geh rt Bei bestehender Internet Verbindung kann die Erg nzungsinstallation bequem im RGui ber den folgen den Men befehl gestartet werden Pakete gt Installiere Paket e Es erscheint ein Dialog zur Wahl eines Spiegel Servers zum Comprehensive R Archive Network CRAN links Danach w hlt man das gew nschte Paket rechts Packages Interpol interval intervals introgress ipdmeta iplots ipptoolbox ipred IPSUR ipw IQCC iRefR iRegression irlba CRAN mirror China Beijing 2 China Beijing 3 China Guangzhou China Hefei China Xiamen Denmark Ecuador France Lyon 1 France Lyon 2 France Montpellier Germany Berlin Germany Falkenstein Greece irtoys irtProb isa2 ISDA R isdals ISIPTA ismev Iso isocir ISOcodes IsoGene isopam isopat isotone IsotopeR TSOweek iSubpathwayMiner isva ISwR m Hungary India Indonesia Iran Netherlands Amsterdam Netherlands Utrecht 7 OK Abbrechen ok Abbrechen Wer lieber mit Kommandos arbeitet w hlt zur Installation eines Paketes die Funktion install packages z B gt install packages irr Auc
154. in Aktion erleben Durch den folgenden Aufruf gt example mean erh lt man das Ergebnis mean gt x lt c 8 10 50 mean gt xm lt mean x mean gt c xm mean x trim 8 10 1 8 75 5 50 5 3 1 3 Elektronische Handb cher Das Hilfe Men im RGui bietet ber Hilfe gt Handb cher PDF zahlreiche Handb cher im PDF Format an z B e An Introduction to R Venables et al 2014 e R Language Definition R Development Core Team 2014 Auf der CRAN Webseite Comprehensive R Archive Network http cran r project org finden sich unter der Uberschrift Documentation diverse Handbiicher zu R die vom Kern Team und aus anderen Quellen stammen 49 R Pakete und Syntax in SPSS Statistics verwenden 5 3 2 Bezeichner und Kommentare F r die Namen von Variablen und Funktionen in R gelten folgende Regeln e Erlaubte Zeichen o Buchstaben inkl dt Umlaute und Ziffern o Punkt und Unterstrich _ e Das erste Zeichen muss ein Buchstabe oder Punkt sein wobei Bezeichner mit f hrendem Punkt f r spezielle Zwecke reserviert bleiben sollten e Die L nge ist beliebig e Die Gro Kleinschreibung ist relevant e Schl sselw rter der Programmiersprache R z B if TRUE scheiden als Bezeichner aus Eine Liste der reservierten W rter erh lt man mit gt Reserved e Die Namen m ssen in ihrer Umgebung z B in ihrem Paket eindeutig sein In der empirischen Forschungspraxis lohnt es sich einigen Aufwand von Zeit und Phantasi
155. inem Histogramm o s S Treppenstufen in zwei Varianten o n leeres Diagramm zur Vorbereitung f r sp tere Low Level Ausgaben 119 R Pakete und Syntax in SPSS Statistics verwenden Um bei den folgenden Plot Typ Demonstrationen Platz zu sparen wurde als Ausgabeger t ein Grafikfenster mit einer Breite und H he von lediglich 3 Zoll verwendet vgl Abschnitt 9 1 p gei ba b men o 5 2 2 5 Z 1O 1O to Ke in a o 4 o fe O S No S SS wo _ oO _ oO _ oO _ oO o 3 4 o o o o af T T T T N 7 T T T T af T T T T NT T T T T 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 o h ig NG oO oO O CH w 1O w LO we 0 o vw oO oO oO oO e o o o NT T T T T oi H j j j j NT T T N T T 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 pch Das Symbol f r die Datenpunkte kann aus der folgenden Palette OA XKOV RKP OXHRMEOAOCBCODOALY rT TT T FF T T TOF rT T TT T TOT OT T TT TT TT 0 12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ber seine Nummer gew hlt werden z B gt plot x y pch 4 Statt fiir alle Datenpunkte dasselbe Symbol zu verwenden kann man dem Argument pch einen Vektor bergeben der f r jeden Datenpunkt ein eigenes Symbol en
156. inomialverteilten Population mit be stimmten Parametern f r das zugrunde liegende Bernoulli Experiment Anzahl der Wiederholungen Wahrscheinlichkeit im Einzelexperiment z B gt sampbin lt rbinom 10 20 8 5 sampbin 1 13 8 12 11 10 12 12 10 10 10 Hier ist das Histogramm f r eine erheblich gr ere Stichprobe aus derselben Binomialverteilung zu se hen Binomialverteilung 20 0 5 0 15 J Density 0 10 0 05 L 0 00 L l T 1 5 10 15 rbinom 1000 20 0 5 Es wurde durch den folgenden Aufruf der R Funktion hist erstellt vgl Abschnitt 9 2 4 4 gt hist rbinom 10 20 0 5 freq FALSE col grey main Binomialverteilung 20 5 101 R Pakete und Syntax in SPSS Statistics verwenden 7 5 Auswahl von Fallen und oder Variablen 7 5 1 Auswahl von F llen Oft soll bei einer Auswertung nur eine Teilmenge der F lle in einer Datentabelle einbezogen werden Mit der Funktion subset l sst sich aus einer Datentabelle ber einen logischen Ausdruck leicht eine Teil menge mit allen F llen ermitteln die den logischen Ausdruck erf llen z B gt dt lt data frame alter c 45 32 58 ges c f f m mot c 4 2 9 gt dtf lt subset dt ges f gt dtf alter ges mot 1 45 f 4 2 32 f 2 Zu den im logischen Ausdruck verwendbaren relationalen und logischen Operatoren siehe Abschnitt 5 3 7 Eine
157. ion mit einer durch den Ursprung des Koordinatensystems verlaufenden Regressionsgeraden y x 1 Im Design kann an Stelle einer Variablen auch ein Funktionsausdruck stehen z B y log x Werden im Funktionsausdruck Operatoren ben tigt die in der Modellformulierung eine alternative Be deutung haben muss per I Funktion die arithmetische Bedeutung der Operatoren wiederhergestellt werden z B lm y I x1 x2 107 R Pakete und Syntax in SPSS Statistics verwenden Weitere weniger oft ben tigte Details zur Modellformulierung finden sich z B bei Venables et al 2014 Abschnitt 11 1 und Wollschl ger 2010 S 163ff 8 3 L cken im SPSS Statistikangebot f llen In diesem Abschnitt werden weitere statistische Methoden behandelt die in SPSS fehlen und die mit R leicht zu realisieren sind Einige Erg nzungen der SPSS Funktionalit t konnten schon in Abschnitt 3 vor gestellt werden weil sie ber Erweiterungsbundles ohne R Kenntnisse zu nutzen sind In Abschnitt 4 wurde erl utert wie man R Programme im SPSS Syntaxfenster erstellt und darin auf SPSS Variablen zugreift In Abschnitt 5 wurde R als Programmierumgebung vorgestellt so dass wir nun die Angebote im R Universum nahezu uneingeschr nkt nutzen k nnen 8 3 1 Fleiss Kappa In einem Beispiel mit fiktiven Daten haben drei Beurteiler zehn Objekte jeweils in eine von f nf Katego rien eingeordnet Wir erstellen zun chst f r jeden Rater einen Vektor mit seinen Urteilen un
158. ir die Daten mit Hilfe der Funktion melt aus dem Paket reshape2 in das Langformat wobei ein Faktor namens kfa mit den Stufen aergo und aergm entsteht gt library reshape2 gt kfa long lt melt kfa id vars fnr measure vars c aergo aergm variable name kfa gt kfa long kfa lt factor kfa long kfa labels c Ohne Mit Wir erhalten die folgende Datentabelle kfa long mit dem Faktor kfa und dem numerischen Vektor value fnr kfa value el 1 Ohne 5 2 2 Ohne 5 31 31 Ohne 7 32 1 Mit 8 33 2 Mit 8 62 31 Mit 9 Um dazu per ein Balkendiagramm mit Fehlerbalken zu erstellen kann die ggplot2 Syntax aus Abschnitt 9 3 4 3 2 weitgehend bernommen werden gt ggplot kfa long aes x kfa y value geom_bar stat summary fun y mean fill cornflowerblue colour blue geom_errorbar stat summary fun data mean_cl_normal width 0 5 size 1 labs x KFA y Mittlerer Arger n Der nicht unerhebliche Aufwand wird durch ein gutes Ergebnis belohnt Mittlerer Arger ohne Mit KFA Bei der im aktuellen Kontext wenig relevanten Konstellation geht es um die kontrafaktische also nicht eingetretene Alter native zu einem ungiinstigen Ereignis 174 R Pakete und Syntax in SPSS Statistics verwenden Mit SPSS ist ein weitgehend identisches Diagramm mit wenigen Mausklicks zu erstellen Allerdings bie tet die Verwendung von R mehr Flexibilitat die z B zur Erstellung von korrigierten Fehl
159. is matrix 51 2 Man muss schon genau hinsehen um den Wirkungsunterschied zwischen dem Komponentenauswahl Operator und dem allgemeinen Indizierungs Operator bei einer Liste zu erkennen gt lis 1 PI 123 64 R Pakete und Syntax in SPSS Statistics verwenden zs Letz Vektor CH 23 25 lis 1 ist die erste Komponente in der Liste ein Vektor mit numerischen Elementen 1is 1 ist hingegen eine Liste die allerdings nur noch die erste Komponente von Lis enth lt Mit der class Funktion befragt nennen die beiden Objekte ihren Typ gt class lis 1 1 numeric gt class lis 1 3 last Das Verhalten des allgemeinen Indizierungsoperators in R ist absolut konsistent Angewandt auf einen Vektor liefert er einen neuen Vektor mit L nge 1 und angewandt auf eine Liste liefert er eine neue Liste der L nge 1 Verwendet man einen Indexvektor siehe Abschnitt 5 3 6 3 in Kombination mit dem allge meinen Indizierungs Operator l sst sich ein Teilvektor oder eine Teilliste mit einer L nge gr er 1 ge winnen Um ein bestimmtes Element aus einer Listenkomponente anzusprechen l sst man die beiden Indexopera toren aufeinander folgen z B Ziel OS 1 3 Es ist aber auch folgende Schreibweise erlaubt gt Lis et1 3 1 1 3 5 3 4 7 Datentabelle Ein Data Frame in Anlehnung an Ligges 2007 bersetzt mit Datentabelle in R entspricht einem Daten blatt mit einer F lle x Variablen
160. isten lassen z B 39 R Pakete und Syntax in SPSS Statistics verwenden gt ist 1 eimer x Der etwas l ngere und dabei informativere Aliasname f r diese Funktion lautet objects Uber die apropos Funktion kann man alle Objekte ermitteln die einen bestimmten Namensbestandteil besitzen Die folgenden Kommandos gt eimer lt c 1 2 3 gt apropos eim f hren zur Ausgabe 1 mergeImportMethods eimer getNamespacelImports 4 namespaceImport namespaceImportClasses namespaceImportFrom 7 namespaceImportMethods saveNamespaceImage Man kann die Funktion apropos im RGui auch per Men befehl nutzen Hilfe gt Apropos Neben den Datenobjekten merkt sich das RGui auch die abgeschickten Anweisungen ber die vertikalen Pfeiltasten kann man fr her verwendete Anweisungen zur ckholen Das RGui verwendet die folgenden Dateien im Arbeitsverzeichnis um den Workspace und das Kom mandoged chtnis zwischen zwei Sitzungen aufzubewahren e RData Hier speichert das RGui den Workspace e Rhistory Hier speichert das RGui das Kommandoged chtnis Beim Starten liest R den Workspace und das Kommandoged chtnis aus diesen Dateien und beim Been den einer Sitzung werden Datenobjekte sowie gespeicherte Anweisungen der Sitzung nach einer zustim menden Antwort auf die folgende Frage Frage Workspace sichern Nein Abbrechen in die beiden Dateien gesichert Um alle Datenobj
161. it den R Funktionen hist density und lines l sst sich wie schon in Abschnitt 9 1 5 demonstriert zu einer Variablen ein Histogramm mit gesch tzter Dichtefunktion erstellen 135 R Pakete und Syntax in SPSS Statistics verwenden Histogramm mit Dichte Dichte 0 00 0 05 0 10 015 0 20 0 25 0 30 0 35 Diese Darstellung wurde fiir eine SPSS Variable angefordert vgl Abschnitt 4 1 und mit publikations tauglicher Aufl sung in eine PNG Datei geschrieben BEGIN PROGRAM R data lt spssdata GetDataFromSPSS png u eigene dateien r NormDens png 15 15 units cm res 600 hist data y freq FALSE breaks 10 col lightblue main Histogramm mit Dichte ylab Dichte xlab NA lines density data y col red lwd 2 END PROGRAM Die hist Funktion geh rt zu den High Level Grafikfunktionen in R die jeweils ein komplettes Dia gramm produzieren Im obigen hist Aufruf werden neben den generellen Grafikparametern col main xlab und ylab f r die Zeichenfarbe bzw f r Beschriftungen vgl Abschnitt 9 2 2 folgende Argumente genutzt e freq FALSE Statt absoluter H ufigkeiten sollen relative zur Beschriftung der Y Achsen Teilstriche verwendet werden e breaks Mit diesem Parameter beeinflusst man die Anzahl der Intervalle auf der X Achse wobei zu kleine oder zu gro e Werte zu einem wenig aussagekr ftigen Histogramm f hren Der Low Level Grafikfunktion lines Funktion wird im Beispiel als erstes Arg
162. itig REGel sia oi sscdencetessnisnsssteeceias cofseststanendendesnssstcecedtesne 74 reencode remove TEPO enee Nee NEE e Ee Eed require EEN THI Reset de ea aa ease 17 20 TING RE 29 39 51 THOM EE 96 Robuste Regression 17 rOW NamMes au 65 rownames 59 Rprofile site 41 R Skripie uni eat gr EAAS 76 S 7 SAMPLE EE 99 SAVE cessos 40 SEU eg Ee 39 scale_colour_manual papel Bos scale DI manual 171 scC le shape manual 156 scale Funktionen Schnitt von Mengen 174 SEAICH EE 41 51 66 Sekund rstichprobe LEE 53 74 DEQUENZOPELALOL oc seccsesssecsesteessvescocsevercsecosasseestvovadenanene 29 53 74 setdiff Ge ele EE Show TEE 142 Skalen 322 0 01 PAS HERR PE PEN PR RO awn aainwia esa shanie 141 Skalierung Tobit Regression znosno aie en asien 25 smoothScatter 127 Solide Regression cnie i AR 20 SO VE cesscecceeees 175 SOH Re geess eet eege ee 55 Source 177 80 Spaghetudiasramm neskken asien 172 Spaltendominanz 58 spsspivottable Display 33 St rtverzeichnis ze siert dein enemas 38 SEL nn ee dene sehen deines ee Ae Streudiagramm Struktur einer Mats 59 GIE EE Suchpfad Cu EEN SUMMAryO er ieren er eebe eene T SYMBOLE ere geen eege T tO 60 e EE 105 IO NEE 101 Task Views nen engrave E A ES 45 1123 41 0 ease deed 112 Textdateien lesen rei Eed Seed eg 8
163. k die Variablen der SPSS Arbeitsdatei an R bergeben und die R Funktion rlm direkt verwenden siehe Abschnitt 4 2 Bei der Huber Gewichtung muss der Residuumsbetrag eine Grenze berschreiten bevor die Minderung des Einflussgewichts einsetzt Im Un terschied zum biquadratischen Sch tzer bleibt der Einfluss auch bei F llen mit sehr gro em Residuums betrag gr er 0 3 2 Breusch Pagan Heteroskedastizit ts Test Der Breusch Pagan Test pr ft f r lineare Regressionsmodelle die Nullhypothese homogener Fehlervari anzen Wir betrachten als Anwendungsbeispiel synthetische Daten mit einer bivariaten Regression und Fehlerva rianzen mit ausgepr gter Abh ngigkeit vom Wert des Regressors Y 2 X mit Var e 1 X Cov e e 0 X gleichverteilt auf 0 1 In der Stichprobe mit n 100 ist die mit dem Regressor wachsende Fehlervarianz gut zu erkennen 0 00 0 20 0 40 0 60 0 80 1 00 Das Erweiterungskommando zur robusten Regression ist verf gbar ber den Men befehl Analysieren gt Regression gt Residuums Heteroskedastizit tstest 22 R Pakete und Syntax in SPSS Statistics verwenden und verwendet die Funktion nevTest aus dem R Paket car Im Beispiel wird die Heteroskedastizit t erkannt Nichtkonstanter Varianzwerttest Testergebnis 6 352 1 000 012 Varianzmodell fitted values Berechnet durch R ncvTest Funktion Nach einem signifikanten Heterogenit tstest muss man brigens den Versuch einer linea
164. leiss Kappa eege ee Eeer a 43 103 foris 4 BR tie Mee IB Erin 92 for Schleife fie PE ee ege ere 60 Dagesrees dee 168 Funktionen Seed Ae Aeren E eege Auge BEZ ee EA 49 Funktionen definieren s nosesosseeosseeesrsoeeseeesssrssseresssrssseresseee 79 G Generische Funktionen ccccccccsccceessccessseccessseecesseeeessseeeeses 78 GEOM EE 136 geom_bar geom _DOXPION un geom dengt geom_density2d PEON ETOD EEN geom histogram EE 158 PLAN E O O E stats EHER nes 173 GleichungssysteM suier sieniniai eiieeii iisi 175 Grafikparameter oraphics E EE Gu UE EE Gruppiertes Balkendiagramm Gruppiertes Streudiagramm ENEE El E EE e 46 Help search EE 47 Hexagonale OGruppierung 154 High Level Grapktfunkttonen 131 IO 64 102 identify eet seess Seed enee Ee if Anweisung if else Anweisung E WE Tide x matik ee Keep eben Eeer deene esoe BEN Indexvektoren 2 i ieseiisensitettiiieenkefitistet install packages e E EUREN EE Interquartilsabstand ecceceeccesseeeeseeeceeseceeeeseeeeeeeeneeeaeeeees intersect Tverse Matrix deele rrean irae a n ee is kappani Fleiss Oonan EEN 104 eut Oe 49 Koordinatensystem 5 0 0 ORR E E E E Se ee 141 lesende ron nokon En anren ANERER RER EEN 118 123 length levels 57 levels 57 VID Oe 42 library aneirin aaa Ines Einiendiastamm enee 119 Li
165. len R Grafik Darstellungs techniken f r Streudiagramme mit sehr vielen F llen kennen gelernt Wie das folgende Beispiel mit simu lierten Daten n lt 7088 set seed 12 x lt rnorm n 1 res rnorm n 1 y lt 5 x res df lt data frame x y ggplot df aes x y geom_point WO M MOONE OE zeigt ist die voreingestellte Darstellung von geom_point nicht ideal 158 R Pakete und Syntax in SPSS Statistics verwenden Von der Funktion geom_density2d gt ggplot df aes x y geom_density2d erhalt man die Dichtelinien der Verteilung 1 1 1 j 1 2 1 0 1 2 X Eine in ggplot2 nach der Zusatzinstallation des Pakets hexbin sowie auch in SPSS via GPL verf gba re Alternative ist das Streudiagramm mit hexagonaler Gruppierung Dieses Exemplar H ufigkeit 60 40 wurde durch folgende Syntax erzeugt gt library hexbin gt ggplot df aes x y stat_binhex scale_fill_continuous name H ufigkeit 159 R Pakete und Syntax in SPSS Statistics verwenden 9 3 3 Werte f r datengebundene sthetische Attribute ndern Die bei einem datengebundenen sthetischen Attribut verwendeten Symbole Linienstile und Farben las sen sich ber eine scale Funktion ndern Zur Demonstration verwenden wir Varianten des bereits in Abschnitt 9 3 2 verwendeten gruppierten Streudiagramms Im ersten Beispiel werden f r das zur Unterscheidung der Geschlechtsgruppen verwendete Attribut col o
166. listwise way The null hypothesis Kappa 0 could only be tested using Fleiss formulation of Kappa Computes Fleiss Kappa as an index of interrater agreement between m raters on categorical data Additionally category wise The coefficient described by Fleiss 1971 does not reduce to Cohen s Kappa unweighted for m 2 raters Therefore the exact Kappa coefficient which is slightly higher in most cases was proposed by Conger 1980 R Documentation die bei geladenem Paket auch tiber das Kommando gt kappam fleiss abrufbar ist Wie die Beispiele in der Beschreibung zeigen gen gt zum Aufruf der Funktion eine Angabe der Daten im Argument ratings wobei eine Matrix oder eine Datentabelle akzeptiert werden Wir k nnen f r unse re Daten also den folgenden Aufruf verwenden 109 R Pakete und Syntax in SPSS Statistics verwenden gt kappam fleiss rater Fleiss Kappa for m Raters Subjects 10 Raters 3 Kappa 8 295 Z 2 79 p value 8 00523 F r das Fleiss Kappa resultiert der Sch tzwert 0 295 und die Nullhypothese Ho Kappa 0 wird durch den p Wert von 0 005 klar verworfen Allerdings ist eine signifikant von 0 verschiedene bereinstimmung noch keine Garantie f r die diagnostische Tauglichkeit der Urteilsleistung Liegen die Daten in der SPSS Arbeitsdatei vor ta Fleiss Kappa sav DataSet1 IBM SPSS Statistics Dateneditor Datei Bearbeiten Ansicht Daten Transformieren Ana
167. ltung 5 6 Eigene Funktionen BEDIENUNGSERLEICHTERUNGEN F R R 78 79 81 83 R Pakete und Syntax in SPSS Statistics verwenden 6 1 Dateneditor 6 2 R Commander 6 2 1 Datentabelle anlegen definieren und f llen 6 2 2 Datenverwaltung 7 DATENVERWALTUNG UND TRANSFORMATION MIT R 7 1 Beispieldaten in R Paketen nutzen 7 2 Daten in Fremdformaten lesen und schreiben 72 1 Textdateien mit separierten Daten 72 1 1 Lesen 72 12 Schreiben 72 2 SPSS Datendatei lesen 7 2 3 Dateiauswahl per Dialogbox 7 3 Variablen berechnen oder modifizieren 73 1 Umkodieren 7 3 2 Berechnen 7 4 Zufallszahlen erzeugen 7 4 1 1 Normalverteilte Zufallszahlen 7 4 1 2 y verteilte Zufallszahlen 7 4 1 3 Binomialverteilte Zufallszahlen 7 5 Auswahl von F llen und oder Variablen 7 5 1 Auswahl von F llen 7 5 2 Auswahl von Variablen 7 6 Daten aus verschiedenen Tabellen zusammenf hren 7 7 Daten aggregieren 7 8 Sekund rstichproben ziehen 8 STATISTISCHE DATENANALYSE MIT R 8 1 Einfache univariate Verteilungsbeschreibung 8 1 1 Univariate Verteilungsbeschreibung f r metrische Variablen 8 1 1 1 Kompakte Verteilungsbeschreibung 8 1 1 2 Statistische Funktionen f r numerische Vektoren 8 1 2 Absolute und relative H ufigkeiten f r kategoriale Variablen ausgeben 8 2 Modellformulierung 8 3 L cken im SPSS Statistikangebot f llen 8 3 1 Fleiss Kappa 8 3 2 Gerichtete t Tests mit einseitigem Vertrauensintervall 9 GRAFIK OPTIONEN IN R 9 1 Ausgab
168. ltung Viele R Funktionen k nnen mit Daten unterschiedlichen Typs arbeiten und dabei das jeweils passende Verhalten zeigen Man spricht hier von generischen Funktionen Ein Beispiel ist die Funktion sum mary der man das Ausgabeobjekt einer Statistikprozedur bergibt um ber den meist sp rlichen Stan dardausgabeumfang hinaus weitere Details zu erfahren Im folgenden Beispiel wird f r 3 k nstliche F lle mit der Funktion Im eine Regression der Variablen y auf die Variable x angefordert wobei die Ergeb nisse im Objekt lmod landen Die mit einem impliziten print Aufruf angeforderte Ausgabe beschr nkt sich auf die Modellformel und die Regressionskoeffizienten ohne Signifikanztests x lt c 1 2 3 y lt x rnorm 3 0 1 lmod lt Im y x lmod 79 R Pakete und Syntax in SPSS Statistics verwenden Call Im formula y x Coefficients Intercept x 1 2394 8 6929 Im Beispiel stecken die Ergebnisse in einem Objekt mit der Klasse Im gt class 1lmod 1 Im und die print Funktion zeigt eine f r R typische Zur ckhaltung bei der Ergebnisausgabe Um eine ausf hrlichere Ausgabe zu erhalten wendet man die summary Funktion auf das Im Objekt an gt summary lmod Call Im formula y x Residuals 1 2 3 0 01326 0 02651 0 01326 Coefficients Estimate Std Error t value Pr gt t Intercept 1 23940 0 04960 24 99 0 0255 X 0 69291 0 02296 30 18 0 0211 Sienir codes a 9 00
169. lysieren Direktmarketing Grafik Extras Fenster Hilfe FIET DER RAJE 8 Se De Sichtbar 3 von 3 Variablen rater1 rater2 w Go Um h nww nw a w N wwnnk Wow amp 1 4 5 3 5 4 3 5 2 3 IBM SPSS Statistics Prozessor ist bereit Unicode ON gelingt die Fleiss Kappa Berechnung z B mit der folgenden Syntax BEGIN PROGRAM R data lt spssdata GetDataFromSPSS library irr kappam fleiss data END PROGRAM 8 3 2 Gerichtete t Tests mit einseitigem Vertrauensintervall Bei t Tests liefert SPSS Statistics grunds tzlich nur den p Wert zum zweiseitigen Test und dazu passend das zweiseitige Konfidenzintervall Wenn ein gerichtetes Testproblem vorliegt Kann der ben tigte einsei tige p Wert leicht berechnen werden durch Halbieren des zweiseitigen p Werts Das zugeh rige einsei tige Vertrauensintervall zu bestimmen ist etwas umst ndlich Diese M he kann man sich ersparen durch Verwendung der R Funktion t test die ber das Argument alternative mit den Werten e two sided Voreinstellung e greater oder e Tess 110 R Pakete und Syntax in SPSS Statistics verwenden eine Testausrichtung entgegennimmt und bei einseitiger Testung auch ein passendes einseitiges Vertrau ensintervall berechnet Wir rechnen als Beispiel einen Einstichproben t Test zum Hypothesenpaar Ho u lt 0 versus Hu u gt 0 und verwenden dazu eine Zufallsstichprobe N 50 aus einer normalverteilten Population mit dem Mit telw
170. meric ber die Funktion is typ mit booleschem Riickgabewert stellt man f r ein Objekt fest ob es den genann ten Datentyp besitzt z B gt is matrix mat 1 TRUE gt is vector mat 1 FALSE ber die Funktion as typ l sst sich eine Typumwandlung erzwingen z B gt y lt SE gt mode v 1 numeric gt v lt as character v gt mode v 1 character R verwendet eine implizite und dynamische Typisierung von Variablen Der Datentyp einer Variablen wird also implizit festgelegt und kann sp ter wieder ge ndert werden z B gt y lt 3 gt mode y 1 numeric gt y lt ai gt mode y 1 character 5 3 4 2 Vektor Ein Vektor ist ein Objekt das eine geordnete Anzahl von Elementen desselben Grundtyps enthalt Man kann den Vektor als den elementarsten und wichtigsten Datentyp in R betrachten weil fast alle anderen Datentypen intern als Vektoren mit speziellen Eigenschaften realisiert sind Ligges 2007 S 33 R kennt keine Skalare und behandelt z B eine einzelne Zahl als einen Vektor der L nge 1 5 3 4 2 1 Vektoren erstellen Wir haben bereits in zahlreichen Beispielen die Verkettungsfunktion c dazu verwendet einen Vektor zu erstellen gt xX lt c i 2 5 54 R Pakete und Syntax in SPSS Statistics verwenden Uber eine Funktion mit dem Namen des Elementtyps und einem Argument zur L ngenbestimmung erh lt man einen Vektor mit Nullinitialisierung der Elemente Im folgen
171. mit l sst sich die generelle Breite der Boxen beeinflussen e Boxfarben Hier ist ein R Farbname einzutragen Das Ergebnis macht deutlich dass die beiden Teilstichproben unterschiedlich gro sind wobei aber exak te Angaben fehlen 8 10 L aergo 6 L gesch Bei direkter Nutzung der R Funktion boxplot ber R Anweisungen im SPSS Syntaxfenster 134 R Pakete und Syntax in SPSS Statistics verwenden BEGIN PROGRAM R data lt spssdata GetDataFromSPSS factorMode labels levels data geschl 1 lt levels data geschl 2 lt paste levels data geschl 1 N length data geschl data geschl Frau paste levels data geschl 2 N length data geschl data geschl Mann boxplot data aergo data geschl col lightblue3 varwidth TRUE boxwex 75 xlab Geschlecht ylab Arger ohne KFA END PROGRAM l sst sich mit Hilfe von Grafikparametern und boxplot Argumenten ein besseres Ergebnis erzielen o Arger ohne KFA 6 4 o Frau N 25 Mann N 6 Geschlecht Zur Anzeige der Fallzahlen wurden die Labels der Faktorstufen modifiziert wobei die neuen Zeichenfol gen mit Hilfe der R Funktion paste aus den alten und den berechneten Teilstichprobenumfangen ent standen sind Hier zeigt sich exemplarisch wie mit R Grafiken eine Verbesserung zu erzielen ist die mit einem gewissen Aufwand bezahlt werden muss 9 2 4 4 Histogramm mit Dichtesch tzung M
172. mooth method 1m aes group 1 show_guide FALSE geom_point size 3 labs x GroBe y Gewicht colour Geschlecht Hier ist das gewiinschte Ergebnis Geschlecht Frau Se Mann D Gewicht Oe Gr e Um die unpassende Legende 157 R Pakete und Syntax in SPSS Statistics verwenden Geschlecht Frau Mann durch eine Alternative ohne gruppenspezifische Linienfarben zu ersetzen wird im geom_smooth Auf ruf mit dem Argument show_guide FALSE verhindert dass die Schicht in der Legende Beriicksichti gung findet 9 3 2 5 Schichtaufbau mit qplot starten Am grunds tzlichen Schichtaufbau eines ggplot2 Diagramms ndert sich brigens nichts wenn statt ggplot die Funktion gplot verwendet wird Ein gplot Aufruf erstellt ein Plot Objekt und erg nzt Schichten Man kann sogar eine gplot Produktion als Ausgangsbasis f r den weiteren Schichtaufbau mit geom Funktionen verwenden z B gt qplot gewicht gr e data ggg geom_smooth method 1m Im Beispiel landet allerdings die Gl ttungsschicht mit der transparenten Konfidenzzone ber der Punkte schicht was die F rbung einiger Punkte ndert Die im Vergleich zu qplot deutlich gr ere Flexibilit t der Funktion ggplot bei der Grafikproduktion zeigt sich u a in der perfekten Kontrolle ber den Schichtaufbau 9 3 2 6 Dichtedarstellung bei gro en Stichproben Wir haben schon in Abschnitt 9 2 4 2 6 im Zusammenhang mit der traditionel
173. n Eine Schicht enth lt eine Datenvisuali sierung die als Geom geometric object bezeichnet wird Ein Geom kann z B x y Datenpunkte Bal ken oder Linien enthalten Bevor der Schichtenausbau losgehen kann muss ein Plot Objekt angelegt werden Dazu rufen wir die Funktion ggplot auf und benennen im ersten Argument eine voreingestellte Datentabelle mit den darzu stellenden Variablen Sind Variablen auf mehreren Diagrammschichten mit bestimmten Darstellungsas pekten z B mit der X oder Y Position verbunden gibt man diese Verbindung schon bei der Plot Initialisierung bekannt wobei ein Aufruf der Funktion aes zu verwenden ist vgl Abschnitt 9 3 1 2 Im folgenden Beispiel werden die Variablen gr e bzw gewicht als erstes bzw zweites unbenanntes Ar gument der aes Funktion der X bzw Y Position des Diagramms zugeordnet gt sd lt ggplot ggg aes gr e gewicht Wird bei der Plot Initialisierung darauf verzichtet eine voreingestellte Datentabelle bzw Rollenzuwei sungen f r Variablen zu benennen m ssen diesen Angaben sp ter im Zusammenhang mit Schichtdefini tionen nachgeholt werden Wie ein impliziter print Aufruf f r das eben erzeugte Plot Objekt zeigt gt sd 141 R Pakete und Syntax in SPSS Statistics verwenden ist mangels vorhandener Schichten noch keine Grafikproduktion m glich Fehler No layers in plot Um fiir ein Plot Objekt eine Schicht mit einem bestimmten Geom zu erstellen ruft man ein
174. n Ausrei ern und F llen mit gro er Hebelwirkung auf die Sch tz und Testergebnisse ebenso vermeiden m chte wie den Verdacht unliebsame Daten unterschlagen zu ha ben k nnen Techniken der robusten Regression ein Ausweg sein Im vorzustellenden Erweiterungsbundle sowie in der zugrunde liegenden R Funktion dm aus dem R Paket MASS kommen so genannte M Sch tzer zum Einsatz die e zwar den Einfluss von F llen mit gro en Residuen begrenzen e jedoch nicht robust sind gegen ber F llen mit unauff lligen Residuen aber gro e Hebelwirkung Die Verfahren mit M Sch tzer arbeiten als WLS Regression gewichtete Kleinst Quadrat Regression mit iterativ verbesserten Gewichten IDRE UCLA 2014a e Aufgrund der Residuen werden neue Gewichte berechnet je gr er der Residualbetrag desto kleiner das Gewicht e Mit den neuen Gewichten erh lt man aktualisierte Parametersch tzungen und neue Residuen Wenn sich die Parametersch tzer nicht mehr ndern stoppt der iterative Algorithmus Eine ausf hrliche Behandlung der robusten Regression bietet z B Ryan 1997 Wir betrachten als Anwendungsbeispiel synthetische Daten mit einer bivariaten Regression und einem Ausrei er der die Sch tzung und Testung empfindlich st rt Das wahre Modell Y 1 X mit Var e 9 Cov e amp 0 In der Stichprobe mit n 50 befindet sich ein Fall Nr 25 mit dem St rimpuls 13 im Y Messwert was im Streudiagramm gut zu erkennen ist 18
175. n Vektor kann eine Menge repr sentieren Dann e spielt die Reihenfolge der Elemente keine Rolle e werden Dubletten ignoriert Um Dubletten explizit zu entfernen verwendet man die Funktion unique z B gt seti lt c 1 2 2 3 4 5 gt uset lt unique set1 1 12345 gt length unique set1 1 5 Den Durchschnitt zweier Mengen liefert die Funktion intersect z B gt Set2 lt 6 3 4 5 65 7 gt intersect set1 set2 1 345 Um zwei Mengen zu vereinigen verwendet man die Funktion union z B gt union set1 set2 f1 1234567 Subtrahiert man ber die Funktion setdiff von einer Menge set1 eine Menge set2 dann resultiert als Differenz eine Menge mit allen set1 Elementen die sich nicht in set2 befinden z B gt setdiff set1 set2 KAES Ob sich ein bestimmtes Element in einer Menge befindet pr ft man mit der Funktion is element z B gt is element 2 set1 1 TRUE Wird f r einen Vektor die elementweise Existenzpr fung vorgenommen resultiert ein Vektor vom Typ logical z B gt is element c 8 1 2 set1 1 FALSE TRUE TRUE Alternativ zur Funktion is element kann mit demselben Ergebnis der Operator in verwendet wer den z B gt c 8 1 2 in set1 1 FALSE TRUE TRUE Um f r eine Menge zu pr fen ob sie Teilmenge einer anderen Menge ist wendet man die Funktion allt auf die R ckgabe der Funktion is element bzw des Operators in an z B gt all c 1 2 in c 8 4 1 TRUE
176. n diversen Dateiformaten gespeichert werden Metafile Postscript PDF Png Bmp TIFF und Jpeg e ber den Men befehl Datei gt Kopieren in Zwischenablage als Metafile oder Bitmap in die Windows Zwischenablage kopiert werden e ber den Men befehl Datei gt Drucken auf einem Drucker ausgegeben werden ber das Kontextmen zum Grafikfenster sind abgesehen von einer Beschr nkung auf die Dateiformate Metafile und Bitmap dieselben Aktionen m glich Soll ein Diagramm in ein Word Dokument integriert werden ist aufgrund der Export Import Schnitt menge von R und Word ein Bitmap Format zu verwenden Weil bei der Diagrammerstellung via Grafik fenster die Bitmap Aufl sung nicht beeinflusst werden kann scheidet f r die bergabe von R an Word der bequeme Weg ber die Windows Zwischenablage aus Um eine gute Qualit t zu erzielen sollte ber ein alternatives Ausgabeger t eine Datei erstellt und diese in das Textdokument eingef gt werden siehe Abschnitt 9 1 3 Bei aktivem Grafikfenster l sst sich ber den Men befehl History gt Aufzeichnen die Aufzeichnung der erzeugten Grafiken ein bzw ausschalten Zwischen aufgezeichneten Diagrammen kann man ber die Tasten fut bzw kel wechseln Um ein Grafikfenster mit Aufzeichnung per Syntax zu ffnen w hlt man den Funktionsaufruf gt windows record TRUE 9 1 3 Ausgabe in eine Datei Unter Windows stehen zwei M glichkeiten zur Verf gung um ein Diagramm in eine Datei zu schreiben
177. n neuer numerischer Vektor passender L nge erstellt dessen Elemente alle mit 0 initialisiert sind Dann werden f r jeden m glichen Wert des Ausgangsvektors ber einen logischen Indexvektor die passenden Elemente des Zielvektors bestimmt und auf den gewiinschten Wert gesetzt NA Werte des Ausgangsvektors werden bei dieser Prozedur auf die 0 abgebildet initialer Wert des Zielvektors Durch die abschlieBende Zuweisung gt w w 8 lt NA erhalten diese Elemente den Wert NA Soll das Umkodieren zu einem Vektor mit lediglich zwei m glichen Werten f hren eignet sich die ifelse Funktion z B gt w lt ifelse test v gt 3 yes 1 no gt w 1 ONA 10101 Ein logischer Vektor fungiert als test Argument und die Funktion ifelse liefert einen Vektor entspre chender L nge als Ergebnis Die Elemente dieses Ergebnisvektors sind e identisch mit dem yes Argument wenn das korrespondierende test Element gleich TRUE ist e identisch mit dem no Argument wenn das korrespondierende test Element gleich FALSE ist e und gleich NA wenn das test Element gleich NA ist Als yes bzw no Argument sind auch Vektoren erlaubt In diesem Fall ist das i te Element des Ergebnis vektors identisch mit dem i ten Element des yes Vektors wenn der i te Wahrheitswert im test Vektor gleich TRUE ist und gleich dem i ten Element des no Vektors wenn der i te Wahrheitswert gleich FALSE ist 98 R Pakete und Syntax in SPSS Statistics verwenden
178. n werden gt library foreign Es geh rt zu den so genannten recommended packages d rfte also in praktisch jeder R Installation vor handen sein Eine SPSS Datendatei Namenserweiterung SAV kann mit der Funktion read spss ge ffnet werden wobei f r Dateien im Arbeitsverzeichnis vgl Abschnitt 5 1 1 keine Pfadangabe erforderlich ist z B gt ggg lt read spss ggg sav to data frame TRUE reencode utf 8 read spss liefert per Voreinstellung eine Liste l sst sich aber durch den Wert TRUE f r das Argument to data frame dazu berreden eine Datentabelle zu erstellen Wurde die SAV Datei von einer SPSS Version ab 18 erstellt kommt es beim ffnen zu Warnungen z B Warnmeldung In read spss ggg sav to data frame TRUE reencode utf 8 ggg sav Unrecognized record type 7 subtype 18 encountered in system file Trotz der Warnungen scheint die Datentabelle intakt zu sein SPSS Dateien werden seit der SPSS Version 21 bevorzugt im Unicode Modus erstellt wobei die UTF 8 Kodierung zum Einsatz kommt Um beim Lesen solcher Dateien z B eine falsche Interpretation von Um lauten in Variablennamen und Wertbeschriftungen nr geschlecht grA AYe gewicht 1 1 Mann 186 82 0 zu verhindern muss das Argument reencode den Wert utf 8 erhalten Bei SPSS Dateien in traditioneller Kodierung wirkt der Wert urt 8 kontraproduktiv Die korrekte Einstellung muss man durch Ausprobieren ermitteln Als R ckgabe liefert die Funktion r
179. ndet das Histogramm Geom per Voreinstellung die Variable count mit den absoluten H ufigkeiten der Intervalle Deren Werte bertreffen die Y Werte von geom_density mit dem vorgeschriebenen Integrationsergebnis 1 bei weitem so dass der erste Versuch 165 R Pakete und Syntax in SPSS Statistics verwenden gt histodichte lt ggplot kfa aes aergo gt histodichte geom_histogram binwidth 1 fill gray75 colour gray50 geom_density size 1 colour gray30 labs x Arger y Dichteschatzung xlim 2 10 zu einem unbrauchbaren Gesamtergebnis f hrt Dichtesch tzung 1 i 1 2 4 6 8 10 Arger Zur L sung des Problems wird fiir das Histogramm Geom die Y Ache ein sthetisches Attribut per aes Funktion auf die stat_bin Ergebnisvariable density abgebildet zur Syntax vgl Abschnitt 9 3 1 3 gt histodichte lt ggplot kfa aes aergo gt histodichte geom_histogram aes y density binwidth 1 fill gray75 colour gray5 geom_density size 1 colour gray30 labs x Arger y Dichteschatzung xlim 2 10 Durch Wahl passender Grauwerte kommen Histogramm und Dichtefunktion gut zur Geltung 166 R Pakete und Syntax in SPSS Statistics verwenden 9 3 4 2 Boxplot Zur Demonstration des Boxplots verwenden wir weiterhin die SPSS Datendatei kfa sav siehe Abschnitt 9 3 4 1 Zun chst soll die Verteilung einer metrischen Variablen in der Gesamtstichprobe dargestellt werden Wir erstellen mi
180. ndung von Funkti onen des SPSS Erweiterungspakets f r R das zur Integrationsl sung geh rt ist es aber auch m g lich SPSS Pivot Tabellen in R zu erstellen e Variablen Aus den mit R generierten oder modifizierten Variablen l sst sich ein SPSS Datenblatt erstellen Um R Funktionen auf SPSS Variablen anzuwenden erstellt man im Normalfall in einem SPSS Syntaxfenster einen Block mit R Syntax eingerahmt durch die SPSS Kommandos BEGIN PROGRAM R und END PROGRAM Im folgenden Beispiel wird f r die SPSS Variablen y und x eine robuste Regressi onsanalyse mit Hilfe der R Funktion rlm gerechnet vgl Abschnitt 3 1 Robuste Regression per rlm und Huber M Sch tzer BEGIN PROGRAM R library MASS casedata lt spssdata GetDataFromSPSS huber lt rlm y x data casedata method MM summary huber END PROGRAM Man erh lt die Ausgabe der R Funktion summary als Text im SPSS Ausgabefenster Viewer Im Rahmen der R Integrationsl sung zu SPSS Statistics ist es aber auch m glich ein SPSS Erweiterungskommando zu erstellen das wie gew hnliche SPSS Syntax zu benutzen ist und dabei im Hintergrund mit R arbeitet Fiir das obige Beispiel ist diese Arbeit von SPSS Entwicklern erledigt wor den so dass SPSS Anwender die robuste Regression mit R ber vertraute Syntax anfordern k nnen SPSSINC ROBUST REGR DEPENDENT y ENTER x OPTIONS MISSING LISTWISE SAVE Dass im Beispiel die R Ausgaben in SPSS Pivot Tabellen gewand
181. nen numerischen Vektor eine zuf llige Permutation zu gewinnen zieht man eine Stichprobe vom Originalumfang mit dem voreingestellten Wert FALSE f r das Argument replace 104 R Pakete und Syntax in SPSS Statistics verwenden 8 Statistische Datenanalyse mit R In diesem Abschnitt wird keinesfalls versucht den enormen R Funktionsumfang zur statistischen Daten analyse zu beschreiben Das leider bei weitem noch nicht erreichte Ziel besteht in einer Sammlung n tz licher Werkzeuge f r Personen die ihre statistischen Analysen berwiegend mit SPSS Statistics erledigen wollen In Abschnitt 8 1 werden einfache Funktionen zur univariaten Verteilungsbeschreibung vorge stellt die sich potentiell zur Verwendung in R Skripten eignen Abschnitt 8 2 behandelt die etwas ge w hnungsbed rftige R Syntax zur Modellformulierung die in zahlreichen Auswertungsfunktionen Ver wendung findet Im Abschnitt 8 3 werden exemplarisch einige R Funktionen beschrieben die L cken im Statistikangebot von SPSS schlie en Sie sind ber das Formulieren von R Anweisungen zu nutzen w h rend man bei den in Abschnitt 3 vorgestellten SPSS Erweiterungskommandos von R profitiert ohne sei ne Syntax beherrschen zu m ssen 8 1 Einfache univariate Verteilungsbeschreibung In diesem Abschnitt werden einfache R Funktionen zur Beschreibung von univariaten Verteilungen vor gestellt die sich potentiell zur Verwendung in eigenen R Skripten eignen Es geht nicht darum die in R
182. niendiagramme we 171 Linienst rke Logische Operatoren sensone an a era 73 Logischer Indexvektor he MO WESSO i dashed Sci AAEE E AE EEEE 122 1s051 MARGIN aa ten tn 60 MASS R Paket ne ine 17 20 MATRIX mel st ee Rh es aac SR I Mensenlehren usnn een ENEE 174 EE EE 64 MNG E 100 missingValueToNA AEN 31 mode 52 Modulo 72 EE EE 17 Multiplikation von Matzen 175 NA as an aA tenet eege ger 31 53 Daomn l 69 Namen sSargumentes iiss essen na a a 49 NAMES anne 55 62 65 NaN rn E E A A A 31 68 R Pakete und Syntax in SPSS Statistics verwenden NEO ee ea re nal ncvTest N minaler Faktor nina 56 Object kanns See len 38 OPLIONSC ann Enns EES AE 40 paste SOU 99 Pers nliche Bibliothek 44 persp Pivot Tabelle a onna aa a A ENEE EENS 33 Plot Ty penn nnna Ren AL A es 114 Polychorische Korrelation ccccescesseesceeceeeeeeseeeeeeeeneeeseeseees 22 Polyseriale Korrelation Populationspyramide 2200202ssnensensennsensnnnennennennennnen position zdodsel seen slasigeeneitiiisen ass Positionsargumente OC EE IO ELE Prop table Sesgete ere ee Ee Q qQ 52 Pl nf quantile UL DEE R R Command ets un 2 ur een ns e eaea eae aeaii 83 rank De rbind 59 rbinom 97 rchisq 96 Remdr 83 RData 39 read delim 89 e TE E 93 Recycl
183. nline Dokument abgerufen am 30 11 2014 http www ats ucla edu stat R dae tobit htm Venables W N Smith D M amp R Core Team 2014 An Introduction to R Online Dokument abgeru fen am 30 11 2014 http cran r project org doc manuals r devel R intro pdf Weisberg S 1985 Applied linear regression 2nd ed New York Wiley Wickham H 2009 ggplot2 Elegant graphics for data analysis New York Springer Wilkinson L 2005 The Grammar of Graphics 2nd ed New York Springer Wollschlager D 2010 Grundlagen der Datenanalyse mit R Heidelberg Springer 182 R Pakete und Syntax in SPSS Statistics verwenden Stichwortverzeichnis KEE EG 63 9 Operator nun einsehen is seen nee 73 175 Eeer Ge 174 AiBPathsQ rs esi se encyclo eet eee reine 44 PACKAGES ua seve BSERRERR RA Bee Sias RiNS 41 IRprotile te nr dea E eege ere 41 SET E 42 REV ae 63 TREINEN 134 alld UR CT E 73 Amnweisungsblock en an RRR ER REN 76 APLOPOS ER Arbeitsverzeichnis array as Date as matrix as numeric aS tYP ceecee attach Ausgabeformate Ausgabeger te 2 2 ARsEBE de ee Auswahl yoi Fallen u eher EE EE 98 KEE EE 98 Benutzerdefinierte Dialoge 7 15 EE Te 48 Binomialverteilte Zufallszahlen 00 00nsnooneeoeneoooseeeeneoesseeesreee 97 DAM WIth e EA A E AEE ee Ee e 158 162 Biquadratischer Sch tzer 20 Blockan wWeistng
184. nnten Daten e und Dezimalkomma e ohne Zeilenbeschriftungen e mit einer leeren Zeichenfolge statt fehlender Werte e ohne Anf hrungszeichen um Variablennamen und Faktorwerte zu schreiben eignet sich das folgende Kommando gt write table ggg ggg dat sep t dec row names FALSE na quote FALSE Das Ergebnis geschlecht gr e gewicht Mann 186 82 Mann 178 72 Mann 182 75 5 Frau 160 65 Frau 168 66 Frau 76 Unter Windows ist die Ausgabedatei ANSI kodiert 95 R Pakete und Syntax in SPSS Statistics verwenden Bei der Ausgabe in eine Textdatei im aktuellen Arbeitsverzeichnis mit Semikolon getrennten Daten und Dezimalkomma ohne Zeilenbeschriftungen mit der voreingestellten Ausgabe fehlender Werte ohne Anfiihrungszeichen um Variablennamen und Faktorwerte erspart die Funktion write csv2 im Vergleich zu write table etwas Schreibarbeit z B gt write csv2 ggg ggg csv row names FALSE quote FALSE Bei Faktoren schreibt R Platz verschwendend die Werteetiketten labels in die Ausgabedatei Auf einfa che Weise eine Ausgabe der internen numerischen Codes zu erreichen ist mir nicht gelungen 7 2 2 SPSS Datendatei lesen In einer aus SPSS gestarteten R Sitzung kann man bequem auf die Variablen der SPSS Arbeitsdatei zu greifen siehe Abschnitt 4 1 R kommt aber auch im selbst ndigen an SPSS Variablen heran sofern sich diese in einer SPSS Datendatei befinden Dazu muss zun chst das Paket foreign gelade
185. og m ssen Sie lediglich die Nutzungsbedingungen akzeptieren Eine IBM ID samt Password anzugeben ist nicht erforder lich a Nutzungsbedingungen von developerWorks Bevor Sie die ausgew hlten Erweiterungsbundles herunterladen m ssen Sie die folgenden Nutzungsbedingungen von IBM developerWorks lesen und akzeptieren D Sign in or register English e IBM userid IBM ID Password keep me signed in By clicking Submit you agree to the developerWorks terms of use A Die oben genannten Nutzungsbedingungen gelten streng fur die Verwendung der Erweiterungsbundles die Sie von SPSS Community in IBM developerWorks heruntergeladen haben Ich akzeptiere die Nutzungsbedingungen Olch akzeptiere die Nutzungsbedingungen nicht Nach einer erfolgreichen Installation ta IBM SPSS Statistics 22 Erweiterungsbundles erfolgreich installiert wird im Ausgabefenster protokolliert wo das zum Bundle geh rige benutzerdefinierte Dialogfeld instal liert worden ist z B 13 R Pakete und Syntax in SPSS Statistics verwenden t Ausgabel Dokument1 IBM SPSS Statistics Viewer Datei Bearbeiten Ansicht Daten Transformieren Einf gen Format Analysieren Direktmarketing Grafik Extras Fenster Hilfe aka AR ew ABLE e A Ba E Ausgabe a LP Downloadprotokoll der Erweiterungsbundles IBM SPSS Statistics Prozessor ist bereit Unico
186. omputer gt baltes nafl U Eigene Dokumente gt R gt Organisieren z Neuer Ordner a Name J win library Rhistory 2 at ggg sav 9 08 00 02 SPSS Statistics Data Document Dateiname ggg sav gt All files 4 D Abbrechen verwendet man den Funktionsaufruf file choose der berall erlaubt ist wo in R Syntax ein Dateiname erwartet wird z B gt ggg lt read spss file choose to data frame TRUE reencode utf 8 97 R Pakete und Syntax in SPSS Statistics verwenden 7 3 Variablen berechnen oder modifizieren 7 3 1 Umkodieren Das in der empirischen Forschungspraxis h ufig erforderliche Umkodieren von Werten l sst sich z B mit Hilfe von logischen Indexvektoren vgl Abschnitt 5 3 6 3 erledigen Im folgenden Beispiel werden nach einem von Wollschl ger 2010 S 39 vorgeschlagenen Verfahren die Werte eines Vektors folgenderma Den umkodiert 5 gt 1 4 gt 2 3 gt 3 2 gt 4 1 gt 5 Es ist in der Regel sinnvoll und im gleich beschriebenen Verfahren auch von praktischem Vorteil den Ausgangsvektor unver ndert zu lassen und einen neuen Vektor mit den umkodierten Werten zu erstellen gt V lt 2 NA 4 1 5 2 4 3 gt w lt numeric length v gt w v 1 lt 5 gt w v 2 lt 4 gt w v 3 lt 3 gt w v 4 lt 2 gt w v 5 lt 1 gt w w 8 lt NA gt w 1 4NA251423 Mit der Funktion numeric siehe Abschnitt 5 3 4 2 1 wird ei
187. on von R geh rige Paket lattice enth lt die so genannten Trellis Grafiken siehe z B Murrell 2011 e Grammar of Graphics Das zus tzlich zu installierende von Wickham 2009 erstellte Paket ggplot2 basiert auf der von Wilkinson 2005 entwickelten Grammar of Graphics daher der Namensanfang gg Dieselbe Grundlogik ist tibrigens auch in der von SPSS unterstiitzten Graphics Production Language GPL realisiert Im Manuskript werden das traditionelle Grafiksystem sowie die Grafikproduktion mit dem Paket ggplot2 behandelt siehe Abschnitte 9 2 bzw 9 3 Im Wettbewerb der R Grafik Optionen zeichnet sich derzeit eine Tendenz zur Bevorzugung des Pakets ggplot2 ab siehe z B Field 2012 S 121 Robert Muenchen 2011 S 444f urteilt The point is that ggplot2 gives you the broadest range of graphical options that R offers Wer dieser Empfehlung folgen m chte kann im Manuskript den Abschnitt 9 2 ber die traditionelle Gra fikproduktion auslassen Im allgemein relevanten Abschnitt 9 1 wird allerdings in einigen Beispielen das ohne jedes Installieren und oder Laden von Paketen verf gbare traditionelle Grafiksystem eingesetzt 9 1 Ausgabeformate und ger te Die Ausgaben der Grafikfunktionen werden zu einem Ausgabeger t kanalisiert das eine Bildschirm Datei oder Druckausgabe produziert 9 1 1 Verf gbare Ausgabeger te Zum ffnen eines Ausgabeger ts von bestimmtem Typ ist jeweils die zust ndige Funktion aufzurufen ber die Namen
188. on zu einer kategorialen nominalen oder ordinalen SPSS Variablen SPSS Variablen mit dem Datentyp Zeichenfolge String werden in der R Datentabelle als Faktoren abgelegt Aus numerischen SPSS Variablen resultieren per Voreinstellung numerische Vektoren Das gilt auch f r numerische SPSS Variablen mit dem Messniveau Nominal oder Ordinal Durch Verwendung des Arguments factorMode im Aufruf der Funktion spssdata GetDataFromSPSS veranlasst man dass e nominale numerische SPSS Variablen in R zu Faktoren und e ordinale numerische SPSS Variablen in R zu geordneten Faktoren werden Mit dem zum Argument factorMode anzugebenden Wert legt man fest ob bei einer kategorialen numeri schen SPSS Variablen die Werte oder die Werteetiketten in R zur Beschriftung der Faktorstufen verwen det werden sollen factorMode Parameter In R werden die Faktorstufen beschriftet ber die Werteetiketten der SPSS Variablen die Werte der SPSS Variablen Aus der folgenden Syntax DATA LIST FREE y F2 gruppe F2 stufe F2 BEGIN DATA 8 1 1 7 1 1 3 2 2 1 2 3 END DATA VARIABLE LEVEL y SCALE gruppe NOMINAL stufe ORDINAL VALUE LABELS gruppe 1 Jung 2 Alt stufe 1 A 2 B 3 C BEGIN PROGRAM R casedata lt spssdata GetDataFromSPSS factorMode labels class casedata gruppe class casedata stufe str casedata gruppe END PROGRAM resultiert die Ausgabe 31 R Pakete und Syntax in SPSS Statistics verwenden
189. orhandene Variable group f r eine korrekte Zuordnung sorgen soll F r das Zusammenf hren der Daten eignet sich in R die Funktion merge Man bergibt die beiden Datenquellen als erstes bzw zweites Argument und definiert anschlie end die Zuordnung was im Beispiel ber eine einzige in beiden Tabellen vorhandene und identisch benannte Variable geschehen kann gt dfIndAug lt merge dfInd dfGr by group gt dfIndAug group math geo size 1 1 2 1 21 2 1 3 gf 21 3 1 2 a 2a 4 2 A 3 48 5 2 3 348 6 2 5 4 40 7 3 3 2 32 8 3 2 2 32 9 3 a 3 232 7 7 Daten aggregieren Oft sind f r die F lle in einer Datentabelle Gruppierungsvariablen vorhanden und es wird eine neue Da tentabelle ben tigt die f r jede Auspr gung einer Gruppierungsvariablen oder f r jede Auspr gungskom bination von mehreren Gruppierungsvariablen genau einen Fall enth lt wobei die Werte dieses Falles bei den nicht zur Gruppierung verwendeten Variablen durch Aggregieren ber die zugeh rige Gruppe entste hen Im folgenden Beispiel das auch schon in Abschnitt 7 6 verwendet wurde liegen Leistungsmessun gen in den F chern Mathematik und Geographie f r Sch ler in drei Gruppen z B Klassen vor gt dfInd lt data frame group c 1 1 1 2 2 2 3 3 3 math c 2 3 2 4 3 5 3 2 4 geo c 1 2 1 3 3 4 2 2 3 gt dfInd 103 R Pakete und Syntax in SPSS Statistics verwenden group math geo d 4 2 1 2 i 3 2 3 1 2 1 4 2 4 3 5 2 3 3 6 2 5 4 7 3 3 2 8 3
190. perationen die mit der regul ren SPSS Syntax kaum zu realisieren sind z B Imple mentierung von Algorithmen haben SPSS Anwender die Wahl zwischen zahlreichen Programmieropti onen Die in SPSS integrierte Programmiersprache MATRIX zu nutzen hat den Vorteil dass die erarbei teten L sungen von anderen SPSS Anwendern direkt ohne Installation von Zusatzkomponenten ber nommen werden k nnen Bei Verwendung von R besteht eine gr ere Wahrscheinlichkeit dass man auf vorhandene Teil oder Fertigl sungen zur ckgreifen kann Wird ein R Skript erstellt sind dort nat rlich auch gew hnliche Datentransformationen zu erledigen Daher werden in diesem Abschnitt nach einer Erl uterung des lesenden und schreibenden Zugriffs auf Datendateien auch elementare Datentransforma tionen mit R behandelt z B Berechnung neuer Variablen Verwendung von Zufallszahlen Fallauswahl Als weitere im Kurs nicht behandelte Programmieroptionen unterst tzt SPSS noch Python Java und die im Windows Bereich popul ren NET Sprachen 7 1 Beispieldaten in R Paketen nutzen R Pakete enthalten oft illustrierende Beispieldaten und diese sind sehr einfach zu nutzen ber den Funk tionsaufruf gt data erh lt man eine Liste mit allen Datens tzen die in aktuell geladenen Paketen verf gbar sind In der Aus gabe sind die Pakete und deren Datens tze jeweils alphanumerisch sortiert z B RR data sets Sala Data sets in package datasets
191. r angefordert BEGIN PROGRAM R data lt spssdata GetDataFromSPSS smoothScatter data x data y xlim c 3 3 main smoothScatter END PROGRAM 9 2 4 3 Boxplot Zum Erstellen von Boxplots bieten R und SPSS weitgehend quivalente M glichkeiten e Darstellung einer einzelnen Variablen e Mehrere Variablen nebeneinander e Mehrere Gruppen nebeneinander univariates ein oder zweifaktorielles Design Sind in SPSS Statistics 22 die R Essentials installiert vgl Abschnitt 2 dann stehen die wichtigsten Boxplot Optionen der traditionellen R Grafik in SPSS nach dem Men befehl Grafik gt R Boxplot ber die folgende Dialogbox zur Verf gung 133 R Pakete und Syntax in SPSS Statistics verwenden ta R Boxplot Variablen on Variable amp Fallnummer mr i 9 rger ohne kontrafaktische A A weg mit kontrafaktischer Kategorievariablen OI Geschlecht geschl Vie amp geschi L t L ot4 dE L ot6 L ot7 L ots E Boxeinkerbungen A lot9 e Boxbreite proportional zur Anzahl lot10 Ion d E Horizontale Ausrichtung Boxfarben Skalierungsfaktor der Boxbreiten lightblue3 z5 F r dieses Dialogfeld ist das Titel Integrations Plugin f r R erforderlich LoS Hier bestehen u a die folgenden Einstellm glichkeiten e Boxbreite proportional zur Anzahl Die Breite l sst sich zur Anzeige der Teilstichprobengr e nutzen e Skalierungsfaktor der Boxbreiten Da
192. ransformation Kurzbezeich nung stat der darzustellenden Variablen erforderlich sein Im eben erw hnten Beispiel mit geom_smoth als generierender Funktion entsteht eine neue Datentabelle indem f r gleichabst ndige St tzstellen die Werte einer Anpassungsfunktion ermittelt werden Ein anderes Beispiel ist die Bildung von Intervallen stat bin f r ein Histogramm Wird die identische Transformation als stat Spezialfall einbezogen kann man sagen dass zu jedem Geom eine statistische Transformation geh rt 144 R Pakete und Syntax in SPSS Statistics verwenden siehe Tabelle 4 3 in Abschnitt 4 6 von Wickham 2009 Au erdem hat jedes Geom eine voreingestellte statistische Transformation und zu jeder Transformation geh rt ein voreingestelltes Geom Mit der Funktion args l sst sich die Voreinstellung f r ein Geom bzw eine statistische Transformation in Erfahrung bringen z B gt args geom_bar FUNCTION acc Stat bin asc gt args stat_bin function gt geom bar s Durch eine nderung der Voreinstellung sind eigenst ndige Diagrammkreationen m glich Bei der Erstellung einer Schicht kann man sich zwischen zwei letztlich quivalenten Vorgehensweisen entscheiden e Man verwendet eine geom Funktion und spezifiziert n tigenfalls die statistische Transformation per stat Argument z B vgl Abschnitt 9 3 4 3 2 gt ggplot ggg aes x geschlecht y gewicht geom_bar stat summary fun y mean e
193. raph A PROPOR py 2 propor xml 01 12 2014 12 55 01 12 2014 17 11 01 12 2014 12 55 01 12 2014 12 55 Dateiordner Dateiordner Python File XML Dokument sowie der folgende Ordner mit den benutzerdefinierten Dialogen Ele Je 1 UNEigene Dateien SPSS CustomDialogs Datei Bearbeiten Ansicht Extras Neuer Ordner a Organisieren Brennen Name JL PROPOR JL RRegDiagGraph 0 e Anderungsdatum Typ Gr e 01 12 2014 12 55 Dateiordner 01 12 2014 17 11 Dateiordner Um Informationen ber die bereits installierten Erweiterungsbundles zu erhalten w hlt man den Men be fehl Extras gt Erweiterungsbundles gt Installierte Erweiterungsbundles anzeigen Im folgenden Beispiel ist fiir das mit den R Essentials installierte Bundle SPSSINC HETCOR u a zu erfahren dass sowohl das Python als auch das R Plug in erforderlich ist 2 Erweiterungsbundledetails p Details Zusammenfassung Korrelationen zwischen nominalen ordinalen und metrischen Variablen berechnen Beschreibung Diese Prozedur berechnet unter Ber cksichtigung der Messniveaus der Variablen Korrelationen zwischen nominalen ordinalen und metrischen Variablen Die resultierende heterogene IKorrelationsmatrix besteht aus Pearson Produkt Moment Korrelationen zwischen metrischen Variablen polyserialen Korrelationen zwischen metrischen und kategorialen Variablen und polychorischen Korrelationen zwischen kategorial
194. ren Den folgenden Dialog mit dem Namen und dem Datentyp zu einer Variablen erreicht man per Mausklick auf ihre Spaltenbeschriftung 83 R Pakete und Syntax in SPSS Statistics verwenden RR Variable Editor Variable Name alter Typ numeric character Hinweise zum Editieren e Aktivieren Sie n tigenfalls die Zelle zur ersten Variablen des ersten Falles und tippen Sie den zu geh rigen Wert ein e Dr cken Sie die Tabulatortaste oder die Taste mit dem Rechtspfeil um den eingetippten Wert zu quittieren und die Zellenmarkierung um eine Spalte nach rechts zu verschieben zur n chsten Variablen e Auch die Enter Taste quittiert den eingetippten Wert bewegt jedoch anschlie end die Zellen markierung um eine Zeile nach unten zum n chsten Fall e Verwenden Sie den Punkt als Dezimaltrennzeichen e Wenn ein Wert fehlt lassen Sie die betroffene Zelle einfach leer Dort erscheint sp ter die Anzei ge NA Not Available vgl Abschnitt 5 3 5 e Um einen fehlerhaften Wert zu ersetzen tragen Sie nach dem Markieren der Zelle den korrekten Wert ein e Um eine Eintragung zu ver ndern starten Sie nach einem Doppelklick auf die betroffene Zelle das Editieren e Es ist nicht m glich eine nderung r ckg ngig zu machen e Eine Zeile einen Fall zu l schen ist mir per Dateneditor nicht gelungen Per Syntax gelingt es z B folgenderma en die Zeile 7 aus der Datentabelle dt zu l schen vgl Abschnitt 5 3 6
195. ren Modellierung nicht aufgeben Mittlerweile sind Verfahren zur robusten Inferenzstatistik trotz Heteroskedastizit t entwi ckelt worden die in R wie in SPSS zur Verf gung stehen siehe z B Baltes G tz 2014a Abschnitt 1 7 3 4 3 3 Polyseriale und polychorische Korrelationen In der statistisch empirischen Forschung sind h ufig ordinale Variablen im Sinne von vergr bernden Messungen von latenten Variablen mit metrischer Skalenqualit t und approximativer Normalverteilung anzutreffen Oft ist man an den Korrelationen zwischen den latenten Merkmalen interessiert hat aber nur die ordinalen Indikatoren zur Verf gung Mit der Pearson Formel zur Korrelationsberechnung erh lt man aus den ordinalen Ma en mehr oder weniger stark verzerrte Sch tzer siehe unten Stimmt f r zwei ordinale Indikatoren die Annahme dass sie durch vergr bernde Messungen aus einer bivariaten Normalverteilung der eigentlich interessierenden latenten Variablen hervorgegangen sind dann kommt das polychorische Sch tzverfahren der gesuchten Korrelation n her als die Pearson Formel Ist von den beiden zu korrelierenden Merkmalen nur eines vergr bernd gemessen worden sodass ein in tervallskalierter Indikator auf einen ordinalen trifft erbringt die polyseriale Sch tzformel eine analoge Reparaturleistung Als Anwendungsbeispiel betrachten wir latente Variablen X und Y mit einer wahren Korrelation von 0 5 Y 0 5 X mite N 0 0 75 und Cov e amp 0 X N O
196. rforderlich z B Seen Um die Hilfedateien auch von nicht geladenen Paketen fehlertolerant nach einem Begriff zu durchsu chen eignet sich die die Funktion help search z B gt help search probitt Kurzform mit demselben Tippfehler gt probitt Im Beispiel stellt sich heraus dass z B die Dokumentation zur Funktion polr im Paket MASS einen hn lich geschriebenen Begriff enthalt 48 R Pakete und Syntax in SPSS Statistics verwenden http 127 0 0 1 19906 doc htmW Search pattern probitt IB Googie a R Search Results Sa i 4 Search Results GES N The search string was probitt Help pages MASS polr Ordered Logistic or Probit Regression sampleSelection binaryChoice Binary choice models sampleSelection fitted probit Fitted values of probit models sampleSelection invMillsRatio Inverse Mill s Ratio of probit models sampleSelection linearPredictors Calculates linear predictors for different models sampleSelection nObs probit Number of Observations of Probit Models sampleSelection residuals probit Residuals of probit models sampleSelection summary probit Summarizing Probit Estimations 5 3 1 2 Beispiele aus den Hilfetexten ausfiihren lassen In den Hilfetexten zu den R Funktionen finden sich regelm ig Beispiele etwa zur mean Funktion Examples x lt c 8 10 50 xm lt mean x c xm mean x trim 10 ber die Funktion example kann man diese Beispiele
197. rt werden Die Qualit t der R Diagramme im SPSS Ausgabefenster reicht f r den Forschungsalltag aber in der Re gel nicht f r Publikationszwecke Bei h heren Qualit tsanspr chen empfiehlt sich der Weg ber eine Da tei als Grafikausgabeger t von R siehe Abschnitt 9 1 3 F r diesen Weg kann man das RGui benutzen oder das SPSS Syntaxfenster z B BEGIN PROGRAM R data lt spssdata GetDataFromSPSS png u eigene dateien r NormDens png 18 18 units cm res 600 hist data aergo freq FALSE breaks 18 col grey main Histogramm mit Dichte ylab Dichte xlab rger lines density data aergo col red lwd 2 END PROGRAM 116 R Pakete und Syntax in SPSS Statistics verwenden 9 2 Das traditionelle Grafiksystem In diesem Abschnitt wird eine kleine Auswahl der in R verf gbaren traditionellen Optionen zur Darstel lung von Daten und mathematischen Funktionen vorgestellt 9 2 1 High und Low Level Grafikfunktionen Die traditionelle R Grafik kennt High Level Funktionen die ein vollst ndiges Diagramm erstellen z B plot und Low Level Funktionen die ein Diagramm um ein Element z B eine Beschriftung erweitern z B text Das schafft Flexibilit t und sorgt daf r dass sich die traditionelle Grafik gegen starke Konkurrenz im R Universum immer noch behaupten kann Mit den folgenden Anweisungen gt x lt seq 4 4 0 01 gt y lt dnorm x mean sd 1 gt plot x y type 1 main Dich
198. rwenden Call rlm formula y x data casedata na action na exclude Converged in 4 iterations Coefficients Intercept x 2214148 8861699 Degrees of freedom 58 total 48 residual Scale estimate 3 6 Die zur ckhaltende Originalausgabe von statistischen Auswertungsfunktionen und die Verwendung der Extraktionsfunktion summary sind typisch f r R Muenchen 2011 S 99f Die Koeffiziententabelle der rlm Ausgabe enth lt wie die in Abschnitt 3 1 pr sentierte Pivot Tabelle zum korrespondierenden Erweiterungskommando keine Uberschreitungswahrscheinlichkeiten p Levels zu den Signifikanztests Bei gen gend Vertrauen in die approximative Normalverteilung der Pr fstatisti ken kann man mit folgender R Syntax die Uberschreitungswahrscheinlichkeiten fiir einen ein bzw zwei seitigen Test gegen den theoretischen Wert 0 bestimmen siehe Bellio amp Ventura 2005 S 16 BEGIN PROGRAM R pst lt 1 747 psingle lt min 1 pnorm pst pnorm pst psingle 2 psingle END PROGRAM Im Beispiel lehnt der einseitige Test zum Regressor x bei einem erwartungskonformen Vorzeichen des Koeffizienten seine Nullhypothese ab der zweiseitige hingegen nicht 1 04031867 1 0 08063734 Manche R Ausgaben lassen sich mit der Funktion spsspivottable Display aus dem R Paket zur SPSS Unterst tzung das mit den R Essentials installiert wird in eine SPSS Pivot Tabelle wandeln Nach einer geringf gigen Erweiterung des letzten
199. s Auftretens den Argumenten aus der Funktionsdefinition zugeordnet werden Besitzt ein Argument eine Voreinstellung muss beim Aufruf kein Wert angegeben werden Eine Besonderheit von R ist das Dreipunktargument e Es kann f r eine Serie von Argumenten stehen z B in der bereits mehrfach erw hnten und be nutzten Verkn pfungsfunktion c die eine beliebigen Anzahl von Elementen entgegennimmt und daraus einen Vektor erstellt CL recursive FALSE e Damit kann eine Funktion Argumente entgegennehmen die sie an eine intern aufgerufene Funkti on weiterreicht Besitzt eine Funktion keine Argumente ist beim Aufruf trotzdem eine leere Parameterliste ber ein Paar runder Klammern an den Namen anzuh ngen 5 3 3 2 Elementare Funktionen und Zuweisungsoperator Die anschlie end vorgestellten R Funktionen werden h ufig ben tigt und sind generell ohne vorheriges Laden von Paketen verf gbar Verkettungsfunktion c und Zuweisungsoperator Die Verkettungsfunktion c combine concatenate erzeugt einen Vektor vgl Abschnitt 5 3 4 2 beste hend aus den durch Kommata getrennten Argumenten z B gt x lt EL 2 3 Im Beispiel wird das Ergebnis der Variablen x zugewiesen wobei der aus den beiden Zeichen lt be stehende Zuweisungsoperator zum Einsatz kommt den wir vor seiner offiziellen Behandlung siehe Abschnitt 5 3 7 6 in vielen Beispielen ben tigen werden Als Argumente der Verkettungsfunktion sind auc
200. s numeric oder character erstellt und hat selbst stets den Modus numeric 5 3 4 3 1 Nominale Faktoren Einen nominalen Faktor erstellt man aus einem Vektor mit der Funktion factor Das folgende Beispiel verwendet einen Vektor mit Modus character gt nf de factor c A WS WS As Rz us Be y gt nf 1 ACBAACB Levels ABC Die Funktion levels liefert die verschiedenen Werte eines Faktors als Vektor mit Elementen vom Typ character z B gt levels nf aj AT B gi St Mit der str Funktion stellt man fest dass die Kategorien eines Faktors intern durch nat rliche Zahlen kodiert werden gt str nf Factor w 3 levels A B C 1321132 Auch aus einem numerischen Vektor l sst sich ein Faktor erstellen Im folgenden Beispiel wird das opti onale Argument labels der Funktion factor zum Etikettieren der Faktorstufen verwendet vergleichbar mit den Wertelabels in SPSS gt gruppe lt factor c 1 2 2 1 1 3 3 labels c KG EG1 EG2 gt gruppe 1 KG EG1 EG1 KG KG EG2 EG2 Levels KG EG1 EG2 58 R Pakete und Syntax in SPSS Statistics verwenden Fehlt das Argument labels dienen die Werte auch als Etiketten Wenn der Faktor in einem Modell als unabh ngige Variable zum Einsatz kommt wird die erste Kategorie als Referenz verwendet Uber das optionale Argument levels der Funktion factor lassen sich folgende Effekte erzielen e Beim Erstellen eines Faktors kann man die Reihenfolge der Faktorstufen
201. sd lt ggplot ggg aes gr e gewicht und vereinbaren dabei e im ersten Argument die Datentabelle mit den zu visualisierenden Variablen e im zweiten Argument per aes Aufruf eine Plot globale Verkn pfung von sthetischen Attribu ten mit Variablen aesthetic mapping Die Attribute x und y werden auf die Variablen gr e und gewicht abgebildet wobei die Namen der zugeh rigen Funktionsargumente entfallen k nnen weil die Wertvergabe in Definitionsreihenfolge erfolgt Positionsargumente Ein Plot Objekt enth lt keine Referenz auf die Datentabelle sondern eine Kopie so dass sp tere nde rungen der Datentabelle ohne Effekt auf das Plot Objekt bleiben 9 3 2 2 Einfaches Streudiagramm Bevor nicht mindestens eine Schicht erstellt worden ist kann das Plot Objekt noch nicht angezeigt wer den Daher machen wir uns daran inkrementell die Schichten des Diagramms durch geom Funktionen zu erzeugen und per Operator mit dem Plot Objekt zu verkn pfen Das folgende Kommando erg nzt eine Schicht mit den x y Datenpunkten und zeigt das Diagramm durch einen impliziten print Aufruf an gt sd geom_point colour red size 3 F r die Punkte wird die Zeichenfarbe Rot gew hlt und au erdem der Durchmesser erh ht weil bei klei nen Kreisen voreingestellte Form die beim Windows Ausgabeger t von R fehlende Kantengl ttung un angenehm auff llt Dabei wird jeweils ein sthetisches Attribut auf einen festen Wert statt au
202. siert in R partiell die von SPSS gewohnte Be dienungsbequemlichkeit Um Ihn nutzen zu k nnen muss zun chst das Paket Remdr installiert werden W hrend bei R Paketinstallationen die vorausgesetzten Pakete in der Regel automatisch mitinstalliert werden ist bei Remdr aufgrund der Vielzahl von ben tigten Paketen die explizite Aufforderung zur Auf l sung der Abh ngigkeiten durch den Wert TRUE f r das Argument dependencies nach wie vor erfor derlich gt install packages Rcmdr dependencies TRUE Zum Starten von Remdr l dt man das Paket wie gewohnt mit der library Funktion gt library Rcmdr Es erscheint ein separates Fenster mit viel versprechenden Men items R Commander Datei Bearbeiten Datenmanagement Statistik Grafiken Modelle Verteilungen Extras Hilfe ER Datenmatric lt Keine aktuelle Datenmatrx gt 1 7 Datenmatrix bearbeiten Datenmatrix betrachten Modell lt Kein aktuelles Modell gt R Script R Markdown Meldungen 1 HINWEIS R Commander Version 2 0 4 Sat Aug 16 10 09 10 2014 2 WARNUNG The Windows version of the R Commander works best under RGui with the single document interface SDI see Commander In diesem Abschnitt werden wir den R Commander kennen lernen und zu einfachen Datenverwaltungs arbeiten verwenden Im weiteren Verlauf des Manuskripts kommt das Programm immer wieder bei Da tentransformationen und auswertungen zum Einsatz Weiterf hrende Erl
203. sort order und rank betrachten wir jeweils das erste Element des Ergebnisvektors bei aufsteigender Sortierung in sort und order e sort v 1 enth lt den Wert des kleinsten Elements von v gt sort v 1 3 2 e order v 1 enth lt die Indexposition des kleinsten Elements von v gt order v 1 1 4 e rank v 1 enth lt den Rangplatz des ersten Elements von v gt rank v 1 1 3 57 R Pakete und Syntax in SPSS Statistics verwenden 5 3 4 2 8 Elemente replizieren Die rep Funktion leistet eine Replikation der Elemente von Vektoren oder auch von Faktoren und Lis ten siehe unten Ihre wichtigsten Argumente sind e x Objekt mit den zu wiederholenden Elementen e times Ist das times Argument ein Vektor mit L nge 1 legt es eine identische Anzahl von Wiederholungen f r al le x Elemente fest Ist das times Argument ein Vektor mit der L nge von x legt es f r jedes x Element ei nen individuellen Wiederholungsfaktor fest Beispiel gt V lt 0 1 2 3 gt rep v 2 1411233123 5 3 4 3 Faktor Ein Faktor in R ist das Analogon zu einer kategorialen nominalen oder ordinalen Variablen in SPSS Als Designvariable in einer Analysefunktion z B Im wird ein Faktor automatisch korrekt behandelt und durch Kodiervariablen repr sentiert F r den Indexzugriff auf einzelne Elemente gelten bei Faktoren dieselben Regeln wie bei Vektoren siehe Abschnitt 5 3 4 2 2 Ein Faktor wird aus einem Vektor mit Modu
204. spiel im rechten Diagramm ist auf die richtige Reihenfolge der geom Aufrufe zu achten z B gt sd geom_smooth geom_point colour red size 3 labs x Gr e y Gewicht Zur bernahme per Zwischenablage in Microsoft Word wurde das Bitmap Format benutzt weil beim Metafile Transfer die Konfidenzzone verloren gegangen ist 155 R Pakete und Syntax in SPSS Statistics verwenden 9 3 2 4 Gruppiertes Streudiagramm Um ein gruppiertes Streudiagramm zu erzielen legen wir per ggplot Aufruf ein neues Plot Objekt an und machen dabei die Markierungsfarbe von der Variablen geschlecht abh ngig Dazu wird im aes Aufruf das sthetische Attribut colour an die Variable geschlecht gebunden gt gsd lt ggplot ggg aes gr e gewicht colour geschlecht Mit dem sukzessiven Diagrammaufbau gt gsd geom_smooth method 1m geom_point size 3 labs x GroBe y Gewicht colour Geschlecht erhalten wir das folgende Ergebnis wobei auch die Anpassungsfunktion f r das Gl ttungs Geom auf die Gruppierung reagiert Geschlecht Frau Mann Gewicht o Gr e Um die Legendenbeschriftung zu ndern wurde im labs Aufruf dem Argument bzw dem sthetischen Attribut colour die gew nschte Zeichenfolge zugewiesen Im aktuellen Fall erscheint es nicht sinnvoll auf eine Legende zu verzichten Trotzdem soll demonstriert werden wie dies mit einer additiv erg nzten Theme Modifikation vgl Abschnitt
205. stes Argument erg nzt die neue Variable als zweites Argument und weist der Datentabel le die Funktionsr ckgabe zu z B gt dt lt data frame dt bildung factor c 3 4 2 Eine alternative M glichkeit besteht darin den Namen der neuen Variablen per Syntax an den Datenta bellennamen anh ngen und per Zuweisungsoperator die Werte folgen zu lassen z B 67 R Pakete und Syntax in SPSS Statistics verwenden gt dt bildung lt factor c 3 4 2 gt at alter geschlecht bildung 1 45 1 3 2 32 1 4 3 58 2 2 Eine einfache M glichkeit eine Variable aus einer Datentabelle zu entfernen besteht darin dem Variab lennamen den Wert NULL zuzuweisen z B gt dt bildung lt NULL gt dt alter geschlecht 1 45 1 2 32 1 3 58 2 5 3 4 7 5 Datentabelle in den Suchpfad der R Sitzung aufnehmen Um die Angabe des Datentabellennamens einzusparen kann man einen Data Frame per attach in den Suchpfad der R Sitzung aufnehmen z B gt attach dt gt mean alter 1 485 Ein Aufruf der Funktion search zeigt dass sich die Datentabelle nun an 2 Position im Suchpfad befin det direkt hinter der globalen Umgebung der R Sitzung mit den Workspace Objekten gt search 1 GlobalEnv dt package stats package graphics 5 package grDevices package utils package datasets package methods 9 Autoloads package base Bei Namensgleichheit gewinnt also das Objekt in dt sofern sich der Konkurrent nicht in
206. t size 5 colour brown1 labs x Gr e y Gewicht gt gsd scale_shape_manual name Geschlecht values c 15 18 Selbstverst ndlich ist es m glich Form und Farbe der Symbole simultan zur Gruppenunterscheidung zu verwenden gt gsd lt ggplot ggg aes gr e gewicht colour geschlecht shape geschlecht gt gsd lt gsd geom_point size 5 labs x Gr e y Gewicht shape Geschlecht gt gsd scale_colour_manual name Geschlecht values c violet lightcyan4 Im Beispiel werden die voreingestellten Symbole mit individuellen Farben verwendet 161 R Pakete und Syntax in SPSS Statistics verwenden Geschlecht Frau o A Mann Gewicht L j i 160 1 70 Gr e Damit nur eine Legende erscheint m ssen unbedingt die beiden Legendentitel identisch gew hlt werden Bei einigen Symbolen lassen sich Rahmen und F llfarbe getrennt ansprechen Damit ist es z B m glich eine datengebundene F llfarbe mit einer datenunabh ngigen Randfarbe zu kombinieren A Geschlecht oO E Frau 5 A O Mann 507 i H 1 160 170 Gr e Im Beispiel werden die Symbole 21 und 24 mit individuellen F llfarben fiir die Geschlechts gruppen so wie der voreingestellten datenunabh ngigen schwarze Randfarbe verwendet gt gsd lt ggplot ggg aes gr e gewicht fill geschlecht shape geschlecht gt gsd lt gsd geom_point size 5 labs x Gr e y Gewicht shape Geschlecht fill Geschlecht gt
207. t Zentimeter in die Einheit Meter umgerechnet werden e Wegen der Auswertungspriorit ten der beteiligten Operatoren in absteigender Reihenfolge Po tenzieren Dividieren kann z B der folgende numerische Ausdruck verwendet werden gt bmi lt gewicht groesse 10 8 2 Das Ergebnis 1 23 12406 22 40879 22 79314 25 390862 23 38435 NA 20 20202 23 87566 9 20 22913 26 12245 20 01550 NA Erwartungsgem haben die beiden F lle mit einem fehlenden Wert bei einer Ausgangsvariablen als Be rechnungsergebnis den Wert NA erhalten 7 4 Zufallszahlen erzeugen F r Simulationsstudien zu Ph nomenen und Methoden der Statistik werden Stichproben aus einer Popula tion mit bekannter Verteilung ben tigt So l sst sich etwa das Verhalten von statistischen Auswertungs prozeduren bei bekannten Verteilungsverh ltnissen untersuchen R enth lt diverse Funktionen um univa riate Zufallsstichproben aus einer definierten Verteilung zu ziehen Anschlie end werden einige Vertreter vorgestellt 99 R Pakete und Syntax in SPSS Statistics verwenden 7 4 1 1 Normalverteilte Zufallszahlen Uber die Funktion rnorm erh lt man n Zufallszahlen aus einer normalverteilten Population mit be stimmtem Erwartungswert und bestimmter Standardabweichung z B gt sampnor lt rnorm 18 1 sampnor 1 90 5901100 0 5949126 7150877 1 1859644 0 8376398 8 4352961 7 1 3281079 0 7989749 1 4540338 1 5676006 Hier ist das Histogramm f r eine erheblic
208. t der Funktion ggplot ein Plot Objekt und vereinbaren per aes Funktion die darzustellende Variable gt box lt ggplot kfa aes factor aergo Weil das Boxplot Geom eine Y Achsenvariable mit der zu beschreibenden Verteilung und eine X Achsenvariable zur Aufteilung der Stichprobe erwartet liefern wir mit dem factor 0 einen Ersatz f r die Gruppierungsvariable Wir erg nzen die Schicht mit dem Boxplot und sorgen im zust ndigen geom_boxplot Funktionsaufruf ber das Argument colour f r eine angenehme Farbe Mit der labs Funktion werden die Achsenbe schriftungen modifiziert und der theme Aufruf unterdr ckt die X Achsen Teilstrichbeschriftungen gt box geom_boxplot fill lightblue labs x y Arger theme axis text x element_blank Das Ergebnis Sollen z B die Argerverteilungen bei Frauen und Mannern gegeniibergestellt werden vereinbart man z B bei der Erstellung des Plot Objekts eine passende Gruppierungsvariable z B gt box lt ggplot kfa aes geschl aergo Die Anweisung gt box geom _boxplot fill lightblue labs x Geschlecht y Arger liefert nun zwei nebeneinander stehende Boxplots die einen Vergleich der beiden Verteilungen hinsicht lich Lage und Dispersion erlauben Anderenfalls w rde eine unmotivierte 0 als Teilstrichbeschriftung erscheinen 167 R Pakete und Syntax in SPSS Statistics verwenden Arger
209. ta L Rhistory 0 Me NormDens png 07 12 2014 22 16 IrfanView PNG File LJ pCor r 07 12 2014 22 12 R Datei 1 Element ausgewahlt e Computer Nach Fertigstellung des Diagramms schlie t man das Ausgabeger t z B gt dev off windows 2 Daraufhin erfolgt die Ausgabe und die Datei wird zur Verwendung durch andere Programme freigege ben Au erdem erf hrt man Typ und Nummer des nunmehr aktiven Ausgabeger ts 9 1 4 Ausgabeger te verwalten ber die Funktion dev list erh lt man eine Liste der ge ffneten Ausgabeger te z B gt dev list windows png NormDens png 2 3 Sind mehrere Ausgabeger te offen ist eines als ACTIVE ausgezeichnet und das Ziel f r die Ausgabe von Grafikfunktionen Man erf hrt seinen Typ und seine Nummer ber die Funktion dev cur z B gt dev cur png NormDens png 3 Um ein anderes Ausgabeger t zu aktivieren ruft man die Funktion dev set mit der Ger tenummer auf z B gt dev set 2 windows 2 Eine Besonderheit der Ger te postscript und pdf besteht darin dass mehrere Aufrufe von High Level Grafikfunktionen zu mehrseitigen Dokumenten f hren w hrend bei sonstigen Ausgabeger ten ein neues Diagramm das bisherige ersetzt Auf das aktive Grafikfenster hat der Funktionsaufruf dev off denselben Effekt wie ein Klick auf das Schlie kreuz in der Titelzeile Um alle Ausgabeger te zu schlie en verwendet man die Anweisung gt graphics off 115 R Pakete und
210. te nominal ordinal scale Im Beispiel scale Im Beispielprogramm wird der Data Frame dict ber die zum R Kern geh rige Funktion data frame vgl Abschnitt 5 3 4 7 1 um die Variablendeklaration im character Vektor varSpec erweitert dict lt data frame dict varSpec stringsAsFactors FALSE Eine R Datentabelle zum Speichern der Attribute zu den Variablen eines SPSS Datenblatts enth lt f r jede SPSS Variable einen Vektor mit Werten von Typ character Wir erweitern das Datenlexikon dict um die Variablendeklaration im character Vektor varSpec und verhindern mit dem Argument FALSE f r das data frame Argument stringsAsFactors dass der character Vektor bei der Aufnahme in ei nen Faktor im Sinne von R gewandelt wird Aus dem Ergebnis erstellt die Funktion spssdictionary SetDictionaryToSPSS spssdictionary SetDictionaryToSPSS results dict ein neues SPSS Datenblatt mit dem Namen results Die R Datentabelle casedata mit den SPSS Variablen wird im folgenden data frame Aufruf um die per mean gebildete Mittelwertsvariable erweitert casedata lt data frame casedata mean casedata salary Den von der R Funktion mean gelieferten numerischen Vektor der L nge 1 erweitert R automatisch durch Wiederholung des vorhandenen Elements auf die passende L nge Mit der Funktion spssdata SetDataToSPSS werden die Variablen im erweiterten Data Frame casedata in das eben angelegte SPSS Datenblatt geschrieben spssdata SetDataTo
211. te Dialoge mit R Imple mentierung an z B zur grafischen Diagnose von linearen Regressionsmodellen 16 R Pakete und Syntax in SPSS Statistics verwenden ap Regressionsdiagnostik mit R Grafik Abhangige Variable amp Spezielle Methoden gew nscht 2 gt iKorpergewieht inka amp 1 gew stat Methode meth1 amp 2 gew stat Methode meth2 amp 3 gew stat Methode meth3 Geburtsjahr gebj amp Fachbereich fb di Dekade Unabhangige E Idealgewicht nach der Formel G 8 L OT Ontimiemus iat Voraussetzung gt das R Plugin und diese R Bibliothek car Wer einen benutzerdefinierten Dialog per SPD Datei bezogen hat und nun installieren m chte w hlt fol genden Men befehl Extras gt Benutzerdefinierte Dialogfelder gt Benutzerdefiniertes Dialogfeld installieren Wird SPSS mit Administratorrechten ausgef hrt steht das benutzerdefinierte Dialogfeld anschlie end allen Benutzern zur Verf gung Per Voreinstellung erfolgt die Installation unter Windows 7 in einen Un terordner von C Program Files IBM SPSS Statistics 22 ext lib Wird SPSS mit normalen Benutzerrechten ausgef hrt steht das Dialogfeld anschlie end nur dem Installa teur zur Verf gung Per Voreinstellung erfolgt die Installation unter Windows 7 beim Benutzer Otto in einen Unterordner von C Users Otto A ppData Local IBM SPSS Statistics 22 CustomDialogs Ben tigt ein benutzerdefiniertes Dialogfeld zus tzli
212. te der Standardnormalverteilung lwd 3 gt nd lt expression f x frac 1 sqrt 2 pi e frac x 2 2 gt text 2 5 0 33 nd wird per plot Funktion ein Liniendiagramm mit der Standardnormalverteilungsdichte gezeichnet und anschlie end per text Funktion die Definition der Dichte erg nzt IR R Graphics Device 2 ACTIVE oe Dichte der Standardnormalverteilung Mit der expression Funktion l sst sich mathematische Notation in Diagramme einf gen Das Beispiel stammt aus Ligges 2007 S 170 9 2 2 Grafikparameter und Beschriftungen R kennt ca 70 Grafikparameter die sich f r ein Ausgabeger t oder f r einen Grafikfunktionsaufruf set zen lassen e Sollen Parameter mit G ltigkeit bei allen Grafikfunktionsaufrufen f r das aktuelle Ausgabeger t gesetzt werden ist die Funktion par mit der Syntax par name wert zu verwenden Ein part Aufruf ohne Argumente protokolliert die aktuellen Werte der Grafikpa rameter f r das aktive Ausgabeger t 117 R Pakete und Syntax in SPSS Statistics verwenden Viele Parameter lassen sich auch als Argumente in einem konkreten Grafikfunktionsaufruf High oder Low Level mit lokaler G ltigkeit verwenden Anschlie end werden einige Parameter vorgestellt die entweder f r eine generelle Einstellung per par in Frage kommen oder f r verschiedene Grafikfunktionen relevant sind Sp ter folgen noch Parameter die vor allem f r spezielle Gr
213. tellt eine Liste ber die Funktion list z B gt lis lt list c 1 2 3 matrix c 1 2 3 4 2 list Jetzt schlagt es 13 gt lis 1 1 1 2 3 2 51 2 1 3 3 311 11 1 Jetzt schl gt es 3 1 2 1 43 Die Liste Lis enthalt die folgenden drei Komponenten e einen Vektor e eine Matrix e eine Liste 63 R Pakete und Syntax in SPSS Statistics verwenden und hat damit die L nge 3 gt length lis 1 3 Beim Erzeugen einer Liste kann man ihre Elemente benennen z B gt lis lt list vektor c 1 2 3 matrix matrix c 1 2 3 4 2 liste list Jetzt schl gt es 13 Wie bei einem Vektor kann man auch bei einer Liste ber die Funktion names die Komponenten be nennen bzw vorhandene Labels ermitteln z B gt names lis lt c vektor matrix liste Sind Namen vorhanden erscheinen diese in der Ausgabe anstelle von Indexnummern z B gt lis vektor raj 123 matrix 51 32 1 1 3 25 2 4 liste liste 1 1 Jetzt schl gt es liste 2 1 33 5 3 4 6 2 Zugriff auf Bestandteile einer Liste F r den Zugriff auf die Komponenten einer Liste ist der Operator zu verwenden z B gt lis 2 1 gt 2 1 d 3 2 2 4 Sind Namen vorhanden k nnen diese f r den Zugriff auf die Komponenten verwendet werden entweder ber den Operator gt lis matrix 51 2 az 1 3 25 2 4 oder iiber den Operator gt l
214. th lt siehe Abschnitt 9 2 4 2 3 lty Der Linientyp kann ber seine Nummer aus der folgenden Palette CO EENEG e IN st N Seesen EE E E E EE OD ET We haat EATS EENET INEEN RE EN EANES il ce tance LAR wilt ts Su ult AA RE RERTENTEHETERSENEEREEIERTERNNN N DT WE saa ed Se See nse eee Sr E eh eA meets st mh 1 2 Die Abbildung wurde folgenderma en mit R erstellt gt windows 18 3 gt plot 8 25 rep 1 26 pch 8 25 cex 3 xlab ylab yaxt n gt axis side 1 at 08 25 Die Abbildung wurde folgenderma en mit R erstellt gt windows 7 4 gt plot 1 6 1 6 type n xlab ylab xaxt n gt for i in 1 6 lines 1 6 rep i 6 lty i 120 R Pakete und Syntax in SPSS Statistics verwenden gew hlt werden z B gt plot x y lty 4 e xlim ylim Begrenzung des Darstellungsbereichs f r die X bzw Y Achse z B gt plot x y type S xlim c 3 3 e xaxt yaxt axes Ist die Erstellung individueller Achsen ber die Low Level Funktion axis geplant siehe Abschnitt 9 2 3 2 schaltet man die zu ersetzenden Standardvarianten ab o Der Wert n f r das Argument xaxt bzw yaxt verhindert die X bzw Y Achse o Der Wert FALSE f r das Argument axes verhindert beide Achsen e asp Dieses Argument bestimmt den Quotienten aus der L nge einer Y Achseneinheit und der L nge einer X Achseneinheit Im folgenden Beispiel ist der Abstand zwischen den X Werten 1 und 2 doppelt so gro wie
215. tionellen Grafiksystem ein Liniendiagramm mit der Standardnormalverteilungsdichte gt x lt seq 4 4 0 01 y lt dnorm x mean sd 1 gt plot x y type 1 main Dichte der Standardnormalverteilung lwd 3 Per seq Funktion siehe Abschnitt 5 3 4 2 1 entsteht ein Vektor mit X Koordinaten Von der dnorm Funktion erhalten wir einen gleichlangen Y Vektor mit den Funktionswerten der Standardnormalvertei lungsdichte zu den X Werten Per plot Funktion entsteht ein Liniendiagramm mit der Dichte das in einem Grafikfenster erscheint FR R Graphics Device 2 ACTIVE fea Dichte der Standardnormalverteilung Dieses Ausgabeger t hat den Typ windows und kann mit der gleichnamigen Funktion auch explizit er stellt werden z B gt windows 5 5 Dieses Vorgehen bietet die M glichkeit eine alternative Breite und H he anstelle der voreingestellten Werte von jeweils 7 Zoll engl Inch festzulegen 7 2 54 cm 17 78 cm Durch jeden Aufruf der Funktion windows wird ein neues Grafikfenster erstellt und zum aktiven Aus gabeger t ernannt vgl Abschnitt 9 1 4 zur Verwaltung der Ausgabeger te Jedes Ausgabeger t hat neben seinem Typ auch eine Nummer die bei einem Grafikfenster in der Titelzei le erscheint siehe Beispiel Ist im RGui ein Grafikfenster aktiv kann sein Inhalt 113 R Pakete und Syntax in SPSS Statistics verwenden e ber den Men befehl Datei gt Speichern als i
216. tsverzeichnis 5 1 2 Workspace und Anweisungsged chtnis 5 1 3 Sichern und Laden einzelner Datenobjekte im Bin rformat von R 5 1 4 Konfigurationsoptionen 5 1 5 Initialisierungsdateien 5 2 Pakete 5 3 5 2 1 Pakete laden 5 2 2 Pakete installieren 5 2 3 Installierte Pakete aktualisieren 5 2 4 Task Views 5 2 5 Pakete entladen 5 2 6 Pakete zitieren Elementare Eigenschaften der Programmiersprache R 5 3 1 Hilfe und Dokumentation 5 3 1 1 Hilfe aufrufen 5 3 1 2 Beispiele aus den Hilfetexten ausf hren lassen 5 3 1 3 Elektronische Handb cher 5 3 2 Bezeichner und Kommentare 5 3 3 Funktionen 5 3 3 1 Regeln f r den Aufruf von Funktionen 5 3 3 2 Elementare Funktionen und Zuweisungsoperator 5 3 4 Datentypen 5 3 4 1 Datentypbezogene Funktionen 5 3 4 2 Vektor 5 3 4 3 Faktor 5 3 4 4 Matrix 5 3 4 5 Array 5 3 4 6 Liste 5 3 4 7 Datentabelle 5 3 53 Fehlende Werte 5 3 6 Indexzugriff 5 3 6 1 Zugriff auf einzelne Elemente 5 3 6 2 Zugriff auf einen Zeilen oder Spaltenvektor aus einer Matrix oder Datentabelle 5 3 6 3 Indexvektoren 5 3 6 4 Indexmatrizen 5 3 7 Operatoren 5 3 7 1 Arithmetische Operatoren 5 3 7 2 Vergleichsoperatoren 5 3 7 3 Logische Operatoren 5 3 7 4 Sequenzoperator 5 3 7 5 Recycling Regel 5 3 7 6 Zuweisungsoperatoren 5 3 8 Anweisungen 5 3 8 1 if Anweisungen 5 3 8 2 if else Anweisung 5 3 8 3 Wiederholungsanweisungen 5 3 8 4 Blockanweisung 5 4 Mit Skripten arbeiten 5 5 Generische Funktionen und Ausgabenverwa
217. u fen 16 08 2014 http socserv mcmaster ca jfox Misc Rcmdr Getting Started with the Rcmdr pdf Gordon R A 2010 Regression Analysis for the Social Sciences New York Routledge Hain J 2011 Statistik mit R RRZN Handbuch IBM SPSS 2013 IBM SPSS Statistics 22 Core System Benutzerhandbuch Online Dokument ftp public dhe ibm com software analytics spss documentation statistics 22 0 de client Manuals IB M_SPSS_Statistics_Core_System_User_Guide pdf Levesque R amp IBM Inc 2011 Programming and Data Management for SPSS Statistics 20 IBM Inc Online Dokument abgerufen am 23 09 2011 https www ibm com developerworks mydeveloperworks wikis home lang en wiki We70df3 195 ec8_4f95_9773_42e448fa9029 page Books 20and 20Articles Ligges U 2007 Programmieren mit R 2 Aufl Berlin Springer Muenchen R A 2011 R for SAS and SPSS Users 2 Aufl New York Springer Murrell P 2011 R Graphics 2nd ed Boca Raton FL Chapman amp Hall CRC R Development Core Team 2014 R Language Definition Online Dokument abgerufen am 30 11 2014 http cran r project org doc manuals R lang pdf Ryan T S 1997 Modern Regression Methods New York Wiley 181 R Pakete und Syntax in SPSS Statistics verwenden IDRE UCLA 2014a R Data Analysis Examples Robust Regression Online Dokument abgerufen am 30 11 2014 http www ats ucla edu stat r dae rreg htm IDRE UCLA 2014b R Data Analysis Examples Tobit Models O
218. ue colour blue labs x Geschlecht y Prozent 170 R Pakete und Syntax in SPSS Statistics verwenden Sollen die Balken mit den absoluten H ufigkeiten beschriftet werden kommt das text Geom zum Ein satz gt ggplot kfa aes x geschl geom_bar fill lemonchiffon colour gray50 labs x Geschlecht y Haufigkeit geom_text stat bin mapping aes label count vjust 4 size 4 colour gray50 Die bei geom_text voreingestellte identische Transformation wird durch bin ersetzt Die somit verfiig bare Variable count wird mit dem sthetischen Attribut label verbunden das die auszugebenden Texte festlegt Andere sthetische Attribute erhalten einen festen Wert e vjust legt eine vertikale Verschiebung der Texte relativ zu den durch count festgelegten y Positionen fest e size gibt die Textgr e an e colour bestimmt die Textfarbe Auf der Schicht mit dem text Geom erscheinen die gew nschten Etiketten mit den gew hlten Attributen 25 207 H ufigkeit 0 1 i Frau Mann Geschlecht Um waagerechte Balken zu erhalten muss man lediglich auf ein fertiges Balkendiagramm die Funktion coord_flip anwenden Im aktuellen Beispiel ist es allerdings ratsam zus tzlich die Textpositionen neu zu adjustieren hjust statt vjust gt ggplot kfa aes x geschl geom_bar fill lemonchiffon colour gray50 labs x Geschlecht y Haufigkeit geom_text stat
219. ument die Funktion density zur Definition des Linienverlaufs zu bergeben Mit dem Grafikparameter Iwd wird die Linien st rke beeinflusst 9 2 4 5 Mehrere Diagramme kombinieren Sollen zu Vergleichszwecken mehrere Diagramme in einer Abbildung kombiniert werden definiert man mit dem Grafikparameter mfrow eine Platzierungsmatrix deren Zellen durch die anschlie enden Grafik funktionsaufrufe gef llt werden Sollen z B zwei Diagramme bereinander erscheinen verwendet man den folgenden Aufruf der par Funktion vgl Abschnitt 9 2 2 gt par mfrow c 2 1 136 R Pakete und Syntax in SPSS Statistics verwenden Zur Demonstration verwenden wir die k nstlichen Daten aus Abschnitt 9 2 4 4 und f gen in SPSS noch die Variable treat zur Gruppeneinteilung hinzu die einen Effekt auf die abh ngige Variable y aus bt do if uniform 1 lt 0 5 compute treat else compute treat 1 compute y y 1 end if Mit den folgenden aus einem SPSS Syntaxfenster abgeschickten R Anweisungen werden zwei berei nander stehende Histogramme mit empirischer Dichte erstellt BEGIN PROGRAM R data lt spssdata GetDataFromSPSS ga lt data y data treat 0 g1 lt data y data treat 1 png u eigene dateien r NormDens2 png 15 15 units cm res 600 par mfrow c 2 1 hist g freq FALSE breaks seq 5 5 0 5 col lightgoldenrod3 main KG xlab ylab Dichte lines density g col red lwd 2 hist gl freq F
220. ummary Transformation zum Einsatz gt ggplot kfa aes x geschl y aergo geom_bar stat summary fun y mean fill cornflowerblue geom_errorbar stat Summary fun data mean_cl_normal width 8 5 size 1 labs x Geschlecht y Mittlerer rger Dem Argument fun data wird die Zusammenfassungsfunktion mean_cl_normal zugewiesen deren Vektor wertige R ckgabe die Vertrauensschranken enth lt welche die sthetischen Attribute ymin und ymax des errorbar Geoms mit Werten versorgen ber die errorbar Attribute width und size beein flusst man die Breite und die Linienst rke der Dispersionsindikatoren Um Dispersionsindikatoren ohne horizontale Begrenzungen zu erzeugen ersetzt man das Geom errorbar durch die Alternative pointrange 8 6 2 04 i i Frau Mann Geschlecht Mittlerer rger gt 173 R Pakete und Syntax in SPSS Statistics verwenden 9 3 4 3 3 Statistische Kennwerte von mehreren Variablen W hrend ein Balkendiagramm zur Darstellung der Effekte eines Gruppierungsfaktors in ggplot2 leicht zu erstellen ist muss man bei einem Messwiederholungsfaktor etwas mehr Aufwand investieren In der Bei spieldatei kfa sav sind die rgereinsch tzungen der Probanden f r zwei Bedingungen enthalten Bei Ab bzw Anwesenheit einer als KFA bezeichneten Konstellation Variablen aergo bzw aergm Weil ggplot2 f r ein Balkendiagramm mit den beiden Variablen einen Faktor f r die X Achse ben tigt kon vertieren w
221. un chst entste hen Varianten die bei weitgehend quivalentem Ergebnis auch mit SPSS m glich sind bis Abschnitt 9 2 4 2 4 Schlie lich werden die erlernten Techniken aber auch dazu verwendet spezielle Streudia gramme zu produzieren die mit SPSS aktuell weniger gut zu erstellen sind 9 2 4 2 1 Einfaches Streudiagramm Die in Abschnitt 9 2 3 beschriebene plot Funktion erstellt beim voreingestellten Wert p f r das Argu ment type ein zweidimensionales Streudiagramm f r Punkte mit X bzw Y Koordinaten in den Vektoren x und y die als erstes bzw zweites Argument zu bergeben sind z B gt groesse lt c 186 178 182 160 168 NA 165 179 158 175 176 176 gt gewicht lt c 80 71 75 5 65 66 76 55 76 5 50 5 80 62 NA gt plot groesse gewicht main Regression von Gewicht auf Gr e xlab Gr e ylab Gewicht pch 19 col red In diesem plot Aufruf werden zur Gestaltung des Diagramms einige Argumente verwendet die in den Abschnitten 9 2 2 ber Grafikparameter und Beschriftungen und 9 2 3 ber die plot Funktion vor gestellt worden sind e main Haupt berschrift e ab ylab Achsenbeschriftungen e pch Markierungsart fiir die Datenpunkte e col Zeichenfarbe Das Ergebnis 125 R Pakete und Syntax in SPSS Statistics verwenden Regression von Gewicht auf Gr e 875 D D D wo _ D N D e R 5 O D O y B e ole D T T T T T T 160 165 170 175 180 185 Gr e R erlaubt z
222. ung an vgl Abschnitt 2 3 3 die er neuerdings in Erweiterungsbundles verpackt um die bequeme Distribution Installation und Aktualisie rung innerhalb von SPSS 22 zu erm glichen siehe Abschnitt 2 2 3 2 2 2 Erstellung Wer ein Erweiterungsbundle mit R erstellten m chte muss den Implementierungscode mit R verfassen und die Bedienung per Syntax und oder Dialog unterst tzen ber die Erstellung eines Erweiterungs kommandos informiert das kostenlos als PDF Datei verf gbare Buch von Levesque 2011 S 374ff Wer ein benutzerdefiniertes Dialogfeld anbieten m chte findet eine Anleitung z B im Core System Benutzer handbuch IBM SPSS 2013 Kapitel 20 Um die erstellten Dateien in ein Erweiterungsbundle zu verpa cken startet man mit dem Men befehl Erweiterungsbundles gt Erweiterungsbundle erstellen Es resultiert eine Erweiterungsbundle Datei mit der Namenserweiterung SPE 2 2 3 Installation Mit den R Essentials f r SPSS Statistics 22 werden etliche mit Hilfe von R implementierte Erweite rungsbundles installiert die auch in das Men system integriert sind Analysieren gt Korrelation gt Heterogene Korrelationen Analysieren gt Regression gt Quantil Regression Analysieren gt Regression gt Residuums Heteroskedastizit tstest Analysieren gt Regression gt Robuste Regression Analysieren gt Regression gt Tobit Regression Analysieren gt Skalierung gt Rasch Modell Grafik gt R Boxplot Wer z B ber die
223. ur ber das values Argument der Funktion scale_colour_manual individuelle Farben vereinbart gt gsd lt ggplot ggg aes gr e gewicht colour geschlecht gt gsd lt gsd geom_point size 5 labs x Gr e y Gewicht gt gsd scale_colour_manual name Geschlecht values c violet lightcyan4 Dabei kommt das von geom_point per Voreinstellung verwendete Symbol zum Einsatz ein gef llter Kreis Geschlecht Frau Mann Gewicht e i 160 170 Gr e Dient das shape Attribut zur Unterscheidung der Geschlechtsgruppen gt gsd lt ggplot ggg aes gr e gewicht shape geschlecht gt gsd geom_point size 5 colour brown1 labs x Gr e y Gewicht shape Geschlecht verwendet geom_point per Voreinstellung die Symbole und A 160 R Pakete und Syntax in SPSS Statistics verwenden Geschlecht Frau A Mann Gewicht e i 160 170 Gr e Dies sind die Symbole 16 und 17 aus der folgenden Palette die sowohl von der traditionellen Grafik vgl Abschnitt 9 2 3 1 wie auch von ggplot2 genutzt wird OA XOV RKP OKEHRUMEOACOCOTDOALYT rT TT T TF T T TOT CZE a le ee ee E 0 12 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Uber das values Argument der Funktion scale_shape_manual lassen sich alternative Symbole w hlen gt gsd lt ggplot ggg aes gr e gewicht shape geschlecht gt gsd lt gsd geom_poin
224. ur L sung einer Datentransformationsaufgabe R Syntax in Frage kommt z B weil ein in R implementierter Algorithmus bernommen werden soll 37 R Pakete und Syntax in SPSS Statistics verwenden 5 R als statistikorientierte Programmierumgebung Mit zunehmender Komplexit t der R Beispiele in den obigen Abschnitten ist vermutlich die Motivation der Leser innen gewachsen sich mit R als Programmierumgebung f r Datenanalyse und Grafik dt bersetzung des Untertitels von Venables et al 2014 systematisch zu besch ftigen um Sicherheit bei der Anwendung zu gewinnen 5 1 RGui zur direkten Interaktion mit R Im aktuellen Abschnitt 5 werden die R Funktionen der K rze halber in der Regel ohne Einrahmung durch die SPSS Kommandos BEGIN PROGRAM R END PROGRAM gezeigt Zum Erlernen der R Syntax ist die direkte Interaktion mit dem R Interpreter ber die grafische R Bedienoberfl che RGui ohnehin sinnvoller R RGui 64 bit Datei Bearbeiten Ansehen Verschiedenes Pakete Windows Hilfe elei eal S R R Console R version 2 15 3 2013 03 01 Security Blanket Copyright C 2013 The R Foundation for Statistical Computing ISBN 3 900051 07 0 Platform x86_64 w64 mingw32 x64 64 bit R ist freie Software und kommt OHNE JEGLICHE GARANTIE Sie sind eingeladen es unter bestimmten Bedingungen weiter zu verbreiten Tippen Sie license or licence f r Details dazu R ist ein Gemeinschaftsprojekt mit
225. ur Spezifikation der beiden Variablen auch die Modellsyntax vgl Abschnitt 8 2 wobei auf das Kriterium die Y Achsen Variable nach einer Tilde der Regressor folgt z B gt plot gewicht groesse main Regression von Gewicht auf Gr e xlab Gr e ylab Gewicht pch 19 col red 9 2 4 2 2 Regressionsgerade und sonstige Linien erg nzen Auf dem Weg zur Regressionsgeraden lassen wir die lineare Regression von Gewicht auf Gr e durch die Funktion Im sch tzen zur Modellformulierung siehe Abschnitt 8 2 Die Low Level Grafikfunktion abline gt abline lm gewicht groesse zeichnet unter Verwendung der Im Ergebnisse die Regressionsgerade Regression von Gewicht auf Gr e Gewicht 50 T T T T T T 160 165 170 175 180 185 Gr e Zur Anzeige einer nichtlinearen z B quadratischen Anpassungslinie eignen sich die Funktionen lines vgl Abschnitt 9 2 3 und predict z B gt lines groesse predict Im gewicht groesse I groesse 2 126 R Pakete und Syntax in SPSS Statistics verwenden Als Y Koordinaten werden die von predict gelieferten Prognosen eines linearen Modells verwendet das einen im konkreten Beispiel eigentlich berfl ssigen quadratischen Term enth lt Im konkreten Fall klappt der lines Aufruf allerdings nicht weil die predict R ckgabe und der Vektor groesse we gen eines fehlenden groesse Werts eine verschiedene L nge haben Um zu g ltigen
226. usgeben zu lassen setzt man runde Klammern um die Zuweisung z B gt X lt c l 2 3 4 5 1 12345 length x Die Funktion length liefert die Anzahl der Elemente in einem Objekt z B in einem Vektor oder in ei ner Liste z B gt length x 31 3 Man kann der L nge eine positive Ganzzahl zuweisen und so am Ende des Vektors Elemente erg nzen oder l schen Auf diese Weise angeh ngte Elemente haben den Wert NA Not Available z B gt length x lt 7 gt x 1 1 2 3 4 5 NANA gt length x lt 3 gt x DL amp 2 Anschlie end vergessen wir den Sequenzoperator wieder bis zu seiner offiziellen Vorstellung 52 R Pakete und Syntax in SPSS Statistics verwenden Is Diese Funktion listet die Objekte im Workspace auf z B gt 1s 1 eimer de el Im RGui unter Windows kann man den Is Aufruf auch mit dem folgenden Men befehl ausl sen Verschiedenes gt Liste Objekte auf rm Mit der Funktion rm kann man ein Objekt aus dem Workspace entfernen z B EX 1 12345 gt rm x gt xX Fehler Objekt vi nicht gefunden Mit dem folgenden Funktionsaufruf der die Is Ausgabe als Wert f r das Argument list verwendet werden alle Objekte im Workspace gel scht ohne Warnung gt rm list 1s Im RGui unter Windows kann man den Aufruf auch mit dem folgenden Men befehl ausl sen Verschiedenes gt Entferne alle Objekte search Dieser Funktion listet den Suchp
227. uterungen zum R Commander bietet z B ein im Internet kostenlos verf gbares Manuskript von Fox amp Bouchet Valat 2013 6 2 1 Datentabelle anlegen definieren und f llen Wir werden anschlie end die folgenden Daten zum Ern hrungsverhalten einer studentischen Stichprobe in eine Datentabelle eintragen 85 R Pakete und Syntax in SPSS Statistics verwenden 68 op 2 15 0 Starten Sie im Commander mit dem Men befehl die Definition einer neuen Datentabelle und tragen Sie im folgenden Dialog den gew nschten Namen 1 ein z B Datenmanagement gt Neue Datenmatrix Neue Datenmatrix Geben Sie den Namen der Datenmatrix ein ggg em Er Anschlie end kann der Commander vor bergehend keine Eingaben entgegennehmen und der Mauszei ger wird ber dem Commander Fenster zum Warten Signal In der R Konsole erscheint hingegen ein Fenster des Dateneditors vgl Abschnitt 6 1 R Dateneditor Lal Si zl varl var2 var3 var4 oalsJalnle oln r Pr ofo P H H N Legen Sie f r drei Variablen den numerischen Datentyp und passende Namen fest indem Sie jeweils per Mausklick auf die Spalten berschrift den folgenden Dialog ffnen 1 RR Variable Editor Variable Name geschlecht Typ numeric character mit dem Buchstaben G beginnen Im Manuskript wird der Name ggg verwendet weil die drei Merkmale Geschl
228. x 8 2 pi col red lwd 2 Beim Ergebnis des ersten Versuchs st rt dass die X Achsenbeschriftung keinen Bezug zu den kritischen Punkten im Sinus Verlauf hat 138 R Pakete und Syntax in SPSS Statistics verwenden sin x 0 0 0 5 1 0 0 5 1 0 Daher schalten wir im curve Aufruf die X Achse aus und erzeugen ber die Low Level Grafikfunk tion axis siehe Abschnitt 9 2 3 2 eine Achse mit Markierungen an den passenden Stellen 0 7 2 rt 3n 2 27 curve sin x 8 2 pi col red lwd 2 xaxt n axis side 1 at c pi 2 pi 3 pi 2 2 pi labels c expression pi 2 expression pi expression 3 pi 2 expression 2 pi vv Das labels Argument erh lt einen character Vektor mit den gew nschten Teilstrichbeschriftungen wo bei durch expression Aufrufe f r die mathematische Typographie gesorgt wird sin x 0 0 0 5 1 0 0 5 1 0 0 n 2 x 3n 2 2n Als Demonstration f r einen 3D Plot soll die Reaktionsoberfl che einer multiplen Regression mit zwei interagierenden metrischen Regressoren siehe Baltes G tz 2014b mit der Funktion persp gezeichnet werden 139 R Pakete und Syntax in SPSS Statistics verwenden png u eigene dateien r ModReg png 15 15 units cm res 60 x lt seq 5 length 48 y lt X f lt function x y 0 4 x 0 4 y 0 2 x y z lt outer x y f gt persp x y Zz zlim range 12 theta 30 phi 20 col darkolivegreen1
229. yntax in SPSS Statistics verwenden 2 SPSS Funktionserweiterungen auf R Basis installieren Um die R basierten Funktionserweiterungen fiir SPSS Statistics 22 nutzen zu k nnen sind die folgenden Installationen auszuf hren e SPSS Statistics 22 e R215 e R Essentials zu SPSS Statistics 22 Einige Erweiterungen ben tigen zus tzlich die Python Essentials zu SPSS 22 In den R Essentials sind bereits etliche Erweiterungsbundles enthalten z B das in der Einleitung vorge stellte Bundle SPSSINC ROBUST REGR e Spezielle Erweiterungsbundles oder benutzerdefinierte Dialoge 2 1 Python und R Essentials 2 1 1 Python Essentials Python ist eine attraktive Skriptsprache die f r Automatisierungszwecke in SPSS Statistics verwendet werden kann Das mit den R Essentials gelieferte Erweiterungskommando f r heterogene Korrelationen siehe Abschnitt 3 3 ben tigt Python so dass Sie auch die Python Essentials installieren sollten Dies kann bequem ber eine Option im Installations Assistenten von SPSS Statistics 22 geschehen Es ist also kein separater Download erforderlich Wenn Sie bei der Installation von SPSS Statistics 22 die Python Option w hlen werden die folgenden Bestandteile der Python Essentials eingerichtet e Python 2 7 1 e Python Integration Plugin fiir SPSS Statistics 22 e Python basierte Erweiterungsbundles Es werden etliche mit Hilfe von Python implementierte SPSS Erweiterungskommandos samt zu geh riger benutzerdefinierter
Download Pdf Manuals
Related Search
Related Contents
WACOM Intuos User's Manual STRATA NX User Manual V1.00 Samsung YP-T10AB Manual de Usuario Giant GP7150A User's Manual Copyright © All rights reserved.
Failed to retrieve file