Home

IRT Software: Überblick und Anwendungen

image

Contents

1. 4 4 4 4 4 O 18373 22 22 18 15 9 IC 85 l low low oo 8 li 1192 24 244 19 03 1 8 2 47 oi 39 621 15 Ahl 2 2625 44 284 18 10 9 76 01 13 251 l 11 7 3 4989 7 354 30 24 8 47 ou 08 021 05 10 1 14 6057 9 44 A4 40 ei 13 o 36 201 I 05 1 11 1 l 5 38708 56 100 1 57 58 1 2 1 37 oi 92 e 00 i7 1100 1 6 EB a nn FI Sa conse EP a a La BA LER ssa Fr en a EEE Sa esse ES TI Ha en Fe tee Scale structure Measr 1 0 0 0 1 0 Mode 0 e 05 C 5 gt Median lt 0 C 01223 34 45 C 5 Mean 0 7 01 7 12 28 84 45 7 5 gt Measr 1 0 0 0 1 0 Probability Curves 1 0 0 0 1 0 Hamm 11 1000000000 00000 55555551 000 555555 PI 000 5555 rl 00 555 ol 000 555 bI 00 55 al o 555 Bl 00 55 il 00 55 11 00 55 il 5 0 tl 55 00 y 55 00 555 00 555 000 5555 3333333 k kk kk kkkkkkkkkkkkkk44444444444444444 IER occa kkk k 22222222222 24k kk 33333333333 O xk kkk 4444444 111111111111111 H0000 1 0 0 0 1 0 EE 51 I 5555555555 445555 44444 al 444 44 344 33 31 33 3 23 22 21 22 22 12 11
2. ITEMOO05 0 672 0 681 0 986 0 563 0 000 0 320 0 078 0 469 0 065 0 000 ITEM0007 1 302 0 681 1 912 0 563 0 000 0 464 0 078 681 0 065 0 000 5 BILOG MG und MULTILOG ITEMOO08 0 529 0 0 360 0 ITEM0009 0 671 0 0 471 0 ITEMOO10 0 265 0 0 324 0 ITEMOO11 1 298 0 0 367 0 ITEMOO12 1 922 0 0 354 0 ITEMOO13 0 813 0 0 460 0 681 078 681 078 681 078 681 078 681 078 0 776 0 0 529 0 0 984 0 0 691 0 0 389 0 0 476 0 1 905 0 0 538 0 2 821 0 0 519 0 1 193 675 563 065 563 065 563 065 563 065 563 065 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 0 000 STANDARD ERROR 87 Die Spalten THRESHOLD und SLOPE sind Itemschwierigkeits 6 und Itemdiskriminationsparame ter a INTERCEPT und LOADING hingegen stellen die entsprechenden Parameter im Kontext der Faktorenanalyse dar wobei INTERCEPT SLOPE THRESHOLD und LOADING SLOPE V SLOPE Der Parameter ASYMPTOTE wird erst mit dem 3PLM gesch tzt und zeigt Rateparameter y an Pro Variable werden zwei Zeilen ausgegeben in der oberen befinden sich die Parametersch tzungen w hrend darunter die jeweiligen Standardfehler durch einen Asterisk markiert angegeben sind F r jede Subgruppe erh lt man eine
3. Kapitel 2 Scoright Kathrin Gruber Zusammenfassung Eine der Hauptannahmen der Item Response Theorie ist jene der lokalen sto chastischen Unabh ngigkeit das hei t die L sung eines Items ist unabh ngig von der L sung eines oder mehrerer Items desselben Tests Doch diese kann unter gewissen Bedingungen verletzt sein Dieses Problem versucht die Testlet Response Theorie durch das B ndeln abh ngiger Items zu einem sogenannten testlet zu l sen Dazu werden formale Item Response Modelle um einen Testletpara meter erweitert In komplexeren Modellen werden diese Abh ngigkeiten zwischen den Item sowie den Testletparamteren zus tzlich durch die Sch tzung einer Kovarianzmatrix modeliert Mit dem Programmpaket SCORIGHT ist es m glich die Annahme der lokalen stochastischen Unabh ngigkeit f r solche Itemb ndel fallen zu lassen und auch andere Items auf die Verletzung dieser Annahme zu berpr fen 2 1 Einleitung Der Begriff testlet stand urspr nglich bezeichend f r eine Sammlung von Aufgaben die gemeinsam vorgegeben werden Diese dienten dazu die Effizienz eines Tests um das Verst ndnis eines bestimmten Stimulus zu verbessern Ein klassisches Beispiel f r eine solche Testsituation sind u a Leseverst nd nisaufgaben Einerseits ist es zu wenig informativ nur einzelne Frage zu einer 250 W rter langen Textpassage zu stellen andererseits ist es problematisch nach einer gewissen Zeit neue schwierige Items zu formulieren Dad
4. 142 Dimitris Rizopoulos Response 1 1 Item i Item j Obs Exp 0 E 2 E 1 9 10 112 65 66 32 71 2 3 6 449 516 05 8 71 3 3 7 515 582 51 7 82 Tiet denotes a chi squared residual greater than 3 5 R gt margins fit 2pl type three way Call ltm formula SexAtt z1 Fit on the Three Way Margins Response 0 0 0 Item i Item j Item k Obs Exp 0 E 2 E 1 3 4 5 233 178 65 16 53 2 1 3 5 219 172 24 12 70 xxx 3 6 7 10 465 397 61 11 42 xxx Response 1 0 0 Item i Item j Item k Obs Exp 0 E 2 E 1 3 6 7 303 246 83 12 78 xxx 2 2 6 8 314 258 97 11 69 xxx 3 2 6 7 361 301 86 11 59 xxx Response 0 1 0 Item i Item j Item k Obs Exp 0 E 2 E 1 1 9 10 76 132 65 24 19 2 4 9 10 72 126 49 23 47 3 5 10 11 32 48 14 20 zz Response 1 1 0 Item i Item j Item k Obs Exp 0 E 2 E 1 7 9 10 64 136 50 38 51 2 6 9 10 57 126 80 38 43 zen 3 2 9 10 70 134 52 30 95 Response 0 0 1 Item i Item j Item k Obs Exp 0 E 2 E 1 i 8 10 10 1 35 55 57 2 6 7 10 12 1 89 54 02 3 1 9 10 1 50 34 48 36 Response 1 0 1 Item i Item j Item k Obs Exp 0 E 2 E 1 5 7 10 8 0 34 170 34 2 5 6 10 9 0 89 74 32 3 4 7 10 40 24 59 43 Response 0 1 1 Item i Item j Item k Obs Exp 0 E 2 E 1 7 9 10 12 0 18 761 43 2 6 9 10 15 0 47 449 34 Krk 3 8 9 10 11 0 64 168 67 Response 1 1 1 Item i Item j Item k Obs Exp 0 E 2 E 1 3 9 10 106 62 62 30 05 2 5 9 10 89 52 13 2
5. repr sentiert dabei mehrere Personen Bei der Betrachtung des I JADL Index wird ersichtlich dass alle Personen zumindest eine Ein schr nkung I JADL 1 haben Jedoch repr sentiert beispielsweise Item 7 einen zu geringen Schwie Winsteps 17 rigkeitsgrad im konkreten Fall Grad der Einschr nkung um zwischen Personen zu diskriminieren Andererseits hat eine bedeutende Zahl an Personen im untersuchten Datensatz zu starke Einschr n kungen um aufgrund der abgefragten Items unterschieden zu werden Die obige Darstellung erfolgt in umgekehrter Weise unter dem Men punkt Output Tables 16 PER SON map wo die F higkeitswerte der Personen ausgeschriebene IDs gruppenweise den Werten der Items dargestellt als x gegen ber gestellt werden Aufgrund der gro en Fallzahl der Anwendungs beispiele geht die Darstellung in letzterem Fall jedoch der bersichtlichkeit verlustig Unter Output Tables 17 PERSON Measure kann eine Reihung der Personen nach dem ebenfalls angezeigten F higkeitsparameter abgerufen werden Wiederum bestehen Redundanzen in den Out puttabellen So findet sich unter Output Tables 18 PERSON entry die selbe Liste jedoch nach der ID sortiert 1 3 4 Grafiken Winsteps bietet im Men Graphs mehrere M glichkeiten zur graphischen Visualisierung der Sch tzer gebnisse Unabh ngig davon welche der ersten neun Optionen des Drop Down Men s ausgew hlt wird gelangt der Anwender die Anwenderin zu eine
6. 11 111 1111 000011 10000000000 ol 1 0 0 0 1 0 Abb 3 12 Table 8 1 Category Statistics einflie en Unerwartet hohe Fehlerwerte helfen Anomalien aufzudecken Wenn gew nscht k nnen Ausrei er von Analysen ausgeschlossen werden um den Fit zu verbessern Linacre 1994b Als ein Nachteil des Programms ist mit Sicherheit zu bemerken dass als Sch tzer automatisch uML verwendet wird und dieser auch nicht ver ndert werden kann Besser w re cML da dieser Sch tzer keine Verteilungsannahmen voraussetzt Kapitel 4 WinMiRa 2001 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel Zusammenfassung In diesem Kapitel wollen wir einen anwendungsorientierten Einblick in das Programm WinMiRa geben mit dem es unter anderem m glich ist Latent Class Analysen Rasch Modelle und Mixed Rasch Modelle zu berechnen Nach einer theoretischen Einf hrung wird das Programm WinMiRa vorgestellt Der Fokus dieses Kapitels liegt auf einer beispielhaften Berechnung und Interpretation einer Latent Class Analyse und eines Mixed Rasch Modells mit Hilfe von WinMiRa 4 1 Theorie Raschmodelle 4 1 1 Messtheoretische Fundierung RASCH Modelle folgen dem Paradigma der probabilistischen Testtheorie W hrend die Klassische Testtheorie den Summenwert einer Person als einen intervallskalierten Messwert annimmt stellt sich die Probabilistische Testtheorie die Frage ob dies berhaupt zul ssig ist da Rohwerte grund s tz
7. 24 19 280 280 298 62 4 8 4 85 84 20 1 92 1 3 1 11 3 1 13 20 19 321 321 298 62 4 8 4 85 84 20 1 92 1 3 1 07 3 1 14 20 19 336 336 S 5 sl 5 cl 5 a E ui E ell e B B 2 ei gt xal x S sl D l zl a B b ol 2 ch DI 2l 2 387 62 1 4 1 101 70 08 44 4 2 37 2 6 67 75 53 901 901 86 62 1 4 1 08 71 08 71 1 8 er oi 45 52 53 990 990 84 62 1 4 1 041 72 08 70 1 8 95 oi 47 50 53 113 113 82 62 1 3 1 01 73 08 53 3 2 44 2 1 53 ee 53 846 846 80 62 1 8 oni mm 08 72 1 7 70 9 49 53 52 1060 1060 le ee oput Poet Massen Bea er ende HE cu OOE pecca l Total Total Obsvd Fair Ml Model Infit Outfit Estim Correlation Score Count Average Avrage Measure S E MnSq ZStd MnSq ZStd Discrm PtMea PtExp Num Studenten 4 4 4 4 4 215 6 eo 3 5 3 651 02 10 1 09 1 or 2l 1 46 Mean Count 1118 55 9 o 9 1 021 45 13 30 1 3 33 1 01 I 15 S D Population 55 9 o 9 10 45 13 30 1 3 33 1 01 A S D Sample With extremes Model Populn RMSE 16 Adj True S D 42 Separation 2 63 Strata 3 83 Reliability 87 With extremes Model Sample RMSE 16 Adj True S D 42 Separation 2 63 Strata 3 84 Reliability 87 Without extre
8. At 3 24 1 D Biz TV MV PV IV UV U1 U2 U3 U4 U5 VARIANCE COMPONENTS A N C E Da Soo oO EE EE EE EE EE EE EE EE EE EE EE D a Table of STANDARDIZED RESIDUAL variance in Eigenvalue units Empirical Modeled Total raw variance in observations 37 4 100 0 100 0 Raw variance explained by measures 20 4 54 5 45 0 Raw variance explained by persons 7 9 21 0 17 4 Raw Variance explained by items 12 5 33 5 27 6 Raw unexplained variance total 17 0 45 5 100 0 55 0 Unexplned variance in 1st contrast 2 2 5 9 12 9 Unexplned variance in 2nd contrast 1 5 3 9 8 7 Unexplned variance in 3rd contrast 1 3 3 44 7 6 Unexplned variance in 4th contrast 1 2 3 15 6 9 Unexplned variance in 5th contrast 1 1 3 04 6 7 Lal 22 Stefan Angel und Richard M hlmann Abb 1 10 Item Map I ADL Index und Zarit Burden Index I ADL Index Zarit Burden Index PERSONS MAP ITEMS PERSONS MAP ITEMS nore rare 50 Cumulative probabilities 5 GHHHHHHHE Rasch Thurstone thresholds HHH lt more gt ADL4 5 HH TIT l l l 4 Ht it ADL1O ITEM3 4 4 ADL6 TI l 3 HHH ITEM1 4 HEHEHE S 3 ITEM4 4 Is diHHHHHE ITEM2 4 HHH 2 ADLI l 2 dHHHHBHHHHHE HEHEHE sI ADL17 ITEM3 3 1 M diHHHHHE HEE l 1 GHHHHHHHHHHE T HHH ITEM1 3 ADL2 ITEM4 3 o HHHHHHHE M ADL5 ADL
9. kann eine Mafzahl ausgerechnet werden mit der alle Standardfehler des Modells multipliziert werden m ssten um dieser Verzerrung Rechnung zu tragen Usort u legt fest wie die Tabelle 4 der FACETS Ergebnisdatei Table 4 unexpected responses sortiert werden soll Durch ui wird die Tabelle nach der absoluten Gr e der standardisierten Residuen in absteigen der Reihenfolge sortiert Eine aufsteigende Sortierung w rde durch den Gro buchstaben U erreicht werden Eine weitere M glichkeiten stellt zum Beispiel die Sortierung nach Facetten dar Es ist au er dem m glich kombinierte Sortierregeln zu definieren sowie sich die Tabelle in unterschiedlichen Sortiervarianten ausgeben zu lassen In dem hier verwendeten Beispiel wurde Usort 3 u festgelegt was bedeutet dass die Tabelle vorrangig nach Facette 3 Fragen und nachranging nach der absoluten Gr e der Residuen in absteigender Reihenfolge sortiert wird Aus dieser Sortierung ist er sichtlich bei welchen Fragen die meisten unerwarteten Antworten auftreten Sollten unterschiedliche Sortiervarianten gew nscht werden ist dies m glich in dem man beispielsweise Usort 3 u 1 u spezifiziert Dies w rde zus tzlich zur bereits beschriebenen Sortierung auch eine Sortierung nach Fa cette Auswertungsschema und nachrangig nach der absoluten Gr e der Residuen in absteigender Reihenfolge anzeigen Welche Werte als unexpected responses ausgegeben werd
10. 8 018 6 259 8 819 8 262 8 828 225 8 815 458 8 823 COURRIANCE CORRELATION Dimension Force amp Mot Light amp Sig Matter Earth amp Spa Multiple Ch An asterisk next to a parameter estimate indicates that it is constrained Values below the diagonal are correlations and values above are covariances Ready Log File NONE Warnings YES Automatic Estimate Updates NO Abb 7 13 ConQuest Resultat f r das f nfdimensionale bedingte Regressionsmodell mit den erkl renden Variablen SES Geschlecht Gender und Schulstufe Grade 5 Niveau F r die vierte Dimension Earth amp Space zeigt sich ein hnliches Bild wie bisher mit einer Ausnahme Diesmal f llt es den M dchen leichter die Fragen zu beantworten 0 025 Dieser Effekt ist jedoch nicht signifikant auf einem 5 Niveau weswegen er auch genauso gut zuf llig zu Stande kommen k nnte Ansonsten wurde eine Konstante von 1 961 ermittelt dieses scheint also das schwerste Fachgebiet insgesamt gewesen zu sein Sch lerinnen aus h heren Schulstufen haben h here Werte was Wissen in diesem Fachgebiet anbetrifft 0 71 Auch h herer sozio konomischer Status geht mit h herem Wissensstand einher o 23 Die letzten drei Effekte sind signifikant auf einem 5 Niveau Die f nfte Dimension schliesslich Multiple Choice weist wiederum das alt bekannte Muster auf Sch lerinnen aus h heren Schulstufen haben h here Werte erreicht 1 32 h here
11. c divorce sexdisc premar exmar gaysex gayscho gayhied gaypubl gayfadop gaymadop R gt head SexAtt divorce sexdisc premar exmar gaysex gayscho gayhied gaypubl gayfadop gaymadop 1 0 1 1 0 0 1 1 1 0 0 2 0 1 1 0 0 1 1 1 0 0 3 0 1 1 0 0 1 1 0 0 0 4 0 1 1 0 0 1 1 1 0 0 5 0 1 1 0 1 1 1 0 0 0 6 0 1 1 0 0 0 0 0 0 0 8 2 1 Descriptive Analysis We will start with a descriptive analysis of the data with descriptive measures relevant to test theory These measures are calculated by function descript OO R gt library 1tm This is package ltm version 0 9 4 R dsc descript SexAtt R gt dsc Descriptive statistics for the SexAtt data set Sample 10 items and 1077 sample units 0 missing values Proportions for each level of response 0 1 logit divorce 0 8737 0 1263 1 9343 sexdisc 0 1755 0 8245 1 5472 premar 0 2331 0 7669 1 1911 exmar 0 8700 0 1300 1 9010 gaysex 0 7112 0 2888 0 9014 gayscho 0 5246 0 4754 0 0985 gayhied 0 4522 0 5478 0 1919 gaypubl 0 4113 0 5887 0 3585 gayfadop 0 8143 0 1857 1 4782 gaymadop 0 8942 0 1058 2 1339 Frequencies of total scores 0 1 2 3 4 5 6 7 8 910 Freq 29 145 179 126 126 158 159 60 58 32 5 Point Biserial correlation with Total Score Included Excluded divorce 0 1805 0 0387 sexdisc 0 3156 0 1587 premar 0 5039 0 3499 8 IRT Analysis using the 1tm Package 135 exmar 0 3545 0 2194 gaysex 0 6595 0 5262 gayscho 0 7818 0 6733 gayhied
12. function can be used to produce descriptive statistics for the Environment data set output not shown We can observe that for all six items the first response level has the highest frequency followed by the second and third levels The p values for the pairwise associations indicate significant associations between all items An alternative method to explore the degree of association between pairs of items is the computation of a nonparametric correlation coefficient The rcor test function provides this option 8 IRT Analysis using the 1tm Package 149 R gt rcor test Environment method kendall LeadPetrol RiverSea RadioWaste AirPollution Chemicals Nuclear LeadPetrol KORK 0 385 0 260 0 457 0 305 0 279 RiverSea 0 001 KR 0 399 0 548 0 403 0 320 RadioWaste 0 001 0 001 OK 0 506 0 623 0 484 AirPollution lt 0 001 lt 0 001 lt 0 001 Krk 0 504 0 382 Chemicals 0 001 0 001 0 001 0 001 RK 0 463 Nuclear 0 001 0 001 0 001 0 001 0 001 Krk upper diagonal part contains correlation coefficient estimates lower diagonal part contains corresponding p values The implementation of rcor test is based on the cor function of package stats and thus it provides two options for nonparametric correlation coefficients namely the Kendall s tau and the Spearman s rho controlled by the method argument The print method for class rcor test returns a square matrix in which the upper diagonal part contains the estimates of
13. hnliche tabellarische Ausgabe der Parameter Darunter finden sich die Mittelwerte aller Itemschwellenparameter der Gruppen in unserem Fall jenen der M nner und Frauen Die DIF Analyse wird unter der Voraussetzung dass die mittleren Schwellen in allen Gruppen gleich sind durchgef hrt daher werden jene der Frauen um die Differenz von 0 381 angepasst PARAMETER MEAN STN DEV GROUP 1 NUMBER OF ITEMS 11 THRESHOLD 0 764 1 182 GROUP 2 NUMBER OF ITEMS 11 THRESHOLD 1 145 0 872 THRESHOLD MEANS GROUP ADJUSTMENT 1 0 000 2 0 381 Hier gibt BILOG die adjustierten Thresholdparameter aller Gruppen mit Standardfehlern aus MODEL FOR GROUP DIFFERENTIAL ITEM FUNCTIONING ADJUSTED THRESHOLD VALUES ITEM GROUP 1 ITEMOOO1 0 188 0 415 ITEMOO02 0 783 0 529 0 534 0 061 0 251 ITEMO008 ITEMOOO9 0 776 0 529 0 984 0 691 0 831 0 256 88 Marco J Maier und Konradin Maier ITEM0003 0 990 1 384 ITEM0010 0 389 0 102 0 595 0 278 0 476 0 242 ITEM0004 0 004 1 097 ITEMOO11 1 905 1 144 0 562 0 269 0 538 0 266 ITEMOO05 0 986 0 178 ITEMOO12 2 821 1 804 0 469 0 241 0 519 0 309 ITEM0007 1 912 2 429 ITEMOO13 1 193 0 292 681 0 327 675 0 264 STANDARD ERROR Letztlich sehen wir eine Auflistung der Gruppendifferenzen f r jedes Item mit entsprechenden Standardfe
14. n 1 Latent variable models assume that the high associations between items can be explained by a set of latent variables Thus for pairs of items that do not reject independence we could say that they violate this assumption 136 Dimitris Rizopoulos eo e divorce sexdisc o premar A 8 o exmar c 9 gaysex 7 gayscho amp bi gayhied E gaypubl gayfadop u 9 gaymadop e o e 2 0 2 4 6 8 Total Score 8 2 2 IRT Models for Dichotomous Data 8 2 2 1 Fitting We initially fit the original form of the Rasch model that assumes a known discrimination parameter fixed at one The version of the Rasch model fitted by rasch O in 1tm assumes equal discrimination parameters across items but by default estimates its value i e for p items a ap a In order to impose the constraint a 1 the constraint argument is used This argument accepts a two column matrix where the first column denotes the parameter and the second column indicates the value at which the corresponding parameter should be fixed Parameters are fixed under the additive parameterization Aj AZ for instance for p items the numbers 1 p in the first column of constraint correspond to parameters A Apo and the number p 1 to the discrimination parameter 4 Thus for the Sexual Attitudes data set we fix the discrimination parameter at one and fit the Rasch model by R gt fit rasch1 lt rasch Se
15. 1982 gesch tzt werden wobei unter schiedliche Einschr nkungen im Bezug auf die Thresholdparameter m glich sind beispielsweise gleiche Thresholdabst nde ber die Items hinweg wie dies im sogenannten Ratingscale Modell der Fall ist Die Zahl der Kategorien kann bis zu 101 Antwortoptionen betragen sodass auch Visual Analogue Scales VAS Wewers und Lowe 1990 analysiert werden k nnen Neben mehrkategoriel len Items k nnen auch Multiple Choice Formate verarbeitet werden Die verschiedenen Itemarten bzw Antwortformate k nnen zudem leicht in einer Analyse kombiniert werden Schlie lich k nnen auch Multifacet Designs gerechnet werden Selbstverst ndlich k nnen in einem Projekt auch Items zusammengefasst werden die verschiedenen Dimensionen zuzurechnen sind Im Rahmen jeder Analyse k nnen die entsprechenden Items ausgew hlt werden Alle Analysen werden im Projektfile gespeichert und sind jederzeit wieder abrufbar thomas salzberger wu ac at 159 160 Thomas Salzberger Log lineare Testmodelle LLTM sind in RUMM allerdings nicht implementiert Generell lassen sich IRT Modelle mit unterschiedlicher Itemdiskriminanz allgemeine IRT Modelle OPLM nicht sch tzen ebensowenig nichtkumulative Modelle unfolding models Andrich 1989 1996 Das vor kurzem vorgestellte Frame of Reference Rasch model Humphry 2005 ist in der aktuellen Version von RUMM noch nicht implementiert 9 3 Sch tzmethode RUMM wendet die paarweise Sch tzm
16. 51 Springer New York Muraki E 1992 A generalized partial credit model Application of an EM algorithm Applied Psychological Measurement 16 159 176 Pepels W 2007 Market Intelligence Moderne Marktforschung f r Praktiker Auswahlverfahren Datenerhebung Datenauswertung Praxisanwendungen Marktprognose PUBLICIS Kommunikati onsAgentur Pfanzagl J 1994 On Item Parameter Estimation in Certain Latent Trait Models In Fischer G und Laming D Hrsg Contributions to Mathematical Psychology Psychometrics and Methodology Seiten 249 263 Springer New York Pinheiro J und Bates D 1995 Approximations to the Log Likelihood Function in the Nonlinear Mixed Effects Model Journal of Computational and Graphical Statistics 4 12 35 Poinstingl H Mair P und Hatzinger R 2007 Manual zum Softwarepackage eRm Anwendung des Rasch Modells Pabst Science Publishers Lengerich Ponocny I 2001 Nonparametric goodness of fit tests for the Rasch model Psychometrika 66 437 460 R Development Core Team 2007 R A Language and Environment for Statistical Computing R Foundation for Statistical Computing Vienna Austria ISBN 3 900051 07 0 Rasch G 1960 Probabilistic Models for some Intelligence and Attainment Tests Danish Institute for Educational Research Copenhagen Rasch G 1961 On General Laws and the Meaning of Measurement in Psychology In Proceedings of the IV Berkeley Symposium on Mat
17. A W 2003 Evaluation of global testing procedures for item fit to the Rasch model British Journal of Mathematical and Statistical Society 56 127 143 Thissen D 1991 MULTILOG multiple categorv item analysis and test scoring using item response theory Scientific Software International Inc Chicago Thissen D und Steinberg L 1984 A response model for multiple choice items Psychometrika 49 4 501 519 Thurstone L L 1932 Motion pictures and the attitudes of children University of Chicago Press Chicago Trukeschitz B M hlmann R Schneider U Ponocny I und Osterle A 2009 Arbeitspl tze und T tigkeitsmerkmale berufst tiger pflegender Angeh riger Befunde aus der Wiener Studie zur informellen Pflege und Betreuung lterer Menschen 2008 VIC2008 Technical Report 2 Forschungsinstitut f r Alters konomie Wien van der Linden W und Hambleton R 1997 Handbook of Modern Item Response Theory Springer New York van Schuur W und Molenaar I 1982 MUDFOLD Multiple stochastic unidimensional unfolding In Caussinus H Ettinger P und Thomassone R Hrsg COMPSTAT 1982 Part I Proceedings in computational statistics Seiten 419 426 Physica Verlag Vienna Appeared also in C P Middendorp B Niemoller amp W E Saris eds Sociometric research 1982 Amsterdam Sociometric Society 1982 222 228 van Schuur W und Wierstra T 1987 MUDFOLD manual Groningen I E C Gamma Verhelst N
18. Axel Sonntag und Daniela Weber hinweg konstant auf restringiert Gleichzeitig werden die Abst nde zwischen den einzelnen Thresholds konstant auf 2 gehalten Modell 2 Multiple Unit Version des GGUM Das Multiple Unit Modell erlaubt eine ber die Items variierende Anzahl an Antwort kategorien Gleichzeitig werden die Diskriminationsparameter ber alle Items hinweg auf konstant 1 gesetzt und die Abst nde der Thresholds eines Items i betragen 24 Modell 3 Rating Scale Version des GGUM Wenn die Thresholds r ber alle Items i gleich und alle a konstant 1 sind spricht man vom Rating Scale Modell Dieses ist auch unter dem Namen Graded Unfolding Model GUM von Roberts und Laughlin 1996 bekannt Modell 4 Partial Credit Version des GGUM Wenn die Diskriminationsparameter a ber alle Items i auf konstant 1 restringiert werden erh lt man die Partial Credit Version des GGUM Modell 5 Generalized Constant Unit Version des GGUM Das Generalized Constant Unit Modell unterscheidet sich vom Constant Unit Modell nur insofern als dass die Diskriminationsparameter a nicht mehr auf 1 restringiert sind sondern ber die Items variieren d rfen Die Abst nde zwischen den Thresholds sind weiterhin konstant 2A Modell 6 Generalized Multiple Unit Version des GGUM Die generalisierte Version des Multiple Unit Modells erlaubt die Variation des Diskrimi nationsparameters a ber die alle Items Die Abst nde zwischen den Thresholds eines Items i b
19. I1 c3 t2 g1 0 1 0 0 0 0 0 0 3 0 I2 c1 t2 g1 0 0 1 0 0 0 0 0 1 0 I2 c2 t2 gi 0 0 0 1 0 0 0 0 2 0 I2 c3 t2 gi 0 0 0 0 1 0 0 0 3 0 I3 c1 t2 g1 0 0 0 0 0 1 0 0 1 0 I3 c2 t2 g1 0 0 0 0 0 0 1 0 2 0 I3 c3 t2 g1 0 0 0 0 0 0 0 1 3 0 Ii ci t2 g2 0 0 0 0 0 0 0 0 1 1 I1 c2 t2 g2 1 0 0 0 0 0 0 0 2 2 I1 c3 t2 g2 0 1 0 0 0 0 0 0 3 3 I2 c1 t2 g2 0 0 1 0 0 0 0 0 1 1 I2 c2 t2 g2 0 0 0 1 0 0 0 0 2 2 I2 c3 t2 g2 0 0 0 0 1 0 0 0 3 3 I3 c1 t2 g2 0 0 0 0 0 1 0 0 1 1 I3 c2 t2 g2 0 0 0 0 0 0 1 0 2 2 I3 c3 t2 g2 0 0 0 0 0 0 0 1 3 3 The parameter estimates are the following 6 Extended Rasch Modeling The R Package eRm 113 Results of LPCM estimation Call LPCM X lpcmdat mpoints 2 groupvec grouplpcm sumO FALSE Conditional log likelihood 103 7225 Number of iterations 37 Number of parameters 10 Basic Parameters eta eta 1 eta 2 eta 3 eta 4 eta 5 eta 6 Estimate 0 461590 1 609589 0 5713666 0 8388421 1 739492 0 7232787 Std Err 0 734666 1 194346 0 6232672 0 9854781 1 438195 0 6534237 eta 7 eta 8 eta 9 eta 10 Estimate 0 7096128 1 209864 0 2014868 1 0940434 Std Err 0 9862383 1 414828 0 2608239 0 3870401 Testing whether the 7 parameters equal o is mostly not of relevance for those parameters referring to the items in this example 17 7g But for the remaining contrasts Ho rjj o implying no general time effect can not be rejected p 44 whereas hypothesis Ho 10 o has to be rejected p 2 004 when applying a z test This su
20. Itemit 06 delta 0 216 alpha 0 572 tau 0 000 2 056 1 168 0 797 0 073 0 563 5 4 4 3 ECH 2L 4 1 0 R A S 4 3 2 1 0 1 2 3 4 Theta Test Characteristic Curve Expected Test Score 60 50 40 SEE 55 20 10 0 x 4 3 2 1 0 1 2 3 4 Theta Prob Info Info Axel Sonntag und Daniela Weber Category Probability Functions Item t 06 delta 0 216 alpha 0 572 tau 0 000 2 056 1 168 0 797 0 079 0 563 1 T T T T T T T 24 o 25 mem Item Information Function Itemit 06 delta 0 216 alpha 0 572 tau 0 000 2 056 1 168 0 797 0 073 0 563 3 8 i 7 4 Test Information Function 35 15 Abb 10 5 Einige grafische Ausgabem glichkeiten mit GGUM 2004 wie itemspezifischen Darstellung der H ufigkeits verteilung der gegebenen Antworten Plot der Wahrscheinlichkeitsfunktionen f r Antwortkategorien eines Items Item Characteristic Curves ICC sowie Item Information Funktionen ausgeben Im Hinblick auf Entfaltungsmodelle gibt es auch Plots der Category Probability Functions 10 GGUM2004 Generalized Graded Unfolding Models 181 10 2 3 Weitere kommerzielle Softwarepakete zur Sch tzung von Unfolding Models MUDFOLD Multiple Unidimensional Unfolding Das Programm MUDFOLD wurde von van Schuur und Molenaar 1982 und T Wierstra van Schuur und Wierstra 1987 entwickelt Es eignet sich zur Analyse von Einstellun
21. Mit einer unbedingten Analyse zu beginnen hat zwei Vorteile zum Einen kann eine Art durch die Regressoren erkl rte Varianz berechnet werden zum Anderen k nnen auf diese Weise Startwerte zur Berechung des bedingten Modells gewonnen werden Grunds tzlich ist zu sagen dass die Berechnung mehrdimensionaler IRT Modelle eine zeit und rechenintensive jedoch relativ ungenaue Sache ist ConQuest berechnet die Parameter des Modells in diesem Fall mittels Monte Carlo Integration f r die eine ausreichende Zahl an St tzstellen verwendet werden muss Die Sch tzung des unbedingten Modells wird somit in zwei Stufen geschehen zuerst wird eine kleine Anzahl an St tzstellen mit einem moderaten Genauigkeitskriterium vorgegeben um sinnvolle und hoffentlich nahe an den Optima liegende Startwerte zu bekommen Diese werden dann einer weiteren Sch tzung bergeben f r die mehr St tzstellen und ein strengeres Genauigkeitskriterium verwendet werden Die erste Stufe findet mit 400 St tzstellen statt und ben tigt ca 50 Iterationen ben tigen Die damit erhaltenen neuen Werte werden in einer Monte Carlo Integration mit 2000 St tzstellen feingeschliffen was bei einem Genauigkeitskriterium von 0 002 f r die Parametersch tzungen 15 Iterationen ben tigt Falls die zweite Stufe ohne den Startwerten der ersten Stufe durchgef hrt wird ben tigt der Algorithmus 1000 Durchg nge Die ben tigten Befehle und das Datenfile werden in ConQuest mitgeliefert es sei hierf r
22. Rumm 2030 Rasch Unidimensional Measurement Models RUMM Laboratory Perth Western Australia Baker F B und Kim S H 2004 Item Response Theory Parameter Estimation Techniques Marcel Dekker Reading NY 2nd edition Bartholomew D Steele F Moustaki I und Galbraith J 2002 The Analysis and Interpretation of Multivariate Data for Social Scientists Chapman amp Hall London B dard M Molloy D W Squire L Dubois S Lever J A und O Donnell M 2001 The Zarit Burden Interview A New Short Version and Screening Version The Gerontologist 41 5 652 657 Bejar I 1983 Achievment testing Beverly Hills Sage 184 Literaturverzeichnis Ben Simon A Budescu D V und Nevo B 1997 A Comparative Study of Measure of Partial Knowledge in Multiple Coice Tests Applied Psychological Measurement 21 1 65 88 Bereby Meyer Y Meyer J und Flascher O M 2002 Prospect Theory Analysis of Guessing in Multiple Choice Tests Journal of Behavioral Decision Making 15 4 313 327 Buhner M 2006 Einf hrung in die Test und Fragebogenkonstruktion Pearson Studium Birnbaum A 1968 Some Latent Trait Models and Their Use in Inferring an Examinee s Ability In Lord F M und Novick M R Hrsg Statistical Theories of Mental Test Scores Seiten 395 479 Addison Wesley Reading MA Bock R D 1972 Estimating item parameters and latent ability when responses are scored in two or more nominal cate
23. Sample f r den beobachteten und den erwarteten Wert sowie der Residualwert und der standardisierte Residualwert angegeben Weiters k nnen Informationen bezogen auf den Fit des Modells abgelesen werden siehe Abschnitt 3 5 3 2 Cat Score Exp Resd StRes I4 Hamm 3 47 3 47 3 47 00 00 Mean Count 68944 2 06 2 06 1 32 1 58 98 S D Population 2 06 2 06 1 32 1 58 98 S D Sample Data log likelihood chi square 141424 3125 Approximate degrees of freedom 1147 Chi square significance prob 0000 Count Mean S D Params Responses used for estimation 68944 3 47 2 06 1147 Responses in one extreme score 372 5 00 0 00 6 All Responses 69316 3 48 2 05 1153 Count of measurable responses 68944 00 Raw score variance of observations 4 23 100 00 Variance explained by Rasch measures 1 72 40 65 Variance of residuals 2 51 59 35 Abb 3 7 Table 5 Zusammenfassung der Daten Einen guten berblick ber die Messergebnisse der Facetten erh lt man in Tabelle 6 der FACETS Ergebnisdatei Table 6 0 All Facet Vertical Rulers Dieser in Abbildung 3 8 dargestellte Facettenraum ist in vier Spalten unterteilt Die erste Spalte enth lt die Rasch Ma e Logits und gibt das F hig keitsma der Studierenden die Strenge Milde des Auswertungsschemas und den Schwierigkeitsgrad der Fragen wieder In der zweiten Spalte ist zu erkennen dass das Auswertungsschema Teilpunkte leichter ist bzw milder beu
24. Starting column of item responses NI 4 Number of items NAME1 6 Starting column for person label in data record NAMLEN 4 Length of person label XWIDE 1 Matches the widest data value observed GROUPS O Partial Credit model in case items have different rating scales CODES 01234 matches the data TOTALSCORE Yes Include extreme responses in reported scores Person Label variables columns in label columns in line ID 1E3 C6W3 amp END Item labels follow columns in label ITEM Item 1 1 1 ITEM2 Item 2 2 2 ITEMS Item 3 3 3 ITEM4 Item 4 4 4 END NAMES 4344 1 3324 3433 1220 2331 2212 3312 vied NOP WD Nach dem Aufrufen der Input Files ber das Men File Open File k nnten zun chst noch Da teinamen f r die generierten Outputfiles vergeben werden wobei hier das tempor re Speichern zu empfehlen ist Best tigung mit ENTER Taste da einzelne Outputs sp ter ohnedies als txt Files gespeichert nach der Berechnung ber das Output Files Men spezifiziert bzw Grafiken in die Zwischenablage kopiert werden k nnen Auch bei der nachfolgenden Frage nach Extra Specificati ons empfehlen die Autoren des Programmes eine Best tigung mittels ENTER Taste Danach wird die Berechnung gestartet welche f r die hier verwendeten Daten jeweils weniger als Sekunde in Anspruch nimmt 1 3 3 Analyse Interpretation der Outputs Die Benutzermen s in Winsteps beziehen sich zum einen auf diverse
25. ches die Ratewahrscheinlichkeit pro Item durch einen entsprechenden Rateparameter y modelliert Formal haben 2 und 3PL Modelle die folge Form exp a 0 B 1 exp a 0 Bi exp a 0 B 1 exp a 0 Bi Pr x 1 0 Bi aj 5 2 Pr xy 18 Bi ap yi Vit 1 Vi 5 3 In Abbildung 5 1 sind die sog Itemcharakteristikkurven Item Characteristic Curve ICC der drei Modelle abgebildet Der Schwierigkeitsparameter f jedes Items wird hier durch eine vertikalen Linie angezeigt Die Items liegen von links nach rechts bei p 4 2 o und 3 Die drei rechten Items w ren typische Vertreter eines 1 oder 2PL Modells mit unterschiedlichen Diskriminationen Die Aufgabe bei f o hat einen Anstieg von genau a 1 was identisch zu den ICCs eines Raschmodells ist Die schwierige Frage ganz rechts besitzt eine gro e Diskriminationsfahigkeit von a 2 d h der Anstieg ist steil w hrend das Item bei f 2 mit a 0 5 flach verl uft und somit schlecht diskriminiert Die Kurve links au en zeigt exemplarisch eine ICC eines 3PLM bei dem f 4 a 1 5 und y 2 d h es besteht eine Ratewahrscheinlichkeit von 20 bspw bei einem Multiple Choice Test mit 5 Alternativen von denen genau eine richtig ist Dies f hrt dazu dass die Kurve mit 0 gt oo nicht asymptotisch gegen o sondern gegen y in diesem Fall o 2 geht 5 2 2 MULTILOG 5 2 2 1 1 2 und 3 Parameter Logistische Modelle MULTILOG beherr
26. coef fit rasch2 prob TRUE order sexdisc premar gaypubl gayhied gayscho gaysex gayfado exmar divorce gaymado P 0 0 p 1 1 1 1 Dffclt Dscrmn P 36771096 1 628349 0 06873897 1 628349 0 33056611 1 628349 0 17836796 1 628349 0 08792215 1 628349 0 81362272 1 628349 0 30950365 1 628349 0 65530469 1 628349 0 68184333 1 628349 0 83921960 1 628349 0 z 1 z 0 90265783 85072268 63141154 57210516 46426902 21001051 10599405 06324449 06073209 04765717 TRUE Dimitris Rizopoulos We observe that the estimated discrimination parameter seems considerably different than one To statistically test if the discrimination parameter is indeed different than one we perform s likelihood ratio test using function anova R gt anova fit rasch1 fit rasch2 Likelihood Ratio Table AIC BIC joe Lk fit raschi 10081 66 10131 48 5030 83 fit rasch2 9901 55 9956 36 4939 78 182 11 LRT df p value The definitions of AIC and BIC used by the summary and anova methods in 1tm are such that smalleris better In order to check the fit of the Rasch models to the data the GoF rasch and margins functions are used The GoF rasch function performs a parametric Bootstrap goodness of fit test using Pearson s x statistic In particular the null hypothesis states that the observed data have been generated under the Rasch model with parameter values the maximum likelihood estimates To test thi
27. der lokalen Abh ngigkeiten und adjustiert die Sch tzer dementsprechend Die Sch tzung der Modellparameter erfolgt unter dem beschriebenen Bayes schen Ansatz und unter Verwendung der erl uterten MCMC Methoden welche die einfache Berechnung vieler wichtiger statistischer Kenntwerte erlauben und unter anderen Ans tzen nicht m glich w ren Falls die A priori Verteilung bis auf einen Parameter t bestimmt ist also x 0 0 7 gilt dann nennt man r einen Hyperprior 3 Eine Markov Kette ist ein spezieller stochastischer Prozess dessen Ziel es ist Wahrscheinlichkeiten f r das Eintreten zuk nftiger Ereignisse anzugeben Durch die Kenntnis einer begrenzten Vorgeschichte sind ebensogute Prognosen ber die zuk nftige Entwicklung m glich sind wie durch die Kenntnis der gesamten Vorgeschichte des Prozesses 2 Scoright SE 2 4 1 Die Verwendung von SCORIGHT Das Programm SCORIGHT l uft in einer DOS Umgebung und kann ganz einfach wie jedes andere Programm gestartet werden Danach wird man aufgefordert eine Reihe von Fragen durch die einfache Eingabe ber die Tastatur zu beantworten Die Antworten dienen dazu die Eingabedatei welche die Daten beinhaltet und die Platzierung der Ausgabedateien zu spezifizieren Nach dem Start erscheint das in Abb 2 abgebildete Eingabefenster his program estimates the proficiency and item parameters for both dichotomous and polytomous items that could be independent or nested within testlets using t
28. using functions margins and GoF gpcm As in GoF rasch GoF gpcm uses the Pearson x goodness of fit measure but it provides both the Bootstrap default and the asymptotic approximati ons of the distribution of this statistic This is controlled by the logical argument simulate p value For instance for fit gpcm3 we have R GoF gpcm fit gpcm3 simulate p value FALSE Pearson chi squared Goodness of Fit Measure Call gpem data Environment constraint gpcm 8 IRT Analysis using the 1tm Package 151 Tobs 777 4 df 710 p value 0 04 whereas the margins method produces R gt margins fit gpcm3 Call gpem data Environment constraint gpcm Fit on the Two Way Margins LeadPetrol RiverSea RadioWaste AirPollution Chemicals Nuclear LeadPetrol 14 09 4 14 9 17 4 09 3 55 RiverSea 9 27 10 04 6 00 5 65 RadioWaste 5 93 12 54 11 41 AirPollution 1 91 6 47 Chemicals 3 03 Nuclear R gt margins fit gpcm3 type three way Call gpcm data Environment constraint gpcm Fit on the Three Way Margins Item i Item j Item k 0 E 2 E 1 1 2 3 33 29 2 1 2 4 31 51 3 1 2 5 40 20 4 1 2 6 29 69 5 1 3 4 23 59 6 1 3 5 39 42 7 1 3 6 30 14 8 1 4 5 30 73 9 1 4 6 27 51 10 1 5 6 15 57 11 2 3 4 35 00 12 2 3 5 30 93 13 2 3 6 32 54 14 2 4 5 28 79 15 2 4 6 27 26 16 2 5 6 20 20 17 3 4 5 42 40 18 3 4 6 36 71 19 3 5 6 33 09 20 4 5 6 33 31 We continue the analysis of the data set using the GR
29. zeigt eine deutlich h here L sungswahrscheinlichkeit der Variablen 2 5 Somit handelt es sich in dieser Klasse um f higere ProbandInnen Gem Abbildung 4 15 werden der ersten Klasse rund 59 der Befragten zugeordnet Aus der angef hrten Tabelle geht die erwartete H ufigkeit von Personen mit der jeweiligen Anzahl an richti gen Antworten raw score hervor Demnach wird erwartet dass in dieser Klasse 32 der Personen 72 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel Klasse 1 0 59898 Klasse 2 0 40102 VAR 0 64 0 67 VAR2 0 49 0 73 VAR3 0 37 0 64 VAR4 0 16 0 70 VARS 0 24 0 42 Tabelle 4 2 Gegen berstellung der Itemscores nach Variablen der beiden Klassen KFT dat Final estimates in CLASS 1 of 2 with size 0 59898 Expected Score Frequencies and Personparameters score frequency person parameters and standard errors Raw Expected MLE Ierd error WLE std error score freq estimate MLE estimate WLE Peete let DAS iter WEE ae oe he Sees 0 33 98 cH Krk 2 976 1 760 1 44 51 1 716 1 208 1 464 1 149 2 41 22 0 520 1 026 0 465 1 023 3 43 30 0 514 1 028 455 1 025 4 0 66 1 717 1 212 1 465 1 153 5 16 02 eR Kr 2 990 1 767 WLE estimates Mean 0 651 Var 2 687 stdev 1 639 marginal error variance 1 689 stdev 1 300 anova reliability 0 614 Andrichs reliability 0 372 WLE Warm s modified likelihood estimates MLE Stand
30. 0 7820 0 6740 gaypubl 0 7118 0 5806 gayfadop 0 5642 0 4338 gaymadop 0 5506 0 4484 Cronbach s alpha value All Items 0 7558 Excluding divorce 0 7773 Excluding sexdisc 0 7679 Excluding premar 0 7453 Excluding exmar 0 7588 Excluding gaysex 0 7190 Excluding gayscho 0 6915 Excluding gayhied 0 6915 Excluding gaypubl 0 7088 Excluding gayfadop 0 7338 Excluding gaymadop 0 7349 Pairwise Associations Item i Item j p value 1 1 8 0 917 2 1 7 0 853 3 1 6 0 692 4 1 5 0 652 5 2 9 0 459 6 1 2 0 264 7 2 4 0 148 8 2 10 0 090 9 1 9 0 087 10 1 10 0 034 This function returns among others the percentages of positive and negative responses for each item biserial correlations of each item with the total score i e the sum of positive responses of each subject Cronbach s a for all items and excluding one item each time and the x p values for pairwise associations between the ten items corresponding to the 2 x 2 contingency tables for all possible pairs Inspection of non significant results can be used to reveal problematic items Function descript returns objects of class descript for which a plot O method is available that produces the scatterplot of the proportion of positive responses for each item versus the total score R gt plot dsc type b lty 1 pch 1 10 col 1 10 lwd 2 cex 1 1 xlim c 2 9 R gt legend left names SexAtt pch 1 10 col 1 10 lty 1 lwd 2 cex 1 1 bty
31. 001 01 01 11 26 8 0 1 35 5 4 93 43 50 26 Kennzahlen Interpr 8469 2236 3 8 4 221 10 01 1 23 6 4 1 20 2 9 1 00 42 48 23 Verkaufsf rderung 8491 2236 3 8 4 23 10 01 96 1 2 84 2 6 1 14 52 48 30 SWOT Analyse 8621 2236 3 8 4 28 13 01 1 29 7 8 1 32 4 4 1 001 37 47 13 Marketing Aufgaben 8849 2236 4 0 4 36 18 01 1 01 2 89 1 6 1 12 48 45 18 Skimming Strategie 8978 2236 4 0 4 41 20 01 11 00 1 1 03 4 1 14 Ap 45 22 Konfidenzintervall 9041 2236 4 0 4 43 22 02 1 05 1 3 98 2 1 13 Ap 44 12 Delphimethode 9389 2236 4 2 4 54 30 02 1 19 4 5 1 04 4 1 11 41 41 20 Involvement 9560 2236 4 3 4 59 35 02 1 12 2 7 85 1 8 1 15 42 40 19 Geschl Frage 9584 2236 4 3 Aen 35 02 1 18 4 0 1 00 0 1 13 39 39 27 Markoumfeld Analyse 9626 2236 4 3 Ae 37 02 1 17 3 6 95 5 1 16 40 39 5 Mystery Shopping 10443 2236 4 7 4 81 69 02 1 38 4 8 1 01 1l 1 16 30 27 25 Barter Gesch ft Sn S ee ee een Mc a Se Oe hehe ea disc EE SE I Total Total Obsvd Fair M Model Infit Outfit Estim Correlation Score Count Average Avrage Measure S E MnSq ZStd MnSq ZStd Discrm PtMea PtExp Nu Fragen EE EE ege De EE dE I 7775 4 2236 0 3 5 3 80 00 01 1 08 3 97 8l 1 49 Mean Count 31 1268 2 o 6 eil 24 001 15 4 4 je 2 9 1 08 S D Population 1289 2 o 6 651 25 00
32. 1 Posterior Range 0 32 0 69 1 06 Confidence Range 1 05 1 15 Testlet 2 Posterior Range 0 14 0 67 1 19 Confidence Range 1 15 1 46 2 5 Diskussion Das Programm SCORIGHT bietet mit seinem Bayes schen Zugang eine echte Alternative zu den klassischen IRT Softwarepaketen Es ist von gro em Vorteil dass man so gut wie alle Ergebnisse der Sch tzung erh lt Allerdings ben tigt die Berechnung der Modellparameter in komplexeren F llen als den im obigen Abschnitt vorgestellten sehr viel Zeit Ein gro er Nachteil des Programms ist auch dass wenn einmal die Datenspezifikation vorgenommen wurde man im Falle eines Fehlers diesen so einfach nicht mehr korrigieren kann Der gesamte Fragenprozess muss erneut durchlaufen werden Auch ist innerhalb des Programms keine grafische Aufbereitung der Ergebnisse m glich Illustrationen der Itemparameter und der Verteilung der verschiedenen Personenparameter w ren nat rlich auch hier angebracht Zwar k nnte man diese Grafiken auch durch die Importierung der Ergebnisse in ein anderes Programm z B in R einfach selbst erzeugen allerdings w re eine automatische Generierung in SCORIGHT selbst um einiges praktischer Dies k nnte dann auch noch auf die Ziehungen des Sampling Algorithmus erweitert werden indem die Ergebnisse jeder Iteration als Konfidenzb nder in einer Grafik dargestellt werden Die Konvergenz der Markov Ketten k nnte auf diese Weise grafisch sehr einfach beurteilt werden Das Progr
33. 100 100 100 100 100 0 100 100 100 100 100 100 100 0 100 100 100 100 100 100 100 0 100 100 0 Abb 3 4 Modellspezifikation wurden Um einen berblick ber alle Residuen zu bekommen ist es sinnvoll sich eine Residuen Datei erstellen zu lassen Durch 3 FACETS 49 Residual File res txt Heading lines Yes QM no wird eine Text Datei erzeugt in der alle Residuen gelistet sind Weiters wird spezifiziert ob in der Residuen Datei eine Titelzeile enthalten sein soll oder nicht heading lines und ob die Namen der Elemente mit oder ohne Anf hrungszeichen ausgegeben werden sollen QM Die Residuen Datei kann auch als csv erzeugt werden Die Residuen Tabelle muss allerdings nicht in der Spezifikations datei bereits angefordert werden im Pulldown Men unter Output Files kann die Tabelle ebenso nachtr glich erzeugt werden Vertical 1A 2 3 A legt fest wie die Rasch Ma e in Tabelle 6 der FACETS Ergebnisdatei graphisch dargestellt werden sollen Abbildung 3 8 zeigt was diese Befehle f r Auswirkungen auf die Darstellung haben Pro Facette wird bestimmt was in die Tabelle eingetragen werden soll A zeigt die Namen labels der Elemente an und zeigt die Verteilung dieser Facette an Weitere M glichkeiten der Darstellung sind beispielsweise die Anzahl der Elemente an einer bestimmten Position C oder die Nummer des jeweiligen Elements N Arrange mN legt die Sortierung f r die Tabellen 7 in de
34. 2 ree mee categoryO m category 1 category m category 1 Category Probabiities in Class 1 with size 0 53791 Category Probabilities in Class 2 with size 0 48209 Ia ALLEE Item Abb 4 12 Category Probability Plot KFT dat 70 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel Dabei erkennt man dass die Personen der ersten Klasse bei allen Fragen eine deutlich h here L sungswahrscheinlichkeit haben als die Personen der zweiten Klasse Dem Person Parameter Plot Abb 4 13 kann im Rahmen der Latent Class Analyse lediglich die Haufigkeit der richtigen Antworten je latenter Klasse entnommen werden EIER Person Parameter Piot pech 4 e Hal 2 v rear wer me cess 2 mj 2 eres r mer me reaver frequency Ferson Parameters in Claes 1 with size 0 53731 rzon Parameters n Class 2 with se 0 48205 Abb 4 13 Person Parameter Plot KFT dat So gibt es in der ersten Klasse keine Personen die auch nur eine der f nf Fragen falsch beantwortet hat wohingegen in der zweiten Klasse mehr als 50 der Befragten keine der f nf Fragen richtig beantwortet haben Hingegen hat ein Gro teil der Personen der ersten Klasse vier der f nf Fragen richtig beantwortet wohingegen der Anteil der Personen mit vier richtigen Antworten in der zweiten Klasse verschwindend gering ist Der Item Parameters Plot Abb 4 14 fasst die Schwierigkeit der jeweiligen Fragen anhand der Itemparameter je nach Klasse zusammen Fl Ite
35. 2 E 1 6 7 88 224 84 83 29 x 2 9 10 2 62 18 58 24 x 3 2 9 31 8 95 54 29 x Response 1 1 Item i Item j Obs Exp 0 E 2 E 1 9 10 112 51 07 72 71 2 6 7 502 366 61 50 00 3 7 8 529 433 07 21 25 Tiet denotes a chi squared residual greater than 3 5 R gt for the three way margins we specify the type argument R gt margins fit rasch2 type three way Call rasch data SexAtt Fit on the Three Way Margins Response 0 0 0 140 Item i 1 6 2 5 3 6 Response Item i 1 1 2 1 3 1 Response Item i 1 1 2 4 5 Response Item i 1 2 2 3 3 6 Response Item i 1 1 2 4 3 5 Response Item i 1 1 2 1 3 2 Response Item i 1 2 2 1 3 4 Response Item i 1 6 2 5 3 3 Item j Item k 7 8 6 7 7 10 1 0 0 Item j Item k 6 7 6 8 7 8 0 1 0 Item j Item k 6 7 6 7 6 7 1 1 0 Item j Item k 6 7 6 7 7 9 0 0 1 Item j Item k 6 7 6 7 6 7 1 0 1 Item j Item k 2 9 2 3 6 7 0 1 1 Item j Item k 9 10 9 10 9 10 1 1 1 Item j Item k 7 8 9 10 9 10 Obs 379 436 465 Obs 62 53 46 Obs 10 Obs 349 Obs 76 77 73 Obs 10 23 73 Obs 13 91 79 Obs 469 89 106 Dimitris Rizopoulos Exp 0 E 2 E 224 07 107 12 xxx 306 32 54 90 332 02 53 26 Exp 0 E 2 E 9 88 274 95 8 62 228 39 7 05 215 20 Exp 0 E 2 E 132 42 115 03 xxx 131 95 112 71 xxx 109 19 91 93 Exp 0 E 2 E 124 84 11
36. 3A WHexact Wilson Hilferty standardization Y Convergence control Convergence 5 01 Iterations maximum 0 unlimited Xtreme scores adjusted by 3 5 estimation bias Abb 3 5 Table 1 Modellspezifikationen In Tabelle 4 Table 4 1 Unexpected responses sieht man die Studenten die bei bestimmten Fragen unerwartet gut oder schlecht beurteilt wurden siehe Abbildung 3 6 Das bedeutet dass die Antwort so gar nicht den Erwartungen sonstigen Leistungen bzw F higkeiten entsprach So hat beispielsweise Student 730 bei der Frage Branchenattraktivit t beim Auswertungssystem Alles oder Nichts null Punkte erreicht obwohl er gem seinen F higkeiten die Frage eigentlich h tte richtig beantworten m ssen Betrachtet man Student 228 und die Frage Einkaufslabor so sieht man dass der Student 5 Punkte beim Auswertungssystem Alles oder Nichts erreicht hat Seinen F higkeiten w rde allerdings entsprechen diese Frage nicht richtig zu Nachdem es sich um Multiple Choice Fragen handelt ist es nat rlich auch m glich dass der Student die Frage mit Gl ck richtig gel st also geraten hat Cat Score Exp Resd StRes N Auswertungsschema Num Stud Nu Fragen 0 o 4 9 4 9 9 0 1 Alles oder Nichts 730 730 1 Branchenattraktivit t Io o 4 6 4 6 4 4 1 Alles oder Nichts 544 544 1 Branchenattraktivit t Io o 4 6 4 6 4 4 1 Alles oder Nichts 841 841 1 Branchenattraktivit t Io o 4 5 4 5 4 2 1 Alles oder Nicht
37. 40513 adddbcebbacc 1042 acdcbcebbacd 975 abddbcaebbacc 41771 acddbcebbacc 50088 cbbdacebbdab 30858 acddbcebbacc 20603 acdddcedbdac 12052 dcddbcecbacd Ed Abb 7 1 Ausschnitt aus der Datei ex1 dat folgenderweise eingegeben werden Datafile exi dat Format id 1 5 responses 12 23 Labels lt lt exi lab Key acddbcebbacc 1 Model item Estimate Show gt gt exi1 shw Itanal gt gt exi itn Plot icc Plot mcc legend yes Datafile gibt den Namen und Speicherort der Datenfile an Format beschreibt das Layout der Daten in der Datei ex dat und gibt an dass sich in den ersten 5 Spalten die Identifikationskennzeichen und in den Spalten 12 bis 23 die Antworten befinden Vergisst man anzugeben wo die Antworten zu finden sind l uft ConQuest nicht Label Die Definition von Labels ist nicht erforderlich verbessert aber die Lesbarkeit der Ergebnisse Labels d rfen nur Testdateien sein Die Eingabe f ngt mit dem Zeichen gt an dann folgen ein oder mehrere Leerzeichen und der Name der Variable die mit Hilfe der Labels beschrieben wird Die Abbildung 7 2 zeigt einen Ausschnitt aus ex1 lab Key definiert die richtigen Antworten zu den einzelnen Multiple Choice Fragen Die Zahl nach dem Rufzeichen gibt an dass die richtigen Antworten mit 1 zu bewerten sind Model gibt den Namen der Variable an die die Anwortdaten identifiziert In diesem Beispiel Item Estimate ist der Befehl zur Sch tzung des Item Response
38. 6 4 3 Andersen s likelihood ratio test In the eRm package the likelihood ratio test statistic LR initially proposed by Andersen 1973 is computed for the RM the RSM and the PCM For the models with linear extensions LR has to be computed separately for each measurement point and subgroup G LR 2 log Lg Xg log L 5 X 6 24 gei The underlying principle of this test statistic is that of subgroup homogeneity in Rasch models for arbitrary disjoint subgroups g 1 G the parameter estimates 7 have to be the same LR is asym ptotically x distributed with df equal to the number of parameters estimated in the subgroups minus the number of parameters in the total data set For the sake of computational efficiency the eRm package performs a person raw score median split into two subgroups In addition a graphical model test Rasch 1960 based on these estimates is produced by plotting f against Thus critical items i e those fairly apart from the diagonal can be identified and eliminated Further elaborations and additional test statistics for polytomous Rasch models can be found e g in Glas und Verhelst 1995 6 4 4 Nonparametric exact Tests Based on the package RaschSampler by Verhelst et al 2007 several Rasch model tests as proposed by Ponocny 2001 are provided 6 4 5 Martin L f Test Applying the LR principle to subsets of items Martin L f 1973 see Glas und Verhelst 1995a sugge sted a
39. 7 value Expected 7 value T 0 10 20 30 0 2 4 6 8 10 Observed value Observed value Schlie lich ist eine F Test Statistik f r jedes Item erh ltlich Sie muss allerdings vor der Anzeige aller Ergebnisse explizit verlangt werden Diese Statistik ber cksichtigt die einzelnen Personenparameter besser als die Chi Quadrat Statistik welche alle Personen innerhalb einer Klasse als gleich ansieht Bei idealem Fit ist der Mittelwert des Residuums in allen Klassenintervallen gleich o und damit in allen Gruppen gleich Bei Misfit treten Gruppenunterschiede auf die zu einem signifikanten Haupteffekt des Klassenintervalls f hren Die F Test Statistik l sst sich allerdings nicht ber alle Items aggregieren Der individuelle Personfit liefert Fitinformationen f r jede einzelne Person sofern es sich nicht um einen extremen Antwortvektor handelt Die Residualkorrelationen der Items stellen ein wichtiges Pr fkriterium f r lokale stochastische Unabh ngigkeit der Items dar Bei v lliger Unabh ngigkeit sollten diese Korrelationen o sein Tat s chlich ist dies allerdings auch bei perfektem Fit nicht m glich da die Residuen zweier Items durch die Bedingung eines konstanten Gesamtscores stets negativ korrelieren Dies ist vor allem bei einer geringen Zahl an Items problematisch Im Unterschied zur Interpretation von Korrelationen im Allgemeinen sind Residualkorrelationen von mehr als o 2 bis o 3 bereits als sehr hoch anzusehen Aufgrund der
40. A4 p5 441A5 Pn An ilAn sowie in die Randverteilung p A zerlegt werden kann Dieses Modell erlaubt die Zerlegung der A priori Verteilung in einen Teil mit strukturellen und einen zweiten Teil mit subjektiven Inforamtionen um so weitestgehend uninformativ zu bleiben 2 3 2 Die Parametersch tzung Im Falle des 3PL Modells l sst sich die Likelihoodfunktion P Y A wie folgt anschreiben I Ni P Yj 1j n Aner er 6 enlosit aj v 2 5 i 1 j 1 Die obige Likelihoodfunktion besitzt die unbekannten Parameter A A welche unter dem Bayes schen Ansatz flexible A priori Verteilungen ben tigen Im Speziellen unterstellt man P A A folgende Verteilung 6 N o 1 und log a b logit c N3 u Ha pp Mc X Mittelwert und Varianz der Verteilung von 0 werden auf o und 1 fixiert um die Identifizierbarkeit des Models zu gew hrleisten Klassischerweise wird auch angenommen dass die Parameter log a sowie logit c f r a o und o c 1 einer Normalverteilung folgen Die Kovarianzmatrix X beinhaltet die Abh ngigkeiten zwischen den Itemparametern Um die Modellspezifikation zu vervollst ndigen muss 30 Kathrin Gruber man noch eine Hyperprior Verteilung n A festlegen Daf r benutzt man die konjugierten A priori Verteilungen f r u N 0 vx I und X Inv Wishart S 1 dies ist die multivariate Entsprechung der x Verteilung wobei v eine sehr gro gew hlte Zahl z B 100 und I die I
41. Effizienz sowie eine erweiterte Funktionalit t aus Die Software wurde vom Australian Council for Educational Research Ltd ACER im Rahmen der PISA Programme for International Student Assessment Studien entwickelt Die verantwortlichen Autoren der Software sowie des dazu geh rigen Manuals sind Margeret L Wu Raymond J Adams Mark R Wilson und Samuel A Haldane Das vorliegende Kapitel bezieht sich in weiten Strecken auf das Manual dieser Autoren zur Version 2 0 von ConQuest Wu et al 2007 7 1 1 Modellierungen in ConQuest ConQuest eignet sich zur Modellierung verschiedener Item Response und latenten Regressionsmodel len Mithilfe folgender Modelle k nnen psychometrische Daten mit ConQuest analysiert werden Raschs einfaches logistisches Modell f r dichotome Items Rasch 1980 Das Rating Skalen Modell f r Items mit einem gemeinsamen mehrkategoriellen Antwortformat Andrich 1978b WU Wien Institut f r Change Management und Management Development bernadett pauer googlemail com WU Wien Institut f r Personalmanagement juliavposwik gmx net WU Wien Institute for Statistics and Mathematics thomas rusch wu ac at 117 118 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch Das Partial Credit Model f r mehrere spezifische Anwortkategorien pro Item Masters 1982 Das Ordered Partition Model bei welchem mehrere Antwortkategorien denselben Skalenwert erhalten k nnen Wilson 1992 e Das Linear Logistisch
42. Exact agreements 19609 56 9 Expected 14739 7 42 8 Abb 3 9 Table 7 1 1 Measurement Report f r Auswertungsschema 3 5 3 3 Graphiken Die Graphiken werden einerseits unter Tabelle 8 1 der FACETS Ergebnisdatei Table 8 1 Category Statistics dargestellt andererseits besteht die M glichkeit die Graphiken unter dem Men punkt Graphs aufzurufen Grunds tzlich werden die category probability curves CPC oder die Item Charakteristik Kurve ICC angezeigt In Tabelle 8 1 der FACETS Ergebnisdatei siehe Abb 3 12 werden zu Beginn die sechs Kategorien o 5 dargestellt sowie die H ufigkeiten dieser Hier zeigt sich eindeutig dass haupts chlich o oder 5 Punkte von den Studenten erreicht wurden was auch auf das Auswertungssystem Alles oder Nichts zur ckzuf hren ist Weiters findet man in der Tabelle die Kategorienparameter measure category Diese k nnen mit dem Personenparameter der Abbildung 3 10 verglichen werden Man kann dabei erkennen dass beispielsweise die Studenten 91 bis 1100 einen Parameter zwischen 3 72 und 0 93 haben Nachdem dieser ber dem Kategorienparameter von 0 92 liegt wird erwartet dass diese Studierende alle f nf Antwortalternativen als richtig erkennen Betrachtet man hingegen die letzten Studierenden 990 bis 1060 so sieht man dass der Personenparameter unter 0 71 ist wodurch die Wahrscheinlichkeit dass diese Studenten keine oder h chstens eine richtige Antwortalternative richtig er
43. Format o bis C 1 vorliegen zu haben Ist der Response Cutoff konstant Der Response Cutoff gibt an welche Antwortauspr gung ein Individuum bei zumindest einem Item aus dem Pool aller Items jedenfalls angeben muss um nicht von der Analyse exkludiert zu werden Man k nnte bei GGUM 2004 grunds tzlich f r jedes Item einen separaten Cuttofflevel angeben Durch setzen dieses constant cutoff Parameters auf Y YES wird jedoch ein konstanter Cutoff Parameter f r alle Items verwendet Response Cutoff Mit diesem Parameter wird der Response Cutoff festgelegt Wurde dieser als konstant ber alle Items definiert folgt nun eine Zahl Wurde bei Frage 10 angegeben dass der Response Cutoff nicht ber alle Items konstant ist N dann folgen nun untereinander so viele Zahlen wie Items im Sample vorhanden sind die die Response Cutoffs f r jedes Item separat jeweils im Format o bis C 1 festlegen Ausschliefen einzelner Items Es k nnen auch einzelne Items von der Analyse ausgeschlossen werden Dazu setzt man zun chst ein Y und tr gt in die darunter liegende Zeile die Anzahl der zu exkludierenden Items ein Wie derum darunter folgt pro weiterer Zeile jeweils eine zu entfernende Itemnummer Wird ein N gesetzt so entfallen die Zeilen zum entfernen einzelner Items Ausschliefen einzelner Personen In exakt gleicher Schreibweise lassen sich auch einzelne Respondenten von der Analyse ausschlie fen Siehe dazu die Beschreibung unter Punkt 12 Manu
44. Input und Datenmodifkationen und zum anderen auf Outputs An dieser Stelle sei angemerkt dass in Winsteps mehrere Output Informationen in den Men s redundant vorkommen und der Schwerpunkt bei den nachfolgenden Anmerkungen zur Outputinterpretation deshalb berwiegend auf jenen Men punkten liegt die Bond und Fox 2007 in der ihrem Rasch Lehrbuch beiliegenden von Winsteps abgeleiteten Software Bond FoxSteps verf gbar machen Im File Men k nnen Daten geladen gespeichert und das Programm f r eine zus tzliche Ana lyse neu ge ffnet werden Uber das Edit Men ist ein schneller Zugriff auf das Inputfile m glich falls Einstellungen bei den Kontrollvariablen manuell ver ndert werden sollen Bei Verwendung des Batch Men s f hrt Winsteps Berechnungen im Batch mode durch Das Programm l uft dann im Hintergrund mit minimaler User Interaktion Im Specification Men k nnen auch nach der Sch tzung einige ausgew hlte Spezifkationen des Sch tzmodells mittels Kontrollvariablen Code ab Winsteps 15 ge ndert werden Unter Output Files kann der Winsteps Output f r die Weitervewendung in anderen Software Paketen aufbereitet werden Die Dialogfenster Excel S S S bzw Data Setup f hren zur ck zum Datenimportfenster vgl Abbildung 3 bzw zum Winsteps Control File Set Up Interface vgl Abbildung 2 F r die Interpretation der Ergebnisse sind das Diagnosis Men das Output Tabels Men sowie das Graphs Men von Bedeutung Zen
45. Multiple Choice Dimension Die einzelnen Kovarianzen zwischen den latenten Dimensionen sind in 7 12 in der unteren Dreiecksmatrix gegeben die Korrelationen in der oberen Dreiecksmatrix 128 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch ConQuest Untitled S 8 x Eile Edit gt show ftables 1 3 5 gt gt ex8c shw gt show parametersttable 3 Li ConQuest Generalised Item Response Modelling Software Thu Dec 18 13 29 2669 TABLES OF POPULATION MODEL PARAMETER ESTIMATES Regression Variable Force amp Mot Light amp Sig Matter Earth amp Spa Multiple Ch CONSTANT 8 383 8 016 8 9805 8 016 8 181 8 016 8 971 6 613 8 587 6 621 Dimension Force amp Mot Light amp Sig Matter Earth amp Spa Multiple Ch An asterisk next to a parameter estimate indicates that it is constrained Values below the diagonal are correlations and values above are covariances Dimension Force amp Motion Ready Log File NONE Warnings YES Automatic Estimate Updates NO Abb 7 12 ConQuest Resultat fiir das fiinfdimensionale unbedingte Modell Man kann dabei sehen dass alle latenten Traits moderat miteinander korreliert sind mit geschatz ten Korrelationskoeffizienten von 0 32 0 68 Eventuell lasst sich diese Korrelation durch die drei Regressorvariablen im unbedingten Modell erklaren Nachdem wir diese Ergebnisse erhalten haben wollen wir nun das Regressionmodell schatzen Daf r ver
46. No zu beantworten Bei Y ist wie schon bei Parameter 20 Plots auch hier die Anzahl der auf Basis der 0 Werte zu bildenden homogenen Gruppen zwischen 2 und 20 anzugeben Des weiteren steht die Wahl zur Verf gung f r jedes Sub jekt Fit Statististiken auszugeben oder nur f r einzelne die gewisse im Anlassfall zu definierende fit Werte berschreiten 10 2 2 Ein Beispieldatensatz Der verwendete Beispieldatensatz ist auf der Homepage der GGUM Entwickler unter http www psychology gatech edu unfolding data html zu finden Die verwendeten Itemaussagen stammen urspr nglich von Thurstone 1932 und wurden schlie lich von Shaw und Wright 1967 neuerlich publiziert Die dabei verwendeten Skalenwerte basierten dabei auf Zustimmungs bzw Ablehnungsergebnissen von 9o College Studierenden die dazu aufgerufen waren jede ihnen vorgelegte Aussage auf einer g teiligen Skala von very unfavorable bis very 10 GGUM2004 Generalized Graded Unfolding Models 179 favorable zu bewerten Die im vorliegenden Beitrag verwendeten Umfrageergebnisse stammen von Roberts 1995 Dieser befragte 245 Studierende ber ihren Zustimmungsgrad zu 24 Aussagen ber die Sinnhaftigkeit der Einhebung von Geldstrafen Dabei konnten die Antworten auf einer 6 teiligen Skala 1 Strongly Disagree 2 Disagree 3 Slightly Disagree 4 Slightly Agree 5 Agree und 6 Strongly Agree eingetragen werden Tabelle 10 1 gibt einen Eindruck ber
47. OF CATEGORICAL RESPONSE ITEMS 2 NUMBER OF CONTINUOUS RESPONSE ITEMS AND OR GROUPS 1 TOTAL NUMBER OF ITEMS INCLUDING GROUPS 3 NUMBER OF CHARACTERS IN ID FIELDS 0 MAXIMUM NUMBER OF RESPONSE CODES FOR ANY ITEM 4 THE MISSING VALUE CODE FOR CONTINUOUS DATA 9 0000 RESPONSE PATTERN FREQUENCIES WILL BE READ THE DATA WILL BE STORED IN MEMORY ESTIMATION PARAMETERS THE ITEMS WILL BE CALIBRATED BY MARGINAL MAXIMUM LIKELIHOOD ESTIMATION MAXIMUM NUMBER OF EM CYCLES PERMITTED 25 NUMBER OF PARAMETER SEGMENTS USED IS 2 NUMBER OF FREE PARAMETERS IS 8 MAXIMUM NUMBER OF M STEP ITERATIONS IS 4 TIMES THE NUMBER OF PARAMETERS IN THE SEGMENT THE M STEP CONVERGENCE CRITERION IS 0 000100 THE EM CYCLE CONVERGENCE CRITERION IS 0 001000 THE RK CONTROL PARAMETER FOR THE M STEPS IS 0 9000 THE RM CONTROL PARAMETER FOR THE M STEPS IS 1 0000 THE MAXIMUM ACCELERATION PERMITTED IS 0 0000 THETA GROUP LOCATIONS WILL REMAIN UNCHANGED Es folgen die Itemparametrsch tzer des Modells A steht f r den Diskriminationsparameter a B k f r den Schwellenparameter von Kategorie k oder h her ITEM 1 4 GRADED CATEGORIES P ESTIMATE S E A 1 0 87 0 16 BC 1 2 1 95 0 37 BC 2 3 0 19 0 17 BC 3 4 2 57 0 48 THETA INFORMATION Theta values increase in steps of 0 2 3 0 1 6 0 159 0 172 0 184 0 194 0 203 0 211 0 217 0 221 92 Marco J Maier und Konradin Maier 1 4 0 0 0 225 0 227 0 228 0 228 0 228 0 227 0 225 0 223 0 2 1 6 0 2
48. PEU 3 5 2 Modellspezifikation e EE EEN 3 5 3 Interpretation der Ergebnisse 3 6 Diskussion eic SENSOR MPH ABIRE in RR pave aan ee a WinMiRa 2001 erue a rip x UR et A RE pae No De EU eerta qoe ea Baa Karl Lederm ller Thomas Peschta und Wolfgang Ziniel 4 1 Theorie Raschmodelle russ elek 4 1 4 Messtheoretische Pundierung 0 00 occ 4 1 2 Wichtige Vorteile Probabilistischer Testmodelle 00 4 1 3 Erweiterungen des klassischen Rasch Modelle Inhaltsverzeichnis 4 1 4 Annahmen ber threshold parameter im polytomen Mixed Rasch Modell 61 4 2 Programmbeschreibung 222eccseeeseeeeeseeeennenennen en ennene 63 42 7 unterst tzte Modelle ne 222er 63 4 2 2 unterst tzte Skalenniveaus ssssssssseseeees see 64 EE e 64 42 4 grundsatzliche Bedienung nn a EE 65 4 3 Beispiele E En ei sang a ae RR RA a REDNER EBEN I 66 4 3 1 Latent Class Analyse mit dichotomen Daten 66 4 3 2 Mixed Rasch Modell mit wWinkMiba seen 71 AA e 77 BILOG MG und MULTILOG seris ncesi ee bate ne nn een ee 79 Marco J Maier und Konradin Maier 5r EINE e dote MEM ER EN VU EE ate Ee as AE 79 52 Modele eener une ee ee EEN NEEN EN 79 5 2 1 BIEOG M amp xeu VRURVAEVEVAEVEVAVEVARVEVAVEVRUVRVAVERVRVERVAEVEVRUVEVEVEVENS 79 5 932 IMULTIEOC LLL ettet te tte orte ie eerte Gee eerte tte 80 5 3 jParameterschatz ng sssnce Le edad Le ULL bbb bbs 82 53 01 It emparametet sui ck RR ERREUR EE NEU
49. REESE KE M ES 82 5 3 2 Personenparameter un he as ERR HERI Hd 83 5 4 Bedienung der Software und Anwendungsbeispiele 22222eeesneneeen 83 5 41 BIEOG MG ana sts rn an NANA A SA OAL a DB A ale Bd 83 5 42 MULETIEOG ever ae esee debeo tbe dte bere 89 Ee Ee EE 93 Extended Rasch Modeling The R Package em 95 Patrick Mair und Reinhold Hatzinger 6 3 Inttod ctiof er bis rs 95 6 2 Extended Raschmoaelsut ose Soto ee 96 6 2 1 General expressions mossar cocta dte HILARI nenn 96 6 2 2 Representation of extended Rasch models esee 96 6 2 5 The concept of virtual items 00 00 ee 98 6 3 Estimation of item and person parameters isssssessssee eee 100 6 3 1 CML for item parameter estimation 0 eee eee eee 100 6 3 2 Mathematical properties of the CML estimates 0000000 101 6 3 3 CML and specific objectivity 0 eee eee eee 103 6 3 4 Estimation of person parameters 0 cee eee 104 6 4 Testing extended Rasch model 105 6 4 1 Item fit and person fit statistics 0 eee eee eee 105 6 4 2 A Wald test for item elimination 0 0 0 2 eee eee eee 105 6 4 3 Andersen s likelihood ratio test 0 0 eee eee 106 6 4 4 Nonparametric Ueact leste 106 6 45 MartincEof Vest lt cus ee ne QUOS OO E TOS 106 6 5 TheeRm package and application examples 00 eee e eee eese 106 6 5 1 Structure of the eRm package isses eee 106 6 5 2 E
50. S v S 2 o 9 o D A o o eo eo 4 2 0 2 4 4 2 0 2 4 Latent Trait Latent Trait Similarly the item information curves are produced using plot type IIC whereas for the test information curve we also need to set argument itens to zero The following syntax compares graphically the test information functions of the three versions of the GPCM fitted above R gt par mfrow c 2 2 R gt plot fit gpcmi type IIC items 0 lwd 2 xlab Latent Trait main Rasch Version R gt R gt plot fit gpcm2 type IIC items 0 lwd 2 xlab Latent Trait main 1PL Version R gt R gt plot fit gpcm3 type IIC items 0 lwd 2 xlab Latent Trait main GPCM Version 8 IRT Analysis using the 1tm Package Rasch Version 1PL Version co o N o T T E E x 2 2 E e E CN z o 4 2 0 2 4 4 up 0 2 Latent Trait Latent Trait GPCM Version eo co c o Ka co z Oo Ut E CN eo 4 2 0 2 4 Latent Trait 155 A more direct comparison is achieved by superimposing the test information function in the same plot To do this we need a few extra steps we also include the test information functions of the two versions of the graded response model namely using the plot but with the argument plot set to FALSE we obtain a matrix with the values of the information function for a set of values for the latent ability Following we put the information functions of all models in a matrix and
51. Verteilung der EAP Parameter 40 erwartete H ufigkeit 0 10 20 30 l fi l m acm M ss U 1 Ne Mw B 7 b2 L0 AE a N wo p Deg AR wo D E 33 12 24 l T T 1 0 0 5 0 0 0 5 1 0 Abb 5 10 Erwartete Verteilung der EAP Parameter 5 5 Diskussion Die beiden Programme haben viel dazu beigetragen Item Response Modelle zug nglich und durch f hrbar zu machen Vor allem in der Vergangenheit boten sie interessierten Forschern die M glichkeit IRT ohne berm igen technischen Hintergrund anzuwenden wobei Einstiegsh rden durch entspre chende Wizards gesenkt wurden In diesem Beitrag konnte nur an der Oberfl che der Programme gekratzt werden da insbesondere MULTILOG durch entsprechende Designmatrizen viele unterschied liche Modelle sch tzen kann die auf den ersten Blick nicht ins Auge fallen Auch die mitgelieferte Dokumentation ist umfangreich und mit vielen Beitr gen namhafter Personen versehen Bei allen Vorz gen dieses altehrw rdigen Programms darf man jedoch nicht die Nachteile der lan gen Tradition au er Acht lassen Die Dialoge die an sich helfen sollen stellen vor allem Anf ngern die 94 Marco J Maier und Konradin Maier eine oder andere Falle professionelle druckreife Grafiken wie man sie von anderen Softwarepaketen gewohnt ist sind den Paketen nur schwierig zu entlocken und die zuvor erw hnte Flexibilit t erfordert die Einarbeitung in eine weitere Programm
52. Ziel ist dass das Test Ergebnis vom Wissen einer Person abh ngen soll und nicht davon ob er sie einen strengeren oder milderen Beurteiler hat Bond und Fox 2007 Die genauesten Parametersch tzungen werden erzielt wenn jeder Beurteiler alle Test bewerten w rde Allerdings ist das Rasch Modell relativ robust gegen ber fehlenden Werten d h bei Einbeziehung der Strenge von Beurteilern m ssen nicht alle 3 FACETS 43 Beurteiler alle Tests bewertet haben Erforderlich ist lediglich dass gen gend Verbindungen zwischen allen Elementen aller Facetten vorhanden sind damit alle Parameter gesch tzt werden k nnen Li nacre 1994b Als Faustregel gilt dass es ausreicht wenn jeder Test von zwei Beurteilern begutachtet wurde genaue Informationen dazu sind unter Linacre 1997 sowie Lunz et al 1990 zu finden Das MFRM von Linacre 1994b ist so konzipiert dass Facetten hinzugef gt werden k nnen aber es kann auch ein Standard Rasch Modell gerechnet werden d h mit zwei Facetten Itemschwierigkeit und Personenf higkeit Die Ergebnisse von MFRM werden im Facettenraum siehe Abbildung 3 8 dargestellt wodurch direkte Vergleiche zwischen den Ma en der einbezogenen Facetten m glich sind Au erdem k nnen Aussagen ber die Konsistenz der Beurteiler gemacht werden Erste Hinweise darauf k nnen anhand der maximalen und minimalen Logitwerte ausgemacht werden Eine Untersuchung der Fehlervarian zen erm glicht es festzustellen ob ein Beurt
53. and the Generalized Partial Credit Model GPCM The GRM was first introduced by Samejima 1969 and postulates that the probability of the mth subject to endorse the kth response for the ith item is expressed as Pr Xim k Zm ga gii 8 3 ik Om Bik k 1 Ki where x is the ordinal manifest variable with K possible response categories z is the standing of the mth subject in the latent trait continuum a denotes the discrimination parameter and Baus are the extremity parameters with f lt Pik lt Pi K 1 and fix co The interpretation of a is essentially the same as in the models for dichotomous data However in GRM the x s represent the cut off points in the cumulative probabilities scale and thus their interpretation is not direct 1tm fits the GRM under the logit link The GPCM was first discussed by Masters 1982 and it was later extended by Muraki 1992 k exp L Gi Zm Bic Pr xigy k Zm e 8 4 L exp L Gi Zm Pic r o c o where Bilz Bic o 8 IRT Analysis using the 1tm Package 133 8 1 3 Marginal Maximum Likelihood Estimation Package 1tm estimates the models parameters in the above defined models using a Marginal Maximum Likelihood approach In particular we assume that the subjects represent a random sample from a population and their ability is distributed according to a distribution function F z The model parameters are estimated by maximizing the observ
54. anderen Facetten ist es genau umgekehrt F r die Fragen hei t das beispielsweise je h her der Rohwert desto niedriger 3 FACETS 47 das Rasch Ma Dies ist gleichbedeutend mit je mehr Studenten die Frage richtig beantwortet haben desto leichter ist dieses Item Durch Noncentered 1 wird festgelegt dass f r alle Facetten au er f r die erste der Mittelwert auf o festgesetzt wird Weiters kann Inter rater festgelegt werden Dadurch werden f r die Facette in der Tabelle 7 der FACETS Ergebnisdatei siehe Abbildung 3 9 die Inter Rater Reliabilit ten ausgegeben Das macht vor allem dann Sinn wenn tats chlich menschliche Beurteiler die Elemente der Facetten sind Es kann dadurch ein Hinweis bekommen werden ob die Beurteiler wie Experten oder wie reine Beurteilungsmaschinen handeln Letzteres ist dann der Fall wenn die beobachteten Prozent der exakten bereinstimmung Exact Agree Obs gr er als die erwarteten Prozent Exp sind Es ist also nicht verwunderlich dass wir im hier gerechneten Beispiel siehe Abschnitt 3 5 3 1 ein solches Verh ltnis finden da die Beurteiler ja Auswertungsschemen und keine Menschen sind die per definitionem als Beurteilungsmaschinen agieren Durch die deutlich h here Anzahl an exakten bereinstimmungen als erwartet werden von allen bserved t ts 3 Facetten die Standardfehler gegen o verzerrt Durch NE eec Spree mens in diesem Fall Nac expected exact agreements
55. ersichtlich als die Modellspezifikation ausschlie lich per Code m glich ist w hrend f r auf die WU Wien Institut f r Sozialpolitik stefan angel wu ac at WU Wien Forschungsinstitut f r Alters konomie richard muehlmann wu ac at 8 Stefan Angel und Richard M hlmann Sch tzung folgende Auswertungen eine Vielzahl von Tabellen und Grafiken men basiert aufgerufen werden kann Alternativ zur Vollversion des Programms steht eine Studierendenversion namens Ministeps zum freien Download zur Verf gung Diese verf gt zwar ber s mtliche Funktionen von Winsteps die Datenkapazit t ist mit 25 Items und 75 Personen jedoch stark reduziert Somit kann diese Version zwar als hilfreich erachtet werden um die Funktionalit t von Winsteps zu erlernen ihrer Anwendung zu analytischen Zwecken steht aber vor allem die geringe Zahl an Personen entgegen Dar eber hinaus ist eine Version von Winsteps verf gbar die dem Buch Applying The Rasch Mo del von Bond und Fox 2007 beigef gt ist und als Bond amp FoxSteps bezeichnet wird Diese verf gt zwar ber die vollst ndige Datenkapazit t jedoch dem Anspruch des Buches als Einsteigerliteratur entsprechend nicht ber die volle Funktonalit t von Winsteps Die vollwertige Version von Winsteps ist zum Preis von 149 als Download von http www winsteps com erh ltlich 1 2 Rasch Modell Mit Winsteps k nnen folgende Modelle gesch tzt werden Dichotome Rasch Modelle Andrich R
56. ersten partiellen Ableitung erh lt man die MML Sch tzer f r die Item Parameter ai i und rr Durch Anwendung des EM Algorithmus k nnen im ersten Schritt dem E Schritt estimation die Sch tzer f r r berechnet werden rj bezeichnet hier die erwartete H ufigkeit f r die Antwort z bei Item i mit Quadraturpunkt V Der M Schritt maximization wird anschlie end solange durchgef hrt bis die am besten geeigneten Item Parameter f r alle Items bei gegebenen r bestimmt werden konnten 10 1 2 2 Expected a Posteriori Nach der Berechnung der Item Parameter k nnen mit Hilfe der beobachteten Antworten und einer expected a posteriori EAP Methode die Sch tzer f r die j te Person a Efe ttc 1 E Lava SS berechnet werden wobei L V der conditional likelihood der j ten Person an dem Quadraturpunkt Vy entspricht 10 2 Das Programm GGUM 2004 Das Programm GGUM 2004 in der vorliegenden Version 1 1 wurde entwickelt um das soeben vorgestellte GGUM Modell von Roberts et al 2000 empirisch zu sch tzen Es steht als Freeware unter http www psychology gatech edu unfolding zum Herunterladen zur Verf gung Im Folgenden werden das Programm und seine M glichkeiten anhand einer chronologisch aufge bauten Bedienungsanleitung beschrieben d h es wird vorab kein allgemeiner berblick gegeben sondern gleich direkt mit der Programmkonfiguration begonnen Dabei werden allerdings an Stellen die als Besonderheit von Generalized Graded
57. f r die latente Variable 0 a symbolisiert ein Set von Parametern welche die Verteilung der Variable 6 charakterisieren Im Regelfall wird eine Normalverteilung der abh ngigen Variablen angenommen Unter der Annahme einer normalverteilten abh ngigen Variablen 0 kann die Sch tzung des Popula tionsmodells mit den korrespondierenden Regressionsparametern bestimmter Personvariablen B der Populationsvarianz o und dem Vektor des Itemparameters erfolgen Er 1 Pec folOn Wy E 27 DI exp 7 05 YWn E On YWn 7 5 Das Populationsmodell ist multivariat und beschreibt die Abh ngigkeit der Variablen 0 von meh reren Personvariablen y entspricht einer Matrix von Regressionskoeffizienten dieser Personvariablen X einer Varianz Kovarianzmatrix und W einem Vektor definierter Personvariablen Wenn die be schriebene Formel als Populationsmodell verwendet wird k nnen die Parameter y X und amp gesch tzt werden 7 2 3 Sch tzung Kombinieren des bedingten Item Response Modells 7 1 und des Populationsmodells 7 5 f hrt zum unbedingten Item Response Modell ftt egenen 20 7 6 und somit ist die Likelihood gegeben als N A 5c ey 7 7 n 1 wobei N die Gesamtzahl der Subjekte bezeichnet Partielles Differenzieren nach allen Unbekannten y X ergibt die Sch tzgleichungen 120 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch N A gt Xn f Elo On Yr E40 0 7 8 n 1 n N N 1 p oo was
58. fehlt gewisse Aktivit ten des t glichen Lebens ohne Hilfe durchzuf hren Der Umstand dass Hilfe bei einer der in Tabelle angef hrten T tigkeiten erforderlich ist wird mit 1 codiert o bezeichnet dass hinsichtlich der genannten T tigkeit kein Hilfebedarf vorliegt Die vorliegenden Daten stammen von 568 erwerbst tigen WienerInnen Diese geben an welchen Einschr nkungen die von ihnen neben der Erwerbst tigkeit betreuten Personen aus der Familie oder dem Freundes und Bekanntenkreis unterliegen Mit der gleichen Itembatterie wurde zudem erhoben welche Hilfeleistungen die befragten sowie andere Betreuungspersonen erbringen Somit wurden die Antworten der Befragten umcodiert da die Antwortkategorien im Fragebogen Hilfe durch mich Hilfe von anderen Angeh rigen Bekannten u erfamili re oder professionelle Hilfe bzw Betreute Person ben tigt keine Hilfe lauteten Tabelle gibt einen berblick ber die zur Erstellung des Index abgefragten T tigkeiten Die abgefragten T tigkeiten decken ein breites Spektrum an Hilfs und Pflegeleistungen ab und erstrecken sich von stark k rperbezogenen intensiv pflegerischen T tigkeiten bis zu Besorgungen und diverser Hausarbeit Weiters sind Items enthalten die mehr auf die Erfassung kognitiver als k rperlicher Einschr nkungen abzielen Items 5 11 12 16 17 Aus der Tabelle wird auch die oben angesprochene Doppelfunktion der verwendeten Fragenbatterie er
59. ft Positionierung Segmentierung Abb 3 8 Table 6 bersicht ber die Facetten 3 5 3 2 Fit des Modells Generell ist in diesem Beispiel der Fit des spezifizierten Modells mit den Daten nicht vorhanden Dies wurde allerdings auch nicht erwartet da klar ist dass das Auswertungssystem Alles oder Nichts strenger beurteilt als das Auswertungssystem Teilpunkte Ein erster berblick kann ge wonnen werden wenn man sich das Residuen File genauer ansieht Erwartet wird dass ca der standardisierten Beobachtungen au erhalb von 3 und 5 au erhalb von 2 liegen Im hier beschriebenen Beispiel liegen die Werte mit 1 4 der standardisierten Residuen au erhalb von 3 und 4 6 au erhalb von 2 knapp ber bzw unter den Referenzwerten Einen weiteren Anhaltspunkt f r den schlechten Fit liefert die Tabelle 5 der FACETS Ergebnisdatei siehe Abbildung 3 7 Hier werden der x Wert und die damit verbundene Signifikanz angegeben die anzeigen dass das Modell nicht fittet Weiters kann der Anteil der Varianz der durch das Rasch Modell erkl rt wird abgelesen werden Auch diese ist in diesem Fall mit knapp ber 40 relativ niedrig Die Tabellen 7 1 1 bis 7 3 1 der FACETS Output Datei siehe Abbildungen 3 9 3 10 3 11 liefern die Ergebnisse f r die einzelnen Facetten In allen Tabellen werden zuerst die Werte f r jedes Elem
60. gespeichert und muss um zur Ausf hrung zu gelangen unter dem Men punkt Files Specification File Name aufgerufen werden Da es sich bei dem Spezifikationsdokument um ein normales Text Dokument Eine einzelne Person ein Item oder ein einzelner Beurteiler werden als Elemente bezeichnet Im Unterschied dazu beziehen sich Facetten auf Personen Items oder Beurteiler Linacre 1994b 44 Margit Kastner Amata Ring und Brigitte Stangl Tabelle 3 1 Vergleich WINSTEPS und FACETS Merkmal WINSTEPS FACETS Datentyp rechteckig 2 Facetten Personen Items 2 Facetten Personen und Items 3 Facetten Personen Items Beurteiler 4 Facetten Personen Items Beurteiler Anl sse 5 Facetten Paarvergleich und mehr Datenkapazit t 999 999 Personen bei 30 000 Items 999 999 Personen Items Beurteiler Auswertung 30 Hauptabellen Dateien 8 Hauptabellen Dateien Diagramme Graphen Diagramme Graphen Konzeption und einfacher komplexer Interpretation Rat Verwende Winsteps wenn m glich Verwende Facets wenn Winsteps z B Paarvergleiche Leistungsbeurteilung die Arbeit nicht erledigt Quelle Winsteps eigene bersetzung BEE Files Edit Font Estimation Output Tables amp Plots Output Files Graphs Help li Abb 3 1 Startfenster von FACETS handelt ist es auch m glich das Dokument in jedem beliebigen Text Editor zu erstellen und direkt ber FACETS aufzurufen Die Details der Modellspezifikat
61. h 1 r 1 The maximal raw score is denoted by r whereas the number of subjects with the same raw score is quoted as n Alternatively by going down to an individual level the last sum over r can be replaced by p log y It is straightforward to show that the LPCM as well as the other extended Rasch models define an exponential family Andersen 1983 Thus the raw score r is minimally sufficient for 0 and the item totals x are minimally sufficient for Bo Crucial expressions are the y terms which are known as elementary symmetric functions More details about these terms are given in the next section However in the eRm package the numerically stable summation algorithm as suggested by Andersen 1972 is implemented Fischer und Ponocny 1994 adopted this algorithm for the LPCM and devised also the first order derivative for computing the corresponding derivative of log Le e I S sn Eih CA E Zei Hei 6 9 It is important to mention that for the CML representation the multiplicative Rasch expression is used throughout equations 6 1 to 6 7 i e e exp f for the person parameter es Eih corresponds to the reparameterized item x category parameter whereas ej gt o Furthermore yt are the first order derivatives of the y functions with respect to item 7 The index a in 74 denotes the first derivative with respect to the a parameter For the second order derivative of logL two cases have to be distinguished th
62. i Strongly Disagree 05 04 Probability 03 Abb 10 2 Wahrscheinlichkeitsfunktionen der beobachtbaren Antwortkategorien welche als die Summe der Wahr scheinlichkeiten der subjektiven Antwortkategorien von oben und unten wie in Abbildung 10 1 dargestellt berechnet werden k nnen aus Roberts et al 2000 Seite 7 Figure 2 Diese Modelle wurden von Roberts et al auch mit einem Interface in Fortran Code implementiert Bevor wir auf das Programm n her eingehen wollen widmen wir uns zun chst noch der Parameter Sch tzung 10 1 2 Parameter Sch tzung Die Sch tzung der Item Parameter erfolgt mittels marginal maximum likelihood MML Methode w hrend die Personen Parameter mit expected a posteriori EAP Methode gesch tzt werden 10 1 2 1 Marginal Maximum Likelihood Die Item Parameter werden mittels MML Methode gesch tzt wobei der EM expectation maximization Algorithmus Verwendung findet Die Randwahrscheinlichkeit eine bestimmte Antwort einer Person die gem einer kontinuierlichen Verteilung g einer Population entstammt zu beobachten ent spricht P X 7 P Xl0 g 0 d0 Sei nun r die Anzahl an Personen mit dem Antwortvektor X und N die Anzahl an Personen dann sei r multinominal verteilt Die Likelihood sei dann mz P X und daraus resultierend ergibt sich als Log Likelihood sci fs 174 Axel Sonntag und Daniela Weber S S In L In N In r 4 c In P X 10 2 Mit Hilfe der
63. identifiziert hier m gliche zus tzliche Dimensionen mittels einer Hauptkomponentenana lyse der beobachten Residuen Die in Winsteps ermittelten Komponenten zeigen keine Ladungen auf Faktoren an sondern Kontraste zwischen positiven und negativen Ladungen Eine Komponente beinhaltet gegens tzliche Antwortmuster der Personen ber die Items Folglich kann diese Hauptkom ponentenanalyse nicht in der selben Weise wie die klassische Faktorenanalyse interpretiert werden Die Autoren von Winsteps weisen darauf hin dass bis dato keine Kriterien entwickelt wurden ab wann eine Abweichung das Vorliegen einer zus tzlichen Dimension anzeigt Im Anwendungsbeispiel werden 63 5 der Varianz durch das Rasch Modell erste Dimension erkl rt vgl Abbildung 9 Die gr te zweite Dimension erkl rt 16 8 der Varianz unexplained variance in 1st Kontrast Linacre bieten als Orientierungshilfen f r die Interpretation der Kennzahlen aus der Dimensionalit tsanalyse einige Richtwerte an Eine erkl rte Varianz durch den Rasch Faktor von mehr als 50 wird als gut und eine unexplained variance explained by 1st Kontrast 5 als exzellent eingestuft Eigenwerte bei der unexplained variance explained by 1st contrast 3 0 bzw 1 5 gelten als gut bzw exzellent In der Analyse der IJADL Daten findet sich eine zus tzliche Dimension mit einem Eigenwert von 2 2 Diese erkl rt jedoch nur 5 9 der Varianz auf die Darstellung des Scree Plots
64. implies that the item parameters can be estimated without estimating the person parameters achieved by conditioning the likelihood on the sufficient person raw score This conditional maximum likelihood CML approach is described in Section 6 3 Several diagnostic tools and tests to evaluate model fit are presented in Section 6 4 In Section 6 5 the corresponding implementation in R R Development Core Team 2007 is described by means of several examples The eRm package uses a design matrix approach which allows to reparameterize the item parameters to model common characteristics of the items or to enable the Urspriinglich erschienen in Mair und Hatzinger 2007a WU Wien Institut f r Statistik und Mathematik patrick mair wu ac at WU Wien Institut f r Statistik und Mathematik reinhold hatzinger wu ac at 95 96 Patrick Mair und Reinhold Hatzinger user to impose repeated measurement designs as well as group contrasts By combining these types of contrasts one allows that the item parameter may differ over time with respect to certain subgroups To illustrate the flexibility of the eRm package some examples are given to show how suitable design matrices can be constructed 6 2 Extended Rasch models 6 2 1 General expressions Briefly after the first publication of the basic Rasch Model Rasch 1960 the author worked on polytomous generalizations which can be found in Rasch 1961 Andersen 1995 derived the repre sentation
65. in situations when different subsets of items are presented to different groups of subjects as described in Section 6 3 2 These person groups are identified automatically In the data matrix X those items which are not presented to a certain subject are declared as NAs as usual in R After solving the CML equations by the Newton Raphson method the output of the routine consists of the basic parameter estimates f the corresponding variance covariance matrix and consequently the vector with the standard errors Furthermore the ordinary item parameter estimates B are computed by using the linear transformation f Wf For ordinary Rasch models these basic parameters correspond to the item easiness For the RM the RSM and the PCM however we display 7 as f i e as difficulty It has to be mentioned that the CML equation is solved with the restriction that one item parameter has to be fixed to zero we use f o For the sake of interpretability the resulting estimates f can easily be transformed into sum zero restricted by applying f f e B k This transformation is also used for the graphical model test 6 5 2 Example 1 Rasch model We start the example section with a simple Rasch model based on a 100 x 30 data matrix First we estimate the item parameters using the function RMO and then the person parameters with person parameters 108 Patrick Mair und Reinhold Hatzinger library eRm data raschdat1 res
66. nf Fragen richtig beantworten k nnen rawscore 5 weisen eine F higkeit von 2 75 auf Die durchschnittliche F higkeit der Personen dieser Klasse gemessen am WLE estimate mean betragt 0 475 und ist somit deutlich h her als in der ersten Klasse wo der WLE estimate mean 0 592 betr gt Die durchschnittliche Anzahl der richtig beantworten Fragen raw score mean betr gt in dieser Klasse rund 3 1 Die leichteste Frage f r diese Personen ist Frage zwei VAR2 die rund 71 der Personen dieser Klasse beantworten k nnen Abb 4 19 Die Itemschwierigkeit dieser Frage betr gt 0 89 Die schwie rigste Frage f r die Personen dieser Klasse ist Frage f nf VARs die leidiglich 40 der Befragten richtig beantworten k nnen Die Schwierigkeit dieses Items betr gt 1 33 Aus der Q Index Tabelle Abb 4 20 geht hervor dass die Items VAR2 und VAR4 deutlich ber der zul ssigen Obergrenze von 0 3 liegen weshalb hier das Vorliegen zuf lliger Antwortmuster nicht ausgeschlossen werden kann Da sich die Antwortmuster dieser Items jedoch nicht signifikant von den zu erwarteten Antwortmustern unterscheiden kann auf einen Ausschluss dieser Items verzichtet werden B hner 2006 5 366 In Bezug auf die zweite Klasse kann zusammenfassend festgehalten werden dass diese Klasse eher berdurchschnittlich f hige Personen beinhaltet 4 WinMiRa 2001 75 expected category frequencies and item scores Item Item s relative category label Score Std
67. plot that only contains the item characteristic curves of items 2 3 5 and 6 is produced by R gt plot fit rasch2 legend TRUE items c 2 3 5 6 xlab Attitude lwd 2 cex 1 2 sub paste Call deparse fit rasch2 call 144 Dimitris Rizopoulos Item Characteristic Curves 2 sexdisc premar gaysex oo o gayscho co Bo 5 bn Bel o D F O N o e Go 4 2 0 2 4 Attitude Call rasch data SexAtt Following we depict the Item Information Curves which are produced with almost the same syntax as the item characteristic curves The only difference is that we need to change the default value of the type argument R gt plot fit rasch2 type IIC legend TRUE pch rep 1 2 each 5 xlab Attitude col rep 1 5 2 lwd 2 cex 1 2 sub paste Call deparse fit rasch2 call 8 IRT Analysis using the 1tm Package Information 0 5 0 6 0 4 a o 0 2 0 1 0 0 e e e e e A L Am 145 Item Information Curves divorce sexdisc premar exmar gayse gayschq gayhieg gaypubl gayfadop gaymadop VI 0 2 4 Attitude Call rasch data SexAtt For the Test Information Curve which is the sum of the item information curves we further need to specify the value o for the items argument With the following syntax we in fact compare the test information curves of the constrained and unconstrained R
68. sind in 7 13 in der unteren Dreiecksmatrix gegeben die Korrelationen in der oberen Dreiecksmatrix Man kann dabei sehen dass sich bei allen Traits die bivariaten Korrelationen re duziert haben und jetzt relativ gering sind 0 18 0 36 Der zus tzliche Erkl rungsgehalt den die Regressoren miteinbrachten kann zumindest etwas der wechselseitigen Korrelation erkl ren Trotz dem ist noch substanzielle Restkorrelation vorhanden man kann also nicht von bedingt auf SES Geschlecht und Schulstufe unabh ngigen Dimensionen sprechen Sie sind nach wie vor konfudiert Tabelle 7 1 gibt eine kurze Zusammenfassung der Analyse wieder In der ersten Zeile findet sich der Anteil erkl rter Varianz des unbedingten Modells aufgrund der Regressoren wieder berechnet als 1 VARcond VAR yncond wobei VAR yncond die gesch tzte Varianz der jeweiligen latenten Dimension f r das unbedingte Modell beschreibt und VAR ong dieselbige f r das Regressionsmodell In den Zeilen 2 4 sind die entsprechenden Punktsch tzer der Regressionskoeffizienten f r die einzelnen Dimensionen angef hrt Force amp Light amp Matter Earth amp Multiple Sch tzung Motion Sight Space Choice Erkl Varianz 34 21 12 36 45 Schulstufe 1 188 1 134 0 900 0 586 1 143 Geschlecht 0 160 0 125 0 083 0 039 0 213 SES 0 600 0 425 0 417 0 511 0 396 Tabelle 7 1 Zusammenfassung des f nfdimensionalen latenten Regressionsmodell Kapitel 8 IRT Analysis using the 1tm Package Dimitri
69. statistic to evaluate if two groups of items are homogeneous i e to test the unidimensionality axiom 6 5 The eRm package and application examples The underlying idea of the eRm package is to provide a user friendly flexible tool to compute extended Rasch models This implies amongst others an automatic generation of the design matrix W However in order to test specific hypotheses the user may specify W allowing the package to be flexible enough for computing IRT models beyond their regular applications In the following subsections various examples are provided pertaining to different model and design matrix scenarios Due to intelligibility matters the artificial data sets are kept rather small A detailed description in German of applications of various extendend Rasch models using the eRm package can be found in Poinstingl et al 2007 6 5 1 Structure of the eRm package Embedding eRm into the flexible framework of R is a crucial benefit over existing stand alone programs like WINMIRA von Davier 1998 LPCM WIN Fischer und Ponocny Seliger 1998 and others Another important issue in the development phase was that the package should be flexible enough to allow for CML compatible polytomous generalizations of the basic Rasch model such as the RSM 6 Extended Rasch Modeling The R Package eRm 107 and the PCM In addition by introducing a design matrix concept linear extensions of these basic models should be applicable This app
70. the Rasch model for repeated measurements was already introduced by Fischer 1974 Over the intervening years this suggestion has been further elaborated Fischer 1995b discussed certain design matrices which will be presented in Section 6 2 3 and on the basis of examples in Section 6 5 At this point we will focus on a simple polytomous generalization of the Rasch model the RSM Andrich 1978b where each item I must have the same number of categories Pertaining to Equation 6 1 Pn may be set to h with h o m Since in the RSM the number of item categories is constant m is used instead of m Hence it follows that exp 0 Bi w Uti c D ym expl B ca ES with k item parameters f Pk and m 1 category parameters Wo Wm This parameterization causes a scoring of the response categories C which is constant over the single items Again the item parameters can be split up in a linear combination as in Equation 6 4 This leads to the LRSM proposed by Fischer und Parzer 1991 Finally the PCM developed by Masters 1982 and its linear extension the LPCM Fischer und Ponocny 1994 are presented The PCM assigns one parameter fj to each I x Cj combination for h o m Thus the constant scoring property must not hold over the items and in addition the items can have different numbers of response categories denoted by m Therefore the PCM can be regarded as a generalization of the RSM and the probability for a respon
71. the correlation coefficients and the lower diagonal part contains the corresponding p values 8 3 2 IRT Models for Polytomous Data 8 3 2 1 Fitting We start our analysis fitting Generalized Partial Credit Models Function gpcm can fit several versions of this model controlled by the value of the method argument R gt fit gpcm1 lt gpcm Environment constraint rasch R gt fit gpcm2 lt gpcm Environment constraint 1PL R gt fit gpcm3 lt gpcm Environment constraint gpcm In particular when constraint rasch then in the GPCM 8 4 we make the constraint a Q5 1 When constraint 1PL then in 8 4 we make the constraint that a a a Finally when constraint gpcm the default then we impose no constraint in the values of Q Qp As it is the case for almost all model fitting functions in R the summary method returns more detailed output For gpcm objects the summary method has the optional logical argument robust se which if set to TRUE then standard errors are based on the sandwich estimator e g R gt summary fit gpcm3 robust se TRUE Call gpem data Environment constraint gpcm Model Summary log Lik AIC BIC 1094 974 2225 947 2292 067 Coefficients LeadPetrol value std err z value Catgr 1 0 613 0 163 3 770 Catgr 2 2 355 0 302 7 810 Dscrmn 1 168 0 228 5 127 RiverSea value std err z value Catgr 1 1 122 0 162 6 942 Catgr 2 2 373 286 8 284 D
72. the remaining models This is what we quote as unified CML approach The corresponding likelihood equations follow in Section 6 3 6 2 3 The concept of virtual items When operating with longitudinal models the main research question is whether an individual s test performance changes over time The most intuitive way would be to look at the shift in ability 0 across time points Such models are presented e g in Mislevy 1985 Glas 1992 and discussed by Hoijtink 1995 Yet there exists another look onto time dependent changes as presented in Fischer 1995b p 158ff The person parameters are fixed over time and instead of them the item parameters change The basic idea is that one item I is presented at two different times to the same person S is regarded as a pair of virtual items Within the framework of extended Rasch models any change in 0 occuring between the testing occasions can be described without loss of generality as a change of the item parameters instead of describing change in terms of the person parameter Thus with only two measurement points I with the corresponding parameter f generates two virtual items I and I with associated item parameters f and f For the first measurement point f f whereas for the second f p t In this linear combination the parameters are composed additively by means of the real item parameters and the treatment effects v This concept extends to an arbitrary number of tim
73. und Glas C A W 1995 The one parameter logistic test model In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 215 238 Springer New York Verhelst N Glas C A W und Vries H H D 1997 A Steps model to analyze partial credit In van der Linden W und Hambleton R Hrsg Handbook of Modern Item Response Theory Seiten 123 138 Springer New York 188 Literaturverzeichnis Verhelst N Hatzinger R und Mair P 2007 The Rasch sampler Journal of Statistical Software 20 4 1 14 Volodin N A und Adams R J 1995 Identifying and estimating a D dimensional item response model Paper presented at the International Objective Measurement Workshop University of California Berkeley California von Davier M 1997 Methoden zur Priifung probabilistischer Testmodelle IPN Schriftenreihe Band 157 Universitat Kiel von Davier M 1998 WINMIRA A Windows program for mixed Rasch models IPN Kiel von Davier M 2001 Winmira 32 Manual von Davier M 2006 Book Review Introduction to Rasch Measurement Applied Psychological Measurement 30 5 443 446 Wang P Y Hrsg 1995 Modern test theory Psychological Publishing Co Taipei Wang X Bradlow E und Wainer H 2005 User s guide for SCORIGHT Version 3 0 A computer program for scoring tests built of testlets including a module for covariate analysis Educational Testing Services P
74. will go down well with Locn 2 1 058 Spread 0 019 FitRes 3 166 ChiSq Pr 2 0 047 SampleN 124 40 Slope 1 64 3 0 2 0 9 c o0 aoe oouxm 0 0 3 2 4 1 2 3 Person Location logits 9 RUMM Rasch Unidimensional Measurement Models 167 Abb 9 8 ICC eines Items und empirische Verl ufe f r M nner und Frauen Item product will go down well with c21_2 2 Levels for Person Factor GENDER EEE me Meet e Slope 1 64 4 0 3 0 x female o male 2 0 oac o lt aorooumxm 0 0 Person Location lagits Aufschlussreich ist die Darstellung von tats chlichen Scores in Abh ngigkeit von Personenfaktoren So k nnen beispielsweise empirische Itemcharakteristikkurven f r M nner und Frauen angezeigt werden oder f r verschiedene Nationalit ten Voraussetzung ist lediglich dass diese Variablen als Per sonenfaktoren definiert wurden Durch eine zweifache Varianzanalyse neben dem Klassenintervall ist der Personenfaktor ein Faktor in der Varianzanalyse k nnen Unterschiede zwischen Respon dentengruppen im Sinne des Differential Item Functioning DIF auf Signifikanz gepr ft werden Ein signifkanter Haupteffekt f r den Personenfaktor spricht f r uniformes DIF eine signifikante Wechselwirkung f r nicht uniformes DIF Letzteres bedeutet eine unterschiedliche Steigung der ICC innerhalb der Personengruppen und impliziert damit einen qualitativen Bedeutungsunterschied des Items welcher auch durch ein Item Splitti
75. wird aus Platzgr nden verzichtet Die unter Diagnosis E Item Misfit Table erstellte Tabelle entspricht inhaltlich der Tabelle zur Itempolarit t siehe oben unterscheidet sich aber in der Reihenfolge der Items welche nach den Fehlerwerten sortiert ausgegeben werden Die im Men punkt C Person Misfit enthaltene Auflistung einzelner Personen kann vor allem dazu dienen anhand der Infit und Outfit Kriterien einzelne Ausrei er in der Stichprobe zu identifizieren und aus der Berechnung auszuschlie en Weitere Indikatoren f r Ausrei er finden sich in den hier ausgewiesenen Tabellen zu den most unexpected observationsnd den most misfitting response strings Diagnosis H Separation ermittelt ob die Items die F higkeitswerte der Personen treffen d h Schwierigkeitsgrade aufweisen die weder zu schweren noch zu einfachen Aufgaben entsprechen Daf r werden sowohl Item als auch Personenwerte mit und ohne extreme Antworten errechnet Der Hintergrund f r diese Differenzierung ist darin zu finden dass Items die von s mtlichen Personen gleich beantwortet werden nicht zwischen Personen unterscheiden k nnen Analog kann auch kein F higkeitswert f r Personen ermittelt werden die s mtliche Items identisch beantworten Die gleiche Information ist auch unter Output Tables 12 Item map abrufbar Dabei sind die Schwierigkeitswerte der Items auf der rechten und die F higkeitswerte der Personen auf der linken Seite zu sehen Ein
76. zu Rater Effekte W hrend die genannten Anwendungen auch in anderen Programmen bereit gestellt werden bietet ConQuest zus tzlich auch die M glichkeit Multidimensionale Item Response Modelle zu pr fen und die Korrelationen zwischen den latenten Variablen zu sch tzen Wu et al 2007 W hrend die meisten IRT Modelle eine Eindimensionalit t der zugrunde liegenden Dimension voraussetzen lassen Multidimensionale Item Response Modelle mehrere latente Dimensionen als Erkl rungsbasis f r ein gezeigtes Verhalten zu Die Relevanz dieser Anwendung gr ndet sich einerseits darauf dass viele standardisierte psychometrische Tests unterschiedliche und unkorrelierte Pers nlichkeitsei genschaften erfassen sollen und andererseits die Tendenz der diagnostischen Praxis dahin geht ein gezeigtes Verhalten aus unterschiedlichen Perspektiven untersuchen zu wollen Das Multidimensional Random Coefficients Multinominal Logit Model MRCMLM nimmt daher an dass ein Set von D Pers nlichkeitseigenschaften die Basis f r das Verhalten einer Person darstellt Diese D latenten Eigenschaften spannen einen D dimensionalen latenten Raum auf in welchem die Lage der Person ber einen mehrdimensionalen Personenparameter und vektor definiert ist 0 0 0 0 0p Adams et al 19972 7 2 Modell und Sch tzung 7 2 1 Das multidimensionale multinominale Logit Modell mit zufallsbedingten Koeffizienten Bei der multidimensionalen Form handelt es sich um eine Erweiter
77. 004 Chapter 7 and for nonparameteric approaches it is referred to de Leeuw und Verhelst 1986 However back to CML the main idea behind this approach is the assumption that the raw score ry is a minimal sufficient statistic for O Starting from the equivalent multiplicative expression of Equation 6 1 with exp 0 and e exp fi i e 102 Patrick Mair und Reinhold Hatzinger Ey P X 1 Tee 6 13 the following likelihood for the response pattern x for a certain subject v results ye Gy Ti Ej ri P xplEv 5 DHT NIE an i 1 1 1 Using the notation y v Yk for all possible response patterns with X yj ry the probability for a fixed raw score r is Xvi 0 Xo He Ei Xvi P nM e TTT nee DIE e 6 15 ylr i i The crucial term with respect to numerical solutions of the likelihood equations is the second term in e s ler 6 16 These are the elementary symmetric functions of order r An overview of efficient computational algorithms and corresponding simulation studies can be found in Liou 1994 The eRm package uses the numerator the summation algorithm as proposed by Andersen 1972 Finally by collecting the different raw scores into the vector r the conditional probability of observing response pattern x with given raw score r is P xy P ryl v l By taking the product over the persons independence assumption the conditional likelihood e
78. 1 23 xxx 116 34 100 90 239 21 50 39 Exp 0 E 2 E 204 30 80 57 203 57 78 70 168 46 54 09 Exp 0 E 2 E 0 92 90 04 4 24 83 02 192 60 74 27 Exp 0 E 2 E 0 75 199 88 zz 26 87 153 10 26 43 104 56 Exp 0 E 2 E 293 56 97 30 37 60 70 28 49 88 63 15 x denotes a chi squared residual greater than 3 5 From both goodness of fit methods we observe that the Rasch models do not seem to capture the interrelationships between the different items We continue by further extending the model and namely assuming a different discrimination parameter per item As we have seen in Section 8 1 1 this extension is known as the two parameter logistic model This model is fitted in 1tm using function 1tmO Contrary to rasch O function 1tm accepts as first argument an R formula that in its left hand side the data frame or matrix of dichotomous responses is provided and in its right hand the latent structure is specified For the latent structure up to two latent variables are allowed with code names z1 and z2 For the two parameter logistic model we need to specify a single latent variable as R gt fit 2pl lt ltm SexAtt z1 R gt summary fit 2p1 Call ltm formula SexAtt z1 8 IRT Analysis using the 1tm Package 141 Model Summary log Lik AIC BIC 4531 825 9103 65 9203 288 Coefficients value std err z vals Dffclt divorce 18 3530 17 2908 1 0614 Dffc
79. 1346 0 1347 0 7323 0 1296 NA NA 12 2 1 1405 0 1142 0 8259 0 1194 NA NA Estimated coefficients of 2 PL Binary item parameters For item parameter h h log a beta O Estimated values 0 0829 s e 0 0610 For item parameter b beta O Estimated values 0 4472 s e 0 3333 36 Kathrin Gruber Estimated covariance matrix of item parameters h log a and b SIGMA h RHO hb SIGMA b Estimated values S e 0 01 0 01 30 0 0309 1 2443 39 0 0766 0 6598 Nat rlich liefert auch SCORIGHT wie jede andere IRT Standardsoftware die gesch tzten Personenparamter sowie deren Standardsch tzfehler Diese sind in der Datei theta est enthalten An dieser Stelle wird nur ein Auszug aus der Datei dargestellt EST Theta SE Theta 1 0 4011 2 0 9565 3 0 7921 4 0 5192 5 0 1343 6 0 2616 7 0 9897 8 0 6600 9 1 2637 10 1 1857 11 0 4109 12 0 9821 13 0 0187 14 0 3195 15 0 5966 0 OO OO oo OO OO OO OO CH 5440 6405 6486 5788 5855 5600 5861 5834 7074 5557 5982 5882 5972 5569 5536 Falls in den Daten Testlets enthalten sind und diese im Vorfeld definiert wurden liefert SCORIGHT eine zus tzliche Datei testlet est welche die gesch tzte Varianz des Testletparameters y f r jedes Itemb ndel enth lt In diesem Beispiel sind die Varianzen beider Testlets klein was bedeutet dass die Sch tzer in der N he des wahren Parameters liegen und nur wenig streuen Estimated v
80. 15 4 5 je 3 0 1 08 S D Sample Wessen Model Populn RMSE 01 Adj True S D 24 Separation 17 30 Strata 23 40 Reliability 1 00 Model Sample RMSE 01 Adj True S D 25 Separation 17 59 Strata 23 78 Reliability 1 00 Model Fixed all same chi square 7674 1 d f 30 significance probability 00 Model Random normal chi square 29 9 d f 29 significance probability 42 Abb 3 11 Table 7 3 1 Measurement Report f r Fragen der Kriterien bzw Aufgabenschwierigkeit auf einer gemeinsamen linearen Skala Logitskala im sogenannten Facettenraum dargestellt werden konnte Das MFRM ist eine Erweiterung des polytomen Rasch Modells welches wie es Wright 1998 ausdr ckt Folgendes zum Ziel hatte I don t want to know which questions you answered I want to know how much you know I need to leap from what I know and don t want to what I want but can t know That s called inference Die exemplarische Darstellung eines empirischen Beispiels anhand von Multiple Choice Frage Daten in diesem Artikel zeigt die prinzipielle Anwendung des Programms wobei das Programm auch weitaus komplexere Modelle sch tzen kann So k nnen nicht nur weitere Facetten integriert werden es ist auch m glich die Interaktion von Facetten gesondert zu betrachten sowie f r Teilbereiche der Daten unterschiedliche Modelle zu rechnen Als ein Vorteil des MFRM im Allgemeinen und von FACETS im Besonderen kann sicherlich gesehen werden dass dur
81. 2 8 3 021 26 01 83 6 8 76 5 8 90 op 56 2 Einkaufslabor 6292 2236 2 8 zo 26 01 1 02 9 1 09 1 9 90 54 56 15 Distributionsstufen 6332 2236 2 8 3 05 25 01 86 5 5 84 3 71 90 59 56 17 Break Even Analyse 6789 2236 3 0 3 34 18 01 1 05 1 7 1 11 2 3 86 52 54 31 Marktdurchdringung 6811 2236 3 0 3 35 18 01 89 4 1 83 8 7 95 57 54 29 BCG Portfolio 6975 2236 3 1 3 46 16 01 1 07 2 5 1 07 1 4 89 po 54 24 Maslow 6992 2236 3 1 8 47 15 01 1 14 4 9 1 15 2 8 86 Ap 54 9 Partial Totalm 7042 2236 3 1 8 50l 18 01 88 4 4 80 4 4 1 00 58 54 10 Verbundsysteme TO56 2236 3 1 3 501 14 01 84 6 0 76 5 1 1 00 58 54 6 Zeitl Abstimmung 7075 2236 3 2 3 52 14 01 88 4 5 82 3 9 98 57 54 7 Adoptionsprozess 7282 2236 3 2 8 64l ii ol 92 2 7 85 2 9 99 55 53 11 Kennzahlen 7475 2236 3 3 8 74 08 ol 94 2 1 92 1 5 1 01 54 52 1 Branchenattraktivit t 7709 2236 3 4 8 87 04 01 1 04 1 3 97 5 98 50 51 14 Datenerhebung 7794 2236 3 5 3 911 02 01 1 17 5 3 1 16 2 7 97 A 51 8 Marktziele 7799 2236 3 5 8 91l 02 01 88 4 0 78 4 1 1 07 pp 51 28 Differenzierung 7832 2236 3 5 3 93 02 01 97 1 1 89 2 0 1 03 52 51 16 Wirtsch Aanlayse 7969 2236 3 6 4 001 01 01 1 10 3 1 1 16 2 5 1 00 48 50 21 Werbestil 7970 2236 3 6 4
82. 20 0 217 0 215 0 212 0 210 0 209 0 209 0 209 1 8 3 0 0 209 0 209 0 208 0 206 0 203 0 197 0 190 OBSERVED AND EXPECTED COUNTS PROPORTIONS IN CATEGORY K 1 2 3 4 OBS FREQ 56 85 126 37 OBS PROP 0 1842 0 2796 0 4145 0 1217 EXP PROP 0 1844 0 2793 0 4144 0 1219 ITEM 2 4 GRADED CATEGORIES P ESTIMATE S E A 5 1 01 0 16 BC 1 6 0 64 0 17 BC 2 7 0 77 0 16 BC 3 8 1 66 0 24 THETA INFORMATION Theta values increase in steps of 0 2 3 0 1 6 0 079 0 093 0 109 0 127 0 146 0 166 0 187 0 208 1 4 0 0 0 228 0 247 0 263 0 277 0 289 0 298 0 304 0 309 0 2 1 6 0 313 0 315 0 316 0 315 0 313 0 309 0 303 0 294 1 8 3 0 0 282 0 267 0 250 0 231 0 210 0 189 0 168 OBSERVED AND EXPECTED COUNTS PROPORTIONS IN CATEGORY K 1 2 3 4 OBS FREQ 112 87 45 60 OBS PROP 0 3684 0 2862 0 1480 0 1974 EXP PROP 0 3691 0 2857 0 1475 0 1976 Weiters erh lt man beobachtete und erwartete H ufigkeiten nach Patterns sowie die entsprechen den EAP Sch tzer in Tabellenform OBSERVED EXPECTED STD EAP S D PATTERN RES 28 0 28 0 0 00 1 01 0 86 11 15 0 15 1 0 03 0 46 0 81 12 8 0 6 2 0 70 0 17 0 84 13 5 0 6 7 0 65 0 08 0 90 14 35 0 35 3 0 04 0 64 0 81 21 23 0 24 7 0 34 0 17 0 77 22 12 0 11 5 0 15 0 10 0 79 23 15 0 13 4 0 43 0 36 0 84 24 43 0 40 0 0 47 0 23 0 83 31 35 0 36 9 0 32 0 20 0 78 32 19 0 20 5 0 33 0 49 0 7
83. 20 Stefan Angel und Richard M hlmann Abb 1 8 F Construct KeyMap EXPECTED SCORE MEAN Rasch score point threshold indicates Rasch half point threshold ILLUSTRATED BY AN OBSERVED CATEGORY 5 3 1 1 3 5 7 Pace SSS E EE E et NUM ITEM 0 0 1 2 3 4 4 3 ITEMS l l 0 0 1 j 2 d 3 4 4 4 ITEM4 0 0 1 2 3 4 4 1 ITEM l 0 0 1 2 3 3 4 4 2 ITEM2 gt Hesse NUM ITEM 5 3 1 1 3 5 7 4 2 22445 5667 46 4 2 1 1 2 0 27416 932 12 42 5 5 4 PERSONS T S M S T 0 10 20 30 40 50 60 70 80 90 99 PERCENTILE Winsteps Abb 1 9 berpr fung der Dimensionalit t in Winsteps Table of STANDARDIZED RESIDUAL variance in Eigenvalue units Empirical Modeled Total raw variance in observations 11 0 100 0 100 0 Raw variance explained by measures 7 0 63 5 63 5 Raw variance explained by persons 4 8 43 6 43 7 Raw Variance explained by items 2 2 19 8 19 8 Raw unexplained variance total 4 0 36 5 100 0 36 5 Unexplned variance in 1st contrast 1 8 16 8 45 9 Unexplned variance in 2nd contrast 1 3 11 6 31 9 Unexplned variance in 3rd contrast 9 8 1 22 0 Unexplned variance in 4th contrast 0 0 1 Unexplned variance in 5th contrast 0 0 0 STANDARDIZED RESIDUAL VARIANCE SCREE PLOT VARIANCE COMPONENT SCREE PLOT 4 4 4 4 4 44 4 4 100 T V 63 M A R 40 P I U 25 16 I 1 10 2 3 Git
84. 3 Marginal Maximum Likelihood Estimation s s s susursrurerrrrrrrerro 133 8 1 4 Estimating the Latent Variablen presar en a en ER ieee haa has 133 8 2 IRT Analysis for Dichotomous Data 133 Ban Descriptive Analysis nn ann ted en 134 8 2 IRT Models for Dichotomous Data 136 8 5 IRT Analysis for Polytomous Data 148 8 3 1 Descriptive Analysis dreser ir cerere sneer ne 148 8 3 2 IRT Models for Polytomous Data 149 RUMM Rasch Unidimensional Measurement Model 159 Thomas Salzberger 9 1 Grundlagen sunshine Mp RR ee 159 92 5 Modellen nee ee 159 9 3 Schatzmethode u un Zeh E ke a eek REMO ehe Be heilen 160 SE Datenmputieseuesesesee tmd ae dd ae dd ae terri ier du etu ise DE he BE ect 160 9 5 Analysen cute N bk e Mex UE NC evt NC es D ee 161 GG Ergebnisse zoe ote EEE EEN 162 9 68 1 JtemoParameter Details VER Ve eh ene ee ha eG EVEN 162 gba VEILLEStS torch t tbt bte bte bs te bs ta Sg 163 9 7 Grafische Ausgaben aus osse ste ex eb RU USA S RU nb RU o i ind 166 9 8 Resume een e EHE REN NR Ne Mea Ne HE NC M He Re steh 169 GGUM2004 Generalized Graded Unfolding Models sees 171 Axel Sonntag und Daniela Weber 10 1 Die Methode der Entaltungstechnik 00 cee ee eee 171 10 1 1 Generalized Graded Unfolding Modelle 172 10 1 2 Parameter Sch tzung ev ure eret eet Wee Mee eoe a deoa us 173 10 2 Das Programm GGUM 2004 ssssssssssee een nenn 174 10 2 1 SpezifiKation einer Sch tzung ege oor rece ae
85. 3 d hHHHHHHHE S ADL12 ITEM2 3 HHH o M M HHHHBHHHHHE S ADL16 ADLI Is 1 ADL13 ITEM3 2 l HEHE Hb IT 1 ee ITEM1 2 ADL11 ITEM4 2 2 ADL14 EEE Is ITEM2 2 ADL15 SI TI 2 JHHHHBHE ADL8 3 ADL7 pg ITEMS 1 l ITEM4 1 l 3 4 ITEM1 1 ITEM2 1 IT TI l HHH 5 4 dHHHHHHE 1 lt less gt lt frequ gt lt less gt EACH i IS 6 EACH i IS 6 Winsteps Abb 1 11 Das Graphen Fenster in Winsteps Doc Eel 1 ITEM1 Expected Score ICC 1 ITEM1 Adjust maximum Adjust Y axis Y value divisions Score on Item 5 4 3 2 1 1 2 3 Measure relative to item difficulty Xwalue minimum X value 39 Interval maximum X value Adjust minimum Fine tune Adjust X axis Empirical Fine tune Adjust maximum Click on line for description Double click to erase line Display Absol nd ei Poi Adjust minimum Smoothing Y alue EINE 23 24 Stefan Angel und Richard M hlmann Abb 1 12 Probability and Empirical Category Curve 1 ITEM1 e 23 oe D 0 4 Category Probability Measure relative to item difficulty Winsteps Abb 1 13 Cumulative Probabilities Curve 1 ITEM1 0 9 To o EN oe D 06 41 T Cumulative Probability 02 5 4 zd 2 4 o 1 2 3 Measure relative to item difficulty 25
86. 300 persons and k 4 items each of them with m 1 3 categories We start with the estimation of an RSM and subsequently we calculate the corresponding category intersection parameters using the function thresholds gt data pcmdat2 gt res rsm lt RSM pcmdat2 gt thresholds res rsm Design Matrix Block 1 Location Threshold 1 Threshold 2 110 Patrick Mair und Reinhold Hatzinger Ii 1 60712 0 59703 2 61721 I2 1 92251 0 91242 2 93260 I3 0 00331 1 00678 1 01340 I4 0 50743 0 50266 1 51752 The location parameter is basically the item difficulty and the thesholds are the points in the ICC plot given in Figure 6 4 where the category curves intersect gt plotICC res rsm mplot TRUE legpos FALSE ask FALSE ICC plot for item 11 ICC plot for item 11 oO oO 2 o 2 o a eo Zi eo g g t Ki D o D Q Q 9 o 0 eo eo eo eo 4 2 0 2 4 4 2 0 2 4 Latent Dimension Latent Dimension ICC plot for item 11 ICC plot for item 11 oO 2 o 2 o Zi eo a eo g g E t x D o D o Q Q 9 9 0 eo eo eo eo 4 2 0 2 4 4 2 0 2 4 Latent Dimension Latent Dimension Abb 6 4 ICC plot for an RSM The RSM restricts the threshold distances to be the same across all items This strong assumption can be relaxed using a PCM The results are represented in a person item map see Figure 6 5 gt res pcm PCM pcmdat2 plotPImap res pcm sorted TRUE After estimating the person parameters we ca
87. 42 0 0 206 1 35 0 041 0 058 12 ITEM0013 204 0 81 0 0 397 0 42 0 187 0 238 F r jede der definierten Gruppen wird eine solche Zusammenfassung erstellt diese enth lt den gesam ten Datensatz Man kann erkennen dass jedes Item von 204 Personen bearbeitet wurde Die Spalten RIGHT und PCT enthalten die Anzahl bzw Prozent richtiger Antworten Logit sind die negativen logarithmierten Wettquotienten der L sungswahrscheinlichkeit log pct 1 pct und stellt somit eine Art Schwierigkeitssch tzer dar Zuletzt werden noch Pearson und punkt biseriale Korrelationen zwischen Testscore und Itemantwort angegeben Die zweite Phase enth lt die Kalibrierung und detaillierte Informationen ber die Optimierung Es folgen die Parametersch tzer aller Items und Gruppen in unserem besteht die Ausgabe aus zwei vollen Sets an Itemparametern da eine Analyse hinsichtlich Differential Item Function durchgef hrt wurde MODEL FOR GROUP DIFFERENTIAL ITEM FUNCTIONING GROUP 1 MAENNER ITEM PARAMETERS AFTER CYCLE 8 ITEM INTERCEPT SLOPE THRESHOLD LOADING ASYMPTOTE ITEM0001 0 128 0 681 0 188 0 563 0 000 0 283 0 078 0 415 0 065 0 000 ITEMOO02 0 534 0 681 0 783 0 563 0 000 0 360 0 078 0 529 0 065 0 000 ITEM0003 0 675 0 681 0 990 0 563 0 000 0 405 0 078 0 595 0 065 0 000 ITEM0004 0 003 0 681 0 004 0 563 0 000 0 383 0 078 0 562 0 065 0 000
88. 6 O 83 83 2 86 2 14 1 78 7T5 1 12 30 2 84 S i 62 1 95 3 1 04 1 031 3 37 4 43 4 CATEGORY STRUCTURE SCORE TO MEASURE 50 CUM COHERENCE ESTIM LABEL MEASURE S E AT CAT ZONE PROBABLTY M gt C C gt MIDISCR 4 4 4 4 0 NONE C 4 16 INF 3 28 85 31 1 2 95 17 2 14 3 28 1 21 3 09 57 Spil 1 181 2 1 21 12 30 1 21 71 1 21 58 68 1 1 211 3 53 11 1 9 71 3 44 62 63 77 1 24 4 3 28 17 4 43 3 44 INF 3 34 86 234 1 011 M gt C Does Measure imply Category C gt M Does Category imply Measure CATEGORY PROBABILITIES MODES Structure measures at intersections P 4 4 4 R 1 0 0 B 10 A 000 B 8 00 I 0 L 0 I 00 T 6 0 Y 0 1111 5 O 11 11 222 0 1 112 F 4 1 0 221 11 0 2 1 R 1 0 2 11 E 11 002 S o 11 220 P 11 22 00 33 0 111 22 0033 N 2222 33330000 S 0 oR k k k k kk K KA A AAAAAA E 4 4 4 5 4 3 2 1 PERSON MINUS ITEM MEASURE 4 4 4 4 4 44 4 44 3333333 4 3 33 4 222 33 33 4 22 3 34 2 443 3 2 4 33 38 22 4 3 3 2 4 3 13 22 44 33 31 24 33 11 4 2 3 11 444 222 KK A 22222 3 2 KA 0000 O gt k gt k k k ak ak ak ok KR KE 4 4 4 4 0 1 2 3 4 5 PWN rz CO 19
89. 6 08 2 9 10 99 60 74 24 10 denotes a chi squared residual greater than 3 5 8 IRT Analysis using the 1tm Package 143 8 2 2 2 Plotting Even though the models we presented do not provide the optimal fittothe data at hand for illustrative purposes we will produce several figures to depict the output of the fitted unconstrained Rasch model The analogous plots for the other IRT models we fitted can be produced in exactly the same manner The output of function rasch is an object of class rasch for which the plot method produces the Item Characteristics Curves that describe how the probability of a positive response relates to the levels of the latent sexual attitude R gt plot fit rasch2 legend TRUE pch rep 1 2 each 5 xlab Attitude col rep 1 5 2 lwd 2 cex 1 2 sub paste Call deparse fit rasch2 call ltem Characteristic Curves o divorce e sexdisc o 9 premar o e exmar gaysex A gayscho gt 1 gayhied 3 gaypubl 8 A gayfadop cox A gaymadop N e e o _4 2 0 2 4 Attitude Call rasch data SexAtt By default the item characteristic curves of all items are produced In the case we analyze many items this would turn up to be a very busy plot To overcome this the plot method for fitted IRT models has the optional argument items that can be used to specify which items we would like to include in the plot For example a
90. 6221332 gayscho 0 1200687 1 0 47001883 gaysex 1 1353410 1 0 24317679 gayfadop 1 8399917 1 0 13705227 exmar 2 3383781 1 0 08799399 divorce 2 3768954 1 0 08495159 gaymadop 2 6061011 1 0 06874680 The column P x 1 z 0 corresponds to P x 1 z o under 8 2 and denotes the probability of a positive response to the ith item for the average individual The order argument can be used to sort the items according to the difficulty estimates We continue by fitting the unconstrained Rasch model that estimates the discrimination parameter This achieved using function rasch O but without specifying the constraint argument R gt fit rasch2 lt rasch SexAtt R gt summary fit rasch2 Call rasch data SexAtt Model Summary 138 log 4939 777 9901 Lik AIC Coefficients Dffclt Dffclt Dffclt Dffclt Dffclt Dffclt Dffclt Dffclt Dffclt Dffclt Dscrmn Integration exmar BIC 555 9956 356 value std err divorce 1 6818 Sexdisc 1 3677 premar 1 0687 1 6553 gaysex 0 8136 gayscho 0 0879 gayhied 0 1784 gaypubl 0 3306 gayfadop 1 3095 gaymadop 1 8392 1 6283 method Gauss Hermite quadrature points 21 Optimization Convergence 0 max grad 0 0067 quasi Newton BFGS o OO OO OO OO OO CO 0834 0735 0664 0825 0618 0553 0556 0563 0722 0891 0563 z vals 20 1692 18 6102 16 0923 20 0671 13 1711 1 5894 3 2098 5 8675 18 1333 20 6517 28 9460 R
91. 8 33 29 0C 28 5 0 09 0 79 0 83 34 6 0 8 9 0 98 0 10 0 89 41 14 0 10 1 1 23 0 54 0 822 42 6 0 6 6 0 24 0 85 0 81 43 11 0 11 4 0 13 1 24 0 86 44 5 4 2 1 Grafiken MULTILOG verwendet dasselbe Interface das auch bei BILOG zum Einsatz kommt d h man kann wieder verschiedene Plottypen ber ein Men ausw hlen In Abbildung 5 9 sieht man beispielsweise einen Matrixplot beider Items mit den entsprechenden Category Characteristic Curves Nat rlich kann man auch anhand der gesch tzten Daten mit anderen Programmen R Stata SPSS etc geeignete Grafiken erzeugen In Abbildung 5 10 sind beispielsweise die erwarteten H ufigkeiten der jeweiligen EAP Sch tzer und die entsprechenden Antwortmuster beider Items aufgetragen wo 5 BILOG MG und MULTILOG 93 File Edit Graphs Options Help Matrix Plot of Item Characteristic Curves Sequence of Plots Items are numbered from left to right Item 1 is in the top left corner High Category marked red Zoom in or out Click and drag the right mouse button to mark a region for zooming Double click right mouse button to reset View more items The maximum number of plots is 100 Ifthe number of items exceeds 100 click the Next button to view the next set Abb 5 9 Matrix Plot der ICC durch man einerseits die Verteilung der Fahigkeitsparameter kennt und andererseits sieht welche Antwortmuster wo am Kontinuum liegen
92. 94b Folglich soll nur die Personenf higkeit die Wahrscheinlichkeit der L sung eines Items bzw die Korrelation zwischen Items bestimmen und keine anderen Faktoren darauf Einfluss nehmen Aufgrund dieser Eigenschaft werden Rasch Modelle auch als Latent Trait Modelle bezeichnet und von Item Response Modellen abgegrenzt B hner 2006 Generell besch ftigen sich Rasch Modelle damit Ma e f r jeden Probanden zu bekommen die frei von Verzerrungen sind Das analytische Ziel ist die Transformation der einzelnen nicht linearen Rohwerte in lineare Ma e korrigiert um Verzerrungen Au erdem wird in probablistischen Modellen f r jedes Ma eine lokale Sch tzfehlervarianz berechnet die am geringsten ist wenn sehr viele Items verwendet werden und Item und Personenparameter identisch sind Linacre 1993 Um das Ziel zu erreichen wird eine probabilistische Beziehung zwischen der F higkeit einer Person und der Antwort auf ein Item angenommen Dabei muss auch die M glichkeit ber cksichtigt werden dass unf higere Personen schwerere Items und f higere leichtere Items l sen k nnen wenn auch die Wahrscheinlich keit nicht sehr hoch ist Um die Wahrscheinlichkeit zwischen null und eins zu berechnen bedient man sich der logistischen Funktion welcher im Kontext der IRT auch als Item Characteristic Curve ICC bezeichnet wird bzw bei mehr als zwei Antwortkategorien als Category Characteristics Curve CCC So wird f r jedes Item losgel st von der Schw
93. ACETS vorgestellt wobei speziell f r Anwender der Software relevante Aspek te diskutiert werden Um theoretische Erl uterungen auf eine praktische Ebene zu bringen wird schlie lich ein Beispiel Datensatz einer Marketing Pr fung exemplarisch angewendet Die Verwen dung der Software bzw die Modellspezifikation wird so Schritt f r Schritt durchgespielt und die Herangehensweise an die Interpretation der Ergebnisse wird erl utet 3 2 Rasch Modell Grundlagen Ziel einer Rasch Analyse ist die Konstruktion von generalisierbaren linearen Ma en von denen man den Standardfehler Reliability und den Fit Validit t kennt Lineare Ma e implizieren dass ein Rating von zwei den gleichen Abstand zu drei hat wie ein Rating von drei zu vier Das Vorhanden sein dieser Struktur einer Ratingskala kann nur durch eine berpr fung mittels empirischer Daten festgestellt werden Linacre 1994b Rasch Modelle betrachten Antwortmuster wobei angenommen wird dass die Antwortverteilung von den Eigenschaftsauspr gungen abh ngt von Davier 1997 Die Methode um verschiedene Parameter zu kombinieren ist additiv Diese Form der Kombination ist m g lich weil bei Geltung des Rasch Modells Eindimensionalit t vorherrscht d h die Items voneinander unabh ngig sind Demnach sind Antworten die Beobachtungen einer einzigen latenten Variable Bejar 1983 Dies impliziert dass Parameter anhand einer gemeinsamen linearen Skala ausgedr ckt werden k nnen Linacre 19
94. Befehl Rating Scale erzeugt werden Bevor die Daten an FACETS bergeben werden k nnen m ssen noch die einzelnen Facetten spezifi ziert werden Wie die gesamte Labels Spezifikation durchg ngig eingegeben wird ist in Abbildung 3 4 ersichtlich Hier wird die Spezifikation jeder einzelnen Facette einzeln erkl rt Labels 1 Auswertungsschema 1 Alles oder Nichts 2 Teilpunkte 50 Margit Kastner Amata Ring und Brigitte Stangl Zuerst wird festgelegt dass die erste Facette Auswertungsschema hei t Weiters bedeutet in den Daten eine 1 dass diese Daten dem Auswertungsschema Alles oder Nichts zuzuordnen sind 2 bedeutet Teilpunkte Mit wird die Beschriftung der ersten Facette abgeschlossen 2 Studenten 1 1118 Facette zwei sind Studenten denen zur Anonymisierung der Daten die Nummern 1 1118 zugewiesen wurden 3 Fragen 1 Branchenattraktivit t 2 Einkaufslabor 31 2 Marktdurchdringung Die dritte Facette sind die Fragen Hier wird jeder Fragennummer auch ein Name zugeteilt F r die vollst ndige Bezeichnung der Fragen siehe Abbildung 3 8 FACETS hat nun alle notwendigen Informationen erhalten wie das Modell gesch tzt werden soll es fehlen also nur noch die Daten Daten k nnen direkt in der Spezifikationsdatei eingetragen oder aus einer externen Datei geladen werden Unterst tzt werden txt xls x rda ta sdata sav und dta Dateien Die Daten m ssen mit den vorher spez
95. EL INFIT OUTFIT PT MEASURE EXACT MATCH NUMBER SCORE COUNT MEASURE S E MNSQ ZSTDIMNSQ ZSTDICORR EXP OBS EXP ITEM G 4 4 4 4 4 4 1413 709 03 06 1 54 8 6 1 58 8 9 75 83 40 3 51 9 ITEM4 O 3 1217 709 63 06 82 3 4 83 3 3 85 83 64 2 54 6 ITEM3 O 1 1428 709 08 06 85 2 9 85 2 9 86 83 61 6 54 0 ITEM1 O 2 1564 709 51 06 75 5 0 74 5 1 87 83 62 6 53 5 ITEM2 O 4 4 4 4 4 MEAN 1405 5 709 0 00 06 99 711 00 6 57 2 53 5 S D 123 7 0 41 00 32 5 4 34 5 5 9 8 1 01 ENTRY DATA SCORE DATA AVERAGE S E OUTF PTMEAI NUMBER CODE VALUE COUNT MEASURE MEAN MNSQ CORR ITEM 4 4 4 0 0 123 17 3 05 17 1 8 57 ITEMA 1 1 122 17 1 12 13 1 8 19 2 2 191 27 27 09 1 3 03 3 3 183 26 1 13 11 1 6 32 4 4 90 13 2 77 19 1 4 48 3 0 0 127 18 3 40 14 8 65 ITEM3 1 1 179 25 1 02 07 8 22 2 2 214 30 26 07 8 12 3 3 146 21 1 93 09 8 45 4 4 43 6l 3 94 25 1 1 44 8 16 Stefan Angel und Richard M hlmann Im Men punkt C Category Function wird f r jedes Item der Skala gepr ft ob die durchsch
96. IRT Software berblick und Anwendungen Marco Maier Reinhold Hatzinger Eds Institute for Statistics and Mathematics WU Wirtschaftsuniversitat Wien Research Report Series Report 103 October 2010 http statmath wu ac at WIRTSCHAFTS UNIVERSITAT I EFMD EQUIS ACCREDITED Vorwort Diese Publikation wurde im Rahmen des Seminars Psychometric Methods erstellt Dabei handelt es sich um eine Lehrveranstaltung die jedes Semester am Institut f r Statistik und Mathematik der Wirtschaftsuniversit t Wien mit wechselnden thematischen Schwerpunkten abgehalten wird Im Wintersemester 2009 2010 lag der Fokus auf der Anwendung von Item Response Software Zur Anwendung psychometrischer Methoden steht eine Vielzahl von Programmen zur Verf gung die jeweils unterschiedliche Verfahren und Modelle anbieten In diesem Seminar ging es im Wesentli chen darum einen berblick ber die vorhandene Software zu bekommen sowie die St rken und Schw chen der einzelnen Programme herauszuarbeiten Weiters sollten die Teilnehmer in die Lage versetzt werden verschiedene psychometrische Modelle bei unterschiedlichen Problemstellungen praktisch anzuwenden Im Rahmen des Seminars wurden von verschiedenen Teilnehmergruppen jeweils ein bestimmtes Programm vorgestellt Einerseits wurden die theoretischen Hintergr nde und Modelle aufbereitetet und andererseits die jeweiligen Programme mittels Live
97. M 8 3 Function grm provides the option to fit two versions of 8 3 namely the constrained GRM in which a a a and the unconstrained GRM in which we assume a different discrimination parameter per item These are fitted with the following syntax R gt fit grmi lt grm Environment constrained TRUE Hessian TRUE R gt fit grm2 lt grm Environment Hessian TRUE R gt summary fit grm2 Call grm data Environment Hessian TRUE Model Summary log Lik AIC BIC 1090 404 2216 807 2282 927 152 Coefficients LeadPetrol value std err z vals Extrmt1 0 487 0 122 3 988 Extrmt2 2 584 699 0 957 Dscrmn 1 378 0 212 6 514 N RiverSea value std err z vals Extrmti 1 058 0 120 8 801 Extrmt2 2 499 23 516 0 106 Dscrmn 2 341 0 393 5 950 RadioWaste value std err z vals Extrmt1 0 779 0 092 8 446 Extrmt2 1 793 13 553 0 132 Dscrmn 3 123 0 516 6 053 AirPollution value std err z vals Extrmti 0 457 0 085 5 399 Extrmt2 2 157 55 375 0 039 Dscrmn 3 283 0 575 5 710 Chemicals value std err z vals Extrmt1 0 809 0 094 8 592 Extrmt2 1 868 12 791 0 146 Dscrmn 2 947 0 485 6 077 Nuclear value std err z vals Extrmt1 0 073 0 101 0 716 Extrmt2 1 427 736 1 939 Dscrmn 1 761 0 248 7 102 o Integration method Gauss Hermite quadrature points 21 Optimization Convergence 0 max grad 0 0030 quasi Newton BFGS Dimitris Rizopoulos As with the GPCM the margins O function can be used to test
98. Model Location Unit Skewness and Kurtosis Equal Kurtosis C Person ltem Distribution Full Model Location Unit and Skewness TEE Threshold Map Full Model Location and Unit C Equal Unit N Equating Tests Indept ttests Full Mode Location only C Conditional Test of fit C Residual Statistics Distribn IV Use Class Intervals compiled on Individual Item Basis r Sample Adjustments for Test of Fit statistics S AN SE Current Fit Estimates using ei Create Adjusted Chi Squ Gicinal S mond Set a 124 Accept New Size n Se a Recover Original Chi Squ Sample Size lt Main Menu Display Thresholdparameter nicht direkt sondern modelliert die Verteilungsmomente der Thresholds pro Item 9 6 2 Fittests Eine zentrale Ausgabeeinheit betrifft die Fittests Die Summary Fit Statistics liefern eine bersicht ber die Fitstatistiken ber alle Items bzw ber alle Personen sowie betreffend die Interaktion der Items und der Personen Bei letzterem handelt es sich um ein totales Chi Quadrat welches die Fitstatitiken der einzelnen Items aggregiert Bei dieser Gesamtfitstatistik ist dementsprechend ein nicht signifikantes Chi Quadrat w nschenswert F r die Items wird neben dem Mittelwert der Itemparameter welcher mit Ausnahme von An keranalysen stets o ist auch deren Standardabweichung angegeben Aus dieser wird ersichtlich ob die Items auch einen entsprechend gro en Bereich de
99. Modells Show Das Zeichen weist darauf hin dass die Ergebnisse in der Datei ex1 shw zusammengefasst werden sollen Verzichtet man auf diesen Befehl dann erscheinen die Ergebnisse direkt im Output Fenster Itanal Wie bei Show werden auch hier die Ergebnisse in eine externe Datei exportiert ex1 itn Dieser File zeigt die Ergebnisse der tratitionellen Item Analyse Ploticc erstellt eine Graphik pro Item die die modellierten und empirischen Item Charakteristikkurven vergleicht 122 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch E Ex1 lab Editor Datei Bearbeiten Format Ansicht ks item 1 BESMMAOL 2 BSMMAQ2 3 BSMMAOS 4 BSMMAO4 5 BSMMAOS 5 ESMMAOQG 7 BSMSAQT 8 BSMSAQ0S 5 BSMSAQO 10 ESMSALO 11 ESMSALL 12 BSMSAT2 Ku Di Abb 7 2 Ausschnitt aus der Datei ex lab Plot mec erstellt eine Graphik pro Item die einerseits die modellierten und empirischen Item Charakteristikkurven vergleicht richtige Antworten andererseits das Verhalten von Distractors falsche Antworten darstellt Die Reihenfolge der Befehlszeilen ist nicht fixiert es bestehen allerdings logische Beschr nkungen Show kann zum Beispiel nicht vor Estimate stehen und die Befehle Model Format oder Datafile m ssen noch vor Estimate definiert werden Durch den Befehl Run wird die Modellanalyse begon nen Im Output Fenster erscheinen die nderungen durch den Sch tzvorgang Die Abbildung 7 3 zeigt zum Beispiel die nde
100. Performance F higkeiten Level eines Probanden zusammen und flie en in weiterer Folge in zu treffende Entscheidungen mit ein Ein Problem das sich dabei ergibt ist dass die Rohwerte verzerrt sind Verzerrungen ergeben sich etwa durch die Strenge des Beurteilers die Schwierigkeit einer Frage eines Items oder die Proband Beurteiler Item Interaktion Ziel ist es die nicht linearen Rohwerte eines Probanden in ein lineares Ma umzuwandeln korrigiert um Verzerrungen damit einzig die Personenf higkeit die L sungswahrscheinlichkeit einer Frage beeinflusst Linacre 1993 In diesem Zusammenhang ist die Arbeit des d nischen Mathematikers Georg Rasch 1960 1980 richtungsweisend Die Ans tze von Rasch haben gro en Einfluss darauf wie Forscher an die Messung von indirekt beobachtbaren Variablen herangehen Messtheoretisch z hlen Rasch Modelle nicht zur klassischen Testtheorie sondern zur probabilistischen Der Unterschied liegt darin dass in der klassi schen Testtheorie der Summenwert der den Messwert eines Probanden darstellt intervallskaliert ist Bei probabilistischen Modellen sind auch bei G ltigkeit des Rasch Modells Summenwerte nur ordinal skaliert Demnach findet eine berpr fung statt ob einzelne Items als Ma der F higkeit einer Person zusammengefasst werden d rfen Mittels probabilistischen Messmodellen k nnen bei Kenntnis der Itemschwierigkeit und der Personenf higkeit Verhaltensvorhersagen getroffen werden d h es kann die Wah
101. Person zur zweiten Klasse betr gt 89 die Wahrscheinlichkeit einer Falschzuordnung zu dieser Klasse aufgrund des Antwortmusters einer Person betr gt hier 11 Diese Werte sind grunds tzlich als gut 4 WinMiRa 2001 69 statistics of expected class membership exp mean class size prob 1 2 oe os ee I 1 0 500 0 966 0 966 0 034 2 0 500 0 890 0 1101 0 890 Goodness of fit statistics estimated saturated model model Log Likelihood i 850 55 830 39 Number of parameters 11 31 geom mean likelihood 0 56720616 0 57487927 Information Criteria AIC Index i 1723 10 1722 79 BIC Index 1763 84 1837 60 CAIC Index f 1774 84 1868 60 Power Divergence GoF statistics emp value chi square p value Cressie Read S 38 63 p 0 0074 Pearson Chisquare 38 71 p 0 0072 Likelihood ratio 5 40 31 p 0 0046 Freeman Tukey Chi 2 45 60 p 0 0009 Degrees of freedom 20 Abb 4 11 Fit Statistiken KFT dat einzustufen B hner 2006 S 381 Die angef hrten Fit Statistiken sind im Rahmen dieser Analyse nicht interpretierbar aber f r Modellvergleiche relevant B hner 2006 S 381 Die Ergebnisse der Latent Class Analyse k nnen auch in graphischer Form ausgegeben werden Der Category Probability Plot Abb 4 12 zeigt etwa die Antwortwahrscheinlichkeiten auf die jeweiligen Fragen getrennt nach der latenten Klasse H Category Probability Plot ER category Probability Plot 3 S aj lr mats o3 B
102. Pr sentationen von Datenanalysen vorge f hrt Dadurch bekamen alle Beteiligten einen Einblick welche Modelle in den unterschiedlichen Softwarepaketen umgesetzt sind wie man sie anwenden und interpretieren kann und auch wie man praktisch mit ihnen umgeht Damit die gewonnenen Erfahrungen auch f r andere nutzbar werden haben wir die Gruppen beitr ge gesammelt herausgegeben Die einzelnen Kapitel sollen jeweils eine Br cke zwischen den theoretisch technischen Aspekten und anwendungsorientierten praktischen Aspekten der einzelnen Progamme schlagen Wichtig war uns auch die Auswahl der vorgestellten Softwarepakete wobei sich der Bogen von etablierten und weitverbreiteten Programmen z B BILOG oder MULTILOG bis zu eher selten verwendenten Programmen bspw GGUM oder ScoRight spannt Ohne Anspruch auf Vollst ndigkeit hoffen wir mit diesem Buch einen Einblick in die wichtigsten Softwarepakete zu geben wobei wir auf eine verst ndliche Erkl rung theoretischer Hintergr nde und m glichst interessante Anwendungsbeispiele gro en Wert legten Unser Ziel war es interessierten Anwenderinnen und Anwendern eine kleine Landkarte durch den Dschungel verf gbarer IRT Software bereitzustellen die zur weiteren Vertiefung anregen soll Unser Dank gilt den Teilnehmerinnen und Teilnehmern des Seminars die ihre Beitr ge mit viel Engagement und Durchhalteverm gen f r nicht wenige war dieser Artikel die erste Begegnung mit LaTeX verfasst und berar
103. Rizopoulos und Moustaki 2008 have proposed a Multiple Imputation like approach in which the uncertainty about the true parameter values is explicitly acknowledged 8 2 IRT Analysis for Dichotomous Data To illustrate the capabilities of the R package 1tm for IRT analysis of dichotomous items we will present a sample analysis for the Sexual Attitudes data set This data set is extracted from the 1990 British Social Attitudes Survey and concerns contemporary sexual attitudes The questions addressed to 1077 individuals were as follows Should divorce be easier Do you support the law against sexual discrimination View on pre marital sex wrong not wrong View on sexual relationship between individuals of the same sex wrong not wrong Should gays teach in school 1 2 3 4 View on extra marital sex wrong not wrong 5 6 7 Should gays teach in higher education 134 Dimitris Rizopoulos 8 Should gays hold public positions 9 Should a female homosexual couple be allowed to adopt children 10 Should a male homosexual couple be allowed to adopt children More information regarding this study can be found at http www britsocat com A copy of the data set that we are going to use here for our illustrations can be downloaded from the following website we directly import the data in Rusing read table R gt SexAtt lt read table http eur academia edu documents 0009 0840 sexualat dat R gt names SexAtt lt
104. Starting column of item responses NI 17 Number of items NAME1 19 Starting column for person label in data record NAMLEN 4 Length of person label XWIDE 1 Matches the widest data value observed CODES 01 matches the data TOTALSCORE Yes Include extreme responses in reported scores Person Label variables columns in label columns in line ID 1E3 C19W3 amp END Item labels follow columns in label ADL1 Item 1 1 1 ADL17 Item 17 17 17 END NAMES 11111111111111111 1 01001011001111101 2 00000011101111111 3 Es Das Datenfile gibt den Pfad der eingelesenen Excel Datei die Zeit der Erstellung die Fallzahl die Zahl der eingelesenen Variablen deren Position Spaltenbreite und Spezifikation Datenspalten Namensspalte sowie eine Beschreibung der Items an Schlussendlich bilden die analysierten Daten das Ende des Files Im Fall des IJADL Index muss der Modelltyp nicht n her spezifiziert werden da die dichotomen Daten ohnehin nur das Standardmodell zulassen Im Fall des Zarit Burden Index erstellt Winsteps die Kontrollvariable GROUPS da die Da ten mehrere Modellspezifikationen zulassen Winsteps schl gt hier das Partial Credits Modell vor GROUPS o 14 Stefan Angel und Richard M hlmann Abb 1 5 Kontrollvarialben f r Zarit Burden Index amp INST Title C E Zarit sav SPSS file created or last modified tt mm yyyy hh mm ss SPSS Cases processed 709 SPSS Variables processed 5 ITEM1 1
105. T5 13A1 Spezifikation der Datei in FORTRAN Syntax gt CALIB NQPt 30 30 Punkte fiir die Gau quadratur ACCel 1 0000 CHIsquare 13 9 gt SCORE METhod 1 Mit Run und Stats Calibration and Scoring gibt man die Anweisung gem der Syntax alle drei Phasen zu durchlaufen worauf sich drei DOS Fenster ffnen und die eigentlichen Berechnungen ausf hren Ist die Analyse erfolgreich verlaufen ffnet sich ein kleiner Dialog als Best tigung Nun kann man die Outputdateien aller drei Phasen ansehen die jeweiligen Dateien haben die Endungen phi ph2 und ph3 und Plots anfordern 86 Marco J Maier und Konradin Maier 5 4 1 2 Outputdateien Im Output der ersten Phase findet man allgemeine Informationen zu den Daten und Einstellungen Anzahl der Items Labels Gruppenspezifikationen etc sowie Itemstatistiken die folgenderma en aussehen ITEM STATISTICS FOR MULTIPLE GROUPS LOGIKTST ITEM TEST CORRELATION ITEM NAME TRIED RIGHT PCT LOGIT PEARSON BISERIAL 1 ITEM0001 204 0 88 0 0 431 0 28 0 325 0 409 2 ITEM0002 204 0 85 0 0 417 0 34 0 273 0 345 3 ITEMOOOS3 204 0 57 0 0 279 0 95 0 120 0 161 4 ITEMOO04 204 0 68 0 0 333 0 69 0 353 0 457 5 ITEMOO05 204 0 104 0 0 510 0 04 0 364 0 457 6 ITEMOOOT7 204 0 35 0 0 172 1 57 0 103 0 153 7 ITEMOOO08 204 0 92 0 0 451 0 20 0 381 0 478 8 ITEMOOO09 204 0 69 0 0 338 0 67 0 187 0 241 9 ITEMOO10 204 0 95 0 0 466 0 14 0 334 0 419 10 ITEMOO11 204 0 58 0 0 284 0 92 0 077 0 102 11 ITEM0012 204 0
106. Unfolding Models bzw des Programms GGUM 2004 an sich zu erw hnen sind als zus tzliche Erl uterung eingef gt 10 2 1 Spezifikation einer Sch tzung Zur Festlegung diverser Sch tzparameter kann entweder eine schlicht gestaltete Windows Oberfl che verwendet werden oder man liest ein zuvor erstelltes Command File ein In diesem werden alle ben tigten Parameterwerte einem speziellen Schema folgend untereinander in einer Textdatei zusammengestellt und dann einmalig eingelesen siehe dazu Abb 10 3 Die folgende Auflistung f hrt diesbez glich jene Parameter an die vor der Sch tzung spezifiziert werden m ssen Die jeweilige Ordnungsnummer entspricht der Reihenfolge in der die jeweiligen Parameterwerte ggf auch in einem Command File angegeben werden m ssen 1 Auswahl des zu sch tzenden Modells Das Programm GGUM 2004 ist in der Lage 8 verschiedene Modelle zu sch tzen wobei Nummer 8 GGUM das allgemeinste Modell darstellt Die brigen Modelle bis 7 stellen jeweils in unterschiedlicher Weise restringierte Versionen des GGUM dar Modell Constant Unit Version des Generalized Graded Unfolding Model GGUM In der Constant Unit Version werden die Diskriminationsparameter a ber alle Items 10 GGUM2004 Generalized Graded Unfolding Models 175 8 ESTIMATE PARAMETERS OF MODEL 8 N CONSTRAINTS ARE NOT USED N DO NOT CHANGE THE SIGN OF INITIAL PARAMETER ESTIMATES 30 NUMBER OF QUADRATURE POINTS K Doktoratsstudium WS 09_10 Psychom
107. a design matrix W following Equation 6 4 with specific weight elements uj gt data lltmdat2 gt W lt matrix c 1 2 1 3 2 2 2 1 1 1 ncol 2 gt res lltm lt LLTM 1ltmdat2 W gt summary res 1l1tm Results of LLTM estimation Call LLTM X lltmdat2 W W Conditional log likelihood 31 65225 Number of iterations 7 Number of parameters 2 Basic Parameters eta with 0 95 CI Estimate Std Error lower CI upper CI eta 1 0 098 0 313 0 711 0 516 eta 2 0 114 0 478 0 823 1 051 Item Easiness Parameters beta with 0 95 CI Estimate Std Error lower CI upper CI beta I1 0 130 1 098 2 022 2 283 beta I2 0 033 1 302 2 519 2 584 beta I3 0 016 0 651 1 259 1 292 beta I4 0 179 1 184 2 500 2 141 beta I5 0 081 0 903 1 850 1 688 The summary O method provides point estimates and standard errors for the basic parameters and for the resulting item parameters Note that item parameters in eRm are always estimated as easiness parameters according to equations 6 1 and 6 2 but not 6 3 If the sign is switched the user gets difficulty parameters the standard errors remain the same of course However all plotting functions plotGOF plotICC plotjointICC and plotPImap as well as the function thresholds display the difficulty parameters The same applies for the basic parameters y in the output of the RM RSM and PCM 6 5 4 Example 3 RSM and PCM Again we provide an artificial data set now with n
108. aber in den meisten F llen doch zu unzureichendem Fit f hren 168 Thomas Salzberger Abb 9 10 Threshold Probability Kurven mit tats chlichen Antworth ufigkeiten f r die Threshold zwischen Kategorie 3 und A Threshold Probability Curves c19_1 good feeling Locn 0 528 Spread 0 062 SampleN 124 1 0 lt 7 oo cor e E 3 2 4 1 2 3 Person Location logits Der wichtigste Grund f r eine falsche Ordnung der Thresholds liegt in der unzureichenden Dis kriminanz einer Grenze zwischen zwei aufeinander folgenden Antwortkategorien RUMM bietet diesbez glich eine grafische Darstellung der Threshold Probability Kurven siehe Abbildung 10 an F r jede Kategoriengrenze wird eine ICC wie im dichotomen Fall angezeigt Zus tzlich lassen sich die tats chlichen Antworth ufigkeiten der Personen die eine dieser beiden Kategorien gew hlt haben darstellen So lassen sich sehr leicht dysfunktionale Kategorien identifizieren In Abbildung 10 diskri miniert die Threshold zwischen den Kategorien 3 und 4 nicht Durch nachtr gliches Rescoring im Rahmen einer neuen Analyse lassen sich ungeordnete Thresholds in der Regel beheben wenn gleich das ge nderte Scoringformat durch neue Daten berpr ft werden sollte Ungeordnete Thresholds treten fast zwangsl ufig auf wenn zu viele Kategorien angeboten werden Die Personen k nnen in diesem Fall zwischen den angebotenen Responseoptionen nicht mehr ad quat differenzieren Ein weiterer Grund sind unsc
109. ads to overparameterization and the group effect cannot be estimated by using CML Table 6 2 gives an example for a repeated measurement design where the effect of a treatment is to be evaluated by comparing item difficulties regarding a control and a treatment group The number of virtual parameters is doubled compared to the model matrix given in Table 6 1 H Mo rte tes Time 1 Group 1 DN 1000 o o x Group Al UI 0 0 oi o o Time 2 Group 1 f 1000 1 0 Group2 0 0 of 1 1 Tabelle 6 2 Design matrix for a repeated measurements design with treatment and control group Again is the parameter that refers to the time contrast and nr is a group effect within measurement point 2 More examples are given in Section 6 5 and further explanations can be found in Fischer 1995b Fischer und Ponocny 1994 and in the software manual for the LPCM Win program by Fischer und Ponocny Seliger 1998 By introducing the concept of virtual persons eRm allows for the computation of the linear logistic test model with relaxed assumptions LLRA Fischer 1977 Corresponding explanations will be given in a subsequent version of this vignette 100 Patrick Mair und Reinhold Hatzinger 6 3 Estimation of item and person parameters 6 3 1 CML for item parameter estimation The main idea behind the CML estimation is that the person s raw score r 5 xy is a sufficient 1 1 statistic Thus by conditioning the li
110. aften von dichotomen Items ist die einfachste Anwendung von ConQuest Dieses erste Beispiel zeigt wie ConQuest verwendet werden kann um das Raschs einfache logistische Modell an die Daten anzupassen die mit Hilfe eines Multiple Choice Tests gesammelt wurden Dabei generiert ConQuest auch eine Reihe von traditionellen Test Item Statistiken In diesem Beispiel werden die folgenden Dateien verwendet exi cqc Befehle ex dat Daten ex lab Variable Beschriftung label f r die Items ex shw Ergebnisse der Rasch Analyse ex itn Ergebnisse der traditionellen Item Analyse 7 ACER ConQuest Generalised Item Response Modelling Software 121 Die verwendeten Daten stammen aus einem Multiple Choice Test mit 12 Items der von 1 000 Studie renden ausgef llt wurde Die Daten wurden in der Datei ex dat erfasst Die Zeilen repr sentieren die Studierenden Die ersten 5 Spalten beinhalten das Identifikationskennzeichen der Studierenden die n chsten 7 Spalten sind leer und in den Spalten 12 bis 23 befinden sich die Antworten der Studierenden zu den Fragen des Multiple Choice Tests Nicht beantwortete Fragen wurden mit M erfasst Die Abbildung 7 1 zeigt einen Ausschnitt aus der Datei ex1 dat Nach Starten von ConQuest ffnet sich automatisch ein Input Fenster Hier sollen die Befehle E ex1 dat Editor Jl Datei Bearbeiten Format Ansicht 12135 accdbcebdacc al 11792 ddadeedbbacd 400L6 acdabaeadacd 655 acdcccechaca 31140 eccdbcebbach
111. alysis model assumes that the x s are continuous random variables following a Normal distribution with g being the identity link In this document we primarily focus on IRT models and consider mainly dichotomous and polytomous items in which E x z expresses the probability of endorsing one of the possible response categories In the IRT framework usually a single latent variable is assumed to capture the interrelationships between the manifest variables however several extensions have been proposed that consider multidimensional and or hierarchical latent variable designs Doran et al 2007 Fox 2007 8 1 1 IRT Models for Dichotomous Data The basic ingredient of the IRT modelling for dichotomous data is the model for the probability of positive or correct response in each item given the ability level z A general model for this probability for the mth examinee in the ith item is the following Pr Xim 1 Zm c 1 ci glai zm Bi 8 2 Urspr nglich erschienen in Rizopoulos 2006 Erasmus University Medical Center Department of Biostatistics e d rizopoulos erasmusmc nl 131 132 Dimitris Rizopoulos where x is the dichotomous manifest variable z denotes the examinee s level on the latent scale c is the guessing parameter a the discrimination parameter and f the difficulty parameter The guessing parameter expresses the probability an examinee with very low ability to respond correctly to an item
112. ametereinstellungen optional ndern diverser Parameter im Output Bericht lt Job Definition gt lt Output Options gt optional Einstellungen zum Bootstrap Test lt Job Definitions gt lt Bootstrap Options gt Berechnung starten Start Start Job bzw F9 ein Outputfile wird ausgegeben diverse Grafiken anzeigen Graphs Hier ist das Anzeigen diverser Grafiken Category Probability Plot F5 Abbildung 4 7 Item Parameter Plot F6 Abbildung 4 8 und Person Parameter Plot F7 Abbildung 4 6 Das Outputfile ist ein ASCII Textfile und enth lt diverse Summaries Eine genaue Erkl rung der Zusammensetzung und der Interpretation des Outputfiles findet sich unter Punkt 4 3 66 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel BER Class H 4 Hal Je T ines M marks m category0 m category m category category 3 Category Probabilities in Class 1 with size 1 00000 03 02 i 1 2 3 4 5 tem Abb 4 7 Category Probability Plot Datensatz Esu dat Hl Item Parameters Plot lolx Class a 4 p Imi JM lines W marks W threshold 1 threshold 2 threshold 3 Item Parameters in Class 1 with size 1 00000 4 Abb 4 8 Item Parameters Plot Datensatz Esu dat 4 3 Beispiele 4 3 1 Latent Class Analyse mit dichotomen Daten Das Ziel der Latent Class Analyse ist es das Vorliegen einer kategorialen latenten Personenvariable aufgrund wahrscheinlicher Antwortmuster der Befragten nachzuweis
113. amm bietet jedoch eine gute M glichkeit um Verletzungen der lokalen stochastischen Unabh ngigkeiten in Testdesigns zu entdecken was in anderen Softwarepaketen nicht m glich ist Kapitel 3 FACETS Rasch Software illustriert am Beispiel von Multiple Choice Tests in Marketing Margit Kastner Amata Ring und Brigitte Stangl Zusammenfassung Dieser Artikel soll in das Arbeiten mit der Software FACETS einf hren und Beginnern bei den ersten Schritten der Verwendung dieses Rasch Analyse Programms begleiten Dazu ist der Beitrag m glichst praxisnah geschrieben und theoretische Erl uterungen fallen eher kurz aus Nach einem kurzen theoretischen berblick ber die Grundlagen des Multifacetten Rasch Modells liegt der Fokus auf der Durchf hrung eines realen Beispiels um die Funktionsweise des Programms zu demonstrieren Das Beispiel verwendet Daten einer Marketingpr fung der WU Wien und zeigt exemplarisch die Sch tzung eines polytomen Rasch Modells mit drei Facetten Studenten Fragen Auswertungsschemen Es wird gezeigt wie die Sch tzung mit dem Programm FACETS durchgef hrt wird was f r Spezifikationen das Programm erlaubt und wie die Ergebnisse interpretiert werden k nnen 3 1 Einleitung Bei der Erhebung von indirekt beobachtbaren Variablen wird die Evaluierung einer befragten Person als numerische Gr e auf einer Beurteilungsskala ausgedr ckt Die numerischen Werte welche auch als Rohwerte raw scores bezeichnet werden fassen dann den
114. ammengefasst Der Outfit ist eine x Statistik dividiert durch ihre Freiheitsgrade dabei wird die Summe der standardisierten quadrierten Fehler herangezogen Der Infit vergleicht die Summe der quadrierten Rating Fehler mit den erwarteten Werten Rasch 1960 1980 Outfit Werte reagieren sensibel auf Ausrei er und haben daher in Sachen Konsistenzfragen weniger Gewicht als Infit Werte Werte deutlich gr er als eins zeigen dass die 1 m Unterschied zu Item Response Modellen ist die Steigung bei Rasch Modellen bei allen Items auf 1 fixiert Erst Birnbaums Zwei Parameter Logistisches Modell 2PLM bringt einen Diskriminationsparameter ins Spiel der die Steigung modelliert Das 3PLM f gt dem noch den Rateparameter hinzu 42 Margit Kastner Amata Ring und Brigitte Stangl Daten durch das Modell nicht gut prognostiziert werden k nnen Der Outfit und Infit kann Werte im Bereich zwischen o und co annehmen der Erwartungswert liegt bei beiden bei 1 Akzeptable Werte befinden sich zwischen os und 1 5 Linacre und Wright 1994 Wright und Masters 1990 In etwa gleiche Logits aber mit unterschiedlichen Standardfehlern wei en auf die Pr zision Reliabilit t der Ma e hin Ein schlechter Fit ist ein Hinweis daf r dass keine Eindimensionalit t vorherrscht Linacre 1994b Die Reliabilit t auch Test Reliabilit t genannt misst die Genauigkeit mit der ein Test die F higkeit einer Person misst Die Reliabilit t ist jener Anteil der Stichprobenvaria
115. ange c 0 4 items c 2 3 5 Call rasch data SexAtt Total Information 4 89 Information in 0 4 1 68 34 35 Based on items 2 3 5 8 IRT Analysis using the 1tm Package 147 8 2 2 3 Estimating Latent Abilities Estimates for the latent variable for each subject can be obtained using function factor scores This function accepts as main argument a fitted IRT model By default ability estimates are returned for all observed response patterns using the maximum aposteriori method as described in Section 8 1 4 For instance for the unconstrained Rasch model we have R gt fsc lt factor scores fit rasch2 R gt fsc Call rasch data SexAtt Scoring Method Empirical Bayes Factor Scores for specified response patterns divorce sexdisc premar exmar gaysex gayscho gayhied gaypubl gayfadop gaymadop 1 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 1 0 3 0 0 0 0 0 0 0 0 1 1 bs Exp zi se zi 1 29 54 342 1 613 0 586 2 1 0 629 1 119 0 523 3 1 0 007 0 702 0 491 If it is desired to produce the ability estimates for specific responses patterns such as for the original data set then this can be specified via the argument resp patterns In addition the default maximum a posteriori method for estimating the latent abilities can changed using the method argument For example we produce the expected a posteriori estimates of the latent variable for the patterns of all positive and all negative responses using the followin
116. anzugeben wenn zuvor festgelegt sowie weitere die Personen charakterisierenden Faktoren typischerweise soziodemografische Merkmale oder Designvariablen bei experimentellen Settings Schlie lich ist anzugeben welche Positionen im File die eigentlichen Responsedaten darstellen Da RUMM eine Zeile des Datenfiles exemplarisch anzeigt k nnen die entsprechenden Positionen sehr einfach mit der Maus markiert werden Es m ssen keine numerischen Positionsangaben gemacht werden Abbildung 9 1 zeigt einen Ausschnitt aus der Datendefinition D101 wurde als Personen ID festgelegt zwei Datenbl cke stellen zehn bzw neun Items umfassende Bl cke dar All diese Angaben k nnen in einem Template File abgespeichert werden sodass bei einer neuerlichen Definition des Datenfiles das Template File herangezogen werden kann und das Projekt so schnell neu erstellt werden kann Abb 9 1 Ausschnitt aus dem Datendefinitionsfenster Data Format Specifying Item Data Format Data Component Type J No Start wiath Jitems Miss Resp Poly zl p ps po 10 bsp x Nut zi 2 temBlock2 Ja vf aps fe El ix F temBoc3 Poy I AH bsp x Numt x 9 RUMM Rasch Unidimensional Measurement Models 161 Die Definition der einzelnen Items Label Typ kategoriell oder multiple choice Anzahl der Kategori en und deren Scoring umgekehrt gepolt oder nicht erfolgt in einem separaten Schritt Abbildung 9 2 zeigt die Spezifizierung des Items itm mit der B
117. ard maximum likelihood estimates Raw score Mean 1 890 Stdev 1 432 Abb 4 15 Final estimates class 1 KFT dat keine einzige richtige Antwort rawscore o geben k nnen 44 der Personen dieser Klassen k nnen erwartungsgem zumindest eine richtige Antwort geben rawscore 1 Auff llig ist dass in dieser Klasse keine Personen erwartet werden die insgesamt vier richtige Antworten geben k nnen rawsco re 4 wohingegen erwartet wird dass 18 der Befragten f nf richtige Antworten geben k nnen rawscore 5 Die Personenparameter f r die Personen in dieser Klasse werden als MLE Wert und als WLE Wert dargestellt Da bei den MLE Sch tzern keine Personenparameter f r die extremsten Summenwerte in diesem Fall f r Personen mit rawscore o und rawscore 5 gesch tzt werden k n nen werden diese estimates f r eine Interpretation der Personenparametern nicht herangezogen F r diesen Zweck k nnten die WLE Sch tzern verwendet werden B hner 2006 S 363 So weist eine der ersten Klasse zugeordnete Person mit keiner richtigen Antwort eine F higkeit von 2 981 auf und ist somit als nicht kognitiv f hig einzustufen Hingegen weist eine Person mit f nf richtigen Ant worten eine pers nliche F higkeit von 2 996 auf und kann somit als f hig im Sinne des kognitiven F higkeitstests eingestuft werden Der WLE estimate mean gibt die durchschnittliche F higkeit der dieser Klasse zugeordneten Personen wieder In diesem Fall li
118. ariables in the person labels Choose the wariables listed below under Other Variables that you want to be Copy and paste those variables under Item Response Variables in the order y Numeric item variables are truncated to integers 7 The sane variables can be placed in both sections and in any order Constant values may be included in the Person and Item variable lists wit Click on Construct Winsteps file when completed Item Response Variables Do not delete this line item variables on left si Person Label Variables Do not delete this line persom variables on left s Other Variables ignored Variable Format Label x j F11 0 Fell j F11 3 Fill s eil Ware number Person entry number KH 0 bj 0 D Winsteps erkennt die Anzahl an Items und die Identifikationsvariable automatisch Die ID Zeile muss unter die rote gef rbte Zeile Person Label Variables eingef gt Cut and Paste werden und die Itemliste unter Item Response Variables Durch einen Klick auf Construct Winsteps file wird auf Basis der hier verwendeten Daten ein Inputfile im txt Format erzeugt das Daten und sog Kontrollvariablen enth lt im Bereich amp Inst bis amp End mittels derer die Analyse im Detail spezifiziert werden kann Mittels k nnen Kommentare in den Code eingef gt werden Beim Import der Daten schl gt Winsteps automatisch einen bestimmten Modelltyp vor der anschli
119. ariance of the variance of the GAMMA for each testlet Estimated Testlet 1 0 6881 Testlet KE 0 6665 S E 0 1834 0 2440 Die Ausgabedatei gamma est beinhaltet die gesch tzten Testletparameter y f r jede Person Da in diesem Beispiel zwei Testlets definiert wurden erh lt man zwei Spalten also eine je Testlet welche die Parametersch tzer f r jede Person enthalten Auch hier werden auszugsweise nur die Ergebnisse der ersten 15 Personen dargestellt 1 5506 0 1397 1 7678 0 2475 6290 0 0382 0 6466 1 1456 1 4698 2879 7793 6577 OD OO JO OG GO H r o Bee NFO oO o 6555 0528 0669 8680 0 9445 8682 2823 8993 2849 1598 4612 0460 2 Scoright 37 13 1 0941 1 0993 14 1 2504 2 3548 15 0 4695 0 4143 Da SCORIGHT die Methode nach Gelman amp Rubin 1992 benutzt erh lt man nur wenn mehr als eine Markov Kette durchlaufen wurde die Datei convergence est welche Informationen zur Konvergenzdiagnose der kompletten Analyse enth lt Wurden in der Analyse Testlets ber cksichtigt so erh lt man zus tzlich noch Informationen zur Konvergenz der Sch tzungen der y F r jeden gesch tzten Parameter gibt es zwei Statistiken zur Beurteilung der Konvergenz postshrink und confshrink Die erste Statistik enth lt die 2 5 50 und 97 596 Quantile der Zieldichte welche auf der Student t Verteilung basiert und die zweite Statistik enth lt die 50 und 97 596 Quantile e
120. as a sane method of dealing with crime is wrong but is necessary in our imperfect civilization Every criminal should be executed has never been effective in in preventing crime pital punishment but I m not sure it isn t necessary al punishment for some crimes f the whipping post would be more effective than capital punishment apital punishment under any circumstances is not necessary in modern civilization We can t call ourselves civilized as long as we have capital punishment Life imprisonment is more effective than capital punishment Execution of criminals is a disgrace to civilized society is just and necessary I do not believe in capital punishment but it is not practically advisable to abolish it is the most hideous practice of our time gives the criminal what he deserves The state cannot teach the sacredness of human life by destroying it difference to me whether we have capital punishment or not is justified only for premeditated murder should be used more often than it is Literaturverzeichnis 183 Literaturverzeichnis Adams R J Doig B A und Rosier M 1991 Science Learning in Victorian Schools Australian Council for Educational Research Hawthorn Victoria Adams R J Wilson M und Wang W C 1997a The multidimensional random coefficients multinomial logit model Applied Psychological Measurement 21 1 1 23 Adams R J Wilson M R und Wu M L 1997b Mu
121. asch models R gt info1 lt plot fit raschi type IIC items R gt R gt R gt 4 R gt R gt R gt plot FALSE info2 lt plot fit rasch2 type IIC items plot FALSE put them in the same plot 0 lwd 2 xlab Attitude 0 lwd 2 xlab Attitude plot range infoi z range infoi info info2 info type n xlab Attitude ylab Information main Test Information Functions lines infoi lwd 2 lines info2 lwd 2 lty 2 legend topleft c Rasch model with discrimination equal to 1 Rasch model lty 1 2 lwd 2 bty n 146 Dimitris Rizopoulos Test Information Functions Rasch model with discrimjnatrof equal to 1 N Rasch model e e c 2 w E N o E eo 4 2 0 2 4 Attitude In order to quantify the information provided by a set of items using a particular IRT model 1tm has the function information that numerically approximates the area under the item or test information curves For instance we can compare the amount of information from items 2 3 and 5 provided in the latent variable range o 4 from the constrained and unconstrained Rasch models R gt information fit raschl range c 0 4 items c 2 3 5 Call rasch data SexAtt constraint cbind ncol SexAtt 1 1 Total Information 3 Information in 0 4 1 01 33 57 Based on items 2 3 5 R gt information fit rasch2 r
122. ating Scale Modelle Partial Credit Modell Glas Verhelst Succes Modelle auch Steps Modelle genannt Linacre Failure mastery Modelle sowie Kombinationen dieser Modelltypen Im dichotomen Rasch Modell wird die Wahrscheinlichkeit dass eine Person v ein bin res Testitem i richtig beantwortet Itemscore x 1 als Funktion der Itemschwierigkeit f und der F higkeit der Person 0 angenommen sodass gilt Pr x 1 f 0 Bi 1 1 Das dichotome Rasch Modell gibt somit die bedingte Erfolgswahrscheinlichkeit einer Person v bei einem Item i wieder gegeben deren Fahigkeitswert und gegeben die Itemschwierigkeit Weiters geht das Rasch Modell von einem logarithmischen Zusammenhang aus sodass gilt BE Pr x l0 Bi 1 2 1 e Bi Rating Scale Modelle stellen eine Erweiterung des dichotomen Rasch Modells dar fiir den Fall dass Items mehr als zwei Antwortkategorien aufweisen z B Likert Skalen Fur jedes Item mit z Kategorien werden z 1 h Schwellenwerte modelliert f r die jeweils ein eigener Schwierigkeitsparameter fin gesch tzt wird Dieser Sch tzer stellt den Schwellenwert dar bei dem eine Person eine 50 50 Chance hat sich f r eine von zwei angrenzenden Kategorien zu entscheiden F r die Beispieldaten in diesem Beitrag soll ein Masters Partial Credit Modell gesch tzt werden das nicht nur polytome Items sondern auch unterschiedliche Schrittweiten zwischen den Antwort kategorien der Items zul sst Mit Hilf
123. auer f r die hier verwendete vergleichsweise geringe Datenmenge lag bei weniger als einer Sekunde Bei gr eren Datens tzen kann sich der verf gbare Batch Modus des Programms als g nstig erweisen Mittels Winsteps k nnen sowohl dichotome als auch polytome Variablen analysiert werden Die Sch tzm glichkeiten der Software sind relativ breit und reichen vom klassischen dichotomen Rasch Modell ber Rating Scale und Partial Credit Modelle bis hin zu Glas Verhelst Steps Modellen und Linacre Failure Modellen f r hierarchische Skalen Der verwendete JMLE Sch tzalogrithums kann allerdings nicht ge ndert werden Winsteps bietet relativ umfangreiche M glichkeiten der grafischen Darstellung f r die Sch tzergeb nisse Sowohl die grafischen als auch die tabellarischen Outputs la en sich problemfrei exportieren was bei letzteren vor allem durch das verwendete txt Format beg nstigt wird Die grafischen User Interfaces sind hilfreich bei der Editierung der Daten F r die Modellspezifikation m ssen alle Einstellungen jedoch berwiegend in den txt Files Input Files vorgenommen werden Manch User wird m glicherweise die Cut and Paste Vorgehensweise beim Datenimport aus anderen Formaten als umst ndlich empfinden insbesondere bei gro en Datens tzen Bezogen auf die ber die Men leiste abrufbaren Outputs l sst sich allerdings eine hohe Redundanz der ausgewiesenen Sch tzergebnisse feststellen Die gro e sich oftmals berschneidende Zahl an t
124. auf das Manual Wu et al 2007 verwiesen Die grunds tzliche Besonderheit ist es f r das ben tigte Modell hier ein PCM model taskst tasks steps f r die zweistufige Modelsch tzung estimate fit no method montecarlo nodes 400 converge 0 01 estimate method montecarlo nodes 2000 converge 0 002 und f r das unbedingte Modell noch regression grade gender ses zu spezifizieren Genauere Erkl rungen finden sich im Manual Die Ergebnisse des unbedingten Modells sind in Abbildung 7 12 zu sehen ConQuest sch tzt zum Einen die Mittelwerte auf den einzelnen Dimensionen zu finden im Abschnitt Regression Coefficients und zum Anderen die Varianz Kovarianzmatrix der f nf latenten Dimensionen Co variance Correlation Matrix Dies deshalb da bei ConQuest die Annahme getroffen wird dass sich die latenten Traits multivariat normal verteilen In unserem Fall bedeutet dies es gibt f nf Mittelwerte f nf Varianzen und zehn Kovarianzen Korrelationen die gesch tzt werden m ssen Der Mittelwerte ist 0 383 f r Force amp Motion 0 905 f r Light amp Sight o 101 f r Matter 0 971 f r die vierte Dimension Earth amp Space und schliesslich 0 587 f r die Multiple Choice Dimension Die marginale Varianz wurde gesch tzt als 0 630 f r Force amp Motion 0 635 f r Light amp Sight 0 656 f r Matter 0 417 f r die vierte Dimension Earth amp Space und schliesslich 1 169 f r die
125. aw another random number p from a uniform distribution in o 1 and perform the transformation according to the following rule 1 if Phi S Pri o if p gt Pri Avi Alternatively the user can specify a fixed cutpoint p p e g p 0 5 and make the decision according to the same rule This option is provided by means of the cutpoint argument Caution is advised when using this deterministic option since this leads likely to ill conditioned data matrices The second scenario in this module regards the violation of the parallel ICC assumption which leads to the two parameter logistic model 2 PL proposed by Birnbaum 1968 exp a 0 B 1 exp a 8 Er P X 1 6 25 114 Patrick Mair und Reinhold Hatzinger The parameter a denotes the item discrimination which for the Rasch model is across all items Thus each item score gets a weight and the raw scores are not sufficient anymore The function for simulating 2 PL data is sim 2p1O and if a is not specified by the user by means of the argument discrim the discrimination parameters are drawn from a log normal distribution The reasons for using this particular kind of distribution are the following In the case of a 1 the ICC are Rasch consistent Concerning the violations it should be possible to achieve deviations in both directions for a gt o If a gt o the ICC is steeper than in the Rasch case and consequently if a lt 1 the ICC is flatter T
126. b n 1 n 1 sowie A T N M me 0 YWr On VYWr ho 0 Y amp y Elxn dOn 7 10 n 1 0 Hierbei ist fai ZE fo 0 W y X hg 0 Y amp y X x 11 BGH n f Ws amp y E 7 11 die marginale Posterior und E 2 0 ia EI A zexp z bOn AE 7 12 zeQ sowie J Onhe Oni Yn amp y ElXn 7 13 On Diese Gleichungssysteme werden in ConQuest mittels EM Algorithmus gel st 7 2 4 Der Aufbau von ACER Conquest ConQuest kann sowohl ber eine eher benutzerfreundliche graphische Oberfl che graphical user interface GUI oder eine einfache daf r aber in den administrierten Berechnungen schnellere Kom mandoplattform console interface CMD bedient werden Beide Versionen laufen unter Windows 98 2000 und XP Generell wird in der GUI Version ein Input Window unterschieden in welchem die Daten eingetragen und die Berechnungen veranlasst werden k nnen und einem Output Win dow in welchem der Fortschritt und die Ergebnisse der Berechnungen angezeigt werden ber eine Men leiste k nnen die einzelnen Befehle mittels drop down Listen aufgerufen werden Eine genaue Beschreibung der Benutzeroberfl che und der zur Verf gung stehenden Befehle kann im Manual von ACER ConQuest nachgelesen werden Wu et al 2007 7 3 Anwendungen 7 3 1 Beispiel 1 Dichotomer Multiple Choice Test Der Multiple Choice Test stellt ein verbreitetes Verfahren zur Pr fung von kognitiven F higkeiten dar Die Analyse der Eigensch
127. bdirectory include the last backslash where you want to put the analysis results and make sure that there is no subdirectory called chi ch2 under it c subdirectory result Nun muss man die Anzahl der Iterationen f r den Sampling Algorithmus festlegen Da die Konver genz von den Daten sowie von den gew hlten Startwerten beeinflusst wird sind zumindest 4000 Iterationen empfehlenswert Enter the number of needed iterations of sampling 4000 2 Scoright 33 Es ist wichtig dass der Sampling Algorithmus konvergiert bevor g ltige statistische Aussagen ber das Modell getroffen werden k nnen In diesem Schritt spezifiziert der Benutzer also die Anzahl der vernachl ssigbaren Ziehungen das sog burn in aus den Iterationen f r inferenzstatistische Zwecke F r das vorliegende Beispiel wurden 3000 nicht zu ber cksichtigende Ziehungen gew hlt Dies bedeutet dass erst die Werte ab der 3001 Zufallsziehung in der Ausgabe aufgezeichnet und alle weiteren Berechnungen auf Grundlage dieser durchgef hrt werden Es ist jedoch ratsam erst die Konvergenz der Markov Ketten zu berpr fen und dann zu entscheiden welches burn in ad quat ist Enter the number of draws to be discarded 3000 Zus tzlich muss noch der Abstand zwischen den aufzuzeichnenden Ziehungen angegeben werden Dies ist deswegen sinnvoll da die Ziehungen aus der A posteriori Verteilung meist aufgrund der Konstruktion der Markov Kette hoch korreliert sind D
128. beitet haben sodass dieses Werk zustande kommen konnte Wien 2010 Marco Maier amp Reinhold Hatzinger Inhaltsverzeichnis 1 Winsteps Stefan Angel und Richard M hlmann 1 1 1 2 173 1 4 2 Scoright ETS Rasch Modell eege Se cd Oe Se GRRE SE BB LEE ES OCR SE R EE EEE es Programmer auterun g e wists gente cele a e ee ee en 1 31 Beispleldatenisavessavnvsivas snake aa RL eA Ral 1 5 Dateninput und Modellspezifikation isses 1 3 3 Analyse Interpretation der Outputs 00 13 47 Grafiken sich gia dies cadets Res ki ted rur ee Schl ssbetracht ng seo epe eren e ie elo egere Pep dins Kathrin Gruber 2 1 Einleitung en aan I DE 2 2 Klassische Testlet Response Modelle 2 3 Bayes sche Testlet Response Modelle 2 53 12 Der Testletparametet dg dee e n i RU ret onda 2 3 2 Die Parametersch tzung ansehe kreis 2 4 Das Programmpaket SCORIGHT 2222222seeeeeeeeseeeneeeessnnnennnn 2 41 Die Verwendung von SCORIGHT 0 cee eee E EE TE EE 3 FACETS Rasch Software illustriert am Beispiel von Multiple Choice Tests in Marketing m 2 ee Ad N ee ee Margit Kastner Amata Ring und Brigitte Stangl 3 1 Einleitung sus a an ne au 3 2 Rasch Modell Grundlagen 0 0 cee eee eens 3 3 MultifacettensRaseh Modell erp epp ente eI 3 4 Beschreibung yon FAGETS esse x pe Ener 3 5 Exemplarische Darstellung einer Anwendung 0 00 e eee eee eee eee Sare Daten miesa
129. bgruppe Frauen abgebildet wobei wir hier 95 Intervalle f r die beobachteten korrekten Antworten in den entsprechenden EAP gruppen eingezeichnet haben 5 BILOG MG und MULTILOG 89 Abb 5 5 Grafikmen von BILOG Item Characteristic Curve ITEM0001 Item Information Curve ITEMOO01 a 0 663 b 0 200 T Probability Information 1 Scale Score 1 Parameter Model Logistic Metric Item 1 The parameter a is the item discriminating power the reciprocal 1 a is the item dispersion and the parameter b is an item location parameter Abb 5 6 Abbildung eines Items mittels Item Characteristic Curve und Item Information Curve 5 4 2 MULTILOG Auch in MULTILOG sind diverse Unterst tzungen zur Skriptgeneration implementiert die uner fahrenen Personen den Umgang mit den diversen Befehlen abnehmen In Abbildung 5 8 sieht man links den Einstiegsdialog bei dem man die Steuerdatei anlegt und aus den Optionen MML Item Parameter Estimation Fixed theta Item Parameter Estimation MLE or MAP Computation und Blank MULTILOG Command File w hlen kann Der rechte Screenshot zeigt den Auswahldialog f r die verschiedenen Modelle inklusive einiger Einstellungen 90 Marco J Maier und Konradin Maier Item Characteristic Curve ITEM0003 b 1 669 Probability Class of Problem MML Item Parameter Estimation Select type of problem Description EE Type of Data Individua
130. by chance The discrimination parameter quantifies how well the item distinguishes between subjects with low high standing in the latent scale and the difficulty parameter expresses the difficulty level of the item The one parameter logistic model also known as the Rasch model Rasch 1960 assumes that there is no guessing parameter i e c o and that the discrimination parameter equals one i e a 2 1 Vi The two parameter logistic model allows for different discrimination parameter per item and assumes that c o Finally the Birnbaum s three parameter model Birnbaum 1968 estimates all three parameters per item The two most common choices for g are the probit and the logit link that correspond to the cumulative distribution function cdf of the normal and logistic distributions respectively The functions included in 1tm fit 8 2 under the logit link Approximate results under the probit link for the one and two parameter logistic models can be obtained using the relation l l alt ES BP R 1 702al u p d where aP a are the discrimination parameters under the probit and logit link respectively and pP gi are defined analogously The scaling constant 1 702 is chosen such that the absolute difference between the normal and logistic cdf is less than 0 01 over the real line 8 1 2 IRT Models for Polytomous Data Analysis of polytomous manifest variables is currently handled by 1tm using the Graded Response Model GRM
131. c Bootstrap estimates for Goodness of Fit No Satlik LogLik LR CressieRead Pearson X72 FT 1 779 595 792 705 26 221 30 864 39 111 32 3025 40 761 238 769 219 15 963 20 484 26 258 17 8666 Z 1 011 0 665 0 285 0 5376 P X gt Z 0 156 0 253 0 388 0 2954 Mean 16 442 16 409 18 060 21 4634 Stdev 4 704 5 730 8 045 6 6698 p values emp PDF 0 125 0 200 0 300 0 3250 Abb 4 22 parametrischer Bootstrap KFT dat Von Interesse sind dabei vorrangig die Cressie Read Pr fgr e CressieRead und der Pearson x Wert beziehungsweise deren p Werte p values Signifikante Pr fwerte signalisieren dass das untersuche Modell zu verwerfen ist Da dies in diesem Beispiel nicht der Fall ist kann das Mixed Rasch Modell grunds tzlich angenommen werden was eine gute Anpassung der erwarteten an die beobachteten Antwortmuster der beiden Klassen bescheinigt Der graphischen Output kann wie bei der Latent Class Analyse interpretiert werden und wird daher nicht gesondert angef hrt Abschlie end kann festgehalten werden dass anhand des Mixed Rasch Modells wie auch bereits im Latent Class Modell zwischen f higen und nicht f higen Personen im Sinne des kognitiven F higkeitstest unterschieden werden kann Jedoch erweitert dieses Modell die Aussagen der Latent Class Analyse dahingehend dass die Personen innerhalb der unterschiedlichen Klassen nicht mehr dieselbe L sungswahrscheinlichkeit bei allen Fragen aufweisen m ssen sondern durchaus un
132. ch die explizite Ber cksich tigung von unterschiedlichen Facetten eine differenziertere Betrachtung von Personenparametern erreicht werden kann So k nnen wenn bspw unterschiedliche Beurteiler agieren Aussagen getroffen werden ob ein hoher F higkeitsparameter einer Person auf eine tats chlich hohe F higkeit dieser Person zur ckzuf hren ist oder jedenfalls teilweise durch die Milde des Beurteilers verursacht wird Zusammenfassend kann gesagt werden dass ein Rasch Modell gilt wenn eine Test Performance vorrangig durch die F higkeit einer Person und die Schwierigkeit eines Items bestimmt wird und weitere Verzerrungen ausgeschlossen werden Ist ein Rasch Modell gescheitert hilft es immerhin noch insofern weiter dass man Anhaltspunkte bekommt ob das Modell z B an Personen oder Itemhomogenit t gescheitert ist Generell ist ein fehlender Modell Fit wie im vorliegenden Beispiel in empirischen Rasch Analysen nichts ungew hn liches weil viele teilweise widerspr chliche Kriterien wie etwa Schnelligkeit oder Genauigkeit mit 3 FACETS 57 Table 8 1 Category Statistics Model 7 R5 44444 222242 DATA QUALITY CONTROL RASCH ANDRICH EXPECTATION MOST RASCH Cat Obsd Expdl Category Counts Cum Avge Exp OUTFIT Thresholds Measure at PROBABLE THURSTONE PEAK Diagnosticl IScore Used Meas Meas MnSq IMeasure S E Category 0 5 from Thresholds Prob Residual 4 4
133. change Psychometrika 59 177 192 Fischer G H und Ponocny Seliger E 1998 Structural Rasch Modeling Handbook of the Usage of LPCM WIN 1 0 ProGAMMA Groningen Fischer G H und Scheiblechner H H 1970 Algorithmen und Programme fir das probabilistische Testmodell von Rasch Psychologische Beitr ge 12 23 51 Literaturverzeichnis 185 Fox J P 2007 Multilevel IRT Modeling in Practice with the Package mlirt Journal of Statistical Software 20 5 1 16 Frary R B 1989 The Effect of Misinformation Partial Information and Guessing on Expected Multiple Choice Test Item Scores Applied Psychological Measurement 4 1 79 90 Glas C A W 1992 A Rasch Model with a Multivariate Distribution of Ability In Wilson M Hrsg Objective Measurement Theory into Practice Volume 1 Seiten 236 258 Ablex Norwood NJ Glas C A W und Verhelst N 1989 Extensions of the partial credit model Psychometrika 54 635 659 Glas C A W und Verhelst N 19952 Testing the Rasch model In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 69 96 Springer New York Glas C A W und Verhelst N 1995b Tests of Fit for Polytomous Rasch Models In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 325 352 Springer New York Gustafsson J 1980 Testing and obtaining fit of data to the Rasch model Briti
134. cheidbarkeit der Strengewerte abzielt geht bei homogener Strenge gegen null Eckes 2003 3 4 Beschreibung von FACETS In diesem Abschnitt soll Schritt f r Schritt gezeigt werden wie in FACETS ein MFRM gesch tzt werden kann Die Spezifikationen werden anhand des sp ter detaillierter erl uterten Beispiels erkl rt Generell gesehen ist FACETS eine Erweiterung von WINSTEPS wobei FACETS im Gegensatz zu WINSTEPS mit den Besonderheiten von MFRM umgehen kann Das bedeutet dass zus tzlich zu den beiden Facetten die im Basis Rasch Modell enthalten sind Personen und Items weitere hinzugef gt werden k nnen Dies kann zum Beispiel die Facette Beurteiler sein F r diese Facette werden ebenso Parameter gesch tzt Es kann also verglichen werden ob ein Beurteiler strenger oder milder als der andere bewertet Die Sch tzung von Parametern einer dritten und weiterer Facette ist in WINSTEPS nicht m glich Einen vergleichenden berblick ber beide Programme zeigt Tabelle 3 1 ffnet man FACETS siehe Abb 3 1 erkennt man dass es sich um ein Windows basiertes Pro gramm mit einigen der blichen Windows Men funktionen sowie diversen Erweiterungen handelt Grunds tzlich beginnt man mit der Modellspezifikation Dazu besteht einerseits die M glichkeit unter dem Men punkt Edit eine Vorlage Edit from template aufzurufen oder eine ganz neue Datei zu ffnen Edit new file Diese Modellspezifikation wird anschlie end als Textdatei
135. d Schwellenparameter f und die L sungswahr scheinlichkeit einer Kategorie ergibt sich aus dem Quotienten der Kategorie und der Summe aller Kategorien 5 2 2 4 Multiple Response und Multiple Choice Modelle Diese Modelle wurden von Thissen und Steinberg 1984 vorgeschlagen und sind Modifikationen von Samejimas graded response Modell siehe Abs 5 2 2 2 Die Wahrscheinlichkeit dass eine Antwort x in Kategorie k f llt berechnet sich f r das multiple response model folgenderma en Psi h EE ue A exp a 0 f jm 82 Marco J Maier und Konradin Maier Der Ausdruck or rr ist eine andere Parametrisierung des 2PLM Kerns a 9 und d ist der Anteil an Testpersonen die zwar die Antwort nicht wissen aber dennoch antworten Durch unterschiedliche Werte von h und h kann man andere Modelle spezifizieren wobei wir hier auf das multiple choice Modell n her eingehen wollen Hat man mehr als zwei Kategorien m gt 2 und setzt man h 1 so wird aus der obigen Formel das multiple choice Modell 04 By d 1 0 4 B Bess exp ar Be dy exp a 0 fi 5 8 2 expla 0 P i 1 Hier muss man beachten dass die Antwortkategorien bei 2 beginnen und demnach bis m laufen da Kategorie f r die latente wei nicht Kategorie steht Zur Identifikation der Parameter m ssen noch Einschr nkungen gesetzt werden entweder als Nullsetzung der Itemparameter a f o oder als Summe Null Parametrisierung a Pr o Alter
136. das vorliegende Datenformat Anmerkung Die Zeilennummer ist nicht Teil des Datensatzes sondern wurde nur zu illustrativen Zwecken hinzugef gt Der verwendete Fragenkatalog ist diesem Kapitel als Appendix angeschlossen siehe Seite 182 Tabelle 10 1 Format der Rohdaten Zeile ID 4 stellig Lehrzeichen und Item Antworten 24 stellig 1 1058 436334333643233245446325 1059 514545154611222341154144 3 1060 355444352531325252252645 244 5107 216314111641112152154125 245 5108 313213132521222452352235 In Abbildung 10 5 sind einige grafische Ausgabem glichkeiten von GGUM 2004 dargestellt Neben der itemspezifischen Darstellung der H ufigkeitsverteilung der gegebenen Antworten lassen sich auch Item Characteristic Curves ICC und Item Information Funktionen ausgeben Das Kernst ck der Plots insbesondere im Hinblick auf Entfaltungsmodelle stellen aber sicherlich die Category Pro bability Functions dar die durch die in Abschnitt 10 1 1 erl uterten Vorgangsweise ihre spezifische Formen erhalten vgl Abbildung 10 2 Es muss jedoch festgehalten werden dass sich die Items des hier verwendeten Beispieldatensatzes Meinungen zu Geldstrafen zumindest insofern von den in Roberts et al 2000 verwendeten Mei nungen zur Abtreibung unterscheiden als sie weder nach Einstellung Lageparameter geordnet noch gleichm ig ber den m glichen Einstellungsraum verteilt sind Dies liegt unter Anderem daran dass einige Fragen in einer Weise gestel
137. del Adams et al 1997a However in any case the person part of the model is 2 0 which replaces 0 in Equation 6 3 Finally locally dependent item responses can be produced by means of the function sim locdep Local dependence implies the introduction of pair wise item correlations 6 If these correlations are constant across items the argument it cor can be a single value A value 6 0 corresponds to the Rasch model whereas 6 1 leads to the strongest violation Alternatively for different pair wise item correlations the user can specify a VC matrix A of dimension k x k The formal representation of the corresponding IRT model is exp 0 Pi Ss XyjOij T3 exp 0 Pi s Xvj ij P X dE Xyj ES 6 26 This model was proposed by Jannarone 1986 and is suited to model locally dependent item responses 6 7 Discussion and outlook Here we give a brief outline of future eRm developments The CML estimation approach in combinati on with the EM algorithm can also be used to estimate mixed Rasch models MIRA The basic idea behind such models is that the extended Rasch model holds within subpopulations of individuals but with different parameter values for each subgroup Corresponding elaborations are given in Rost und von Davier 1995 In Rasch models the item discrimination parameter a is always fixed to 1 and thus it does not appear in the basic equation Allowing for different discrimination parameters across items
138. dentit tsmatrix um die Kovarianzmatrix der A priori Verteilung zu diagonalisieren darstellen Umgekehrt wird no m glichst klein gew hlt um so minimal informativ zu sein Damit sind die Modellspezifikationen des Bayes schen TRT Modells abgeschlossen Wie bereits erw hnt ist in der Bayes schen Statistik das letzendliche Ziel R ckschl sse ber eine Menge von A posteriori Verteilungen der Modellparameter 2 6 anhand von A posteriori Zufallszie hungen zu treffen plAlY 0 J pvlayptalayn ayaa 2 6 Das Integral der A posteriori Randverteilung l sst sich jedoch nicht in geschlossener Form l sen Deswegen bedient man sich bei der Berechnung der Hilfe eines Markov Chain Monte Carlo MCMC Verfahrens Dazu definiert man eine Markov Kette3 damit jeder Zustand t des MCMC Samplers nur von t _ abh ngt welche zu seiner station ren Verteilung konvergiert Im ersten Schritt w hlt man z B durch die Generierung von Zufallszahlen die der A priori Verteilung von 0 folgen einen Wert um die Markov Kette zu starten Klarerweise konvergiert die Markov Kette schneller zu seiner station ren Verteilung wenn man Startwerte w hlt die in der N he des zu sch tzenden Paramters liegen Im zweiten Schritt zieht man zuf llig aus der bedingten Vertei lung p AM Al Y wobei der Vektor AN 0j gr bj cj die Parameter des TRT Modells beinhaltet Hierf r benutzt man unter anderem den Metropolis Hastings Algorithmus vgl dazu Chip amp Greenb
139. die Pr fung der Eindimensionalit tsanforderung betrifft so stehen andere explorative wie konfirma torische Verfahren zur Verf gung wie sie beispielsweise in DIGRAM implementiert sind Ein weiterer allerdings nicht besonders st render Nachteil h ngt mit der Zusammenfassung von allen Analysen in einem Projektfile zusammen Zu Beginn sind Projektfiles sehr kompakt da sie im Wesentlichen nur aus einem ASCI Datenfile und den entsprechenden Definitionen bestehen In der Folge wird jedoch offenbar f r jede Analyse ein eigenes Datensetup dem Projekt hinzugef gt Dies be schleunigt zwar die Ausgabe der Ergebnisse und erm glicht eine schnelle Spezifikation einer weitere Analyse die die nderungen jeder beliebigen anderen Analyse erben kann f hrt aber anderer seits zu einem steten Anwachsen des Projektfiles Auch das L schen von Analysen ndert daran nichts Ein in der Praxis bedeutsameres Problem vor allem bei methodischen Forschungsfragen ist mit dem Fehlen einer editierbaren Syntax verbunden F r den gew hnlichen Nutzer ist es unzweifelhaft von Vorteil sich nicht mit einer spezifischen Programmiersprache auseinander setzen zu m ssen F r versiertere Verwender impliziert dies freilich auch Grenzen So ist es nicht m glich eine Vielzahl von simulierten Datenfiles automatisiert einer Analyse in RUMM zuzuf hren Template Files erm glichen zwar eine rasche Definition formal identischer Projekte gro zahlige Simulationsstudien sind
140. e and global goodness of fit statistics are described and various plots are presented 6 1 Introduction Rost 1999 claimed in his article that even though the Rasch model has been existing for such a long time 95 of the current tests in psychology are still constructed by using methods from classical test theory p 140 Basically he quotes the following reasons why the Rasch model RM is being rarely used The Rasch model in its original form Rasch 1960 which was limited to dichotomous items is arguably too restrictive for practical testing purposes Thus researchers should focus on extended Rasch models In addition Rost argues that there is a lack of user friendly software for the computation of such models Hence there is a need for a comprehensive user friendly software routine Corresponding recent discussions can be found in Kubinger 2005 and Borsboom 2006 In addition to the RM the models that can be computed by means of the eRm package are the linear logistic test model Scheiblechner 1972 the rating scale model Andrich 1978b the linear rating scale model Fischer und Parzer 1991 the partial credit model Masters 1982 and the linear partial credit model Glas und Verhelst 1989 Fischer und Ponocny 1994 These models and their main characteristics are presented in Section 6 2 Concerning parameter estimation these models have an important feature in common Separability of item and person parameters This
141. e CML estimates A variety of estimation approaches for IRT models in general and for the Rasch model in particular are available The joint maximum likelihood JML estimation as proposed by Wright und Panchapakesan 1969 which is not recommended since the estimates are not consistent see e g Haberman 1977 The basic reason for that is that the person parameters 0 are nuisance parameters the larger the sample size the larger the number of parameters A well known alternative is the marginal maximum likelihood MML estimation Bock und Ait kin 1981 A distribution g 0 for the person parameters is assumed and the resulting situation corresponds to a mixed effects ANOVA Item difficulties can be regarded as fixed effects and person abilities as random effects Thus IRT models fit into the framework of generalized linear mixed models GLMM as elaborated in de Boeck und Wilson 2004 By integrating over the ability distribution the random nuisance parameters can be removed from the likelihood equations This leads to consistent estimates of the item parameters Further discussions of the MML approach with respect to the CML method will follow For the sake of completeness some other methods for the estimation of the item parameters are the following Anderson et al 2007 propose a Pseudo ML approach Molenaar 1995 and Linacre 2004a give an overview of various heuristic non ML methods Bayesian techniques can be found in Baker und Kim 2
142. e Test Model welches die Itemparameter als lineare Kombination von ele mentaren Parametern niedrigerer Ordnung auffasst Fischer 1983 Multifaceted Models welche zus tzlich zum Personen und Itemparameter weitere Parameter zulassen wie z B einen Rater Parameter um die Subjektivit t in der Beurteilungen von Leistungen zu ber cksichtigen Linacre 1994a Generalisierte eindimensionale Modelle welche Kombinationen von Antworten mit zwei und mehreren Facetten zulassen Multidimensionale Item Response Modelle die Verhaltensantworten auf bis zu zehn latente Dimensionen zur ck f hren Wang 1995 Adams et al 1997b Latente Regressionsmodelle zur direkten Sch tzung von Regressionen Adams et al 1997b ConQuest sch tzt die Parameter der genannten Modell durch die Marginal Maximum Likelihood Methode MML und antizipiert hierbei f r die Personenparameter eine Normalverteilung ConQuest stellt zudem basierend auf den Item Response Modellierungen Itemanalysen bereit und erstellt neben den Parametersch tzungen auch Sch tzfehler und Fit Indizes Auch Itemstatistiken gem der klassischen Testtheorie k nnen in ConQuest berechnet werden Neben diesen grunds tzlichen Informationen ber die Itemeigenschaften kann mit ConQuest auch die Gleichwertigkeit der Itempa rameter in unterschiedlichen Gruppen untersucht werden Item Differentiale Ferner l sst ConQuest die Berechnung der Konsistenz von Beurteilungen in Beobachtungskontexten
143. e derivatives for the off diagonal elements and the derivatives for the main diagonal elements The item categories with respect to the item index i are coded with h and those referring to item with br The second order derivatives of the y functions with respect to items i and are denoted by ye likelihood expressions are The corresponding 6 Extended Rasch Modeling The R Package eRm 101 dlogL _ VS logyr h am ER aWin bEih D m 6 10 i h 1 Tmay Ll EC gt alen puc In r i 1 h 1 l 1 hj r 1 for a b and X Y use Di ME n i21 h 1 r 1 d y D D SS VC acteur Ee m i 1 hj 1 Lon hj 1 yr for a b To solve the likelihood equations with respect to 77 a Newton Raphson algorithm is applied The update within each iteration step s is performed by As As Hi 654 6 12 The starting values are rj o H34 is the inverse of the Hessian matrix composed by the elements given in Equation 6 10 and 6 11 and _ is the gradient at iteration s 1 as specified in Equation 6 9 The iteration stops if the likelihood difference log pel log p p where is a predefined small iteration limit Note that in the current version 0 13 0 H is approximated numerically by using the nlm Newton type algorithm provided in the stats package The analytical solution as given in Equation 6 10 and 6 11 will be implemented in the subsequent version of eRm 6 3 2 Mathematical properties of th
144. e dieses Modells kann nicht nur ermittelt werden ob die abgefragten Kategorien das gleiche latente Konstrukt messen sondern auch kontrolliert werden ob die Schrittweiten passend gew hlt wurden Das Partial Credit Modell hat die Form e hOn Bin PUER l o Pr X h 1 3 wobei m h 1 und fin ag Die Gleichung f r die einzelnen Schwellenwerte lautet somit g ij WURST 1 4 Pr x 0 0 viru Oo Geer Mair und Treiblmaier 2008 wobei jedem Item i ein Set von j Schwellenwerten zwischen Antwort kategorien zugeordnet wird Winsteps 9 Das Glas Verhelst Success growth Modell auch Steps Modell Verhelst et al 1997 zielt auf hierarchische Skalen ab bei denen Personen ein bestimmtes Item erst dann erreichen wenn ein zuvor abgefragtes Item korrekt beantwortet wurde Das Linacre Failure mastery Modell Linacre 1991 eignet sich f r die Anwendung auf Skalen bei denen eine Person bei einem korrekt gel sten Item den Maximalwert zugewiesen bekommt und keine weiteren Items abgefragt werden Bei einem falsch gel sten Item werden fortlaufend Items mit geringerem Schwierigkeitsgrad vorgelegt bis eine korrekte L sung erzielt werden kann 1 3 Programmerl uterung 1 3 1 Beispieldaten Die Software soll anhand zweier Beispiele illustriert werden Die in diesen Beispielen analysierten Daten stammen aus der Wiener Studie zur informellen Pflege und Betreuung lterer Menschen 2008 Tru
145. e en o tad ed 174 10 2 2 Ein Beispieldatensatz anne nEri EEN HERR HE PRG 178 10 2 3 Weitere kommerzielle Softwarepakete zur Sch tzung von Unfolding Models181 Liter turverzeichnis ovest ans anti RE EE EEE DER ee NP Parece 183 Kapitel Winsteps Stefan Angel und Richard M hlmann Zusammenfassung Dieser Beitrag gibt einen kurzen berblick ber die Rasch Analysesoftware Win steps Die grundlegenden Funktionen des Programms werden anhand zweier Beispieldatens tze aus der Pflegeforschung illustriert Dabei wird auf den Import von Daten aus anderen Dateiformaten die M glichkeiten der Modellspezifikation sowie auf eine Auswahl der verf gbaren Auswertungen einge gangen St rken der Software liegen in den vielf ltigen implementierten M glichkeiten zur Analyse der gesch tzten Modelle sowie in der vergleichsweise einfachen Bedienung Auch die Datenverarbei tungskapazit t und der einfache Export der Ergebnisse sind als positiv zu werten Als Schw chen des Programms k nnen die eingeschr nkte Zahl an spezifizierbaren Modellen eine gewisse Redundanz und somit Un bersichtlichkeit in den Optionen zur Darstellung der Ergebnisse sowie eventuell im Fall professioneller Anwender die Beschr nkung auf einen einzigen Sch tzalgorithmus genannt werden 1 1 Winsteps Die Entwicklung der Vorl ufer von WINSTEPS begann 1983 durch Benjamin Wright den Pionier der Item Response Theory in den USA sowie Mike Linacre im Rahmen eines Cons
146. e latente Dimension und repr sentiert die Wahrscheinlichkeit einen bestimmten Score zu erreichen als Funktion der latenten Verteilung 0 Die Iteminformationsfunktion f r den Rohwert x 0 1 m f r ein Testlet j wird in diesem Modell wie folgt definiert exp aj 0 cjg m 2 1 i i LZ EXP ajkO cj Unter den Items befinden sich j 1 J Testlets Jedes dieser Testlet beinhaltet m Items so dass die Wahrscheinlichkeit im j ten Testlet f r eine mehrkategorielle Antwort x 0 1 m 2 1 betr gt Das Modell ist in obiger Form jedoch nicht voll identifizierbar weswegen man zwei zus tzliche Restriktionen 1 SE aj rcr Cik o und 2 0 N o 1 einf hrt Stellt man die Parameter a und c bei geordneten Kategorien als zentrierte Polynome dar so erh lt man das Graded Response Partial Credit Modell Samejima 1969 Sind die Items jedoch unabh ngig so k nnen sie mit einem traditionellen IRT Modell verrechnet werden Dieses Vorgehen f hrt zu interpretierbaren Itemparametern und Standardfehlern sowie zu einem Ma f r die G te der Anpassung Des weiteren existiert eine Testlet Informationsfunktion welche explizit den Beitrag des Itemb ndels zum Gesamttest zeigt Wenn man nun jedoch mehr Information ber das Testlet erhalten will oder Ad hoc ein Testlet innerhalb einer adaptiven computerisierten Testvorgabe konstruieren m chte so ben tigt man einen alternativen Ansatz 2 3 Bayes sche Testlet Response Mode
147. e points or testing occasions Correspondingly for each measurement point t we have a vector of virtual item parameters B of length k These are linear reparameterizations of the original and thus the CML approach can be used for estimation In general for a simple LLTM with two measurement points the design matrix W is of the form as given in Table 6 1 My Yo Uk Dena Time 1 f 1000 0 Time 2 f o 0 of 1 Si o on 1 Tabelle 6 1 A design matrix for an LLTM with two timepoints 6 Extended Rasch Modeling The R Package eRm 99 The parameter vector represents the item parameters for the first test occasion f the parameters for the second occasion It might be of interest whether these vectors differ The corre sponding trend contrast is gen Due to this contrast the number of original f parameters is doubled by introducing the 2k virtual item parameters If we assume a constant shift for all item parameters it is only necessary to estimate 7 n where Or gives the amount of shift Since according to 6 4 the vector is just a linear combination of 7 As mentioned in the former section when using models with linear extensions it is possible to impose group contrasts By doing this one allows that the item difficulties are different across subgroups However this is possible only for models with repeated measurements and virtual items since otherwise the introduction of a group contrast le
148. eSend im Input File ge ndert werden kann Die genaue Form der Modellspezifikation kann ber die Befehle MODELS und GROUPS bzw ISGROUPS synonym eingegeben werden MODELS stellt hierbei die erste Hierarchieebene bei den Einstellungen dar die ber GROUPS ISGROUPS genauer kalibriert werden k nnen Bei der Kontrollvariable MODELS k nnen die Optionen R default S und F eingetragen werden R sch tzt dichotome Rasch Modelle Andrich Rating Scale Modelle und Masters Partial Credit Modelle Andrich 1978b Masters 1982 S verwendet ein als Rasch Modell mit missing values bei den nicht erreichten Kategorien parametrisiertes Glas Verhelst SSuccess growth Modell auch Steps Modell Verhelst et al 1997 Mit der Option Winsteps 13 F sch tzt Winsteps ein Linacre Failure mastery Modell Linacre 1991 Das Linacre Modell ist ebenfalls als Rasch Modell parametrisiert mit fehlenden Werten bei den ungel sten Items Wenn die verf gbaren Codes bei MODEL nur einmal eingetragen werden kommt das jeweilige Modell auf alle Items zur Anwendung Alternativ k nnen durch Eingabe von Strings f r die einzelnen Items auch unterschiedliche Modelle gesch tzt werden z B bei vier Items MODELS RSSR oder synonym MODELS R 2 3 S 4 R ber die Kontrollvariable GROUPS ISGROUPS kann dann innerhalb einer Modellgruppe in dem hier verwendeten Beispiel R das exakte Sch tz
149. ed data log likelihood obtained by integrating out the latent variables the contribution of the mth sample unit is keete t log Cay oe 8 5 where p denotes a probability density function Zu denotes the vector of responses for the mth sample unit z is assumed to follow a standard normal distribution and 0 a fj The integral in 8 5 is approximated using the Gauss Hermite quadrature rule It is known Pinheiro und Bates 1995 that the number of quadrature points used may influence the parameter estimates This is especially the case for more complex latent variable models that assume more than one latent variable and or hierarchical designs For unidimensional IRT models considered the default number of points will be in the majority of the cases sufficient 8 1 4 Estimating the Latent Variable The factor scores are usually calculated as the mean of the posterior distribution Zune IE Xm 0 dz 8 6 or the mode of the posterior distribution Zm arg max p xXmlZm O P zm l 8 7 for each sample unit The posterior means 8 6 can be calculated using the Gauss Hermite quadrature rule whereas for the posterior modes 8 7 a numerical optimizer such as is optim required Note that in 8 7 we typically replace the true parameter values by their maximum likelihood estimate Thus in small samples we in fact ignore the variability of plugging in estimates instead of the true parameter values To take this into account
150. egt bei lediglich 36 Die Gegenwahrscheinlichkeit das hei t die Wahrscheinlichkeit dass diese Personen diese Frage nicht richtig beantworten k nnen liegt bei rund 64 Die L sungswahrscheinlichkeit von Frage 2 VAR2 und Frage 3 VAR3 ist hnlich hoch und betr gt 17 beziehungsweise 18 Das schwierigste Item f r diese Personen ist demnach Item VAR4 da es lediglich eine L sungswahrscheinlichkeit von rund 4 aufweist Die Frage 5 VAR5 weist in dieser Gruppe eine L sungswahrscheinlichkeit von 12 auf Die Schwierigkeit der Items innerhalb dieser Gruppe k nnen der Tabelle threshold parameters entnommen werden Dabei f llt auf dass alle Itemparameter gr er als o sind da die L sungswahrscheinlichkeiten dieser Items geringer als 50 sind In dieser Klasse befinden sich somit vorrangig Personen welche die gestellten f nf Fragen eher nicht richtig beantworten konnten Aus der Tabelle statistics of expected class membership Abb 4 11 geht hervor dass aufgrund der wahrscheinlichen Antwortmuster der Befragten die beiden Klassen jeweils eine erwartete Gr e von 50 aufweisen Spalte exp Size ber die Treffsicherheit der Klassenzuordnung gibt die Spalte mean prob Auskunft Demnach betr gt die Zuordnungswahrscheinlichkeit einer Person zur ersten Klasse aufgrund ihres Antwortmusters rund 9796 Die Wahrscheinlichkeit einer falschen Zuordnung betr gt bei dieser Klasse lediglich 3 Die Zuordnungswahrscheinlichkeit einer
151. egt die durchschnittliche F higkeit der dieser Klasse zugeordneten Personen bei 0 592 Demnach sind die Personen dieser Klasse insgesamt als eher unterdurchschnittlich f hig einzustufen Dies geht auch aus der durchschnittlichen Anzahl richtiger Antworten raw score mean hervor die in dieser Klasse rund 1 9 betr gt 4 WinMiRa 2001 73 expected category frequencies and item scores Item Item s relative category label Score Stdev frequencies DUCTU remet 0 1 VAR1 0 64 0 48 0 364 0 636 VAR2 0 49 0 50 0 515 0 485 VAR3 0 37 0 48 0 634 0 366 VARA 0 16 0 37 0 840 0 160 VAR5 0 24 0 43 0 758 0 242 Sum 1 89 threshold parameters ordinal partial credit model item item label location threshold parameters Aue lelisal a learn VAR1 1 54869 VAR2 0 70653 VAR3 0 04468 VARA 1 57870 VARS 0 72120 Abb 4 16 category frequencies item scores und threshold parameters class 1 KFT dat Des weiteren wird die erwartete H ufigkeit der Antwortkategorien f r die f nf Fragen darge stellt Abb 4 16 So wird erwartet dass rund 6596 der Personen dieser Klasse die erste Frage VAR1 richtig beantworten k nnen Somit ist diese Frage innerhalb dieser Klasse als am einfachsten zu werten was auch aus dem Itemparameter dieser Frage 1 56 abgelesen werden kann Die schwierigs te Frage f r diese Personen ist die vierte Frage VAR4 die einen Itemparameter von 1 59 aufweist beziehung
152. eiler eher streng oder eher mild bewertet hat Linacre 1994b Die Infit und Outfit Statistiken geben also die Schwankungen zwischen den Beurteilern an Bez glich der Beurteilerkonsistenz kann aus den Ergebnissen abgelesen werden wie viele Infit und Outfit Werte der Beurteiler sich au erhalb des Intervalls von 0 5 bis 1 5 befinden Weitere Kennzahlen sind die Reliabilit tskennzahlen wobei hohe Reliabilit t generell bedeutet dass die gleiche Ordnung der Elemente der Facette auch mit anderen Daten abgebildet werden k nnte Bond und Fox 2007 und der Separationsindex welcher als das Verh ltnis von wahrer Streuung der Leistungsma e d h der Streuung der Leistungsma e nach Standardfehlerkorrektur zum durchschnittlichen Standardfehler der Leistungsma e Root Mean Square Error ausgedr ckt wird Wright und Stone 1999 Wright und Masters 2002 Auf der Basis des Separationsindex kann der Index der Klassenseparation strata berechnet werden Wright und Masters 2002 Dieser Index sch tzt die Anzahl der potenziell unter scheidbaren Klassen einer Facette Ein Index von w rde bedeuten dass die Auswertungsschemen keine Unterschiede in ihren Strengema en aufweisen und damit austauschbar sind Die Klassensepa ration zeigt die Anzahl von statistisch reliabel unterscheidbaren Beurteilern auf Dieser Wert w re bei homogenen Beurteilern rund um eins Die Separationsreliabilit t hingegen die auf die Genauigkeit der Unters
153. eils 9 7 ACER ConQuest Generalised Item Response Modelling Software 127 die polytom verrechnet worden sind wurde das Wissen und K nnen der Sch lerinnen anhand einiger gemeinhin als Teilbereiche der Naturwissenschaft gesehener Gebiete offenen Fragen und allgemeine Intelligenz im Sinne eines Matrizentests Multiple Choice zu erfassen versucht Wir werden uns f nf dieser Gebiete genauer ansehen Jedes Wissensgebiet entspricht dabei einer latenten Dimension das heisst dass die Sch lerinnen jeweils einen Wert auf jedem dieser latenten Kontinua zugeschrieben bekommen je nachdem wie ausgepr gt deren Wissenstand ist Diese latenten Dimensionen k nnen sowohl miteinander korreliert als auch unabh ngig voneinander sein Die Autoren benannten die Di mensionen mit Force amp Motion Light amp Sight Matter Earth amp Space und Multiple Choice Die mit den jeweiligen Dimensionen in Zusammenhang stehenden Personenparameter sollen dann jeweils auf die Variablen sozio konomischer Status SES Geschlecht und Schulstufe regressiert werden es handelt sich also um eine addititive Zerlegung der Personenf higkeiten in drei erkl rende Variablen Insgesamt standen zur Sch tzung 2564 Sch lerinnen zur Verf gung Zuerst wollen wir zeigen wie mit ConQuest ein unbedingtes d h nicht regressiertes f nfdimensionales Modell gesch tzt werden kann um danach das bedingte latente Regressionsmodell zu sch tzen
154. eine unterschiedliche Scorevergabe nicht sinnvoll RUMM erm glicht es daher mehrer Kategorien gleich zu scoren F nftens k nnen einzelne Items gesplittet werden Dazu ist die Angabe eines Personenfaktors erforder lich sowie dessen Auspr gungen f r die ein Item geteilt werden soll Item Splits sind dann angezeigt wenn ein Item in Teilstichproben einen unterschiedlichen Lageparameter aufweist Differential Item Functioning DIF Uniformes DIF kann so sehr leicht ber cksichtigt werden und ein Item kann mit Hilfe gruppenspezifischer Parameter trotzdem beibehalten werden Freilich sollte sich der Nutzer dar ber im Klaren sein dass dies streng genommen eine Verletzung der spezifischen Objektivit t darstellt Eine plausible oder besser noch theoretisch fundierte Erkl rung f r DIF sollte daher stets vorliegen Nachdem die entsprechende Analyse ausgew hlt wurde und durch einen Bezeichnung eindeu tig festgelegt wurde k nnen weitere Analysespezifikationen ge ndert werden Dies betrifft zun chst die Wahl des Modells f r polytome Daten unrestringiertes Partial Credit Model unrestricted oder Ratingskalenmodell rating Auch die Struktur der Thresholds l sst sich bestimmen So kann hier beispielsweise eine gleiche Varianz der Thresholdparameter ber alle Items festgelegt werden Die anderen Einstellungen betreffen die Konvergenzkriterien und die Sch tzung der Personenparameter wobei bei letzteren zwischen Weighted Likeli
155. ellenkalkulationsprogramme oder SPSS v llig unkompliziert m glich Umfangreiche Datenausgaben einschlie lich von Sch tzwerten f r Personen und deren Standardfehler sind ber den Personenfit Bildschirm m glich So k nnen Rasch Personenparameter beispielsweise dem urspr nglichen SPSS Datenfile hinzugef gt werden 9 8 Resumee RUMM 2030 ist ein au erordentlich benutzerfreundliches leistungsf higes Windowsprogramm zur Sch tzung von einer Reihe unterschiedlicher Modelle aus der Rasch Familie Vor allem die grafischen Darstellungen erlauben einen sehr guten Einblick in die Funktionalit t des Messinstruments Die Bestimmung des Modellfits erfolgt auf der Basis von ausreichend vielen Fit Statistiken wobei die Grafiken stets mitber cksichtigt werden sollten Umfangreich sind weiters die M glichkeiten die Datenbasis zu ver ndern Bildung von Subtests Item Splitting Rescoring etc Als Nachteil mag die fehlende Schnittstelle zu anderen Datenanalyseprogrammen wahrgenommen werden In der Praxis bedeutet dies jedoch nur eine geringf gige Einschr nkung die den Nutzer dazu zwingt genau zu berlegen welche Daten eingelesen bzw ausgegeben werden sollen Unbefriedigend ist das Fehlen von Standardsch tzfehlern f r die Thresholdparameter Es ist zu hoffen dass diese in zuk nftigen Versionen angeboten werden wird Allerdings bieten auch andere kommerzielle Rasch Analyseprogramme dies im Unterschied zum R Package eRm nicht an Was
156. elles Festlegen der Vorzeichen aller urspr nglichen Lagesch tzungen Manchmal kann es w nschenswert sein das Vorzeichen d h die Richtung der Bewertung manuell umzukehren Dies k nnte zum Beispiel bei positiven und negativen Fragestellungen der Fall sein die ein und dieselbe Variable abfragen sollen Zu setzen ist hier ein Y oder ein N Im ersten Fall folgt dann zus tzlich ein Block in dem in jeder Zeile so viele wie Items ein Plus oder Minus steht 178 15 16 17 18 19 20 21 Axel Sonntag und Daniela Weber Anzahl der EM Outer cycles Spezifiziert die Anzahl der EM Iterationen die durchlaufen werden m ssen bevor der Algo rithmus abbricht Hierbei wird ein Wert von mind 200 empfohlen um die Konvergenz zu garantieren Anzahl der inner cycles Zun chst werden die Threshold Parameter zo gesch tzt Darauf folgend dann die Item Parameter f r Lage 6 und Diskriminationsparameter a Die einmalige Sch tzung dieser drei Parameter bezeichnet einen inner cycle Die Anzahl der inner cycles gibt an wie viele Sch tz Iterationen durchlaufen werden m ssen bevor ein outer cycle abgeschlossen werden kann Anzahl der Fisher Scoring Iterationen f r die Thresholds Die Sch tzungen der Thresholds t werden mittels Fisher Scoring Verfahren durchgef hrt Die hier festzulegende Zahl gibt an wie viele Fisher scoring iterationen innerhalb eines inner cycles durchgef hrt werden Von den Autoren der Software wi
157. en Die Analyse latenter Klassen basiert auf gewissen Grundannahmen die wie folgt lauten Rost 2004 S 153ff Die L sungswahrscheinlichkeit eines Items ist f r alle Personen innerhalb einer Klasse gleich gro Jede Person kann nur einer Klasse angeh ren Alle Items messen dieselbe Personenvariable Die L sungswahrscheinlichkeiten der Items sind stochastisch unabh ngig voneinander Die Zuordnung einer Person zu einer Klasse aufgrund derer Antworten erfolgt dabei jedoch nicht manifest sondern nur anhand einer gewissen Wahrscheinlichkeit Rost 2004 S 156 Wie eine derartige Analyse mit WinMiRa m glich ist wird nun anhand des Beispieldatensatzes KFT der im Lieferumfang von WinMiRa enthalten ist Dateiname kft dat dargestellt Der Datensatz ist ein Auszug aus einem kognitiven F higkeitstest und umfasst die Antworten von 300 Personen auf f nf Items eines Intelligenztests Eine richtige Antwort einer Person wurde als codiert eine falsche Antwort wurde mit o codiert Die kognitive F higkeit einer Person richtet sich nach der Anzahl der richtigen beziehungsweise falschen Antworten Rost 2004 S 99 Im Rahmen dieses Beispiels wird nun versucht die befragten Personen aufgrund ihres Antwortverhaltens in kognitiv f hige und nicht kognitiv f hige Personen zu unterteilen Die Kategorien kognitiv f hig und nicht kognitiv f hig k nnen dabei als Kategorien der latenten Variable ko
158. en sollen wird ber Unexpected 2 festgelegt Wenn dieser Befehl in der Spezifikationsdatei enthalten ist werden alle standardisierten Residuen genannt deren Wert mindestens 2 betr gt Die Standardeinstellung ist auf 3 festgelegt In dem hier vorgestellten Beispiel wurde die Standardeinstellung beibehalten Uber T4maximum 300 wird festgelegt dass die 300 gr ten Residuen die den zuvor unter Unexpected festgelegten Wert von 3 Standardeinstellung berschreiten in Tabelle 4 der FACETS Ergebnisdatei ausgegeben werden Wenn keine Spezifizierung erfolgt werden nur die 100 gr ten Residuen ausgewiesen In Abbildung 3 6 sieht man wie die Befehle umgesetzt werden die ber Usort und T4maximum gegeben 48 Margit Kastner Amata Ring und Brigitte Stangl Title Pr fung Vergleich der Auswertung Alles oder Nichts und Teilpunkte Facets 3 3 Facetten Auswertungsschema Studenten und Fragen Positive 2 f r Facette 2 Studenten h herer Rohwert h heres Rasch Ma Noncentered nur f r Facette Auswertungsschema wird der Mittelwerte nicht auf o fixiert Inter rater legt fest f r welche Facette die Interrater Reliabilit t ausgegeben werden soll Usort 3 u 1 u sortiert die Residuen der Tabelle 4 unexpected responses T4maximum 300 legt fest wie viele Residuen in Tabelle 4 ausgegeben werden sollen Residual File res txt erzeugt eine Residuen Datei Heading lines yes d
159. enschaft des Antwortformats gesehen und sind deshalb f r alle Items gleichartig Das Modell enth lt item unabh ngige Schwellenparameter ty Um den Einfluss der Items auf die Antwortstreuung bzw die Schwellenabst nde zu ber cksichtigen wird ein Distanzparameter 6 eingef hrt Mittels 6 kann der Schwellenabstand bei jedem item um 0 vermindert erh ht werden Je gr er f r ein item desto kleiner die Streuung der Antworten ber die Kategorien Die Schwellenabst nde werden anstatt durch k m 1 Parameter durch k 1 m 1 Parameter festgelegt In der nachfolgenden Darstellung ist die zweite Schwellenwertdistanz gr er als die erste Siehe Abbildung 4 5 1 0 1 0 0 8 L 0 8 0 6 L 0 6 Wahrscheinlichkeit Wahrscheinlichkeit 0 4 0 4 0 2 L 0 2 0 0 L 0 0 1 Abb 4 5 Category Characteristic Curves Dispersion Model 4 2 Programmbeschreibung 4 2 1 unterst tzte Modelle Die Software unterst tzt sowohl Rasch Modelle als auch die Latent Class Analysis Die Mischform dieser beiden Analysen i e Mixed Rasch Modelle ist ebenfalls m glich Die Software verwendet das einfache Rasch Modell als Sonderform des Mixed Rasch Modelles mit lediglich einer latenten 64 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel Klasse Zus tzlich k nnen Hybridmodelle gerechnet werden bei denen f r unterschiedliche Klassen unterschiedliche Modelle eingestellt und berechn
160. ent der Facette ausgegeben F r die Facette Auswertungsschema sind dies also Alles oder Nichts und Teilpunkte f r die Facette Studenten werden die Werte f r alle 1118 Studenten angezeigt und f r die Facette Fragen f r alle 31 Fragen Um den Fit zu beurteilen k nnen Infit und Outfit Mean Square betrachtet werden Der Outfit outlier sensitive fit gibt an inwieweit ein normalerweise konsistent einstufender Beurteiler unerwartete Bewertungen am u eren Ende der Skala abgibt Der Infit inlier sensitive fit oder information weighted fit reagiert hingegen empfindlich beim unerwarteter Beurteilungen im mittleren Skalenbereich Wie man den Abbildungen 3 9 und 3 11 entnehmen kann liegen sowohl Infit als auch Outfit innerhalb der Referenzwerte von 0 5 und 1 5 Bei Abbildung 3 10 erkennt man dass die Werte im Mittel zwar im Referenzbereich liegen die einzelnen Studenten allerdings davon abweichen Dies kann sicherlich auch auf das Rateverhalten von Studenten bei Pr fungen zur ckgef hrt werden da eine einzelne Frage nie zu negativen Punkten f hrt und es daher besser ist irgendeine Antwortalternative anzukreuzen wenn man die Frage nicht weifs und so vielleicht durch Gl ck doch Punkte zu erzielen Am unteren Ende der Tabelle sind Mittelwerte und Standardabweichungen analog zu Table 5 siehe Abbildung 3 7 ber die gesamte 54 Margit Kastner Amata Ring und Brigitte Stangl Facette angegeben Im Hinblick auf das Auswertungs
161. entwickelten gewichteten und ungewichteten Fit Statistiken vergleichbar sind F r die MNSQ Fit Statistik wird ein 95 iges Konfidenzintervall angenommen Wenn sich die MNSQ Fit Statistik ausserhalb dieses Intervalls befindet dann weist die t Statistik einen Wert ber 2 0 aus und es wird die Null Hypothese verworfen dass die Daten dem Modell 7 ACER ConQuest Generalised Item Response Modelling Software 123 ComQuest Untitled Fe Edk Input Windew Conquest Generalised Item Response Hodelling Softuare Wed Dec 13 12 19 26066 SUMMARY DF THE ESTIMATION EE EE EE EE EE E EE EE EE EE EE EE EE EE E Ee Estimation method was Gauss Hermite Quadrature with 15 nodes Assumed population distribution was Gaussian Canstraint was DEFAULT The Data File exi dat The Format id 1 5 responses 12 21 The regression model Grouping Variables The iten model item Sample size 1000 Final Deviance 13278 87603 Total nunber of estinated parameters 13 The nunber of iterations 46 Termination criteria Has iterations 1000 Paraneter Changes 9 00010 Deviance Change U 08010 Iterations terminated because the deviance convergence criteria uas reached Randon number generation seed 1 00008 Hunter of nodes used when drawing PUS 2088 Humber of nodes used when computing fit 2808 Wunder of plausible values to draw 5 Maximum nunber of iterations without a deviance improvement 166 Maximun nunber of Hewton steps in H step 18 Ualue Fo
162. ependence and parallel item characteristic curves ICCs Corresponding explanations can be found e g in Fischer 1974 and mathematical derivations and proofs in Fischer 19954 For dichotomous items Scheiblechner 1972 proposed the even more restricted linear logistic test model LLTM later formalized by Fischer 1973 by splitting up the item parameters into the linear combination p Bi 3 win 6 4 j l 6 Extended Rasch Modeling The R Package eRm 97 Abb 6 1 Model hierarchy Scheiblechner 1972 explained the dissolving process of items in a test for logics Mengenre chentest by so called cognitive operations rj such as negation disjunction conjunction sequence intermediate result permutation and material Note that the weights w for item i and operation j have to be fixed a priori Further elaborations about the cognitive operations can be found in Fischer 1974 p 361ff Thus from this perspective the LLTM is more parsimonous than the Rasch model Though there exists another way to look at the LLTM A generalization of the basic Rasch model in terms of repeated measures and group contrasts It should be noted that both types of reparameteriza tion also apply to the linear rating scale model LRSM and the linear partial credit model LPCM with respect to the basic rating scale model RSM and the partial credit model PCM presented below Concerning the LLTM the possibility to use it as a generalization of
163. er Bern Fischer G H 1977 Linear Logistic Trait Models Theory and Application In Spada H und Kempf W F Hrsg Structural Models of Thinking and Learning Seiten 203 225 Huber Bern Fischer G H 1981 On the existence and uniqueness of maximum likelihood estimates in the Rasch model Psychometrika 46 59 77 Fischer G H 1987 Applying the principles of specific objectivity and of generalizability to the measurement of change Psychometrika 52 565 587 Fischer G H 1988 Spezifische Objektvit t Eine wissenschaftstheoretische Grundlage des Rasch Modells In Kubinger K Hrsg Moderne Testtheorie Seiten 87 111 Beltz Weinheim Fischer G H 1995a Derivations of the Rasch Model In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 15 38 Springer New York Fischer G H 1995b Linear Logistic Models for Change In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 157 180 Springer New York Fischer G H und Molenaar I W 1995 Rasch models Foundations recent developments and applicati ons New York Springer Fischer G H und Parzer P 1991 An extension of the rating scale model with an application to the measurement of change Psychometrika 56 637 651 Fischer G H und Ponocny I 1994 An extension of the partial credit model with an application to the measurement of
164. erg 1995 Im dritten Schritt zieht man ein Sample aus der bedingten Verteilung p A AU Y wobei die Hyperprior Verteilung A typischerweise konjugiert zu p A A ist und einer gebr uchlichen Verteilung enstammt Im letzten Schritt des MCMC Algorithmus startet man den Zufallsgenerator f r M Iterationen wobei M Iterationen das sogenannte burn in darstellen Das heifit man geht von Schritt 1 bis zu jenem Punkt an welchem nur noch aus der station ren Verteilung gezogen wird Nachdem die Markov Kette konvergierte zieht man nochmals M M zus tzliche Werte um statistische R ckschl sse zu ziehen z B die Berechnung von Mittelwerten Varianzen Quantilen und Konfidenzintervallen Das burn in also M wird durch die Gelman amp Rubin Methode 1992 bestimmt Dabei wird die Konvergenz zur station ren Verteilung der Markov Ketten mittels eines F Test welcher die across chain gegen die within chain Variation in den durchlaufenen Ketten testet berpr ft 2 4 Das Programmpaket SCORIGHT SCORIGHT Version 3 0 ist ein kleines Programmpaket zur Verrechnung von Tests die aus ein oder mehrkategoriellen Items bestehen Ebenfalls implementiert sind Modelle f r die Kombination dichotomer und mehrkategorieller Items sowie f r Modelle die Kovariaten beinhalten Die Items k nnen unabh ngig in Testlets oder in einer Kombination aus beiden vorliegen Falls Testlets in den Daten vorhanden sind so sch tzt das Programm das Ausma
165. erw hnten Asymmetrie sind positive Korrelationen schon ab o 2 kritisch w hrend negative Werte bis o 3 tolerierbar sind Hinweisen auf lokale stochastische Abh ngigkeit sollte jeden falls nachgegangen werden Wenn es sich tats chlich lediglich um eine logische Responseabh ngigkeit handelt eine positive Antwort bei einem Item impliziert eine positive Antwort bei einem anderen Item so bietet RUMM durch eine Subtest Analyse ein geeignetes Mittel zur Ber cksichtigung an Korrelierende Residuen k nnen allerdings auch auf Multidimensionalit t hinweisen welche frei lich auch bei unauff lligen Residualkorrelationen ein Problem darstellen kann In RUMM basiert die berpr fung der Eindimensionalit t im Wesentlichen auf einer Hauptkomponentenanalyse der Residuen Smith 2002 Dabei sollten sich keinerlei systematische Muster zeigen die Eigenwerte der Komponenten sollten den zuf llig zu erwartenden Werten entsprechen welche am besten durch eine Parallel Analyse Allan und Hubbard 1986 Watkins 2000 ermittelt werden Ein berm ig hoher 166 Thomas Salzberger erster Eigenwert ist meist ein Zeichen von Multidimensionalit t In diesem Fall sollten die unrotierten Ladungen der einzelnen Items auf der ersten Komponente besonders beachtet werden Cluster von Items mit hoch positiven bzw hoch negativen Ladungen bilden jeweils verschiedene Dimensionen ab Die Kl rung der Frage inwieweit sich Multidimensionalit t tats chlich auswirkt erfo
166. erweiterte polytome Rasch Modell verwendet Rating Skalen oder Partial Credit Beobachtungen und errechnet sich laut Andrich 1978b und Masters 1982 wie folgt log zn In Dj Fx 3 1 ni k 1 Paik Wahrscheinlichkeit dass fiir Person n das Item i in Kategorie k beobachtet wird Pay Wahrscheinlichkeit dass f r Person n das Item i in Kategorie k 1 beobachtet wird Bg F higkeit der Person n Dj Itemschwierigkeit des Items i Fr Barriere in Kategorie k beobachtet zu werden im Unterschied zu Kategorie k 1 So errechnete Summenwerte einer Person werden als ersch pfende Statistiken bezeichnet weil sie alle Informationen enthalten um Aussagen ber die Personenf higkeit treffen zu k nnen Antwort muster m ssen somit nicht mehr beurteilt werden Dies gilt aber nur bei Rasch Konformit t Stelzl 1993 Um nun zu ermitteln welche Antwortkategorie ein Proband w hlt werden Schwellenwerte berechnet Diese auch als Tresholds bezeichneten Werte liegen am Wendepunkt der logistischen Funk tion Liegt der Parameter einer Person rechts eines Tresholds ist die Wahrscheinlichkeit die h here Antwortkategorie zu w hlen gr er Bei k Kategorien werden immer k logistische Funktionen sowie k Tresholds gesch tzt B hner 2006 Mittels Item Response Modellen kann auch die Trennsch rfe von Items ermittelt werden Je steiler der Anstieg einer ICC desto h her ist die Trennsch rfe Au erdem kann die Ratewahrscheinlichkeit einbezogen werden Be
167. est vorgestellt Mit Con Quest k nnen verschiedene Item Response Modelle und latente Regressionsmodelle nachvollzogen werden Im Gegensatz zu anderen Programmen mit Fokus auf Modellierungen im Bereich der Item Response Theorie ist ACER ConQuest zus tzlich in der Lage Multidimensionale Item Response Modelle nachzubilden Das Kapitel widmet sich zuerst den generellen Anwendungsbereichen und den Eigenschaften von ACER ConQuest um dann drei beispielhafte Modellierungen vorzustellen In den Anwendungsbeispielen wird jeweils kurz auf die Forschungsfragen und Rahmenbedingungen der Untersuchungen eingegangen Die Befehle zur Modellierung der Item Response Theorien werden beschrieben und die Ergebnisse der Berechnungen mit ACER ConQuest vorgestellt Als Beispie le wurden ausgew hlt Die Modellierung von dichotomen Multiple Choice Tests Beispiel 1 von Beurteilungseffekten Beispiel 2 und von mehrdimensionalen latenten Regressionen Beispiel 3 7 1 ACER ConQuest Eine Einf hrung ConQuest brings together in a single program a wide variety of item response models and provides an integration of item response and regression analysis Wu et al 2007 ACER ConQuest ein Programm zur Modellierung verschiedener Ans tze der Item Response Theory IRT liegt seit dem Jahr 2007 in der Version 2 0 vor Gegen ber der Version 1 0 aus dem Jahr 1998 zeichnet sich die neue Auflage von ACER ConQuest laut Autoren durch eine h here Benutzerfreund lichkeit und
168. et werden k nnen 4 2 2 unterst tzte Skalenniveaus WinMiRa unterst tzt sowohl dichotome als auch polytome Daten Bei polytomen Daten werden folgende vier verschiedene Rasch Modelle unterst tzt die in Kapitel 4 1 4 n her beschrieben wurden Rating Scale Model Equidistance Model Dispersion Model Ordinal bzw Partial Credit Model 4 2 3 Usability 4 2 3 1 Programminstallation WinMiRa ist unter Windows out of the box m glich das Programm unterst tzt jedoch nur die ses Betriebssystem Eine Trial Version kann unter http winmira von davier de wmira index html heruntergeladen werden selbstextrahierendes exe file 4 2 3 2 verf gbare Beschreibungen Es finden sich zur Software mehrere hilfreiche gut auskommentierte Quellen die den Einstieg erleichtern Als Referenzen seien genannt Die WinMiRa Homepage http winmira von davier de wmira index html Die Seite kann ver wendet werden um wie oben angef hrt eine Trial Version herunterzuladen und oder eine Vollver sion zu kaufen Das online WinMiRa Manual von Davier 2001 Das Manual beinhaltet eine umfassende Erkl rung des Programms anhand von Beispielen Das mit dem Programm mitgelieferte WinMiRa Kurzmanual Reimers 2005 Ein weiteres Kurzmanual wird mit dem Programm mitgeliefert ist im html Format abrufbar und dient als Kurzmanual welches den Programmablauf er rtert Diverse B cher verwenden in der Erkl rung von Rasch Modellen WinMiRa wie bei
169. ethode an Zwindermann 1995 Andrich und Luo 2003 wel che ebenso wie das Conditional Maximum Likelihood Verfahren eine Separierbarkeit der Parameter gew hrleistet und keinerlei Verteilungsannahmen trifft 9 4 Dateninput Der Dateninput erfolgt in Form von fixed format ASCII files welche innerhalb von RUMM definiert werden m ssen SPSS Dateien Microsoft Excel Dokumente oder Datenformate anderer Programme k nnen nicht direkt eingelesen werden In diesem Fall ist zun chst die Ausgabe der Daten in ein ASCII File erforderlich Obwohl dies zun chst als eine nachteilige Barriere erscheinen mag so garan tiert die bewusste Auswahl von Variablen im Allgemeinen eine sinnvolle Auswahl von Variablen die auch tats chlich analysiert werden k nnen Die Definition von Datenfiles in RUMM ist sehr bersichtlich gestaltet Zun chst ist die Struk tur der Daten festzulegen wobei hier lediglich anzugeben ist ob eine Personen ID vorhanden ist oder nicht bzw ob neben der Item Facette weitere Variables definiert werden sollen Letzteres ist bei multi facet Modellen der Fall So kann beispielsweise neben der Personenf higkeit oder allgemei ner formuliert der Auspr gung der zu messenden latenten Variablen bei den Personen und der Itemschwierigkeit Auspr gung der Items auf der latenten Variablen auch eine Raterentit t wie sie etwa bei der Beurteilung von Essays von Bedeutung ist definiert werden Im n chsten Schritt ist die Personen ID
170. etragen weiterhin 24 Modell 7 Generalized Rating Scale Version des GGUM Das Generalized Rating Scale Modell lockert die Restriktion des Rating Scale Modells hinsichtlich der Diskriminationsparameter a Diese d rfen in der verallgemeinerten Version ber die Items i variieren Modell 8 Generalized Graded Unfolding Model GGUM Das allgemeinste Modell das mit GGUM 2004 zu sch tzen ist ist weder in den Dis kriminationsparametern a noch in den Thresholds ro bzw in den Abst nden der Thresholds A restringiert Sollen die Lambda bzw Threshold Parameter restringiert werden Durch das Setzen dieses Parameters auf Y Yes anstatt von N ZNo kann man die f r die Modelle 2 4 6 und 8 die Bedingung hinzuf gen dass die Lambda Werte der Items obwohl sie weiterhin f r jedes Item variieren d rfen im Durchschnitt ber alle Items konstant bleiben m ssen Invertieren der urspr nglichen Parametervorzeichen Durch das Setzen von Y anstatt von N kann die Skala der Itemkategorien umgedreht werden d h die Codierung von starker bis schwacher Zustimmung wird genau invertiert Auf die Likelihood Funktion hat dies keine Auswirkung Anzahl der Quadraturpunkte Die MML und EAP Verfahren verwenden numerische Integrationsalgorithmen Die Anzahl der Quadraturpunkte kann maximal 50 betragen und gibt sozusagen die Aufl sung an die im Zuge des numerischen Integrationsverfahrens verwendet werden soll Datenquelldatei Hier mus
171. etric Methods Data cpdat dat i4 1x 24i1 24 NUMBER OF ITEMS Y IS NUMBER OF CATEGORIES CONSTANT 6 NUMBER OF RESPONSE CATEGORIES Y DO YOU WANT TO RECODE THE DATA Y IS RESPONSE CUTOFF CONSTANT 0 RESPONSE CUTOFF N DISCARD ANY ITEMS N DISCARD ANY PEOPLE N SIGNS OF INITIAL LOCATION ESTIMATES NOT MANUALLY ASSIGNED 200 NUMBER OF OUTER CYCLES 10 NUMBER OF INNER CYCLES 30 NUMBER OF FISHER SCORING ITERATIONS FOR THRESHOLDS 30 NUMBER OF FISHER SCORING ITERATIONS FOR DELTAS amp ALPHAS 0 001 CRITERION Y WANT TO PLOT 20 NUMBER OF PLOT GROUPS 2000 NUMBER OF THETA DELTA PAIR GROUPS Y WANT FIT STATISTICS 3 NUMBER OF FIT GROUPS Y PRINT FIT FOR EVERY PERSON 2 576 ITEM T VALUE CUTOFF 0 01 ITEM CHI SQUARE PROBABILITY CUTOFF 3 291 PERSON T VALUE CUTOFF 0 001 PERSON CHI SQUARE PROBABILITY CUTOFF 2 576 PERSON LOCALIZED T VALUE CUTOFF Abb 10 3 Beispiel eines Command Files Number of Outer Cycles 200 Number of Inner Cycles fio Number of Fisher Scoring Iterations for Thresholds 30 Items o 0 001 Convergence Criterion OK Cancel Abb 10 4 Beispielansicht einer Windows basierten Eingabemaske welche alternativ zum Einlesen eines Command Files verwendet werden kann Es lassen sich alle Parameterwerte auch ber dieses Windows basierte Benutzerinterface festlegen Hier wird exemplarisch die Eingabe der Parameter 15 Number of Outer Cycles bis 19 Convergence Criterion dargestellt 176
172. eurteilt Die Daten liegen den Programmdateien als Rohtext in einem dat Format bei und werden von ConQuest ber einen Befehl eingelesen Um die Daten korrekt einlesen zu k nnen muss im Input Window definiert werden welche Spalte welche Information der Untersuchung beinhaltet Insgesamt enth lt das Input Window jedoch nicht nur den Pfad zu den Daten der Untersuchung sondern auch alle Informationen und Befehle welche ben tigt werden um die Analyse durchf hren zu k nnen Dies sind im Einzelnen Der Name der Analyse Der Pfad zu der Datei mit den Rohdaten der Untersuchung Die Spezifikation der Spalten in welchen die Codes der beiden Rater definiert sind Die Spezifikation der Spalten in welchen die OP und TF Ratings der beiden Beurteiler aufgef hrt sind 5 Die Spezifikation der Labels der einzelnen Ratings G bis L und eine entsprechende Skalierung o bis 5 6 Die Bezeichnungen der drei Parameter mithilfe derer die Messungen modelliert werden sollen in diesem Fall Rater Harshness Criteria Difficulty Step Structure of Responses 7 Spezifikationen ber die Sch tzung des Modells sowie die Definition der Datei in welcher die Ergebnisse gespeichert werden sollen 8 Die Definition einer Datei in welcher die klassische Itemanalyse gespeichert werden soll B DW HR In den Output Dateien werden die Sch tzungen der einzelnen Parameter die Sch tzfehler sowie die gewichteten und ungewichteten Fit Statistiken inklusive korre
173. ev frequencies DUCTU IN MEN 0 1 VAR1 0 67 0 47 0 329 0 671 VAR2 0 73 0 44 0 270 0 730 VAR3 0 64 0 48 0 358 0 642 VAR4 0 70 0 46 0 300 0 700 VAR5 0 42 0 49 0 581 0 419 Sum 3 16 threshold parameters ordinal partial credit model item item label location threshold parameters Aue 1elizal RITE ERES VAR1 0 12680 VAR2 0 89137 VAR3 0 13855 VAR4 0 46740 VARS 1 34702 Abb 4 19 category frequencies item scores und threshold parameters class 2 KFT dat item fit assessed by the Q index itemlabel Q index Zq p X gt Zq uelit E E EE VAR1 0 0000 0 0291 0 48839 fh He ea Qh ie sake VAR2 0 3607 0 0587 0 52340 VAR3 0 1424 0 0192 0 50766 SN EE I VAR4 0 4371 0 0824 0 46715 Q VARS 0 0000 0 0356 0 51420 Mast p lt 0 05 p gt 0 95 p lt 0 01 p gt 0 99 Abb 4 20 item fit class KFT dat Die person fit index descriptives Abb 4 21 geben Auskunft ber die Anpassungsg te des Mixed Rasch Modells an die Antwortmuster der Befragten Die dargestellten Werte stellen z Werte dar wobei Werte kleiner 1 96 oder gr er als 1 96 als kritisch anzusehen sind wohingegen Werte innerhalb dieser Intervalle auf eine gute Modellanpassung hinweisen B hner 2006 S 367 Im Beispiel kann folglich von einer guten Modellanpassung ausgegangen werden Aus der Tabelle statistics of expec ted class membership k nnen
174. ezeichnung Ich gehe gerne aus Die vierstufige Antwortskala wurde urspr nglich mit bis 4 kodiert wird in RUMM nun zu o bis 3 umkodiert Auch hier kann eine Template Datei abgespeichert werden Template Files sind auch direkt mit jeden Editor oder auch MS Excel editierbar Abb 9 2 Ausschnitt aus der Itemspezifizierung Item Label Code Jitm1 Description Ich gehe gerne aus No of Response Categories 4 Reverse score item 9 5 Analysen Jede einzelne Modellsch tzung stellt eine Analyse analysis dar Grunds tzlich werden alle Personen und alle im Projekt enthaltenen Items in der Weise herangezogen wie sie definiert wurden Jede neue Analyse kann jedoch in vielerlei Hinsicht modifiziert werden siehe Abbildung 9 3 Abb 9 3 Erstellung einer neuen Analyse Analysis Name BASE selected Person Estimation by Weighted Maximum Likelihood method Analysis Specifications r Analysis Name ANALYSIS TITLE base x SPECIAL COMMENTS CR Derived from the Default Project Settings TEST STRUCTURE Analysis Type Polytomous Extended Response Category test format No of Items 46 No of Categories Equal across Items set at 5 categories per item Score Range All Items 183 Some Items Anchored No Subtests created No p Project Default as the Basis Ausscheidung von Personen Ausscheidung von Items Likelihood Ratio Test Partial Credit Model gegen Ra
175. f Punkte Person 2 hat nur zwei der drei richtigen Antworten markiert und bekommt beim Auswertungsschema Alles oder Nichts null Punkte bei der Bewertung Teilpunkte bekommt die Person allerdings vier Punkte da zwei richtige Antworten markiert wurden und die beiden falschen Antworten nicht markiert wurden d h es wurde nur eine der f nf m glichen Antworten falsch beantwortet Tabelle 3 2 Vergleich der Auswertungssschemen Alles oder Nichts und Teilpunkte L sung Richtig Richtig Falsch Richtig Falsch Punkte bei Punkte bei Alles oder Nichts Teilpunkte Person 1 x x x 5 5 Person 2 x o A Person 3 x x x x e 3 Person 4 X X X X o 2 Person 5 x x x o 1 Person 6 x x o o 3 5 2 Modellspezifikation Wie in Abbildung 3 4 ersichtlich wird zu Beginn der Titel spezifiziert Anschlie end wird die Anzahl der Facetten genannt Facets 3 Der Strichpunkt bedeutet dass die Anmerkungen danach nicht f r die Analysen verarbeitet werden Hier k nnen also s mtliche Kommentare und Erkl rungen eingef gt werden In Abbildung 3 4 sind so in Stichworten die jeweiligen Spezifikationen kurz erkl rt Mit Positive 2 wird festgelegt dass Facette 2 eine positive Orientierung hat Das bedeutet dass ein h herer Rohwert ein h heres Rasch Ma z B Personen oder Itemparameter erzeugt Im konkreten Fall also je mehr Fragen ein Student richtig hat desto f higer ist der jeweilige Student F r die beiden
176. f dessen Position auf dem zu messenden Einstellungskontinuum r ckschlie en Pepels 2007 Multidimensionale unfolding Modelle finden in der Multidimensionalen Skalierung bei Pr ferenz und Entscheidungsdaten Anwendung w hrend sich aber unfolding Modelle in der empirischen Sozialforschung weniger durchsetzen konnten de Leeuw 2005 Hier wollen wir eine Weiterentwicklung von Graded Unfolding Models GUMs Roberts 1995 Roberts und Laughlin 1996 vorstellen Generalized Graded Unfolding Models GGUMs wurden von Roberts et al entwickelt und in Roberts et al 2000 gemeinsam mit einer ad quaten Softwarel sung vorgestellt WU Wien Institut f r Arbeitsmarkttheorie und politik axel sonntag wu ac at WU Wien Institut f r Statistik und Mathematik daniela weber wu ac at 171 172 Axel Sonntag und Daniela Weber 10 1 1 Generalized Graded Unfolding Models Dieser speziellen Art von unfolding Modellen liegen vier Pr missen bez glich des Antwortprozesses zu Grunde Personen die einem Item zustimmen liegen auf dem latenten Kontinuum nahe bei einem Item w hrenddessen Personen die ein Item eher ablehnen sich von diesem weiter entfernt befinden Man kann also auf Grund der Differenz zwischen der Position des i ten Items 6 und der Position der j ten Person 0 auf den Grad der Zustimmung der Person zum Item schlie en Analog zu der in Abschnitt 10 1 beschreiben Idealpunkt Theorie Jede beobachtbare Antwort entspricht z
177. folding responses from a graded disagree agree response scale Applied Psychological Measurement 20 23 1 255 Rost J 1999 Was ist aus dem Rasch Modell geworden Psychologische Rundschau 50 140 156 Rost J 2000 The Growing Family of Rasch Models In Boomsma A van Duijn M und Snijders T Hrsg Essays on item response theory Seiten 25 42 Springer New York Rost J 2004 Lehrbuch Testtheorie Testkonstruktion Verlag Hans Huber Bern Rost J und von Davier M 1995 Polytomous Mixed Rasch Models In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 371 382 Springer New York Samejima F 1969 Estimation of Latent Ability using a Response Pattern of Graded Scores Psycho metrika Monograph Supplement 34 Scheiblechner H 1972 Das Lernen und L sen komplexer Denkaufgaben Zeitschrift fiir Experimen telle und Angewandte Psychologie 3 456 506 Shaw M E und Wright J M 1967 Scales for the measurement of attitudes McGraw Hill NY Smith E V 2002 Understanding Rasch Measurement Detecting and Evaluating the Impact of Multidimensionality using Item Fit Statistics and Principal Component Analysis of Residuals Journal of Applied Measurement 3 2 205 230 Stelzl I 1993 Testtheoretische Module In Tent L Stelzl I Hrsg Padagogisch psychologische Diagnostik Seiten 39 201 G ttingen Hogrefe Su rez Falc n J C und Glas C
178. g syntax R gt factor scores fit rasch2 resp patterns rbind rep 1 10 rep 0 100 method EAP Call rasch data SexAtt Scoring Method Expected A Posteriori Factor Scores for specified response patterns divorce sexdisc premar exmar gaysex gayscho gayhied gaypubl gayfadop gaymadop 1 1 1 1 1 1 1 1 1 T 1 2 0 0 0 0 0 0 0 0 0 0 bs Exp zi se zi 1 5 11 192 2 260 0 553 2 29 54 342 1 705 0 610 Furthermore there is also a plot O method for objects returned by functions factor scores This produces the kernel density estimation plot of the ability estimates and if the optional argument include items is set to TRUE it also superimposes the grouped item difficulty estimates this is similar to the item persons maps plot R plot fsc include items TRUE Dimitris Rizopoulos 148 Kernel Density Estimation for Ability Estimates e e N e oO e z o e 2 1 0 1 2 3 Ability 8 3 IRT Analysis for Polytomous Data The data we consider here come from the Environment section of the 1990 British Social Attitudes Survey Brook et al 1991 Bartholomew et al 2002 The data frame Environment available in 1tm contains the responses of 291 individuals asked about their opinion on six environmental issues The response options were very concerned slightly concerned nd not very concerned giving thus rise to six ordinal items 8 3 1 Descriptive Analysis As for the Sexual Attitude data the descript
179. gen Uberdiskrimi nanz an Solche Items sind zwar ebenfalls nicht modellkonform werden aber im Zweifel etwa wenn wenig Items zur Verf gung stehen oft beibehalten Eine Chi Quadrat Statistik beruht auf einem Vergleich erwarteter und tats chlicher mittlerer Responses in Personengruppen mit hnlichen Personenparametern welche zu Klassenintervallen zusammengefasst werden RUMM erm glicht auch einen Einblick in die Berechnung der Statistik sodass die Beitr ge der einzelnen Gruppen genau analysiert werden k nnen Signifikante Werte weisen auf Misfit der Items hin Die Addition aller Item Chi Quadrate f hrt zur Gesamtfitstatistik 9 RUMM Rasch Unidimensional Measurement Models 165 die bei den Summary Statistics angegeben ist Allerdings ist es durchaus m glich dass s mtliche Items p Werte von ber 0 05 aufweisen der Gesamtfit aber dennoch ungen gend ist Diese Situation tritt dann auf wenn sich die p Werte der einzelnen Items nicht erwartungskonform ber das gesamte Spektrum erstrecken sondern allesamt nur knapp ber dem Kriterium von 0 05 liegen Es empfiehlt sich jedenfalls die Erstellung eines Q Q Plots der Chi Quadratwerte wie er beispielsweise in SPSS leicht generierbar ist siehe Abbildung 9 6 Die Chi Quadratwerte der einzelnen Items k nnen aus RUMM mit copy amp paste sehr leicht exportiert werden Abb 9 6 In SPSS erstellte Q Q Plots vor links und nach rechts einer Bereinigung des Itempools 10 Expected
180. ggests that there is a significant treatment effect over the measurement points If a user wants to perform additional tests such as a Wald test for the equivalence of two y parameters the vcov method can be applied to get the variance covariance matrix 6 6 Additional topics This section will be extended successively with new developments and components which do not directly relate to the modeling core of eRm but may prove to be useful add ons 6 6 1 The eRm simulation module A recent eRm development is the implementation of a simulation module to generate o 1 matrices for different Rasch scenarios In this article we give a brief overview about the functionality and for more detailed descriptions within the context of model testing it is referred to Mair 2006 and Su rez Falc n und Glas 2003 For each scenario the user has the option either to assign 0 and as vectors to the simulation function e g by drawing parameters from a uniform distribution or to let the function draw the parameters from a N o 1 distribution The first scenario is the simulation of Rasch homogenous data by means of the function sim rasch The parameter values are plugged into equation 6 3 and it results the matrix P of model probabilites which is of dimension n x k An element p indicates the probability that subject v solves item i In a second step the matrix P has to be transformed into the 0 1 data matrix X The recommended way to achieve this is to dr
181. gleiche Anzahl der Antwortkategorien haben Wahrscheinlichkeit Wahrscheinlichkeit Abb 4 3 Category Characteristic Curves Rating Scale Model 4 1 4 3 Equidistance Model Das Equidistance Modell nimmt an dass die Abst nde zwischen zwei aufeinander folgenden Schwel len f r jedes und ber alle Items gleich sind Dieses Modell liefert einen Hinweis darauf dass eine Skala bzw ein Item wirklich intervallskaliert ist Es ist aber m glich dass der konstante Abstand f r jedes Item unterschiedlich gro ist Anstatt der Schwellenparameter t enth lt das Modell den Distanzparameter 0 als zus tzlichen Itemparameter Durch den Koeffizienten dieses Parameters x m 1 2 wird gew hrleistet dass jede Schwelle durch ihren Abstand zum Mittelpunkt aller Schwellen definiert wird Statt der k m unabh ngigen Schwellenparameter beinhaltet das Modell nur k Distanzparameter Siehe Abbildung 4 4 4 WinMiRa 2001 63 o 1 0 0 8 0 6 L 0 6 0 4 Wahrscheinlichkeit 0 4 Wahrscheinlichkeit 0 0 L 0 0 j Abb 4 4 Category Characteristic Curves Equidistance Model 4 1 4 4 Dispersion Model Das Dispersionsmodell enth lt sowohl Equidistance Parameter als auch Threshold Parameter Letztere definieren die Distanzen f r die Thresholds welche mittels der Equidistance Parameter erh ht bzw vermindert werden Die Schwellenabst nde werden als eine Eig
182. gnitive F higkeit angesehen werden Nach dem ffnen des Datensatzes KFT dat in WinMiRa ist zun chst die Auswertung zu spezifizieren Auswahl der Variablen Var 1 bis Var 5 unter Data Specification 4 WinMiRa 2001 67 Definition der Anzahl der zu bildenden Klassen unter Job Definition lt N of Classes In diesem Beispiel sollen zun chst zwei latente Klassen gebildet werden Auswahl der Latent Class Analyse unter Job Definition Select Model Latent Class Analysis Durch den Befehl Start Start Job wird das gew hlte Modell berechnet und die Ergebnisse der Analyse in Textform dargestellt Nach einer Zusammenfassung der Antworth ufigkeiten je untersuchter Variable werden die Sch tzer gebnisse der latenten Klassen dargestellt auf die nun n her eingegangen wird Abb 4 9 Final estimates in CLASS 1 of 2 with size 0 53791 expected category frequencies and item scores Item Item s relative category label Score Stdev frequencies ESPERE Pelee Ama 0 1 VAR1 0 90 0 30 0 102 0 898 VAR2 0 93 0 25 0 067 0 933 VAR3 0 74 0 44 0 256 0 744 VAR4 0 66 0 47 0 336 0 664 VARS 0 48 0 50 0 518 0 482 Sum 3 72 threshold parameters ordinal partial credit model item item label location threshold parameters GE Lee VAR1 2 18001 VAR2 2 63564 VAR3 1 06849 VAR4 0 68340 VARS 0 07036 Abb 4 9 Sch tzergebnisse der latenten Kla
183. gories Psychometrika 37 1 29 51 Bock R D und Aitkin M 1981 Marginal Maximum Likelihood Estimation of Item Parameters Application of an EM Algorithm Psychometrika 46 443 445 Bond T G und Fox C M 2007 Applying the Rasch model Lawrence Erlbaum Associates Mahwah NJ second edition Borsboom D 2006 The attack of the psychometricians Psychometrika 71 425 440 Brook L Taylor B und Prior G 1991 British Social Attitudes 1990 Survey SCPR London de Boeck P und Wilson M 2004 Explanatory item response models A generalized linear and nonlinear approach Springer New York de Leeuw J 2005 Multidimensional Unfolding In Encyclopedia of Statistics in Behavioral Science Wiley de Leeuw J und Verhelst N 1986 Maximum likelihood estimation in generalized Rasch models Journal of educational statistics 11 183 196 Doran H Bates D Bliese P und Dowling M 2007 Estimating the Multilevel Rasch Model With the Ime4 Package Journal of Statistical Software 20 2 1 18 Eckes T 2003 Qualit tssicherung beim TestDaF Konzepte Methoden Ergebnisse Fremdsprachen and Hochschule 69 43 68 Fischer G 1983 Logistic linear trait models with linear constraints Psychometrika 48 3 26 Fischer G H 1973 The linear logistic test model as an instrument in educational research Acta Psychologica 37 359 374 Fischer G H 1974 Einf hrung in die Theorie psychologischer Tests Hub
184. gs Pr ferenz oder Ent scheidungsdaten anhand des unfolding Modells von Coombs Es k nnen dabei verschieden generierte Daten wie complete oder partial rank orders Likert type rating scales oder dichotome Daten als Input verwendet werden MUDFOLD sucht dann aus diesen Inputs eine Maximalzahl an Stimuli die auf eine unfolding Dimension abgebildet werden k nnen Gleichzeitig wird auch begr ndet warum einzelne nicht repr sentierte Stimuli nicht abgebildet werden konnten MUDFOLD bietet eine Reihe von Goodness of Fit Tests an und h lt auch die M glichkeit bereit ein ordered subset aller Stimuli Items die ber alle Personen am besten zum unidimensionalen unfolding scale passen In einer Analyse k nnen maximal 36 Items und einige tausend Personen untersucht werden GGUM kennt keine derartige Item Beschrankung RUMMFOLDss und RUMMFOLDpp Rasch Unidimensional Models for Measurement for Unfolding Response Models RUMMFOLD wurde von David Andrich Murdoch University entwickelt Es werden zwei Programm versionen unterschieden ss und pp die sich jeweils auf eine spezielle Art der Datengenerierung beziehen Daten aus einem direct response Single Stimulus Design werden mit RUMMFOLDss und Daten aus pair comparison bzw pairwise preference Designs werden mit RUMMFOLDpp analysiert Beide Programme sch tzen letztlich die Item Location Parameter jedoch sind aufgrund der un terschiedlichen Erhebungsverfahren bei ss sind Items unabh ngig von eina
185. harfe verbale Kennzeichnungen So unterscheiden sich beispielsweise die Kategorien ab und zu und gelegentlich nicht wirklich sodass es auch nicht gerechtfertigt ist eine Kategorie h her zu scoren als die andere Auch negativ formulierte Fragen f hren berdurchschnitt lich h ufig zu ungeordneten Thresholds Einen guten berblick ber die Verteilung der Items der Personen oder von Items und Personen bie ten Targeting Plots siehe Abbildung 9 11 Hier k nnen auch Teilausschnitte z B nur M nner oder auch Gegen berstellungen z B M nner versus Frauen abgebildet werden Mittelwertsunterschiede der Personengruppen lassen sich ebenfalls anzeigen und auf Signifikanz pr fen Schlie lich kann auch eine Informationsfunktion gezeichnet werden welche eindr cklich die Leistungsf higkeit des Messinstruments in Abh ngigkeit von der Lage auf der latenten Dimension darstellt Abb 9 11 Targeting Plot in RUMM Person Item Threshold Distribution PERSONS INFORMATION Grouping Set to Interval Length of 0 20 making 75 Groups 20 16 0 No Mean Total 125 1 160 0 577 12 096 8 096 o20ocoao m o 4 096 0 0 2 3 4 5 6 7 Location logits i 0 0 2 7 5 4 8 2 ITEMS 0 10 9 13 6 20 M e 9 RUMM Rasch Unidimensional Measurement Models 169 In jedem Ergebnisbereich k nnen Tabellen oder Grafiken abgespeichert werden Meist ist durch einfaches Kopieren und Einf gen auch ein bertrag in Tab
186. he Gibbs sampler To run this progran ou need to provide the following information Please enter the number of examinees and the number of items in your dataset separated by at least one space Abb 2 1 Das Eingabefenster nach dem Start von SCORIGHT inkl Kurzinformation und der ersten Eingabeaufforde rung Die Benutzung des Programms soll nun anhand eines simulierten Datensatzes der aus 500 Personen und zw lf dichotomen Items besteht illustriert werden Des weiteren wurden zwei Testlets zu jeweils vier und drei Items eingebaut Der Rest wurde als unabh ngig spezifiziert Im ersten Schritt wird man nun aufgefordert die Anzahl der Personen sowie der zu verrechnenden Items anzugeben Bei der Dateneingabe ist zu beachten dass Zahlen immer durch einen Abstand einen oder mehrere Abst nde oder Tabulatoren separiert werden Please enter the number of examinees and the number of items in your dataset separeted by at least one space 500 12 Danach ist die Eingabe der Anzahl aller dichotomen Items die im Datensatz enthalten sind erforderlich Falls keines der Items nur aus zwei Kategorien besteht werden durch die Eingabe von o automatisch alle Aufgaben vom Programm als mehrkategoriell angesehen In diesem Fall sind jedoch alle Items zweikategoriell Please enter the number of dichotomous items within the total 12 items 12 Im n chsten Schritt wird verlangt die Anzahl der 2PL Items also ohne Rateparameter im Da tensatz zu spezifiz
187. hematical Statistics and Probability Vol IV Seiten 321 333 University of California Press Berkeley Rasch G 1977 On Specific Objectivity an Attempt at Formalizing the Request for Generality and Validity of Scientific Statements Danish Yearbook of Philosophy 14 58 93 Rasch G 1980 Probabilistic Models for Some Intelligence and Attainment Tests The University of Chicago Press Chicago expanded edition with foreword and afterword by B D Wright Reid F J 1976 Scoring Multiple Choice Exams The Journal of Economic Education The Journal of Economic Education 8 1 55 59 Reimers H 2005 Winmira Online Manual Christian Albrecht Universit t zu Kiel Institut f r P dagogik Rizopoulos D 2006 Itm An R package for latent variable modeling and item response theory analyses Journal of Statistical Software 17 5 1 25 Literaturverzeichnis 187 Rizopoulos D und Moustaki I 2008 Generalized Latent Variable Models with Non Linear Effects British Journal of Mathematical and Statistical Psychology 61 415 438 Roberts J S 1995 Item response theory approaches to attitude measurement PhD thesis University of South Carolina Columbia Roberts J S Donoghue J R und Laughlin J E 2000 A General Item Response Theory Model for Unfolding Unidimensional Polytomous Responses Applied Psychological Measurement 24 3 32 Roberts J S und Laughlin J E 1996 A unidimensional item response model for un
188. his bidirectional deviation around 1 is warranted by the lognormal distribution LN p 07 with p o Since it is a logarithmic distribution a cannot be negative The degrees of model violation can be steered by mea ns of the dispersion parameter o A value of o 50 already denotes a strong violation The lower o the closer the values lie around 1 In this case the a are close to the Rasch slopes Using the function sim xdim the unidimensionality assumptions is violated This function allows for the simulation of multidimensional Rasch models as for instance given Glas 1992 and Adams et al 1997a Multidimensionality implies that one single item measures more than one latent construct Let us denote the number of these latent traits by D Consequently each person has a vector of ability parameters 0 of length D These vectors are drawn from a multivariate normal distribution with mean p o and VC matrix X of dimension D x D This matrix has to be specified by the user with the argument Sigma In order to achieve strong model violations very low correlations such as 01 should be provided To specify to which extend item i is measuring each of the D dimensions a corresponding vector of weights z of length D is defined If the resulting k x D matrix Z is not provided by the user sim xdim generates Z such that each z contains only nonzero element which indicates the assigned dimension This corresponds to the between item multidimensional mo
189. hlern MODEL FOR GROUP DIFFERENTIAL ITEM FUNCTIONING GROUP THRESHOLD DIFFERENCES ITEM GROUP ITEM GROUP 2 1 2 1 mecHiosif sls p e ou cr quc duod sic stanti ITEMOO01 0 025 ITEMOO08 0 838 0 494 0 585 ITEMOO02 1 317 ITEMOO09 0 153 589 0 737 ITEM0003 0 394 ITEMOO10 0 491 0 657 0 534 ITEM0004 1 101 ITEMOO11 0 761 623 0 600 ITEMOO05 0 808 ITEMOO12 1 017 0 528 0 604 ITEM0007 0 517 ITEMOO13 0 901 0 756 0 725 STANDARD ERROR Durch die Sch tzung eines DIF Modells erhalten wir hier keinen Output zum Scoring welches die dritte und letzte Phase darstellt 5 4 1 3 Grafiken BILOG besitzt eine Oberfl che f r grafische Abbildungen der jeweiligen Analyse die ber ein all gemeines Men produziert werden k nnen siehe Abb 5 5 Man kann Item Characteristic Curves f r ein oder mehrere Items ICC Matrix Plot Informationskurven f r einzelne oder alle Items Information Total Info Kombinationen von ICC und Informationskurven f r Items ICC and Info sowie Abbildungen der F higkeitsparameter Bivariate Plot Histogram erzeugen In Abbildung 5 6 sehen wir die ICC der Parameter ist durch b und einem Pfeil auf der x Achse lokalisiert und Informationskurve der ersten Aufgabe im Test Die Exportfunktion der Plotroutinen erlaubt die Speicherung von Grafiken als Metafiles Windows und Enhanced Meta Files In Abbildung 5 7 ist Item 3 der Su
190. hood und Maximum Likelihood gew hlt werden kann Nach dem Rechnen der Analyse wird durch Display Analysis zum Ergebnisfenster gewechselt Zuvor k nnen noch Einstellungen zu den Fittests vorgenommen werden Das Ergebnisfenster siehe Abbildung 9 4 listet alle Ergebnisoptionen auf Die gew nschten Ausgaben k nnen durch entsprechendes Anklicken angefordert werden 9 6 Ergebnisse 9 6 1 Item Parameter Details Dieser Block bietet Ausgaben zu den Itemparametern Threshold Parameter bei mehrkategoriellen Items den H ufigkeiten in den einzelnen Responsekategorien sowie den Hauptkomponenten und den suffizienten Statistiken der Thresholdmodellierung in RUMM RUMM sch tzt die einzelnen 9 RUMM Rasch Unidimensional Measurement Models Abb 9 4 RUMM Ergebnisfenster m Item Parameter Details Thresholds C Category Frequencies fa Principal Components Guttman structure r Test of Fit Details C Summary Statistics C Individual Item Fit C Individual Person Fit C Residual Correlations C Residual Principal Components tem Face Overall m Guttman Pattem 3 r Item Categorisation r Item Characteristics C Category Probability Curves Item Characteristics Curves ICC for DIF analyses C Threshold Probability Curves 163 Sufficient Statistics Tailored Test Analysis s PUE TIE DHE uiri Curve Analysis Model r Further Outputs Full
191. howl Abb 7 11 Dichotomer Multiple Choice Test plot mcc 7 3 2 Beispiel 2 Die Analyse von Beurteilungseffekten Beurteilungen von Verhaltensantworten finden in einem Messkontext statt der durch drei Facetten oder Einfl sse gepr gt wird 1 Die Leistung einer Person ist das Messobjekt und l sst sich mithilfe eines Personenparameters bestimmen 126 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch 2 Die Messung erfolgt zum einen ber eine Aufgabe oder ein Item welches ber eine Schwierigkeit verf gt und daher ber einen Itemparameter verf gt l sst 3 Zum anderen erfolgt die Messung aber auch in Form einer Beurteilung durch einen Rater welcher in seinem Urteil eher streng oder milde sein kann Die Urteile unterschiedlicher Rater ber die gleiche Leistung k nnen deswegen konsistenter oder weniger konsistent ausfallen Linacre 1994a Im Manual zu ACER ConQuest wird ein experimentelles Setting beschrieben durch welches gezeigt wird wie ACER ConQuest zur Untersuchung von Beurteilungsgeffekten beitragen kann Untersucht wurden die Leistungen von rund 8300 Sch lern in einem Aufsatz wobei jeder Aufsatz von jeweils zwei Beurteilern eingesch tzt werden sollte Insgesamt gab es 16 Rater welche jeden Aufsatz dahingehend beurteilten wie dessen Gesamteindruck war Overall Performance OP und wie der Text im Detail gestaltet war Textual Features TF Beide Merkmale OP und TF wurden auf einer 6 stufigen Skala von G bisL b
192. ht einen signifikanten aber praktisch geringen Effekt Wiederum haben Jungen ein h heren Wissensstand als die M dchen 0 079 Alle Effekte sind signifikant auf einem 5 Niveau Auf der dritten Dimension Matter zeigt sich dasselbe Bild wie bisher Es wurde eine Konstante von 0 920 ermittelt Sch lerinnen aus h heren Schulstufen haben h here Werte was Wissen in diesem Fachgebiet anbetrifft 0 55 Auch h herer sozio konomischer Status geht mit h herem Wissensstand einher 0 262 Auch hier zeigt die Variable Geschlecht einen knapp signifikanten aber praktisch geringen Effekt Wiederum haben Jungen ein h heren Wissensstand als die M dchen 0 065 Alle Effekte sind signifikant auf einem 7 ACER ConQuest Generalised Item Response Modelling Software 129 ConQuest Untitled Eile Edit Input Window Output Window Iterations will terminate gt show cases testimates latent gt gt ex8d pls gt show cases festimates eap gt gt ex8d eap shou ttables 1 3 5 gt gt ex8d shu gt show parametersttable 3 ConQuest Generalised Item Response Modelling Software Thu Dec 18 16 12 2889 TABLES OF POPULATION MODEL PARAHETER ESTIMATES Regression Variable amp Mot Light amp Sig Matter Earth amp Spa Multiple Ch CONSTANT d 8 041 1 962 0 044 0 920 8 056 961 8 034 443 8 852 8 825 8 718 8 828 8 549 8 828 787 8 821 324 8 832 8 825 8 879 8 827 8 865 8 828 825 8 821 246 8 832
193. ibuted with the corresponding degrees of freedom Based on these quantities unweighted outfit and weighted infit mean square statistics can also be used to evaluate item and person fit see e g Wright und Masters 1982 6 4 2 A Wald test for item elimination A helpful implication of CML estimates is that subsequent test statistics are readily obtained and model tests are easy to carry out Basically we have to distinguish between test on item level and global model tests On item level sample independence reflects the property that by splitting up the sample in e g two parts the corresponding parameter vectors f and f should be the same Thus when we want to achieve Rasch model fit those items have to be eliminated from the test which differ in the subsamples This important issue in test calibration can be examined e g by using a graphical model test Fischer und Scheiblechner 1970 propose a N o 1 distributed test statistic which compares the item parameters for two subgroups 0 gl z Bi 6 23 Var Var i i The variance term in the denominator is based on Fisher s function of information in the sample However as Glas und Verhelst 1995a point out discussing their Wald type test that this term can be extracted directly from the variance covariance matrix of the CML estimates This Wald approach is provided in eRm by means of the function Waldtest 106 Patrick Mair und Reinhold Hatzinger
194. idan und Guanzhong Luo entwickelt Die erste ver ffentlichte Version RUMM 2 7q datiert auf 1997 zur ck In der Folge wurden die Versionen 2010 2020 und Anfang des Jahres 2010 die Version RUMM 2030 Andrich et al 2010 vom RUMM Laboratory Pty Ltd http www rummlab com au publiziert Ein wesentliches Merkmal von RUMM 2030 ist seine Benutzerfreundlichkeit Der Datenimport die Auswahl der Analysen sowie die Abfrage der Ergebnisse erfolgt durchg ngig men gesteuert erfordert also keine programmspezifische Syntaxformulierung Das Windows Programm liefert gut gestaltete in der Regel druckreife grafische Outputs die auch leicht exportiert und in Textverarbei tungsprogramme problemlos eingebunden werden k nnen Im Unterschied zu SPSS existieren keine RUMM Syntaxdateien und grunds tzlich auch keine Output files Ergebnisse lassen sich jedoch gegebenenfalls in textbasierte Dateien oder Grafikfiles ausgeben Jeder Datensatz stellt ein eigenes Projekt project dar RUMM speichert alle zu einem Projekt geh renden Information Daten Analysen in einem Projektfile mit der Endung mbd 9 2 Modelle RUMM sch tzt ausschlie lich eindimensionale Rasch Modelle also Item Response Theory Model le die der Parameterinvarianz bzw der spezifischen Objektivit t Rasch 1977 entsprechen Das einfachste Modell ist daher das Rasch Modell f r dichotome Daten Rasch 1980 Daneben k nnen polytome Rasch Modelle Andrich 1978b a 1988a Masters
195. ie Residuen Datei hat eine Titelzeile QM no die Labels in der Datei haben keine Anf hrungszeichen Vertical 1A 2 3A zeigt f r Tabelle 6 an wie die Facetten dargestellt werden sollen 1A 3A von der ersten und dritten Facette Auswertungschema und Fragen werden die Namen abgebildet 2 von der zweiten Facette Studenten wird die Verteilung abgebildet T4maximum 300 legt fest wie viele Residuen in Tabelle 4 ausgegeben werden sollen Arrange mN zeigt wie Tabelle 7 angeordnet wird Barchart all zeigt alle M glichkeiten der graphical description of facet statistics an Tabellen 6 1 6 3 f r die jeweiligen Facetten Models 2 2 2 R5 Modell 3 Facetten Ende der Modellspezifikation Labels 1 Auswertungsschema Auswertungsschema ist Facette 1 analog zu den Judges werden hier 2 Auswertungsschemen f r MC Fragen verwendet 1 Alles oder Nichts 2 Teilpunkte t Ende der Beschriftung von Facette 1 Auswertungsschema 2 Studenten Studenten sind Facette 2 1 1118 i Ende der Beschriftung von Facette 2 Studenten 3 Fragen Fragen sind Facette 3 1 Branchenattraktivit t 2 Einkaufslabor 29 BCG Portfolio 302 SWOT Analyse 31 2 Marktdurchdringung Ende der Beschriftung von Facette 3 data 1 1 1 31 0 100 100 100 100 100 100 0 100 100 100 0 100 100 100 100 100 100 100 100 100 100 0 100 100 100 100 100 100 0 100 100 0 100 100 100 100 2 1118 1 31 100 0 0 0 100 100 100 100 100 0 100 100
196. ieren Im vorliegenden Beispiel beinhaltet keines der Items einen Rateparameter W re die angegebene Zahl kleiner als die im vorherigen Schritt angebene Gesamtanzahl so werden die restlichen Items von SCORIGHT automatisch als 3PL Items behandelt Please enter the number of 2PL binary response items 12 Im vierten Schritt ist die Anzahl der in den Daten vorhandenen Testlets anzugeben Falls jedoch alle Items unabh ngig voneinander sind ist diese Frage mit o zu beantworten Der Beispieldatensatz enth lt zwei Testlets Enter the total number of testlets in the test 2 Mit der Folgenden Eingabeaufforderung definiert man den Dateipfad und die Datei welche die zu analysierenden Daten enth lt Enter the name of the file that contains the test data c subdirectory Bsp1 dat 32 Kathrin Gruber Es ist darauf zu achten dass die Daten eine bestimmte Struktur aufweisen Wie gewohnt bezeichnen Zeilen die Beobachtungen pro Person und Spalten die Items welche von den Testpersonen bearbeitet wurden Allerdings d rfen die Items durch keine Trennzeichen Komma Abst nde usw separiert sein Ebenfalls zu beachten ist dass fehlende Werte in der Datenmatrix mit einem N kodiert werden SCORIGHT behandelt diese fehlenden Werte damit als vollst ndig zuf llig engl missing completly at random 000100101001 111010101101 011001010101 010001000000 010000100100 101111101111 010111111010 Die n chsten Schritte dienen dazu nochmals die P
197. ieren kann Anschlie end wird die Item Charakteristik Kurve ICC dargestellt die die Beziehung zwischen der F higkeit einer Personen und der Wahrscheinlichkeit eine Aufgabe zu l sen zeigt Wie zuvor kann die modellierte und die empirische Kurve ber den Men punkt Graphs in einem Diagramm dargestellt werden wobei auch noch das Konfidenzintervall ersichtlich ist 3 6 Diskussion Die Qualit tssicherung der Leistungsbeurteilungen sind mittlerweile ein fester Bestandteil jeder Universit t und das MFRM erlaubt es strenge und milde Beurteiler bzw Auswertungsschemen zu erfassen sowie Aufschluss ber die F higkeiten der beurteilen Personen und die Schwierigkeit der Fragen zu geben Diese Aufgabe kann mit dem von Linacre 1989 entwickelten Programm FACETS durchgef hrt werden wobei die Messung der Beurteilerstrenge der Personenf higkeit und 56 Margit Kastner Amata Ring und Brigitte Stangl Table 7 3 1 Fragen Measurement Report arranged by mN 44444 222222 Total Total Obsvd Fair Ml Model Infit Outfit Estim Correlation Score Count Average Avrage Measure S E MnSq ZStd MnSq ZStd Discrm PtMea PtExp Nu Fragen 4 4 4 4 4 I 5249 2236 2 8 2 29 41 01 82 7 2 81 4 5 76 59 57 4 Positionierung 5256 2236 2 3 2 301 41 01 88 4 6 92 1 8 73 57 57 3 Segmentierung 6287 2236
198. ierigkeit je nach F higkeit einer Person die L sungswahrscheinlichkeit ermittelt Die Werte der Items werden auf Basis der Randsummen der Daten Person x Item mittels joint uML konditionaler CML oder marginaler Maximum Likelihood Methode mML berechnet Der Nachteil der uML ist dass es durch die simultane Berechnung von Item und Personenparametern zu Sch tzproblemen kommen kann Dieses Problem wird durch die Normalverteilungsannahme der Personenparameter bei mML reduziert Am elegantesten ist allerdings cML bei der nicht nur genanntes Sch tzproblem vermieden wird sondern auch die Stich probenzusammensetzung keinen Einfluss mehr auf die Itemparametersch tzung hat Die Sch tzung 3 FACETS 41 erfolgt ohne dass Personenparameter im Voraus bekannt sein m ssen womit spezifische Objekti vit t unabh ngige Sch tzung der Item und Personenparameter garantiert wird da Item und Personenrohscores suffiziente Statistiken der jeweiligen Parameter sind Die so errechneten Item und Personenparameter besitzen dann die gleiche Einheit wobei negative Werte auf einfachere Items oder unf higere Personen hinweisen und vice verca Mit diesen Kenntnissen kann man je Item direkt die L sungswahrscheinlichkeit f r eine Person prognostizieren B hner 2006 Die Differenz zwischen Personen und Itemparameter entspricht dem Logit der L sungswahrscheinlichkeit Fischer und Molenaar 1995 Das Standard Rasch Modell sch tzt dichotome Daten Das
199. iersprache Es ist daher fraglich wie viel des Potentials der Programme tats chlich zum Einsatz kommt da sich Gelegenheits IRT User wahrscheinlich nicht durch die Matrizenspezifikationen k mpfen um alle Modelle sch tzen zu k nnen Dennoch sind BILOG und MULTILOG aufgrund ihrer Flexibilit t und der Vielzahl an unterschiedlichen Modellen Sch tzmethoden etc auch heute noch wichtige Pakete im IRT Sektor Kapitel 6 Extended Rasch Modeling The R Package eRm Patrick Mair und Reinhold Hatzinger Zusammenfassung This package vignette is an update of the eRm papers by published in a special issue on Psychometrics in the Journal of Statistical Software and in Psychology Science Mair und Hatzinger 2007a b Since the publication of these papers various extensions and additional features have been incorporated into the package We start with a methodological introduction to extended Rasch models followed by a general program description and application topics The package allows for the computation of simple Rasch models rating scale models partial credit models and linear extensions of these The incorporation of such linear structures allows for modeling the effects of covariates and enables the analysis of repeated categorical measurements The item parameter estimation is performed by means of CML for the person parameters we use ordinary ML The estimation routines work for incomplete data matrices as well Based on these estimators item wis
200. ifizierten Facetten und Labels bereinstimmen In diesem Beispiel werden die Daten direkt in der Spezifikationsdatei an FACETS bergeben data 1 1 1 31 0 5 5 1 2 1 31 5 0 0 1 1118 1 31 0 0 0 2 1 1 31 2 5 5 2 1118 1 31 3 1 4 Es wird also pro Facette spezifiziert um welches Element es sich handelt Die erste Zeile zeigt dass im 1 Auswertungsschema Facette 1 der erste Student Facette 2 bei der ersten Frage null Punkte bei der zweiten Frage f nf Punkte und bei der 31 Frage auch f nf Punkte erreicht hat Die letzte Zeile der Daten besagt dass im 2 Auswertungsschema der 1118 Student bei der ersten Frage drei Punkte bei der zweiten Frage einen Punkte und bei der 31 Frage vier Punkte erreicht hat Mit 1 31 wird angezeigt dass f r insgesamt 31 Fragen Beurteilungen vorliegen 3 5 3 Interpretation der Ergebnisse Nachdem wie in Abschnitt 3 4 gezeigt das Programm gestartet wurde und die Parametersch tzung durchgef hrt wurde k nnen nun die Ergebnisse die FACETS liefert betrachtet werden 3 5 3 1 Output Datei In der Output Datei wird zu Beginn in Tabelle 1 Table 1 Specifications die Spezifikation wie dergegeben Inkludiert werden hier nicht nur die explizit in der Spezifikationsdatei festgelegten Bestimmungen sondern auch die Standardeinstellungen die nicht ber eigene Spezifikationen abge wandelt wurden siehe Abbildung 3 5 Danach werden Tabelle 2 Table 2 Data Summary Report und Tabel
201. ildung 3 4 kann die Lage der Facette Auswertungsschema relativ zu den beiden anderen Facetten gesehen werden Generell trifft das Auswertungsschema Alles oder nichts in etwa die F higkeit der Studenten Mittelwert nahe null Teilpunkte ist eher zu leicht deutlich niedrigerer Parameter Die weiteren Tabellen die im Output enthalten sind beziehen sich gr tenteils auf den Fit des Modells und werden nun gesondert betrachtet Die Werte unter Cat bzw Score sind nur dann unterschiedlich wenn bspw dichotome Daten mit 1 und 2 kodiert w ren und sie im Zuge der Sch tzung des Modells auf o und 1 umkodiert werden m ssten Dann w re Score der Wert der zu den o und 1 kodierten Daten geh rt 3 FACETS 53 Table 6 0 All Facet Vertical Rulers Vertical 1A 2 3A S Yardstick columns lines low high extreme 0 10 1 2 End DI D D wer wer KHK Break Even Analyse Distributionsstufen Einkaufslabor we ne a ee a IE x BCG Portfolio Marktdurchdringung Maslow Partial Totalm kkeek Adoptionsprozess Branchenattraktivit t Kennzahlen Verbundsysteme Zeitl Abstimmung 0x zt Datenerhebung Differenzierung Kennzahlen Interpr Marktziele Werbestil Wirtsch Aanlayse Alles oder Nichts Marketing Aufgaben SWOT Analyse Verkaufsf rderung seek Delphimethode Konfidenzintervall Skimming Strategie rk Geschl Frage Involvement Ann Markoumfeld Analyse Mystery Shopping Krk Teilpunkte Barter Gesch
202. iles funktioniert einwandfrei Alles in allem kann WinMiRa aufgrund der beschriebenen Spezifika durchaus als geeignetes Programmpaket f r den Einstieg in Rasch Analysen bezeichnet und weiterempfohlen werden Kapitel 5 BILOG MG und MULTILOG Marco J Maier und Konradin Maier Zusammenfassung In diesem Kapitel werden die Softwarepakete BILOG MG und MULTILOG vorgestellt die zur Analyse dichotomer bzw polytomer Daten verwendet werden Beide Programme sind f r Microsoft Windows ausgelegt und verf gen sowohl ber ein code orientiertes als auch eine grafisches Benutzerinterface was sie auch f r IRT Neulinge interessant macht 5 1 Einleitung BILOG MG Zimowski et al 1996 eine Erweiterung von BILOG 3 Mislevy und Bock 1990 f r mehrere Gruppen ist f r die Analyse bin rer Items ausgelegt wobei auch Antwortformate wie Multiple Choice als richtig falsch codiert verwendet werden k nnen Zur Auswertung stehen 1 2 oder 3 Parameter Logistischen Modellen zur Verf gung Zus tzlich k nnen Ph nomene wie dif ferential item functioning DIF item parameter drift DRIFT oder variant item analysis VARIANT untersucht werden Um die Vergleichbarkeit von Scorings bei neuen Testformaten oder anderen Personengruppen zu gew hrleisten liegen auch hier entsprechende Verfahren vor MULTILOG Thissen 1991 bietet im Vergleich zu BILOG MG dieselben Verfahren f r bin re Items dar ber hinaus sind hier jedoch auch eine Vielzahl an Modellen f r ka
203. immtes Belastungsgef hl auftritt siehe Tabelle 2 Dabei bedeutet ein Wert von o dass das entsprechende Gef hl nie auftritt w hrend ein Wert von 4 ausdr ckt dass das jeweilige Belastungsgef hl nahezu immer zu bemerken ist Tabelle 1 2 Polytome Items D Zarit Burden Interview Screening Version bersetzung aus dem Englischen Wie h ufig haben Sie das Gef hl das Sie nie selten manchmal fters nahezu im mer aufgrund der Zeit die Sie mit Ihrer Ihrem betreu ungsbed rftigen Angeh rigen verbringen nicht ge nug Zeit f r sich selbst haben gestresst sind wenn Sie versuchen die Be treuung Pflege mit anderen Verpflichtungen Ar beit Familie zu vereinbaren angespannt sind wenn Sie Ihre n Angeh rige n betreuen pflegen unsicher sind wie es mit der betreuten Person weiter gehen wird Quelle VIC 2008 Die Daten stammen aus derselben Erhebung wie die Daten zum Pflege bzw Betreuungsbedarf lterer Menschen 709 vollst ndige F lle stehen f r die Analyse zur Verf gung Eine Faktoranalyse als in den Sozialwissenschaften etabliertes Alternativkonzept zum Rasch Modell gelangt zum Ergebnis dass alle 5 Items einen Faktor laden auch die Reliabilit t ist mit einem Cronbach Alpha von 0 861 als hoch zu betrachten 1 Winsteps 11 1 3 2 Dateninput und Modellspezifikation Analysen in Winsteps ben tigen als Input zwei verschiedene Komponenten Daten und Prozess
204. ine Kategorie fters zu w hlen s spezifiziert die Nummer der Schwelle w hrend m f r die Anzahl der Schwellen steht Der Personenparameter gibt die F higkeitsauspr gung der Person beim Item i an repr sentiert schlie lich den Schwellenparameter des dahinterliegenden Modells Dieser ist interpretierbar als die Schwierigkeit eine bestimmte Schwelle zu berschreiten Wenn der Schwellenparameter einer Person dem Personenparameter derselben entspricht ist die Wahl der beiden benachbarten Aussagenkate gorien gleich wahrscheinlich Die Person liegt im latenten Kontinuum genau zwischen den beiden Aussagekategorien B hner 2006 S 530ff Div x Wahrscheinlichkeit Wahrscheinlichkeit Abb 4 2 Category Characteristic Curves Partial Credit Model 62 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel 4 1 4 2 Rating Scale Model Die grundlegende berlegung bei Modellen f r Ratingskalen liegen darin einen Schwierigkeitspa rameter f r jedes Item zu bestimmen und die Schwellenparameter ber alle Items zu modellieren M gliche Annahmen w ren die quidistanz Schwellen der Ratingskala haben gleiche Abst nde und jene dass die Schwellen unterschiedliche Abst nde haben diese Abst nde jedoch f r alle Items gleich sind Aufgrund unterschiedlicher Kombinationsm glichkeiten dieser Annahmen entstehen verschiedene Modelle die Antwortprozesse bei Verwendung von Ratingskalen formalisiere
205. iner groben oberen Schranke der Absch tzung dar ber inwieweit das Konfidenzintervall des A posteriori Parameters sich verkleinern w rde wenn unendlich viele Iterationen durchlaufen w rden Laut Gelman amp Rubin sollten diese Werte kleiner als 1 2 sein um von Konvergenz der Ketten ausgehen zu k nnen Im hier behandelten Beispiel konvergierten die Ketten f r alle Werte bis auf den zweiten Testletparameter Man sollte den Sampling Algorithmus also nochmals mit mehr Iterationen durchlaufen um auch an dieser Stelle Konvergenz zu erzielen DIAGNOSIS FOR CONVERGENCE post 2 5 50 97 5 quantiles for the target distribution based on the Student t distribution confshrink 50and 97 5quantiles of a rough upper bound on how much the confidence interval of post will shrink if the iterative simulation is continued forever If both components of confshrink are not near 1 the user Should probably run the iterative simulation further 2PL Binary Items Coefficients for Item Parameter a Beta 0 Post 0 04 0 08 0 20 Confshrink 1 03 1 09 Coefficients for Item Parameter b Beta 0 Post 1 10 0 45 0 21 Confshrink 1 00 1 00 Variance Matrix of Item parameter a and b Variance of a Post 0 01 0 01 0 04 Confshrink 1 01 1 02 38 Kathrin Gruber Covariance of a and b Post 0 13 0 03 0 19 Confshrink 1 06 1 18 Variance of b Post 0 07 1 24 2 56 Confshrink 1 02 1 05 Variance of Gamma for Testlet Testlet
206. infor mationen Beide Informationen werden vom Anwender von der Anwenderin gemeinsam in einem txt File spezifiziert das von Winsteps zu einer Vielzahl an Outputs verarbeitet wird Nach dem Aufruf des Programmes gelangt man zun chst zum Hauptmen vgl Abbildung Wurde bereits ein Inputfile erzeugt f hrt ein Klick auf No direkt zur Eingabeaufforderung der Inputdatei vgl Anmerkungen weiter unten Abb 1 1 Winsteps Welcome Men CA WINSTEPS WINSTEPS Version 3 68 2 Feb 26 18 30 2010 Welcome to Winsteps Would you like help setting up your analysis Cour Importtrom Text File IL m Data Setup Ewel SAS Instructions Procedure SPSS STATA 7 Don t ask again m Nach der Auswahl von Control Data Setup Procedure ffnet sich ein Interface in dem mittels der Optionen von Winsteps ein Input File neu generiert bzw ein bereits vorhandenes Input File um Daten oder Prozessinformation erweitert werden kann Die verf gbaren Optionen beschr nken sich aber nur auf einige zentrale Aspekte Eine genaue Spezifikation des Inputfiles insbesondere der Modellspezifikationen ist erst nach Erzeugung im Editor selbst m glich siehe Anmerkungen weiter unten Sind alle Einstellungen abgeschlossen f hrt ein Klick auf die Optionen im Winsteps Pull Down Men zur ck zum Winsteps Hauptfenster vgl Abbildung 2 Winsteps Control File Set Up TITLE Report eis PERSON A data ro
207. ion for the data matrix is that X has to be well conditioned To introduce this issue it is convenient to look at a matrix which is ill conditioned A matrix is ill conditioned if there exists a partition of the items into two nonempty subsets such that all of a group of subjects L Blr 6 19 6 Extended Rasch Modeling The R Package eRm 103 responded correctly to items i 1 k X and all of all other subjects failed for items 1 i X i e Thus following the definition in Fischer 1981 X will be called well conditioned iff in every possible partition of the items into two nonempty subsets some subjects has given response 1 on some item in the first set and response o on some item in the second set In this case a unique solution for the CML estimates f exists This issue is important for structurally incomplete designs which often occur in practice different subsets of items are presented to different groups of persons g 1 G where G lt n As a consequence the likelihood values have to be computed for each group separately and the joint likelihood is the product over the single group likelihoods Hence the likelihood in Equation 6 19 becomes G ex k vg Lisle eee 6 20 k Ne g 1 IIo Yer This also implies the necessity to compute the elementary symmetric functions separately for each group The eRm package can handle such structurally incomplete designs From the elaborations above it is obvious that f
208. ion werden in Abschnitt 3 5 2 erkl rt Nachdem FACETS immer eine Output Datei out mit den Ergebnissen erzeugt muss im n chs ten Schritt der Name dieser Datei spezifiziert werden Standardm ig wird der gleiche Name wie bei der Datei mit den Modellspezifikationen vergeben Danach fragt FACETS ob man zus tzliche Spezifikationen angeben m chte siehe Abb 3 2 F r die meisten Analysen gen gt es dass Feld leer zu lassen und OK zu klicken A Extra Specifications x Extra specifications or click OK in the format iter 1 arrange m with no spaces within specifications and at least one space between them Abb 3 2 Zus tzliche Spezifikationen Da FACETS nun alle n tigen Informationen hat beginnt es selbstt tig zu rechnen W hrend der Parametersch tzungen informiert ein Fenster ber den Fortschritt der Iterationen Den Verlauf kann man auf dem Bildschirm mitverfolgen und es wird ein Auszug des Outputs die ersten drei Tabellen dargestellt In Tabelle 1 findet man die wichtigsten der vom Anwender festgelegten Modellspezifi kationen zur Erkl rung der einzelnen Spezifikationen siehe Abschnitt 3 5 2 Tabelle 2 gibt einen berblick ber die Daten In diesen beiden Tabellen kann also berpr ft werden ob FACETS die Daten und die Spezifikationen richtig bernimmt In Tabelle 3 kann der Sch tzvorgang mitverfolgt werden Wenn die Parametersch tzung abgeschlossen ist wird am unteren Ende des Bildschi
209. ispielsweise hat eine Person bei einer Frage mit vier Antwortm glichkeiten eine Ratewahrscheinlichkeit von 25 Prozent B hner 2006 Um Rasch Modelle zu testen gibt es verschiedene Ans tze eine rein deskriptive berpr fung er m glicht der grafische Modelltest Statistische berpr fungen erlauben Likelihood Quotienten Tests der Pearson x Test oder die Cressie Read Statistik von Davier 1997 Da die Voraussetzungen f r diese Tests selten erf llt werden bedient man sich h ufig der Bootstrap Methode die eine Simulation der Pr fverteilungen erm glicht Modelltests berpr fen ob die additive Verkn pfung von Personen und Itemparameter gilt ob die Summenwerte ersch pfende Statistiken sind und ob spezifische Objektivit t und Eindimensionalit t vorliegen Mittels des Likelihood Quotienten Tests kann durch Modellvergleiche jenes Modell gew hlt werden welches den Daten am besten entspricht Der Pearson x Test oder die Cressie Read Statistik pr fen auf signifikante Unterschiede zwischen beobachteten und erwarteten Antwortmustern B hner 2006 Laut Rost 2004 erh lt man mittels beider Tests hn liche Ergebnisse Um den Fit der Daten auf das Modell zu testen werden die Beziehungen zwischen erwarteten und den beobachteten Fehler Varianzen verwendet Mittels Mean Square Fehlerstatistiken Wright und Masters 1982 auch Infit bzw Outfit Index genannt werden die Abweichungen von den Erwartungen ber alle Personen und Items zus
210. ities As with plotting fitter IRT models for polytomous data estimation of latent abilities proceeds in the sa me manner as for dichotomous data Namely abilities are estimated using function factor scores in which available options are expected a posteriori and maximum a posteriori Below we present a comparison of the empirical Bayes estimates for the latent for the five polytomous IRT models fitted to the Environment data set We estimate abilities for three subjects one who has chosen option very concerned for all items one who has chosen option slightly concerned for all items and one who has chosen option not very concerned for all items R gt resp patts lt rbind rep 1 6 rep 2 6 rep 3 6 R gt models list fit gpcmi fit gpcm2 fit gpcm3 fit grm1 fit grm2 R gt out lt sapply models function x factor scores x resp patts score dat z1 R gt dimnames out lt list paste All 1 3 c GPCM rasch GPCM 1PL GPCM GRM constr GRM R gt out GPCM rasch GPCM 1PL GPCM GRM constr GRM All 1 0 861761 0 7729611 0 723661 0 7604717 0 7259074 All 2 1 366235 1 1554543 1 191593 1 1760591 1 2080896 All 3 3 060339 2 6642328 2 611972 2 7577941 2 6792566 Kapitel 9 RUMM Rasch Unidimensional Measurement Models Thomas Salzberger 9 1 Grundlagen RUMM ist ein Akronym und steht f r Rasch Unidimensional Measurement Models Die Software wurde von David Andrich Barry Sher
211. ixed Rasch Modell mit WinMiRa Bei Mixed Rasch Modellen werden sowohl die Eigenschaftsauspr gungen einer Person und deren Klassenzugeh rigkeit ermittelt Somit erm glicht diese Analyse dass sich die L sungswahrscheinlich keit der Personen innerhalb einer Klasse graduell voneinander unterscheiden k nnen wohingegen im Rahmen der Latent Class Analyse unterstellt wurde dass sich die L sungswahrscheinlichkeiten innerhalb einer Klasse nicht unterscheiden d rfen Um dies zu verdeutlichen wird nun ein Mixed Rasch Modell anhand des zuvor beschriebenen KFT Datensatzes berechnet Um ein solches Modell in WinMiRa zu berechnen sind folgende Einstellungen in WinMiRa vorzunehmen e ffnen des Datensatzes kft dat Auswahl der zu ber cksichtigenden Variablen Var 1 bis Var 5 unter Data Specification Definition der Anzahl der zu bildenden Klassen unter Job Definition N of Classes In diesem Beispiel sollen zwei latente Klassen gebildet werden Auswahl der Latent Class Analyse unter Job Definition Select Model Mixed Rasch Modell Durch den Befehl Start Start Job wird das gew hlte Modell berechnet die Ergebnisse der Analyse werden ebenfalls in Form eines Textberichtes dargestellt Nach einer Zusammenfassung der Antworth ufigkeiten je untersuchter Variable werden die Sch tzergebnisse der latenten Klassen dargestellt Eine Gegen berstellung der Itemscores der beiden Klassen KFT dat in Tab 4 3 2
212. j 0 bj ua 2 2 wobei hier a den Anstieg die Diskrimination b die Schwierigkeit des Items logit log 4 0 die latente F higkeit der Testperson und y a den Testleteffekt die Interaktion von Item j mit Person i welcher im Testlet d genestet ist bezeichnen Nun wird dieser Effekt in das formale 3PL Modell als zus tzlicher Parameter eingebaut P Y 21 2 cj 1 cj logit tij 2 3 Wie gewohnt bezeichnet in 2 3 Y die Antwort von Testperson i bzgl eines Items j und c den Parameter der unteren Asymptote welcher im 3PL Modell auch als Rateparameter bekannt ist Das 2PL Modell wird hier als Spezialfall des 3PL Modells aufgefasst welcher resultiert wenn alle Parameter f r die untere Asymptote c o gesetzt werden Laut Definition betr gt die within testlet Kovariation un o f r alle unabh ngigen Items Dies l sst sich nat rlich auch auf den mehrkategoriellen Fall mittels dem Ordinal Response Modell verallgemeinern PU 1 bid ti bid tij 2 4 dd bezeichnen in 2 4 die Itemkategorienparameter bei mehrkategoriellen Items und die kummulative Verteilungsfunktion der Normalverteilung Um nun all diese Informationen ber die Testperson die Items und die Testlets zu kombinieren wird ein hierarschiches Baves sches Modell zur Sch tzung der Modellparameter benutzt Dabei handelt es sich um ein Bayes sches statistisches Modell dessen A priori Verteilung 7 A in bedingte Vertei lungen p A
213. k columns correspond to the first test occasion the next k columns for the second etc In total there are n 20 subjects Among these the first 10 persons belong to the first group e g control and the next 10 persons to the second group e g treatment This is specified by a group vector gt data lpcmdat gt grouplpcm lt rep 1 2 each 10 Again W is generated automatically In general for such designs the generation of W consists first of the item contrasts followed by the time contrasts and finally by the group main effects except for the first measurement point due to identifiability issues as already described gt reslpcm lt LPCM lpcmdat mpoints 2 groupvec grouplpcm sumO FALSE gt model matrix reslpcm eta 1 eta 2 eta 3 eta 4 eta 5 eta 6 eta 7 eta 8 eta 9 eta 10 Ii ci ti g1 0 0 0 0 0 0 0 0 0 0 I1 c2 ti g1 1 0 0 0 0 0 0 0 0 0 Ii c3 ti g1 0 1 0 0 0 0 0 0 0 0 I2 c1 ti g1 0 0 1 0 0 0 0 0 0 0 I2 c2 ti g1 0 0 0 1 0 0 0 0 0 0 I2 c3 ti g1 0 0 0 0 1 0 0 0 0 0 I3 c1 ti g1 0 0 0 0 0 1 0 0 0 0 I3 c2 ti g1 0 0 0 0 0 0 1 0 0 0 I3 c3 ti g1 0 0 0 0 0 0 0 1 0 0 Ii ci ti g2 0 0 0 0 0 0 0 0 0 0 Ii c2 ti g2 1 0 0 0 0 0 0 0 0 0 I1 c3 ti g2 0 1 0 0 0 0 0 0 0 0 I2 c1 ti g2 0 0 1 0 0 0 0 0 0 0 I2 c2 ti g2 0 0 0 1 0 0 0 0 0 0 I2 c3 ti g2 0 0 0 0 1 0 0 0 0 0 I3 c1 ti g2 0 0 0 0 0 1 0 0 0 0 I3 c2 ti g2 0 0 0 0 0 0 1 0 0 0 I3 c3 ti g2 0 0 0 0 0 0 0 1 0 0 Ii ci t2 g1 0 0 0 0 0 0 0 0 1 0 I1 c2 t2 g1 1 0 0 0 0 0 0 0 2 0
214. kelihood onto r r r the person parameters 0 which in this context are nuisance parameters vanish from the likelihood equation thus leading to consistently estimated item parameters fl Some restrictions have to be imposed on the parameters to ensure identifiability This can be achieved e g by setting certain parameters to zero depending on the model In the Rasch model one item parameter has to be fixed to o This parameter may be considered as baseline difficulty In addition in the RSM the category parameters w and w are also constrained to o In the PCM all parameters representing the first category i e Bo with i 1 k and one additional item category parameter e g f have to be fixed For the linear extensions it holds that the 6 parameters that are fixed within a certain condition e g first measurement point control group etc are also constrained in the other conditions e g second measurement point treatment group etc At this point for the LPCM the likelihood equations with corresponding first and second order derivatives are presented i e unified CML equations In the first version of the eRm package numerical approximations of the Hessian matrix are used However to ensure numerical accuracy and to speed up the estimation process it is planned to implement the analytical solution as given below The conditional log likelihood equation for the LPCM is Tmax log Le Enn _nylogy 6 8 i 1
215. kennen am h chsten ist Weiters werden die Schwellenwerte oder Tresholds nach Rasch Andrich 3 FACETS 55 Table 7 2 1 Studenten Measurement Report arranged by mN Total Total Obsvd Fair M Outfit Estim Correlation Score Count Average Avrage Measure MnSq ZStdlDiscrm PtMea PtExp 310 62 5 0 5 001 3 72 1 79 Maximum 1 00 oi 91 94 310 62 5 0 5 001 3 72 1 79 Maximum mp 00 420 420 I 310 62 5 0 5 00 3 72 1 79 Maximum 00 00 679 679 310 62 5 0 5 00 3 72 1 79 Maximum 00 00 702 702 310 62 5 0 5 001 3 72 1 79 Maximum l mp 00 900 900 310 62 5 0 5 00 3 72 1 79 Maximum mp 00 1064 1064 304 62 4 9 4 92 1 21 32 2 54 1 5 1 44 7 1 12 15 12 7979 304 62 4 9 Aan 1 21 32 2 55 1 5 1 54 8 1 12 14 12 138 138 304 62 4 9 4 92 1 21 32 2 52 1 5 1 21 5 1 13 18 12 572 572 304 62 4 9 4 92 1 21 32 2 61 1 6 2 71 1 7 1 09 03 12 697 697 304 62 4 9 4 92 1 21 32 2 44 1 5 78 01 1 15 25 12 720 720 304 62 4 9 Aan 1 21 32 2 58 1 6 1 86 1 1 1 11 11 12 730 730 803 62 4 9 4 91 1 12 29 2 39 1 5 3 52 2 2 1 07 04 14 999 999 302 62 4 9 4 90 1 04 26 2 30 1 5 2 79 1 8 1 09 o 15 878 878 300 62 4 8 4 87 93 23 2 42 1 7 2 31 1 5 1 16 13 17 1100 1100 298 62 4 8 4 85 84 20 1 97 1 4 1 63 9 1 11 13 19 262 262 298 62 4 8 4 85 84 20 1 87 1 3 90 0 1 15
216. keschitz et al 2009 bei der Hauptbetreuungspersonen aus der Familie oder dem Freundes und Bekanntenkreis befragt wurden Die Beispieldatensets umfassen nur die Untergruppe jener die die Pfleget tigkeit neben einer Erwerbst tigkeit aus ben was sich in erster Linie durch einen h heren Grad an Vollst ndigkeit der Angaben dieser relativ jungen und kognitiv leitungsf higen Gruppe begr ndet Das Rasch Modell ist im Stande F lle auch bei fehlenden Werten in die Analyse mit einzubeziehen Auch Winsteps verf gt ber diese F higkeit Jedoch wird in den hier durchgef hrten Analysen auf unvollst ndige F lle verzichtet worin auch die Abweichung in der Fallzahl zwischen den beiden empirischen Beispielen begr ndet ist Das dichotome Rasch Modell soll anhand von Daten zum Pflegebedarf der betreuten Personen illustriert werden Daf r wird ein I JADL Index Instrumental Activities of Daily Living Katz et al 1963 herangezogen In der sozialwissenschaftlichen Literatur zur Pflege und Betreuung lterer Menschen werden mit Hilfe des IJADL Index sowohl der Grad des Betreuungsbedarfs bzw der Einschr nkungen einer Person wie auch das Ausma der f r diese Person erbrachten Hilfestellungen dargestellt Im gegebenen Fall soll untersucht werden inwieweit der Index zur Messung des Betreu ungsbedarfs herangezogen werden kann Dabei wird der Pflegebedarf von betreuungsbed rftigen Personen anhand der Frage erhoben ob die F higkeit vorliegt bzw
217. kills of a person on the latent trait can be determined independently from its base level and independently from the selected item subset ip C Y From both theoretical and practical perspective the requirement for representativeness of the sample is obsolete in terms of a true random selection process Based on these requirements for parameter comparisons Rasch 1977 introduced the term specific objectivity objective because any comparison of a pair of parameters is independent of any other parameters or comparisons specifically objective because the comparison made was relative to some specified frame of reference Andrich 1988b In other words if specific objectivity holds two persons v and w with corresponding parameters 0 and 0 are comparable independently from the remaining persons in the sample and independently from the presented item subset ij In turn for two items i and j with parameters and f the comparison of these items can be accomplished independently from the remaining items in V and independently from the persons in the sample The latter is crucial since it reflects completely what is called sample independence If we think not only of comparing and f but rather to estimate these parameters we achieve a point where specific objectivity requires a procedure which is able to provide estimates f that do not depend on the sample This implies that should be computable without the involvement of 0 CML estimation f
218. l Item Response Vector NY MML Item Parameter Estimation Solving for MML item parameter estimation 2 Fined theta Item Parameter Estimation LF MLE or MAP Computation lt more description here gt Test 1 FJ Blank MULTILOG Command File Test Model Test Items 1 parameter logistic Items Use Category Order 2 parameter logistic location t ps location 3 parameter logistic Graded model JW Create folder if one does not exist Nominal model File name ME MulilogTest Multiple choice File name MultilogTest MLG Cancel lt Back v Next gt Cancel Abb 5 8 Hilfsdialoge in MULTILOG Zur Illustration ziehen wir ein Beispiel aus dem umfangreichen Angebot an Beispieldatens tzen heran die in MULTILOG enthalten sind Es handelt sich hierbei um eine Untersuchung von Klassen und O Connor 1989 die zuk nftige Gewaltdelikte anhand der Pr diktoren Anzahl fr herer sta tion rer Aufnahmen und Alter bei der ersten Aufnahme vorhersagen versucht Beide Variablen wurden in je vier ordinale Kategorien eingeteilt und zur Analyse herangezogen Die zugrundeliegende Annahme ist dass beide Indikatoren auf den Schweregrad psychischer Probleme schlie en lassen Zur Auswertung wurde Samejimas graded response model verwendet und mit folgendem Code in MULTILOG berechnet Beispiel EXAMPLO6 MLG in MULTILOG enthalten wieder werden die ersten 2 Zeilen ignoriert Daten aus Klassen amp O C
219. l same chi square Diese Hypo these kann f r alle drei Facetten verworfen werden weil der x Wert f r das Auswertungschema einen Wert in H he von 10557 3 bei einem Freiheitsgrad aufweist und die x Werte f r die Studenten 15548 1117 Freiheitsgrade und f r die Fragen 7674 1 30 Freiheitsgrade betragen 44444 222220 Total Total Obsvd Fair Ml Model Infit Outfit Estim Correlation Exact Agree Score Count Average AvragelMeasure S E MnSq ZStd MnSq ZStd Discrm PtMea PtExp Obs Exp N Auswertungsschema Een TRE EN ee an Wee Eed E E 97745 34658 2 8 3 04l 09 00 1 31 9 0 1 32 9 0 1 42 51 54 56 9 42 8 1 Alles oder Nichts 1143292 34658 4 1 4 48 60 00 52 9 0 63 9 0 ail 50 41 56 9 42 8 2 Teilpunkte ee ee EEE era en dere EEE EEE ran tn SE 1120518 5 34658 0 3 5 3 761 35 00 92 o 97 o 1 50 Mean Count 2 22773 5 0 yp Leah 26 00 39 9 0 34 9 0 1 oi S D Population 32206 6 0 9 1 021 86 00 55 12 7 49 12 7 L 02 S D Sample Model Populn RMSE 00 Adj True S D 26 Separation 72 65 Strata 97 20 Reliability not inter rater 1 00 Model Sample RMSE 00 Adj True S D 36 Separation 102 7 Strata 137 3 Reliability not inter rater 1 00 Model Fixed all same chi square 10557 3 d f 1 significance probability 00 Inter Rater agreement opportunities 34472
220. le 3 der FACETS Ergebnisdatei Table 3 Iteration Report reproduziert die auch schon auf dem Bildschirm w hrend der Parametersch tzung angezeigt wurden siehe Abschnitt 3 4 3 FACETS 51 Table 1 Specifications from file K PUBL amp REF Hatzinger Beispiel Pr fung_alleStudenten txt Title Pr fung Vergleich der Auswertung Alles oder Nichts und Teilpunkte 25 02 2010 14 24 36 Data file K PUBL amp REF Hatzinger Beispiel Pr fung_alleStudenten txt Output file K PUBL amp REF Hatzinger Beispiel Pr fung_alleStudenten out txt Residual output file res txt Data specification Facets 3 Non centered 1 Positive 2 Labels 1 Auswertungsschema elements 2 2 Studenten elements 1118 3 Fragen elements 31 Model 7 R5 1 Output description Arrange tables in order mN Bias Interaction direction ability leniency easiness higher score positive logit Fair score Mean Pt biserial Measure Heading lines in output data files Y Inter rater coefficients reported for facet 1 Omit unobserved elements yes Barchart All Total score for elements Yes T3onscreen show only one line on screen iteration report Y TAMAX maximum number of unexpected observations reported in Table 4 300 T8NBC show table 8 numbers barcharts curves NBC Unexpected observations reported if standardized residual 3 Usort unexpected observations sort order 3 u Vertical ruler definitions 1A 2
221. leads to the two parameter logistic model as given in Equation 6 25 In this model the raw scores are not sufficient statistics anymore and hence CML can not be applied 2 PL models can be estimated by means of the 1tm package Rizopoulos 2006 However Verhelst und Glas 1995 formulated the one parameter logistic model OPLM where the a do not vary across the items but are unequal to one The basic strategy to estimate OPLM is a three step approach First the item parameters of the Rasch model are computed Then discrimination parameters are computed under certain restrictions 6 Extended Rasch Modeling The R Package eRm 115 Finally using these discrimination weights the item parameters for the OPLM are estimated using CML This is a more flexible version of the Rasch model in terms of different slopes To conclude the eRm package is a tool to estimate extended Rasch models for unidimensional traits The generalizations towards different numbers of item categories linear extensions to allow for introducing item covariates and or trend and optionally group contrasts are important issues when examining item behavior and person performances in tests This improves the feasibility of IRT models with respect to a wide variety of application areas Kapitel 7 ACER ConQuest Generalised Item Response Modelling Software Bernadett Pauer Julia Anette von Poswik und Thomas Rusch Zusammenfassung In folgendem Kapitel wird das Programm ACER ConQu
222. lich nur ordinales Skalenniveau haben Deshalb erfolgt in einem ersten Schritt eine Pr fung ob es berhaupt zul ssig ist Items zu einem Summenwert als Ma der Personenf higkeiten zusam menzufassen Durch die Sch tzungen der Personenf higkeiten werden Personenparameter bestimmt welche die Auspr gung einer Person auf einer latenten Variablen repr sentieren Im Gegensatz zur Klassischen Testtheorie werden somit konkrete Verhaltensvorhersagen m glich da berechnet werden kann mit welcher Wahrscheinlichkeit eine bestimmte Person bei Kenntnis von Itemschwierigkeit und Personenf higkeit ein Item richtig beantwortet Die Probabilistische Testtheorie betrachtet dazu Antwortmuster und deren statistische Verteilungen da angenommen wird dass diese von der Auspr gung der Eigenschaft abh ngen von Davier 1997 Die Klassische Testtheorie hingegen fokussiert Rohwertvarianzen Korrelationen und Kovarianzen der Itemantworten Die Probabilistische Testtheorie versteht Antworten auf Items als manifeste Symptome einer latenten Variable Wenn die Antwort von mehr als einer latenten F higkeit abh ngt z B von einem Rate oder Trennsch rfeparameter spricht man von Item Response Modellen Im Gegensatz dazu geht der klassische Ansatz davon aus dass eine Eigenschaft nur dann genau gemessen wird wenn sie theoretisch unendlich oft gemessen werden k nnte Die Sch tzung des Messfehlers steht also im Mittelpunkt der klassischen Betrachtungsweise WU Wien I
223. lichkeit hier jeweils gr fser als 5096 ist und somit negative Itemparameter ausgewiesen werden Frage 5 ist hingegen aufgrund der geringen 68 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel L sungswahrscheinlichkeit von 48 berdurchschnittlich schwierig f r diese Personen weshalb auch der Itemparameter in diesem Fall positiv ist Die Personen dieser Klasse weisen somit eine hohe Wahrscheinlichkeit auf zumindest vier der insgesamt f nf Fragen richtig beantworten zu k nnen Final estimates in CLASS 2 of 2 with size 0 46209 expected category frequencies and item scores Item Item s relative category label Score Stdev frequencies Amen EET NP 0 1 VAR1 0 36 0 48 0 639 0 361 VAR2 0 18 0 38 0 824 0 176 VAR3 0 17 0 37 0 835 0 165 VARA 0 04 0 20 0 958 0 042 VARS 0 12 0 32 0 883 0 117 Sum 0 86 threshold parameters ordinal partial credit model item item label location threshold parameters ten el EAREN VAR1 0 57192 VAR2 1 54264 VAR3 1 62070 VAR4 3 13697 VARS 2 02595 Abb 4 10 Sch tzergebnisse der latenten Klassen Klasse 2 KFT dat Gem Abb 4 10 umfasst die zweite Klasse rund 46 der befragten Personen Der Spalte relative category scores k nnen die Antwortwahrscheinlichkeiten von Personen die dieser Klasse zugeordnet wurden entnommen werden Die Wahrscheinlichkeit dass die Personen dieser Klasse das Item VAR richtig beantworten li
224. lle Einen solchen alternativen Ansatz bietet die Bayes sche Statistik So k nnte zum Beispiel ein Item auswahlalgorithmus einen Testlet Stimulus aus einem Itempool aufgrund dessen Inhalt dessen psychometrischen Eigenschaften und der bisherigen Antworten der Testperson ausw hlen Dieser Ansatz besitzt also sozusagen ein Ged chtnis Die Bayes sche Interpretation des Wahrscheinlichkeitsbegriffes l sst zu dass man den Wert unbe kannter Konstanten sch tzt Vorwissen und Grundannahmen ber diese werden in einer Wahrschein lichkeitsverteilung zusammenfasst welche die A priori Wahrscheinlickeit bildet engl prior Ein einfaches Beispiel f r eine solche A priori Verteilung sind zum Beispiel Mittelwert und Varianz der angenommenen Verteilung ber die Schwierigkeitsparameter Danach wird versucht anhand neuer Daten diese Annahme an den wahren Wert den Populationsparameter anzun hern Allerdings beinhaltet die Wahl des priors einen gewissen Unsicherheitsfaktor denn diese muss nicht immer 2 Scoright 29 korrekt sein Dieses Konzept steht ganz im Gegensatz zum klassischen frequentistischen Wahrschein lichkeitsbegriff in welchem Wahrscheinlichkeiten mittels H ufigkeiten interpretiert werden 2 3 1 Der Testletparameter Um die Abh ngigkeit durch das Testlet zu modellieren wird der lineare Prediktor t durch den sogenannten Testletparameter y 4 j welcher die within testlet Kovariation beschreibt erweitert tjj a
225. lt sexdisc 3 1843 0 5334 5 9696 Dffclt premar 1 5166 0 1347 11 2616 Dffclt exmar 3 3550 0 5495 6 1051 Dffclt gaysex 0 6687 0 0689 9 6997 Dffclt gayscho 0 0295 0 2951 0 0999 Dffclt gayhied 0 2403 0 0737 3 2624 Dffclt gaypubl 0 3990 0 0404 9 8683 Dffclt gayfadop 1 2327 0 0973 12 6701 Dffclt gaymadop 1 5058 0 0933 16 1362 Dscrmn divorce 0 1050 0 0987 1 0641 Dscrmn sexdisc 0 5322 0 0987 5 3927 Dscrmn premar 1 0223 0 1126 9 0756 Dscrmn exmar 0 5869 0 1013 5 7921 Dscrmn gaysex 1 7195 0 1421 12 0996 Dscrmn gayscho 18 6195 185 9020 0 1002 Dscrmn gayhied 9 0649 2 1280 4 2598 Dscrmn gaypubl 3 2512 0 2698 12 0511 1 5619 0 1406 11 1080 2 3238 0 2441 9 5209 Dscrmn gayfadop OO OO H Dscrmn gaymadop Integration method Gauss Hermite quadrature points 21 Optimization Convergence 0 max grad 0 0088 quasi Newton BFGS The fit on both the two and three way margins remains problematic but it is a little bit better than the fit of the Rasch models R gt margins fit 2pl Call ltm formula SexAtt z1 Fit on the Two Way Margins Response 0 0 Item i Item j Obs Exp 0 E 2 E 1 6 7 477 399 50 15 04 2 6 8 407 344 06 11 51 3 7 8 382 324 47 10 20 Response 1 0 Item i Item j Obs Exp 0 E 2 E 1 9 10 88 153 29 27 81 2 3 7 311 262 37 9 01 3 2 8 348 298 82 8 10 Response 0 1 Item i Item j Obs Exp 0 E 2 E 1 9 10 2 58 48 54 54 s 2 7 10 12 2 45 37 24 zg 3 6 10 15 4 73 22 33
226. lt wurden dass sie kaum eine andere M glichkeit als Ablehnung zulie en Neben den grafischen Ausgabem glichkeiten vgl Abbildung 10 5 kann auch Textoutput ausgegeben werden Neben einer Execution Information die nochmals die gew hlte Konfiguration zusammenfasst und den ordnungsgem en Ablauf bestetigt stehen weiters folgende Tabellen zur Verf gung Item Parameter Man erh lt eine Plaintext Datei die f r jedes Item Diskriminationsparameter a Lageparameter sowie deren Standardabweichungen beinhaltet Zus tzlich werden ebenfalls f r jedes Item die Tresholds t und deren Standardabweichungen angegeben Personen Parameter Hiermit erh lt man die Sch tzwerte f r die Personen Lageparameter und deren Standardabwei chungen f r alle Personen Fit Statistiken F r jedes Item und f r jede Person k nnen weiters einige Statistiken ausgegeben werden wie gut das gesch tzte Modell die empirischen Daten erkl ren kann 1 Aussage 7 lautet z B Every criminal should be executed hierbei dominiert Antwortkategorie strongly disagree ber alle abgebildeten Lagebereichsdifferenzen 4 bis 4 Aussage 11 I think the return of the whipping post would be more effective than capital punishment f hrt berhaupt zu nahezu waagrechten category probability functions mit einer klaren Dominanz von strongly disagree 180 m Response Frequency Response Frequency of Item 6 Previous Item Characteristic Curve
227. ltilevel item response modelling An approach to errors in variables regression Journal of Educational and Behavioral Statistics 22 47 76 Allan S J und Hubbard R 1986 Regression Equations for the Latent Roots of Random Data Correlation Matrices with Unities on the Diagonal Multivariate Behavioral Research 21 3 393 396 Andersen E B 1970 Asymptotic properties of conditional maximum likelihood estimators Journal of the Royal Statistical Society Series B 32 283 301 Andersen E B 1972 The numerical solution of a set of conditional estimation equations Journal of the Royal Statistical Society Series B 34 42 54 Andersen E B 1973 A goodness of fit test for the Rasch model Psychometrika 38 123 140 Andersen E B 1983 A General Latent Structure Model for Contingency Table Data In Wainer H und Messik S Hrsg Principals of Modern Psychological Measurement Seiten 117 138 Erlbaum Hillsdale NJ Andersen E B 1995 Polytomous Rasch Models and their Estimation In Fischer G und Molenaar I Hrsg Rasch models Foundations recent developments and applications Seiten 271 292 Springer New York Anderson C Li Z und Vermunt J 2007 Estimation of models in the Rasch family for polytomous items and multiple latent variables Journal of Statistical Software 20 6 Andrich D 1978a Application of a Psychometric Rating Model to Ordered Categories which are Scored with Successive Integers A
228. m Parameters Plot EER Fl item Parameters Plot p o Hp al JV lines I marks Abb 4 14 Item Parameter Plot KET dat Dabei ist die Schwierigkeit der Fragen durch die H he des Thresholds definiert W hrend f r die Personen der ersten Klasse die richtige Beantwortung der zweiten Frage am leichtesten ist ist die richtige Beantwortung dieser Frage f r Personen die der zweiten Klasse zugeordnet wurden deutlich schwieriger Abschlie end kann somit festgehalten werden dass es anhand der ermittelten Klassen m glich ist zwischen Personen mit hoher kognitiver F higkeit und geringer kognitiver F higkeit zu unterscheiden Demnach konnte das Vorliegen einer zumindest zweikategorialen latenten Personenvariable kognitive F higkeit nachgewiesen werden Ebenfalls kann untersucht werden ob eine L sung mit drei oder mehr Klassen besser ist als die soeben dargestellte L sung mit zwei Klassen Dazu ist die Zahl der Klassen unter lt Job Definition gt lt N of Classes gt je nach Bedarf einzustellen Zur Entscheidung welches Modell die beste Anpassungsg te aufweist k nnen die Informationskriterien AIC BIC oder CAIC herangezogen werden die in der Tabelle Information Criteria Tab 4 3 1 dargestellt werden Diese Kriterien geben keine absoluten Kriterien vor wann ein Modell passt Vielmehr wird ermittelt welches Modell unter konkurrierenden und unterschiedlich komplexen Modelle als das geeignetste darstellt E
229. m grafischen Interface in dem sich neben der Gra fik selbst auch alle Steuerelemente zur Auswahl unterschiedlicher Diagramme befinden Es werden allerdings keine Diagramm berschriften automatisch erzeugt Die Item Characteristic Curves ICCs k nnen in Winsteps sowohl ohne als auch gemeinsam mit der empirischen ICC ausgegeben werden inkl Eines 95 igen Konfidenzinvervalles vgl Abbildung 11 Grunds tzlich werden alle Graphen f r jedes Item einzeln dargestellt Mit der Schaltfl che Multiple Item ICCs vgl Abbildung 11 ist es m glich mehrere ICCs in einen einzigen Graphen zu plotten Eine vor allem f r polytome Items wichtige Darstellungsform stellen die Probability Category Curves der Items dar Diese k nnen auch gemeinsam mit den empirischen Daten in jeder verwendeten Itemkategorie ausgegeben werden vgl Abbildung 12 Die oberen Schnittpunkte der Graphen in Abb 11 stellen jene Grenzwerte des F higkeitsparame ters dar ab denen die Wahrscheinlichkeit bei einem bestimmten Item die n chsth here Kategorie angekreuzt zu haben h her liegt als f r die aktuelle Itemkategorie Der Verlauf der Kurven bzw die Lokalisierung ihrer Schnittpunkte ist somit auch ein Hinweis f r die hierarchische Abfolge der jewei ligen Kategorien Im Falle des Zarit Burden Indexes ergibt sich eine klare aufsteigende Hierarchie der Itemkategorien was auch schon in den tabellarischen Outputs ersichtlich war siehe oben So liegt zum Beispiel der Schwellenwe
230. mes Model Populn RMSE 09 Adj True S D 35 Separation 3 74 Strata 5 32 Reliability 93 Without extremes Model Sample RMSE 09 Adj True S D 35 Separation 3 74 Strata 5 32 Reliability 93 With extremes Model Fixed all same chi square 15548 0 d f 1117 significance probability 00 With extremes Model Random normal chi square 684 6 d f 1116 significance probability Abb 3 10 Table 7 2 1 Measurement Report f r Studenten und Rasch Thurstone ausgegeben wobei in den Graphiken die Tresholds nach Rasch Andrich zu finden sind Die zu Beginn dargestellte CPC zeigt die Wahrscheinlichkeit dass eine Person mit einer bestimm ten F higkeit eine bestimmte Anzahl von Antwortm glichkeiten richtig markiert Personen die einen h heren Personenparameter aufweisen findet man rechts auf der Graphik da sie eine h here Wahrscheinlichkeit aufweisen die Fragen richtig zu beantworten Der bergang von einer Antwort kategorie zur n chsten ist der Treshold Nachdem in unserem Beispiel allerdings die beiden u eren Kategorien dominieren findet man das auch in der Graphik wieder und man sieht den bergang von Kategorie o auf 5 die anderen Kategorien verschwinden ziemlich am unteren Ende der X Achse Wie bereits erw hnt gibt es auch die M glichkeit die Graphiken extra aufzurufen Man hat so die M glichkeit eine farbige Graphik zu bekommen die man auch noch anpassen kann und in welche man zus tzlich die empirische CPC integr
231. mized with respect to 8 Andersen 1995 gives a general formulation of this ML estimate with r r and 0 0 u hexp h Bin u i PEs LexpUO e m i 1 h 1 Warm 1989 proposed a weighted likelihood estimation WLE which is more accurate compared to ML For the dichotomous Rasch model the expression to be solved with respect to is 6 Extended Rasch Modeling The R Package eRm 105 exp r 0 Irani P 8 x ex IG exp 6 Bi 2 pa Pvi 6 22 Again the item parameter vector is used from CML This approach will implemented in a subsequent eRm version Additional explanations and simulation studies regarding person parameter estimation can be found in Hoijtink und Boomsma 1995 6 4 Testing extended Rasch models Testing IRT models involves two parts First item and person wise statistics can be examined in particular item fit and person fit statistics Secondly based on CML properties various model tests can be derived see Glas und Verhelst 1995a b 6 4 1 Item fit and person fit statistics Commonly in IRT items and persons are excluded due to item fit and person fit statistics Both are residual based measures The observed data matrix X is compared with the model probability matrix P Computing standardized residuals for all observations gives the n x k residual matrix R The squared column sums correspond to item fit statistics and the squared row sums to person fit statistics both of which are y distr
232. mmt man nur Punkte wenn die Frage ganz richtig beantwortet wurde Dieses Alles oder Nichts Auswertungsschema ist insbesondere f r nicht so begabte Studierende von Nachteil Reid 1976 da es keine Punkte f r teilweise richtig gel ste Fragen gibt Ben Simon et al 1997 Bereby Meyer et al 2002 Daher schl gt Frary 1989 vor alle richtig klassifizierten Antwortm glichkeiten zu z hlen Dies bedeutet dass es Teilpunkte f r jede Frage gibt und somit auch Halbwissen belohnt wird Man kann diese zwei Auswertungsschemen quasi als zwei Beurteiler ansehen bei denen einer nur ganz richtige Antworten als korrekt ansieht und somit f nf Punkte vergibt w hrend er halbrichtige Antworten ignoriert und null Punkte vergibt da er der Meinung ist dass man beispielsweise in der Medizin mit Halbwissen einen Menschen umbringen oder in der Wirtschaft eine Firma damit ruinieren k nnte Der zweite Beurteiler ist ein viel milderer Beurteiler und honoriert auch Teilwissen In der Folge werden die beiden Auswertungsschemen Alles oder Nichts und Teilpunkte genannt Tabelle 3 2 veranschaulicht die Markierungsinformationen L sungen einer Frage sowie die Punkte der Frage f r beide Auswertungsschemen Insgesamt gibt es bei dieser Frage drei richtige und zwei falsche Antwortalternativen Person 1 hat beispielsweise alle drei richtigen Antwortm glichkeiten und keine falsche Antwortm glichkeit markiert und bekommt somit bei beiden Auswertungsschemen f n
233. mo dell bestimmt werden F r den Zarit Burden Index wurde ein Partial Credit Modell Code o f r GROUPS und f r die IJADL Skala ein dichotomes Rasch Modell gesch tzt Weitere verf gbare Optionen sind u a Leerzeichen wodurch ein Andrich Rating Scale Modell berechnet wird Im Bereich zwischen END und END Names kann jeweils pro Zeile ein Label f r die verwen deten Items vergeben werden Der Bereich nach END NAMES ist f r die Daten reserviert wobei eine Zeile einer Untersuchungseinheit entspricht und die Auspr gungen nacheinander ohne Abstand sowie die ID mit Abstand aufzulisten sind erfolgt beim Datenimport automatisch Die aus dem Datenimportprozess f r die hier verwendeten Daten resultierenden Inputfiles im txt Format sind in den Abbildungen 1 4 sowie 1 5 zu sehen Das von Winsteps generierte Textfile enth lt allgemeine Informationen Name des importierten Datenfiles Zeitpunkt des Imports Fallzahl Zahl der Variablen Spezifikationen zu den Daten Spaltenbreiten in Zeichen Festlegung der Label und Datenspalten die von den Daten angenommenen Werte sowie zuletzt die importierten Daten Wie in Abb 1 5 zu sehen ist wird auch der Modelltyp in den txt files festgelegt GROUPS o Abb 1 4 Controlfile DADL amp INST Title D IADL xls Excel file created or last modified tt mm yyyy hh mm ss IADL Excel Cases processed 568 Excel Variables processed 18 ITEM 1
234. ms Corporation St Paul MN Zimowski M F Muraki E Mislevy R J und Bock R D 1996 BILOG MG Multiple group IRT analysis and test maintenance for binary items Scientific Software International Inc Chicago Zwindermann A H 1995 Pairwise Parameter Estimation in Rasch Models Applied Psychological Measurement 19 369 375
235. n Letztlich wird eine Datei mit Spezifikationen ben tigt um Analysen durchzuf hren Komplexere Verfahren oder fortgeschrittene Anwendungen wie Parameterconstraints sind ausschlie lich durch manuelle Angaben m glich jedoch ist ein vor allem f r unerfahrene Personen einigerma en intuitives Men vorhanden das beim Erstellen einer korrekten Steuerdatei hilft 5 4 1 BILOG MG 5 4 1 1 Syntax und Vorbereitung Startet man BILOG MG so ffnet sich eine schlichte grafische Benutzeroberfl che mit einem Textedi tor f r die b1m Dateien die den sp teren Programmablauf steuern siehe Abb 5 2 Mit File und New w hlt man einen Speicherort f r seine Syntaxdatei Es sind nun einige Dialogfenster auszuf llen damit BILOG MG eine entsprechende Analysesyntax generieren kann In der Men leiste kann man mittels Setup und General den allgemeinen Dialog mit Spezifi kationen aufrufen Es erscheint ein Dialog mit vier Reitern Job Description Model Response und Labels in denen man zuerst die Anzahl von Personen Gruppen Items und Subtests angibt Danach spezifiziert man wie in Abb 5 3 ersichtlich das auszuf hrende Modell BILOG MG bietet abgesehen von der verbreiteten Logit Parametrisierung auch die M glichkeit eine normale Response Function Metric zu w hlen Es folgt die Definition der Responses wobei man hier die Anzahl der Antwortalternativen und die richtigen Antwortmuster angibt und die Behandlung fehlender Werte einstellt es be
236. n Rost 2004 S 215 Rating Scale Modelle nehmen an dass die Abst nde zwischen zwei aufeinander folgen den Schwellen ber alle Items gleich sind Jedoch variiert die Lokalisation der Schwellen von Item zu Item je nach Schwere der Items Es leitet sich aus der Verwendung desselben Antwortformats f r alle Items eines Tests ab Man stelle sich beispielweise als Antwortformat die sterreichischen Schulnoten vor Falls alle Items eines Fragebogens dieses Antwortformat verwenden muss der Abstand der Schwellenparameter zwischen den Kategorien nicht gen gend gen gend und gen gend befriedigend nicht derselbe sein wie zwischen befriedigend gut und gut sehr gut ber alle Items sollten zwei aufeinanderfolgende Schwellenparameter aber denselben Abstand aufweisen Effekt der Kategorienbe nennung Items unterscheiden sich nur anhand ihrer Schwierigkeit Unterschiedliche Itemparameter werden durch die Fragenformulierung erreicht Siehe Abb 4 3 Ratingskalenmodelle fu en auf der Annahme dass die Schwellenabst nde aller Items gleich sind Die Schwellenabst nde sind keine Eigenschaft der Items mehr sondern eine Eigenschaft des Antwortformats Das Modell enth lt statt der doppelt indizierten Parameter t nur mehr das einfach indizierte t welches f r alle Items gilt Dadurch verringert sich die Anzahl der Parameter da nicht E m 1 sondern nur m 1 Parameter ben tigt werden Das Modell eignet sich gut bei Ratingskalen mit Items die jeweils die
237. n und Items auch gleichzeitig vorgenommen werden 162 Thomas Salzberger Zweitens kann eine Subtest Analyse verlangt werden Dabei werden Items zu Superitems oft auch als Testlets oder Item Bundles bezeichnet zusammengefasst Beispielsweise kann so aus zwei dichotomen Items mit den Scores o und 1 ein kombiniertes Item mit den Scores 0 1 und 2 generiert werden Solche Analysen k nnen beispielsweise dann erforderlich sein wenn Items der lokalen stochastischen Unabh ngigkeit nicht entsprechen Auch im Rahmen der Untersuchung der Eindimensionalit t k nnen Subtest Analysen aufschlussreiche Ergebnisse liefern Drittens sind Ankeranalysen anchoring m glich wobei RUMM zwischen Individual Item An choring und Average Item Anchoring unterscheidet Bei diesen Analysen werden Parameterwerte f r einzelne oder alle Items vorgegeben und der Fit auf der Grundlage dieser Parameterwerte bestimmt Ankerwerte k nnen auch relativ spezifiziert werden also Unterschiede zwischen zwei Items betreffen Viertens kann das Scoring der Items im Rahmen einer Rescoring Analyse ge ndert werden Da bei wird der Scoringschl ssel nachtr glich adaptiert Abgesehen von Fehlkodierungen z B falsche Kodierung eines umgekehrt gepolten Items sind vor allem Verletzungen der Ordnung der Thres holdparameter bei multikategoriellen Items Anlass f r solche Analysen Stellt sich n mlich heraus dass die Personen zwischen zwei Responsekategorien nicht differenzieren so ist
238. n Fall liegt der Q Wert bei allen Items innerhalb des normalen Bereiches weshalb von einem guten Item Fit ausgegangen werden kann Final estimates in CLASS 2 of 2 with size 0 40102 Expected Score Frequencies and Personparameters score frequency person parameters and standard errors Raw Expected MLE std error WLE Std error score freq estimate MLE estimate WLE E ENE EAEE EE lect cot lone oe EE 0 24 02 see oeste 2 650 1 672 1 3 49 1 545 1 152 1 276 1 080 2 4 78 0 480 0 963 0 425 0 959 3 6 70 0 436 0 975 360 0 969 4 59 34 1 551 1 183 1 273 1 110 5 21 98 seekekekee eo 2 759 1 735 WLE estimates Mean 0 569 Var 3 330 stdev 1 825 marginal error variance 1 839 stdev 1 356 anova reliability 0 644 Andrichs reliability 0 448 WLE Warm s modified likelihood estimates MLE Standard maximum likelihood estimates Raw score Mean 3 162 Stdev 1 775 Abb 4 18 Final estimates class 2 KFT dat Die zweite Klasse umfasst siehe Abb 4 18 rund 41 der Befragten Von rund 26 dieser Personen wird erwartet dass sie keine einzige der f nf Fragen richtig beantworten k nnen rawscore o Diese Personen weisen eine Fahigkeit von 2 64 auf Hingegen wird erwartet dass rund 60 der Befragten vier richtige Antworten rawscore 4 geben k nnen Diese Personen weisen eine F higkeit von 1 27 auf Jene 20 der Personen dieser Klasse von denen erwartet wird dass sie alle f
239. n check the item fit statistics gt pres pcm lt person parameter res pcm gt itemfit pres pcm 6 Extended Rasch Modeling The R Package eRm 111 Person Item Map Person Parameter Distribution 2 j 0 1 2 Latent Dimension Abb 6 5 Person Item map for a PCM Itemfit Statistics Chisq df p value Outfit MSQ Infit MSQ Outfit t Infit t Ii 225 617 255 0 907 0 881 0 885 2 31 2529 I2 215 948 255 0 964 0 844 0 903 2 69 1 89 I3 179 811 255 1 000 0 702 0 713 5 20 5 73 I4 214 473 255 0 969 0 838 0 809 2 80 3 76 A likelihood ratio test comparing the RSM and the PCM indicates that the PCM provides a better fit gt Ir lt 2 res pcm loglik res rsm loglik gt df lt res pcm npar res rsm npar gt pvalue lt 1 pchisq ir df gt cat LR statistic lr df df p pvalue n LR statistic 11 69992 df 3 p 0 00848509 112 Patrick Mair und Reinhold Hatzinger 6 5 5 An LPCM for repeated measurements in different groups The most complex example refers to an LPCM with two measurement points In addition the hypothesis is of interest whether the treatment has an effect The corresponding contrast is the last column in W below First the data matrix X is specified We assume an artificial test consisting of k 3 items which was presented twice to the subjects The first 3 columns in X correspond to the first test occasion whereas the last 3 to the second occasion Generally the first
240. n und enthalten die zuf lligen Ziehungen des Sampling Algorithmus Da im Vorfeld weder Item Diskriminations noch Personenparameter fixiert wurden enthalten diese die Dateien a_DrawsC b_DrawsC t DrawsC SIGMA_DrawsC beta_DrawsC und gamV_DrawsC Hierbei handelt es sich um die Ziehungen aus der A posteriori Verteilung f r die Diskriminations Item und Personenparameter sowie der Kovarianzmatrix der Koeffizienten der Kovariaten und der Varianz der Testlets Die Gr e dieser wird dabei durch die Anzahl der Iterationen 4000 die L nge des burn in 1000 und den Abstand zwischen den Zie hungen 10 bestimmt Im vorliegenden Beispiel enthalten die Dateien die Werte von 100 Ziehungen 4000 3000 10 sowie zw lf Spalten was der Anzahl der analysierten Items entspricht In der Datei itemP est sind sowohl die Sch tzer der im Vorfeld spezifizierten Parameter der Items als auch einige zus tzliche Informationen enthalten Der erste Teil der Datei enth lt die Sch tzer f r die Item und die Diskriminationsparameter sowie deren Standardsch tzfehlern In diesem Beispiel existieren jedoch keine Sch tzer f r die Rateparameter da im Vorfeld nur 2PL Items definiert wurden Wie man sieht besitzen die Items hier alle einen Anstieg von in etwa eins was auch konform mit den Daten ist da diese nach dem dichotomen logistischen Modell von Rasch simuliert wurden Der zweite Teil der Datei enth lt Informati
241. nativ dazu kann man auch mit Einschr nkungen der d Parameter arbeiten 5 3 Parametersch tzung Da sich die Parametersch tzmethoden der beiden behandelten Programme nur geringf gig unterschei den wird hier auf eine abschnittsweise Trennung verzichtet und stattdessen an den entsprechenden Stellen auf Unterschiede verwiesen 5 3 1 Itemparameter Zur Sch tzung der Itemparameter wird die sog marginal maximum likelihood MML Methode siehe Baker und Kim 2004 verwendet Im Gegensatz anderen Sch tzverfahren werden die Personenpara meter hier mit einer bekannten Verteilungsfunktion modelliert meist nimmt man 0 N 0 1 an was jedoch in der Sch tzgleichung zu einem Integral f hrt das ber eine Gau Hermite Quadratur approximiert werden muss Die Anzahl der Quadraturpunkte ist frei w hlbar wobei die Autoren als Maximum 2 VItemanzahl vorschlagen In weiterer Folge werden der EM Algorithmus und Newton Gau Verfahren zur Optimierung eingesetzt f r eine detailliertere Darstellung siehe Bock und Aitkin 1981 5 3 1 1 Marginal Maximum A Posteriori Die 2 und 3PL Modelle haben starke hnlichkeiten zur unidimensionalen Faktorenanalyse wodurch sog Hevwood cases auftreten k nnen die zur Folge haben dass die Diskrimination einzelner Parameter gegen Unendlich gehen Um diesem Ph nomen entgegenzuwirken kommt eine Bayesianische Strategie namens marginal maximum a posteriori MMAP zum Einsatz bei der als a priori Verteilung der Parame
242. nder w hrend bei pp Daten aus Paarvergleichen resultieren verschiedene Modelle notwendig So wird f r Paarvergleiche beispielsweise das Rasch unfolding model for attitude and preference data herangezogen um die Item Lageparamter zu bestimmen Sowohl RUMMFOLDss als auch RUMMFOLDpp verwenden ASCII Dateien als Input Ausgegeben werden k nnen neben den Lageparametern und Standardfehlern auch Teststatistiken zum Goodness of Fit Es stehen aber auch einige grafische Outputs zu Personen und Itemparametern stehen zur Verf gung Die Informationen zu MUDFOLD und RUMMFOLD stammen vom Softwarevertrieb Assessment Systems Corporation http www assess com 182 Appendix A Axel Sonntag und Daniela Weber Tabelle 10 2 Fragenkatalog von Roberts et al 2000 Nummer Frage 1 Capital punishmen 2 Capital punishmen 3 Ithink capital puni 4 5 Capital punishmen 6 Capital punishmen 7 8 Capital punishmen 9 I don t believe in ca 10 We must have capit 11 I think the return o 12 I do not believe in c 13 Capital punishmen 14 15 16 17 Capital punishmen 18 19 Capital punishmen 20 Capital punishmen 21 22 It doesn t make any 23 Capital punishmen 24 Capital punishmen may be wrong but it is the best preventative to crime is absolutely never justified shment is necessary but I wish it were not Any person man or woman young or old who commits murder should pay with his own life cannot be regarded
243. neuesten Beitr gen Seiten 19 83 Beltz Weinheim Kubinger K D 2005 Psychological test calibration using the Rasch model Some critical suggestions on traditional approaches International Journal of Testing 5 377 394 Linacre J 1994a Constructing measurement with a many facet Rasch model In Wilson M Hrsg Objective Measurement Theory in Practice Ablex Newark NJ Linacre J M 1989 Many facet Rasch measurement MESA Press Chicago Linacre J M 1991 Structured Rating Scales In ERIC TM 016615 Chicago Illinois International Objective Measurement Workshops Linacre J M 1993 Generalizability Theory and Many facet Rasch Measurement Paper presented at the Annual Meeting of the American Educational Research Association Linacre J M 1994b Many facet Rasch measurement MESA Press Chicago Linacre J M 1997 Judging plans and facets University of Chicago MESA Psychometric Laboratory Chicago Linacre J M 20042 Estimation Methods for Rasch Measures In Smith Jr E V und Smith R M Hrsg Introduction to Rasch Measurement Seiten 25 48 JAM Press Maple Grove MN Linacre J M 2004b From Microscale to Winsteps 20 years of Rasch Software Rasch Measurement Transactions 17 4 958 186 Literaturverzeichnis Linacre J M und Wright B D 1994 Chi Square Fit Statistics Rasch Measurement Transactions 8 2 350 Liou M 1994 More on the computation of higher order derivatives
244. ng nicht ber cksichtigt werden kann Uniformem DIF hingegen kann in der Regel durch eine Item Splitting Analyse entsprochen werden wenngleich dies wie bereits erw hnt ein Abgehen von strikter spezifischer Objektivit t bedeutet Besonders attraktiv ist die M glichkeit die DIF Analysen mit einem Knopfdruck f r alle Items durchzuf hren Die Ergebnisse werden in Tabellenform dargestellt signifikante Effekte lassen sich mit oder ohne Bonferroni Korrektur des Signifikantzniveaus farblich hervorheben Abb 9 9 Kategoriecharakteristikkurven c19 1 goodfeeling Locn 0 528 Spread 2 0 052 FitRes 0 956 ChiSaq Pr 20 285 SampleN 124 1 0 05 Mom aro 3 2 A 0 1 2 3 Person Location logits Kategoriecharakteristikkurven geben Einblick in die Funktionsweise aller einzelnen Antwortka tegorien siehe Abbildung 9 9 Ungeordnete Thresholdparameter sind hier leicht grafisch erkennbar Eine Antwortkategorie wird in diesem Fall nie zur wahrscheinlichsten Antwortoption siehe Kategorie 3 in Abbildung 9 9 Numerisch ist dies im Bereich Item Parameter Details Thresholds tabellarisch dargestellt wobei ungeordnete Thresholds farblich automatisch hervorgehoben werden Auch eine farbige Threshold Map welche die berg nge der einzelnen Antwortoptionen grafisch darstellt l sst ungeordnete Thresholds sehr leicht erkennen Ungeordnete Thresholds sollten nicht ignoriert werden Andrich 1995a b auch wenn sie nicht unbedingt Misfit implizieren
245. ngsbereiche unterschiedliche Messmodelle entwickelt Ein sehr weit verbreitetes Verfahren ist die Guttman Skala Bei einer Guttman Skala sind alle ICCs stufenf rmig da es hierbei nur eine richtige oder eine falsche Antwort gibt Den Befragten werden Aussagen vorgelegt denen sie zustimmen oder die sie ablehnen d rfen Da die Aussagen von der einfachsten bis hin zur schwierigsten geordnet sein m ssen kann man so leicht einen Vergleich zwischen Personen auf Basis des Personenscores herstellen Aufgrund der Konstruktion Ordinalskalenniveau ist es jedoch nicht m glich einen n heren Einblick zu geben das hei t um wie viel eine Person zum Beispiel mehr wei als eine andere Rost 2004 B hner 2006 Coombs adaptierte 1950 das Prinzip der Guttman Skala und entwickelte die nach ihm benannte Coombs Skala Entfaltungstechnik Im Unterschied zur Guttman Skala bei der nur zwischen stimme zu und stimme nicht zu unterschieden wurde k nnen nun Pr ferenzordnungen behandelt werden Man geht davon aus dass jeder Befragte einen Platz auf einem Einstellungskontinuum hat der als Idealpunkt bezeichnet wird Eine Pr ferenzordnung der einzelnen Items bzw Aussagen entspricht hier somit nichts anderem als einer in diesem Idealpunkt gefalteten Skala welche als I Skala bezeichnet wird Entfaltet entspricht dies einer Skala J Skala welche die Items und aber auch den Idealpunkt beinhaltet Man kann so aufgrund der Pr ferenzordnung die der Befragte erstellt au
246. nittliche F higkeit der Personen die in eine bestimmte Kategorie fallen mit steigender Kategorie ebenfalls an steigt Falls dies nicht zutrifft liegt die Vermutung nahe dass die Kategorien einer Itemvariable nicht perfekt ordinal d h dass bei steigenden F higkeitswerten nicht immer aufeinanderfolgene Kategorien mit der h chsten Wahrscheinlichkeit gew hlt werden Weiters finden sich in diesem Men punkt auch Item Characteristic Curves im ASCII Format Abbildung 7 veranschaulicht beispielhaft f r Item des Zarit Burden Indexes dass berschneidungsfreiheit gegeben ist Werte in den Spalten obsvd avrge bzw score to measure at Ca Ein inhaltlich hnlicher Output der Informationen zur Hierarchie der Items enth lt l sst sich unter F Construct KeyMap abrufen Abbildung 8 veranschaulicht wie hoch das durchschnittliche Rating f r Personen liegt welche eine bestimmte Auspr gung auf der latenten Variable aufweisen Die unten in der Abbildung zu findenden Gro buchstaben M S und T zeigen die Lage der jeweiligen Mittelwerte Means der Item bzw und Personenwerte und die Abst nde von einer S bzw zwei T Standardabweichungen an Auch Perzentile der Verteilung der Fahigkeitswerte werden dargestellt Unter D Dimensionality werden 25 Tabellen ausgegeben welche sich gr tenteils wiederholende Informationen zur Frage beinhalten ob alle Items die selbe einzige latente Dimension aufweisen Winsteps
247. nstitute for Finance Banking and Insurance karl ledermueller wu ac at thomas peschta wu ac at WU Wien Institut f r Marketing Management wolfgang ziniel wu ac at 59 60 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel Ordinale Itemantwortmodelle ge geg Modelle mit quantitativen Modelle mit qualitativen Modelle mit gemischten F higkeitsparametern F higkeitsparametern F higkeitsparametern Ordinales Rasch P i Modell i Latente Mixed Rasch Modell Klassenanalyse partial credit model Abb 4 1 berblick ber die Rasch Modelle 4 1 2 Wichtige Vorteile Probabilistischer Testmodelle In Abgrenzung zur klassischen Testtheorie die Zahlen einer Ratingskala wie metrische Variablen behandelt wird bei probabilistischen Modellen wird die Wahrscheinlichkeit einer Antwort modelliert Ein weiterer Vorteil liegt darin dass spezifische Objektivit t im Kontext von psychologischen Tests erreicht werden kann Nur dann sind Vergleiche zwischen den untersuchten Personen invariant ber die verwendeten Items und Ma e Des Weiteren bleiben Vergleiche zwischen Items invariant ber die spezifischen Personen an denen sie kalibriert werden 4 1 3 Erweiterungen des klassischen Rasch Modells 4 1 3 1 Latent Class Modell Latent Class Modelle setzen beobachtete multivariate und diskrete Variablen in Zusammenhang mit latenten Variablen Dabei k nnen latente Personenvariablen im Rahmen von Itemfunktionen aufgrund wahrscheinlicher Antwortm
248. nz der nicht auf Messfehler zur ckzuf hren ist Reliablit tswerte bewegen sich zwischen eins und null Eckes 2003 Die Erl uterungen zeigten dass das finale Ziel einer Rasch Analyse ein lineares Ma f r den Grad der F higkeit eines Probanden ist Zudem werden noch der Standardfehler und eine durch Fit Statistiken quantifizierten Qualit tskontrolle ermittelt Rasch Ma e generalisieren zu qualitativ hnlichen aber quantitative unterschiedlichen Situationen z B durch hinzuf gen von etwas schwere ren Aufgaben bei einem Marketing Test oder durch die Aufnahme von milderen Beurteilern Linacre 1993 Demnach sind gesch tzte Parameter quantitative Darstellungen der zugrunde liegenden Varia blen z B Personenf higkeit und Itemschwierigkeit deren Bedeutung durch die qualitative Natur des Tests bestimmt wird Parameter repr sentieren steigende Anteile der jeweiligen Variable ausgedr ckt etwa durch steigende F higkeit einer Person oder die steigende Itemschwierigkeit Linacre 1994b 3 3 Multifacetten Rasch Modell Wie auch das poltytome Rasch Modell besch ftigt sich das MFRM damit ordinale Rohwerte in lineare objektive Ma e zu verwandeln von denen man die Standardfehler und Fit Kriterien kennt F r das MFRM gelten im Grunde die gleichen Prinzipien die auch bereits im Abschnitt 3 2 aufgegriffen wur den Das MFRM erweitert das polytome Rasch Modell siehe 1 1 dahingehend dass Verzerrungen durch die Strenge Milde von Beurteile
249. oberts et al 2000 Seite 5 Figure 1 Verwendet man nun das GPCM P Y y 0 RE ME nal und ber cksichtigt dass eine Modellierung f r die beobachtbaren Antwortkategorien und nicht f r die subjektiven Antwort kategorien stattfinden soll so erh lt man unter Einbeziehung der vier Pr missen das von Roberts et al 2000 definierte GGUM expfa z 0 i Vico Tik expta M z 0 i Xs roll P Z 2 6 T S Y uso expla w O i Y 4 Tix exptail M w 9 i Vg tikl 10 1 wobei Z die beobachtbare Antwort zum Einstellungsstatement i repr sentiert z o C bezeichnet die Starke der Nichtzustimmung wobei o der st rkste Level der Nichtzustimmung ist C ist die 10 GGUM2004 Generalized Graded Unfolding Models 173 Anzahl der beobachtbaren Antwortkategorien minus 1 a ist das Unterscheidungsverm gen des Einstellungsstatements i der Diskriminationsparameter und rr beschreibt die Positionierung des kten subjektiven Antwortkategorien Thresholds M ist definiert als M 2 2C 1 GGUM ist daher ein unfolding Model bei dem sich die Wahrscheinlichkeit f r die Wahl einer bestimmten Antwortkategorie von einer Person ber die Summe der Wahrscheinlichkeiten f r die beiden zugeh rigen subjektiven Antwortkategorien berechnen l sst wie man in Abbildung 10 2 erkennen kann Es existieren daher nur halb so viele beobachtbare Antwortkategorien als subjektive 09 0 8 07 06
250. of the elementary symmetric functions in the Rasch model Applied Psychological Measurement 18 53 62 Lunz M Wright B D und Linacre J M 1990 Measuring the impact of judge severity on examination scores Applied Measurement in Education 3 331 345 Mair P 2006 Simulation Studies for Goodness of Fit Statistics in Item Response Theory Master s thesis Department of Psychology University of Vienna Mair P und Hatzinger R 2007a Extended Rasch Modeling The eRm package for the application of IRT models in R Journal of Statistical Software 20 9 1 20 Mair P und Hatzinger R 2007b CML based estimation of extended Rasch models with the eRm package in R Psychology Science 49 26 43 Mair P und Treiblmaier H 2008 Partial Credit Models for Scale Construction in Hedonic Informati on Systems Technical Report 62 Department of Statistics and Mathematics Wirtschaftsuniversit t Wien Masters G N 1982 A Rasch Model for Partial Credit Scoring Psychometrika 47 2 149 174 Mislevy R J 1985 Estimation of latent group effects Journal of the American Statistical Association 80 993 997 Mislevy R J und Bock R D 1990 BILOG 3 Item Analysis and Test Scoring with Binary Logistic Models Scientific Software International Inc Chicago Molenaar I 1995 Estimation of Item Parameters In Fischer G und Molenaar I Hrsg Rasch models Foundations recent developements and applications Seiten 39
251. on Guessing IV Estimate Parameters Constraint Means Abb 5 4 Technische Einstellungen in BILOG MG Hat man alles eingestellt und angepasst w hlt man unter Run den Punkt Build Syntax wodurch BILOG MG die getroffenen Optionen in Befehle bersetzt und diese in die eingangs angelegte Datei schreibt In unserem Fall sieht diese folgenderma en aus kursive Elemente sind Kommentare zur Syntax Beispielhafte Analysesyntax Titel die Angabe eines Titels ist m glich MULTILOG MG interpretiert die ersten beiden Zeilen nicht gt COMMENT zus tzlich kann man noch einen l ngeren Kommentar beif gen Daten aus Maier 2009 gt GLOBAL DFName data dat Pfad und Name des verwendeten Datensatzes NPArm 1 1 2 oder 3PLM LOGistic normale oder logistische Antwortfunktion gt LENGTH NITems 12 Anzahl der verwendeten Items gt INPUT NTOtal 13 Anzahl der eingelesenen Items NALt 2 Anzahl der Antwortalternativen NIDchar 3 Lange der Zeichenkette zur Personenidentifikation NGRoup 2 Anzahl der Gruppen DIF Analyse von Differential Item Functioning gt ITEMS gt TEST1 TNAme logiktst Name des Tests n tzlich bei Subtests INUmber 1 1 5 7 1 13 verwendete Items 1 5 und 7 13 gt GROUP1 GNAme maenner Name fiir die Untergruppe LENgth 12 Anzahl der Items INUmbers 1 1 5 7 1 13 verwendete Items gt GROUP2 GNAme frauen siehe oben LENgth 12 INUmbers 1 1 5 7 1 13 3A1 15X I1
252. onen ber die Koeffizienten der Kovariaten sowie ber die Sch tzer f r die Varianzen SIGMA und Kovarianzen RHO der Items Wie bereits in Abschnitt 2 3 2 beschrieben beinhaltet die Kovarianzmatrix die Abh ngigkeiten zwischen den Itemparametern Diese Implementierung ist einer der gro en Vorteile von SCORIGHT da nicht jede Software diese Abh ngigkeiten ber cksichtigt Da es sich hier um dichotome Items handelt und im Vorfeld keine Kovariatenwerte f r die Itemparameter spezifiziert wurden erh lt man jeweils nur den Koeffizienten f r den Intercept und dessen Standardschatzfehler f r die Kovariatenwerte der Item und Diskriminationsparamter H tte man jedoch Kovariatenwerte f r die jeweiligen Itemparameter angegeben so w rde man zus tzlich zum Intercept auch noch den Anstieg bezeichnet mit beta_1 erhalten Diese beiden Kovariatenparamter sind jedoch nicht mit den eigentlichen Itemparamtern zu verwechseln da sie eher im Sinne der linearen Regression zu interpretieren sind HHHH EST a SEC a EST pi SE b EST c SEC c 12 1 0668 0 0939 0 1545 0 1158 NA NA 22 1 1779 0 1218 0 8390 0 1200 NA NA 32 1 0540 0 1073 1 0147 0 1308 NA NA 42 1 1327 0 1124 0 6800 0 1157 NA NA 52 1 1572 0 1316 0 5228 0 0976 NA NA 6 2 1 0645 0 0900 0 2574 0 1095 NA NA 72 1 1005 0 0993 0 5656 0 1067 NA NA 82 1 0133 0 1061 1 6091 0 1795 NA NA 92 1 0254 0 0894 0 2554 0 1103 NA NA 10 2 1 0557 0 1489 2 7241 0 3154 NA NA 11 2 1
253. onnor 1989 hier kann man einen Titel einf gen gt PROBLEM RANDOM w hlt die MML Parameterschatzung PATTERNS Daten nicht als Einzelantworten sondern in Antwortpatterns einlesen NITEMS 2 NGROUPS 1 NPATTERNS 16 2 Items 1 Gruppe 16 Pattern DATA EXAMPLO6 DAT name der Datei mit dem Pattern gt TEST ALL alle Items werden zur Analyse verwendet GRADED Samejimas graded response model NC 4 4 beide Items haben 4 Kategorien gt END Ende der Kommandodate 4 es gibt insgesamt vier Antwortcodes in den Daten n mlich 0123 11 kategorien f r code o 22 kategorien f r code 1 33 kategorien f r code 2 44 kategorien f r code 3 1X 2A1 F5 0 die Datei EXAMPLOo6 DAT in FORTRAN Format 5 BILOG MG und MULTILOG 91 Die dazugeh rige Datei EXAMPLO6 DAT sieht gem der Spezifikation 1X 2A1 F5 0 Spalte weg lassen Spalten 2 3 als einstellige alphanumerische Spalten interpretieren Spalten 4 8 als f nfstellige Zahl einlesen folgenderma en aus 00 28 01 15 02 8 03 5 10 35 11 23 12 12 13 15 20 43 21 35 22 19 23 29 30 6 31 14 32 6 33 11 Nachdem das Modell gesch tzt wurde liefert MULTILOG nun im Gegensatz zu BILOG lediglich eine gro e Outputdatei die hier auszugsweise pr sentiert wird Wie in BILOG werden zu Beginn die Eingaben der Kommandodatei detailliert wiederholt und auch die technischen Einstellungen werden ausgegeben wie man hier sieht DATA PARAMETERS NUMBER OF LINES IN THE DATA FILE 16 NUMBER
254. osition der zu verrechnenden Items und der Testlets zu spezifizieren Das Datenfile enth lt im vorliegenden Beispiel zw lf Items und 500 Personen von denen alle in die Analyse miteinbezogen werden sollen Die Items eins bis vier sowie zehn bis zw lf bilden die beiden Testlets Enter the starting and ending columns of the test scores for the data file 1 12 Enter the starting and ending columns of Testlet 1 1 4 Enter the starting and ending columns of Testlet 2 10 12 Enter the starting and ending rows of the test scores 1 500 In Folge ist es auch notwendig eine Datei zu definieren und einzulesen welche Informationen dar ber enth lt ob die Items einen Rateparameter enthalten oder nicht also 3PL oder 2PL bzw mehrkategoriell zu verrechnen sind Das Zeichen D steht dabei f r dichotome 3PL 2 f r dichoto me 2PL und P f r mehrkategorielle Items Die Datei muss so strukturiert sein dass die Definition f r den Itemtyp steht in der ersten Spalte und die zugeh rige Anzahl der Antwortkategorien in der zweiten Spalte steht Die Iteminformationsdatei wird ebenso wie die Daten auf die selbe Art und Weise eingelesen D2 D2 P 5 2 2 Enter the name of the item information file c subdirectory Iteminfo dat Da im Zuge der Sch tzung und der Analyse sehr viele Outputfiles generiert werden muss man ein Unterverzeichnis anlegen in welches die Ergebnisse der Analyse geschrieben werden Please enter the name of the su
255. pplied Psychological Measurement 2 4 581 594 Andrich D 1978b A Rating Formulation for Ordered Response Categories Psychometrika 43 4 561 573 Andrich D 1982 An Index of Person Separation in Latent Trait Theory the Traditional KR 20 Index and the Guttman Scale Response Pattern Education Research and Perspectives 9 1 95 104 Andrich D 19882 A General Form of Rasch s Extended Logistic Model for Partial Credit Scoring Applied Measurement in Education 1 4 363 378 Andrich D 1988b Rasch Models for Measurement Sage University paper series on quantitative applications in the social sciences Sage Newbury Park CA Andrich D 1989 A Probabilistic IRT Model for Unfolding Preference Data Applied Psychological Measurement 13 193 216 Andrich D 19952 Further Remarks on Non Dichotomization of Graded Responses Psychometrika 60 1 37 46 Andrich D 1995b Models for Measurement Precision and the Non Dichotomization of Graded Responses Psychometrika 60 1 7 26 Andrich D 1996 A Hyperbolic Cosine Latent Trait Model for Unfolding Polytomous Responses Reconciling Thurstone and Likert Methodologies British Journal of Mathematical and Statistical Psychology 49 347 365 Andrich D und Luo G 2003 Conditional Pairwise Estimation in the Rasch Model for Ordered Response Categories using Principal Components Journal of Applied Measurement 4 3 205 221 Andrich D Sheridan B S und Luo G 2010
256. r FACETS Ergebnisdatei fest siehe Abbildungen 3 9 3 10 3 11 Im hier definierten Fall wird vorranging nach dem Rasch Ma in absteigender Reihenfolge nachranging nach der Nummer des Elements sortiert Auch hier wird die Richtung der Sortierung absteigend aufsteigend durch Klein bzw Gro buchstaben fixiert Weitere Sortierm glichkeiten w ren alphabetisch nach dem Namen A nach dem Fit F sowie nach der point biserial Korrelation E Durch die Spezifizierung von Barchart All werden alle in den FACETS Ergebnistabellen 7 verf gbaren statistischen Beschreibungen der Rasch Ma e pro Facette graphisch dargestellt Durch Yes wird nur eine Auswahl graphisch dargestellt Rasch Ma Logit Infit und Outfit sowohl unstandardisiert als auch standardisiert Das Herzst ck des ganzen Modells wird ber Models R5 definiert Im hier definierten Fall wird durch die drei Fragezeichen angezeigt dass alle Elemente einer Facette mit allen Elementen der anderen Facetten interagieren d rfen Durch Ra wird die Skala der Antworten festgelegt In diesem Fall ist es eine Rating Skala von o bis 5 Weitere Skalen die spezifiziert werden k nnen sind beispielsweise D f r dichotome Antworten R f r eine Rating Skala von o bis 9 oder B10o f r eine Rating Skala in Prozenten Das Basis Rasch Modell w rde also mit Models D spezifiziert werden Beliebige andere Rating und Partial Credit Skalen k nnen ber den
257. r latenten Variable abdecken Das Item Fitresiduum quantifiziert die tats chliche Diskriminanz des Items Ein Wert von o entspricht der unter dem Raschmodell erwarteten Diskriminanz die Steigung der Itemcharakteristikkurve ICC entspricht dem Raschmodell Positive Werte stehen f r Unterdiskriminanz zu flache ICC negative Werte zeigen berdiskriminanz an zu steile ICC ber alle Items wird eine Standardabweichung der Fitresiduen von 1 erwartet Deutlich h here Werte implizieren dass einige Items ber und andere unterdiskriminieren Dies kann muss aber nicht eine Folge von Mehrdimensionalit t sein F r die Personenparameter werden die entsprechenden Statistiken ebenfalls angegeben Ein Per sonenparametermittelwert der sich deutlich vom Itemparametermittelwert der in der Regel o ist unterscheidet weist auf ein mangelndes Targeting hin schlechte bereinstimmung von Item und Personenparameter Die Fitresiduen der Personen geben Aufschluss dar ber wie sehr die Antwort muster der einzelnen Respondenten mit dem Modell bereinstimmen Negative Werte stehen f r eine zu starke Ann herung an den deterministischen Guttman Pattern der Antworten Positive Werte implizieren Personenmisfit im Sinne eines zu stark zufallsbedingten Antwortmusters Theoretisch sollte auch der Mittelwert der Personenfitresiduen o sein In der Praxis weist RUMM jedoch oft leicht negative Werte aus in der Regel um o 2 oder 0 3 Dementsprechend sind Mittelwer
258. r obtaining Finite MLEs for zero perFects 9 38880 Lal Abb 7 4 Dichtomer Multiple Choice Test ex1 shw summary of the estimation entsprechen Die Abbildung 7 5 zeigt die Fit Statistiken in der Datei ex1 shw Die Datei ex1 shw zeigt Coniluest ex Ak Edi Run Command Analysis Tables Pht Options Help T Generalised I Response Modelling Software Med Dec 13 12 19 2006 TABLES OF RESPONSE MODEL PARAMETER ESTIMATES TERM 1 item H ESTIMATE 1 BSMMABT 8 91 1 09 3 1 0 98 73 8 BSMMAB2 8 91 1 99 0 3 LK 8 h 8 BSHHhB3 8 91 1 09 2 5 6 93 2 1 u BSNMABY 8 91 1 09 0 6 8 97 1 2 5 BSHMABS 0 91 1 09 2 2 1 07 2 9 6 BSNMABG 9 91 1 99 0 3 1 91 a2 BSHSAB 8 91 1 09 2 8 1 85 8 8 8 BSNSAGS 8 91 1 09 3 3 1 09 2 2 H BSNSABT 9 91 1 09 2 2 0 97 WI 18 mnsHsnia 9 91 1 00 2 4 1 06 1 4 11 Benni 8 91 1 89 2 8 8 97 8 7 12 BSHSAT2 i 0 6 fin asterisk next to a p Separation Reliability 6 993 i Abb 7 5 Dichotomer Multiple Choice Test ex1 shw Fit statistics auch die Item Separation Reliability den Chi Quadrat Test den Mittelwert und die Varianz Die Item Separation Reliability gibt an wie gut die Itemparameter voneinander trennbar sind vgl Wright und Stone 1979 und hat einen Maximalwert von 1 und einen Mindestwert von o Die Item Separation Reliability steigt mit steigender Stichprobenanzahl In diesem Beispiel betr gt die Item Separation Reliability 0 993
259. r sozio konomischer Status geht mit h heren Punktzahlen einher 0 46 und Jungen erreichen h here Punktzahlen als M dchen Die Konstante wurde mit 1 443 gesch tzt Wiederum sind alle Effekte signifikant auf einem 5 Niveau F r die marginalen Varianzen wurden 0 399 f r Force amp Motion 0 48 f r Light amp Sight 0 51 f r Matter 0 28 f r die vierte Dimension Earth amp Space und schliesslich 0 66 f r die Multiple Choice Dimension Der zus tzlich durch die Regressanden eingebrachte Erkl rungsgehalt reduziert die Varianz um einiges Der Anteil an durch die Regressoren erkl rter Varianz des unbedingten Modells kann mit VAR cond VARuncond R 1 7 14 berechnet werden Hierbei steht VAR ncong f r die gesch tzte Varianz der jeweiligen latenten Di mension f r das unbedingte Modell und VAR dieselbige f r das Regressionsmodell F r die erste Dimension Force amp Motion ist der erkl rte Anteil 34 die unbedingte Varianz auf der zweiten Dimension Light amp Sight wird zu 2196 durch die Regressoren erkl rt Matter erf hrt eine Reduktion auf 88 d h 12 erkl rter Varianzanteil F r Earth amp Space ist dieser Anteil 36 und bei der f nften und letzten Dimension Multiple Choice f hren die erkl renden Variablen 130 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch sogar zu einem 45 Anteil erkl rter Varianz Die einzelnen Kovarianzen zwischen den latenten Dimensionen
260. rarchische WU Wien Institut f r Statistik und Mathematik kathrin gruber wu ac at t Da f r diesen Begriff keine deutsche bersetzung bzw kein deutsches Pendant existiert wird dieser im Folgenden der Einfachheit halber immer mit Testlet bersetzt 27 28 Kathrin Gruber Strukturierung oder in aufsteigendem oder absteigendem Schwierigkeitsgrad vorgegeben werden Das Ziel des B ndelns von Items ist es die Wahrscheinlichkeit dieser nachteiligen Effekte zu reduzie ren ohne dabei die Effizienz des adaptiven Tests zu verringern Des weiteren passt die Teststruktur oft auch besser zu dem Konstrukt ber welches man eine Aussage treffen m chte Zusammenfassend k nnen Testlets also benutzt werden um die Bedenken bzgl des Einzelfall charakters von alleinstehenden Items zu reduzieren um Kontekteffekte in adaptiven Designs zu reduzieren und um die Effizienz des Testens bei einem verl ngerten Stimulus zu maximieren 2 2 Klassische Testlet Response Modelle Der Ansatz von Bock 1972 ist stark an Rosenbaum s Theorem der Itemb ndel orientiert Die Grundidee dabei ist dass nur jene Items die ein Testlet bilden berh hte lokale Abh ngigkeiten besitzen Die Verrechnung dieser lokal stochastisch abh ngigen Itemb ndel erfolgt ber ein Item Response Theorie Modell IRT Modell f r mehrkategorielle Daten Das Testlet wird als Einheit betrachtet und mehrkategoriell verrechnet Auch Bock s Modell postuliert eine einzige zugrundeliegend
261. rasch lt RM raschdat1 pres rasch lt person parameter res rasch V VM M Then we use Andersen s LR test for goodness of fit with mean split criterion gt Irres rasch LRtest res rasch splitcr mean se TRUE gt lrres rasch Andersen LR test LR value 30 288 Chi square df 29 p value 0 4 We see that the model fits and a graphical representation of this result subset of items only is given in Figure 6 3 by means of a goodness of fit plot with confidence ellipses gt plotG F l1rres rasch beta subset c 14 5 18 7 1 tlab item conf list ia FALSE col blue lty dotted Graphical Model Check Beta for Group Raw Scores Mean 0 3 2 1 0 1 2 3 Beta for Group Raw Scores lt Mean Abb 6 3 Goodness of fit plot for some items with confidence ellipses 6 Extended Rasch Modeling The R Package eRm 109 To be able to draw confidence ellipses it is needed to set se TRUE when computing the LR test 6 5 3 Example 2 LLTM as a restricted Rasch model As mentioned in Section 6 2 2 also the models with the linear extensions on the item parameters can be seen as special cases of their underlying basic model In fact the LLTM as presented below and following the original idea by Scheiblechner 1972 is a restricted RM i e the number of estimated parameters is smaller compared to a Rasch model The data matrix X consists of n 15 persons and k 2 5 items Furthermore we specify
262. rd Die Person Separation also die Reliabilit t im Sinne des Raschmodells beruht im Wesentlichen darauf wie gut das Messinstrument zwischen den Perso nen differenziert Bei geringer Personenvarianz aber auch bei ung nstigem Targeting ist der PSI entsprechend geringer In der Folge sind die Fittests weniger m chtig Ein geringer PSI weist also auf Probleme in den Daten hin die allerdings nicht sehr spezifisch sind und von Mistargeting und geringer Personenvarianz ber berm ige Fehlervarianz bis hin zu v llig ungeeigneten Items die keine gemeinsame Dimension abbilden reichen k nnen Der individuelle Itemfit wird tabellarisch ausgegeben F r jedes Item wird ein Lageparameter ausge wiesen bei polytomen Antwortformaten handelt es sich dabei um den Mittelwert der Thresholdpara meter sowie ein Standardsch tzfehler Sch tzfehler f r einzelne Thresholdparameter welche im Bereich Item Parameter Details angezeigt werden sucht man in RUMM allerdings vergeblich Dem statistischen Itemfit im Unterschied zur weiter unten angef hrten grafischen Modellkontrolle wird durch drei Gr en Rechnung getragen Das Itemfitresidual quantifiziert die Steigung der ICC und damit die empirische Diskriminanz des Items Diese Statistik ist standardisiert auf einen erwarteten Wert von o bei perfektem Fit und n herungsweise normalverteilt Vor allem positive Werte ber 2 5 weisen auf Items hin die zu schwach diskriminieren Werte von kleiner als 2 5 zei
263. rd ein Wert von 30 vorgeschlagen Anzahl der Fisher Scoring Iterationen f r die Items Hier wird quivalent zu den Threshold Parametern siehe 17 die Anzahl der Iterationsschritte f r die Sch tzung der Location Parameter 5 und Discrimination Parameter a festgelegt Convergence Criterion Sowohl der Fisher Scoring Algorithmus der inner und die outer Cycle Sch tzungen brechen die Iterationen ab sobald die Ver nderung der Item Parameter von einem zum n chsten Durchlauf absolut kleiner ist als der hier spezifizierte Zahlenwert Grafische Plots erzeugen GGUM 2004 bietet auch die M glichkeit Plots zu erstellen Um solche zu kreieren muss dies jedoch bereits vor der Sch tzung bekannt gegeben werden GGUM erwartet falls Plots gew nscht sind Y noch zwei weitere Eingaben die im Command File einfach in die n chsten 2 Zeilen geschrieben werden Zun chst muss die Anzahl der Plot Gruppen festgelegt werden Hierbei wer den Personen mit hnlichen 0 Werten gruppiert Man kann die im Sample enthaltenen Personen in 2 bis 20 Gruppen aufteilen lassen Ebenfalls werden f r den Model Fit Plot die Unterschiede zwischen der Personen Location und der Item Location berechnet Diese Unterschiede k nnen auch nach Gr e geclustert werden Genauer gesagt kann man hier wieder angeben in wie viele homogene Gruppen aufgeteilt werden soll und hat die Wahl zwischen 2 und 2000 Fit Statistiken berechnen Diese Frage ist auch wieder mit Y YES und N
264. rdert allerdings weitergehende Analyseschritte Eine M glichkeit stellt wiederum die Subtest Analyse dar Werden alle Items einer Dimension zu einem Subtest zusammengefasst und werden diese in Regel zwei Subtests reanalysiert so wird die Reliabilit t gegen ber der urspr nglichen Analyse stark absinken da die beiden Dimensionen im ung nstigsten Fall gar nicht mehr korrelieren werden Eine weitere M glichkeit den Effekt der Multidimensionalit t abzusch tzen bietet RUMM im Bereich Equating an Diese Analyse dient grunds tzlich daf r Subsets von Items auszuw hlen und die Entsprechung von Itemrohscores und metrischer Ma e zu erhalten wie dies beim Testequating er forderlich ist Werden die beiden Itemsets allerdings so gew hlt dass eine Gruppe von Items lediglich eine Dimension erfasst der Input dazu kann aus der Hauptkomponentenanalyse gewonnen werden und die andere Gruppe die zweite Dimension so lassen sich pro Person zwei Parameter sch tzen Bei perfekter Eindimensionalit t d rfen sich diese Sch tzwerte nur zuf llig unterscheiden Smith 2002 RUMM berechnet pro Person eine t Statistik formal ein t Test f r unabh ngige Stichproben die den Unterschied der Parameter auf Signifikanz pr ft Dabei werden die Standardsch tzfehler f r die Berechnung des Standardfehlers der Differenz herangezogen Es wird nun erwartet dass nur in 5 bzw 1 der F lle der p Wert kleiner oder gleich 5 bzw 1 ist Diese Erwartung wird den ta
265. rinceton NJ Warm T A 1989 Weighted likelihood estimation of ability in item response theory Psychometrika 54 427 450 Watkins M 2000 Monte Carlo PCA for Parallel Analysis Ed amp Psych Associates State College PA Wewers M E und Lowe N K 1990 A critical review of visual analogue scales in the measurement of clinical phenomena Research in Nursing and Health 13 227 236 Wilson M 1992 The ordered partition model An extension of the partial credit model Applied Psychological Measurement 16 309 325 Winsteps n d Winsteps amp Facets Comparison Wright B D 1998 Introduction to the Rasch model MESA Press Chicago Wright B D und Masters G 1990 Computation of OUTFIT and INFIT Statistics Rasch Measurement Transactions 3 4 84 85 Wright B D und Masters G 2002 Number of person or item strata Rasch Measurement Transactions 16 3 888 Wright B D und Masters G N 1982 Rating Scale Analysis Rasch Measurement MESA Press Chicago Wright B D und Panchapakesan N 1969 A procedure for sample free item analysis Educational and Psychological measurement 29 23 48 Wright B D und Stone M 1979 Best Test Design Rasch Measurement MESA Press Chicago Wright B D und Stone M H 1999 Measurement Essentials Wide Range Inc Wilmington Delaware Wu M L Adams R J Wilson M und Haldane S 2007 ConQuest Version 2 0 Computer software Assessment Syste
266. rms ange 3 FACETS 45 zeigt welche Tabellen in der zuvor definierten Output Datei erstellt wurden Zus tzlich enth lt diese Output Datei auch die Tabellen bis 3 die auch schon w hrend der laufenden Parametersch tzung am Bildschirm zu sehen waren Wie in Abbildung 3 3 zu sehen wird in der letzten Zeile am Bild schirm der Pfad genannt in dem sich die Output Datei befindet Grunds tzlich ffnet sich diese Datei allerdings selbstt tig nach Abschluss der Analyse Die vorletzte Zeile am Bildschirm enth lt noch eine weitere wichtige Information n mlich ob Untergruppen subsets indentifiziert wurden oder nicht Sollten keine identifierziert worden sein so erscheint die Nachricht subset connection OK falls die Nachricht nicht erscheint wurden Untergruppen in den Daten gefunden f r die nicht alle Informationen vorhanden sind Das w re bspw dann der Fall wenn ein Teil der Studenten nur von Beurteiler und ein anderer Teil nur von Beurteiler 2 beurteilt worden w ren es aber keinen einzigen Studenten gibt der von beiden Beurteilern Auswertungsschemen bewertet wurde Solche Unter gruppen w rden bedeuten dass kein ausreichender Informations Link zwischen den Elemeten der Facetten besteht und somit ungen gende Information f r die Sch tzung der Beurteiler Milde Strenge vorhanden w re Bond und Fox 2007 Linacre 1997 beschreibt die Mindestanforderungen die erf llt sein m ssen damit aus den Daten ein eindeutiges Mess
267. rn Judges ber cksichtigt werden Dadurch wird erreicht dass Beurteilungen nicht nur genau sind sondern auch so fair wie m glich Linacre 1994b Tis og zu In Die 3 2 nij k 1 Ban Wahrscheinlichkeit dass f r Person n das Item i bewertet durch den Beurteiler j in Kategorie k beobachtet wird nij k 1 Wahrscheinlichkeit dass f r Person n das Item i bewertet durch den Beurteiler j in Kategorie k 1 beobachtet wird U Bn F higkeit der Person n Dj Itemschwierigkeit des Items i Cj Strenge des Beurteilers j Fk Barriere in Kategorie k beobachtet zu werden im Unterschied zu Kategorie k 1 Demnach werden die im polytomen Rasch Modell einbezogenen Facetten Personen und Items um eine weitere Facette erg nzt den Beurteilern Pr fern Linacre 1989 1994b Um diesen Faktor zu kontrollieren wird f r jede Person jene Leistung performance ermittelt die bei einem durchschnittlich strengen Beurteiler erzielt worden w re Eckes 2003 Es k nnen allerdings beliebig andere bzw weitere Facetten wie etwa Schwierigkeit der Aufgabe verschiedene Auswertungssche men Muttersprache oder kultureller Hintergrund eingef hrt werden die die Leistung einer Person verzerren k nnen Besonders plakativ ist eine Verzerrung durch die Strenge von Beurteilern weil Beurteiler als Experten handeln die nach Ihrem Ermessen die Leistung bei Tests beurteilen Deshalb wird in weiterer Folge die Idee des MFRM anhand der Facette Beurteiler erkl rt
268. roach resulted in including the LLTM the LRSM and the LPCM as the most general model into the eRm package For the latter model the CML estimation was implemented which can be used for the remaining models as well A corresponding graphical representation is given in Figure 6 2 function RM function LLTM function RSM function PCM function LRSM function LPCM X X W mpoints X T X W mpoints X W mpoints groupvec groupvec groupvec Unified CML Likelihood parameter estimates standard errors Tests for model fit Abb 6 2 Bodywork of the eRm routine An important benefit of the package with respect to linearly extended models is that for certain models the design matrix W can be generated automatically LPCM WIN Fischer und Ponocny Seliger 1998 also allows for specifying design matrices but in case of more complex models this can become a tedious task and the user must have a thorough understanding of establishing proper design structures For repeated measurement models time contrasts in the eRm can be simply specified by defining the number of measurement points i e mpoints To regard group contrasts like e g treatment and control groups a corresponding vector groupvec can be specified that denotes which person belongs to which group However W can also be defined by the user A recently added feature of the routine is the option to allow for structurally missing values This is required e g
269. rom an asymptotical point of view the CML estimates are at least as good as the MML estimates In the past computational problems speed numerical accuracy involved in calculating the elementary symmetric functions limited the practical usage of the CML approach see e g Gustafsson 1980 Nowadays these issues are less crucial due to increased computer power In some cases MML estimation has advantages not shared by CML MML leads to finite person parameters even for persons with zero and perfect raw score and such persons are not removed from the estimation process Molenaar 1995 On he other hand the consideration of such persons does not seem meaningful from a substantial point of view since the person parameters are not reliable anymore for such subjects the test is too difficult or too easy respectively Thus due to these covering effects a corresponding ability estimation is not feasible However if the research goal is to find ability distributions such persons should be regarded and MML can handle this When estimates for the person parameters are of interest some care has to be taken if the CML method is used since person parameters cancel from the estimation equations Usually they are estimated once having obtained values for the item parameters by inserting f or equivalently i into Equation 6 14 and solving with respect to 0 Alternatively Bayesian procedures are applicable Hoijtink und Boomsma 1995 It is again pointed o
270. rs Abb 4 6 Screenshot WinMiRa mit Person Parameter Plot Datensatz Esu dat 4 2 4 grundsatzliche Bedienung Die generelle Vorgehensweise bei der Durchf hrung einer Analyse mit WinMiRa ist folgende Laden des Datensatzes lt File gt lt Open gt lt Get Ascii Data oder Open Spss Data gt optional Durchf hren von Recodings und Behandlung von Missing Values lt Data Specification gt lt Recodings bzw lt Missing Value gt Variablen ausw hlen lt Data Specification gt lt Select Variables gt Tipp alle Variablen k nnen mittels Doppelklick auf eine Variable hinzugef gt bzw entfernt werden Anzahl der Klassen definieren lt Job Definition gt lt N of Classes gt Hinweis Wird das klassische Rasch Modell gerechnet ist die Anzahl der Klassen auf zu belassen Das Mixed Modell mindestens 2 Klassen beinhaltet eine Kombination zwischen einer Latent Class Analyse und einem Rasch Modell und bietet somit die M glichkeit klassenspezifische Auswertungen durchzuf hren Modell ausw hlen lt Job Definition gt lt Select Model gt Als Standard wird das klassische Rasch Modell verwendet Bei polytomen Daten kann je nach Annahme ber die Lage der thresholds zwischen dem Rating Scale Model dem Equidistance Model dem Dispersion Model und dem Ordinal bzw Partial Credit Model unterschieden werden optional und fortgeschritten ndern der Parameter constraints lt Job Definition gt lt Parameter constraints gt ndern diverser Par
271. rscheinlichkeit prognostiziert werden mit der ein Item gel st wird B hner 2006 Die Basis Struktur des dichotomen Rasch Modells ist in darauf aufbauenden Modellen wiederzufinden Eine Weiterentwicklung ist das Multifacetten Rasch Modell MFRM Many Facet Rasch Model welches von Linacre im Jahr 1989 entwickelt wurde und das Linacre in der Windows basierten Software WU Wien Institut f r Tourismus und Freizeitwirtschaft margit kastner wu ac at WU Wien Institut f r Tourismus und Freizeitwirtschaft amata ring wu ac at WU Wien Institut f r Tourismus und Freizeitwirtschaft brigitte stangl wu ac at 39 40 Margit Kastner Amata Ring und Brigitte Stangl FACETS umgesetzt hat Bevor genauer auf das Rasch Modell und das MFRM eingegangen wird soll der Unterschied zwischen Rasch Modellierung Rasch modeling und Rasch Messung Rasch measurement kurz herausgestrichen werden Laut Linacre 1994b unterscheiden sich die beiden Ans tze grunds tzlich durch den Ansatz der Erweiterungen der urspr nglichen Arbeit von Rasch Rasch Messung entwi ckelte sich haupts chlich um eine Forschungsgruppe von Ben Wright in Chicago Rasch Modellierung hingegen entwickelte sich in unterschiedlichen Forschungszentren wie z B in sterreich Australien D nemark und anderen L ndern von Davier 2006 Mit dieser Unterscheidung im Hinterkopf wird in weiterer Folge genauer auf Rasch Messung insbesondere auf das MFRM eingegangen Danach wird das Programm F
272. rt des F higkeitsparameters relativ zur Itemschwierigkeit zwischen der dritten manchmal und der vierten Kategorie fters im ersten Item bei ca 0 7 Die Auswahl der Schaltfl che Cumulative Probabilities vgl Abb 13 zeigt f r die Personen im Sample die kumulierte Wahrscheinlichkeit in bestimmte Itemkategorien oder in eine der darunter liegenden Itemkategorien zu fallen je nach Auspr gung des Fahigkeitsparameters Die niedrigste Kategorie steht links F r das Anwendungsbeispiel des Zarit Burden Indexes bedeutet dies dass Personen mit einem F higkeitsparameter von 2 eine 20 ige Wahrscheinlichkeit haben die dritte oder eine niedrigere Kategorie beim Item1 anzukreuzen Etwas weniger als 20 von 100 RespondentInnen mit einem F higkeitsparameter von 5 kreuzen bei Item 1 die Kategorien o 1 2 3 oder 4 an 1 4 Schlussbetrachtung Das Ziel dieses Beitrages war es auf zentrale Merkmale der f r die Sch tzung von Rasch Modellen verf gbaren Software Winsteps einzugehen und anhand eines Beispiels die wichtigsten Analyse schritte im Programm f r EinsteigerInnen bzw potentielle UserInnen zu dokumentieren In diesem abschlie enden Kapitel sollen die Vorteile und Nachteile von Winsteps hinsichtlich der angebotenen Tools und ihrer Anwendung zusammenfa send gegen bergestellt werden 18 Stefan Angel und Richard M hlmann Winsteps verzeichnet grunds tzlich eine relative hohe Datenverarbeitungskapazit t Die Berech nungsd
273. rteilt als das Auswertungsschema Alles oder Nichts Diese Interpretati on ergibt sich aus der Festlegung dass die Facette Auswertungsschema negativ definiert ist siehe Abschnitt 3 5 2 und Abbildung 3 4 wodurch festgelegt wird dass f r diese Facette das Rasch Ma niedriger ist je h her der Rohwert ist Die dritte Spalte zeigt die Verteilung der Parametersch tzungen in Hinblick auf die Leistungsf higkeit der Studierenden F higere Studierende finden sich im Facet tenraum weiter oben unf higere weiter unten In der Abbildung stellt jedes Sternchen 13 Studierende dar In der vierten Spalte sind die Fragen dargestellt wobei schwierigere Fragen weiter oben und leichtere Fragen weiter unten im Facettenraum dargestellt sind In Tabelle 7 1 1 der FACETS Ergebnisdatei Table 7 1 1 Measurement Report welche in Abbildung 3 9 ersichtlich ist ist dieses Ergebnis auch anhand der Zahlen nachvollziehbar Der observed average score f r Teilpunkte ist deutlich h her 4 1 als f r Alles oder Nichts 2 8 Das resultiert in einem Rasch Ma von 0 09 f r Alles oder Nichts und von 0 60 f r Teilpunkte Diese Parameter sind auch die Positionen die in Tabelle 6 Abbildung 3 8 abgebildet werden quivalent dazu kann auch die leichteste Frage identifiziert werden n mlich Barter Gesch fte Da die Lage der beiden Facetten Studenten und Fragen laut der verwendeten Modellspezifikation fixiert ist siehe Abschnitt 3 5 2 und Abb
274. rungen nach 4 Iterationen Nach dem Sch tzvorgang werden die Da Output Window Change in the deviance is 260 81534 EIteratioa cre rr nnn Deviance 13433 43295 Variance Estimate Dinension 1 0 78568 Hean Dinension 1 1 03185 Naxinum changes Iten parameter estimates gt 8 17761 Parameter 9 Mean estimate gt 6 04178 Variance estinate gt 8 01959 Change in the deviance is 91 63905 Iteration 5 uaneenssornennen nennen Deviance 13383 43117 is Abb 7 3 Dichotomer Multiple Choice Test Iterationen teien show bzw itanal und die Graphiken erstellt Die Abbildung 7 4 zeigt die Datei ex shw In diesem Beispiel wurden insgesamt 13 Parameter gesch tzt Mittel Varianz und 11 Itemschwierig keitsparameter Es werden deswegen 11 statt 12 Itemparameter gesch tzt weil ein Parameter von ConQuest per default zu Identifikationszwecken des Modells fixiert werden muss Der n chste Teil der Datei ex shw zeigt die Parametersch tzungen f r jedes Test Item mit ihren Standardfehlern und mit einigen Fit Statistiken Die Item Parametersch tzungen sind Marginal Maximum Likelihood Sch tzungen bei den Standardfehlern handelt es sich um asymptotische Sch tzungen durch die Inverse der Hessenmatrix und die Fit Statistiken stellen residual basierte Kennzeichen dar die mit den von Wright und Stone 1979 f r das Rasch Simple Logistic Model und Wright und Masters 1982 f r das Partial Credit Model
275. s 263 263 1 Branchenattraktivit t 0 o 4 5 4 5 4 2 1 Alles oder Nichts 758 758 1 Branchenattraktivit t 5 5 4 4 6 4 5 1 Alles oder Nichts 228 228 2 Einkaufslabor Io o 4 6 4 6 4 4 1 Alles oder Nichts 640 640 2 Einkaufslabor Io o 4 6 4 6 4 4 1 Alles oder Nichts 719 719 2 Einkaufslabor Io o 4 6 4 6 4 4 1 Alles oder Nichts 867 867 2 Einkaufslabor I 5 5 A 4 6 4 3 1 Alles oder Nichts 368 368 2 Einkaufslabor I 5 5 2 4 8 5 8 1 Alles oder Nichts 162 162 3 Segmentierung I 5 5 3 4 7 5 4 1 Alles oder Nichts 543 543 3 Segmentierung I 5 5 3 4 7 5 3 1 Alles oder Nichts 1047 1047 3 Segmentierung I 5 5 3 4 7 5 2 1 Alles oder Nichts 610 610 3 Segmentierung l1 1 4 7 3 7 4 8 2 Teilpunkte 186 186 3 Segmentierung 15 5 3 4 7 4 7 1 Alles oder Nichts 294 294 3 Segmentierung I 5 5 3 4 7 4 6 1 Alles oder Nichts 1014 1014 3 Segmentierung 5 5 4 4 6 4 3 1 Alles oder Nichts 784 784 3 Segmentierung 5 5 4 4 6 4 3 1 Alles oder Nichts 802 802 3 Segmentierung Abb 3 6 Table 4 Unexpected responses Tabelle 5 Table 5 Measurable Data Summary zeigt einen kurzen berblick ber die Daten siehe Abbildung 3 7 Es werden der Mittelwert ber alle Beobachtungen 68 944 die Standardabweichung wenn die Stichprobe als gesamte Population betrachtet wird S D Population sowie die Standardab 52 Margit Kastner Amata Ring und Brigitte Stangl weichung wenn die Stichprobe als Stichprobe der Population angesehen wird S D
276. s Rizopoulos 8 1 Basics of IRT Item Response Theory IRT Baker und Kim 2004 van der Linden und Hambleton 1997 considers a class of latent variable models that link mainly dichotomous and polytomous manifest i e response variables to a set of latent variables The main applications of IRT can be found in educational testing in which analysts are interested in measuring examinees ability using a test that consists of several items i e questions Several models and estimation procedures have been proposed that deal with various aspects of educational testing The aim of this document is to present the R package 1tm available from CRAN http cran r project org that can be used for latent variable modelling under the IRT approach For a more complete list of the available CRAN packages relevant to the analysis of event time data we refer to the CRAN Task View http cran r project org web views Psychometrics html The basic idea of latent variable analysis is to find for a given set of response variables x xy a set of latent variables z z with q p that contains essentially the same information about dependence The latent variable regression models have usually the following form E x 2 g Ajo An t Ag ze imis p 8 1 where g is a link function A jo A g are the regression coefficients for the ith manifest variable and x is independent of x for i j given z z Z The common factor an
277. s below which are based on Rasch s general expression for polytomous data The data matrix is denoted as X with the persons in the rows and the items in the columns In total there are v 1 n persons and i 1 k items A single element in the data matrix X is indexed by x Furthermore each item I has a certain number of response categories denoted by h o m The corresponding probability of response h on item i can be derived in terms of the following two expressions Andersen 1995 P X h explPnl9 Bi oi 6 1 Y S expld1l0 Bi 1 Or P X h exp n9y Bin 6 2 UN explo Bir Here di are scoring functions for the item parameters O are the uni dimensional person pa rameters and f are the item parameters In Equation 6 1 wp corresponds to category parameters whereas in Equation 6 2 Bon are the item category parameters The meaning of these parameters will be discussed in detail below Within the framework of these two equations numerous models have been suggested that retain the basic properties of the Rasch model so that CML estimation can be applied 6 2 2 Representation of extended Rasch models For the ordinary Rasch model for dichotomous items Equation 6 1 reduces to exp 0 Bi aleng i 6 3 The main assumptions which hold as well for the generalizations presented in this paper are uni dimensionality of the latent trait sufficiency of the raw score local ind
278. s der vollst ndige Pfad der Datendatei in folgender Syntax angeben werden drive path filename ext 10 GGUM2004 Generalized Graded Unfolding Models 177 6 10 T 12 13 14 FORTRAN input format zum Datenauslesen Die Datendatei muss grunds tzlich als plain text vorliegen Damit GGUM jedoch wei wie die darin enthaltenen Zeichen zu interpretieren sind d h wie die Codes f r ID und Itemantworten vergeben wurden und wie sie im Textfile angeordnet sind m ssen derartige Merkmale der Da tenstruktur mittels FORTRAN Code bekannt gegeben werden Wie dieser zu verwenden ist um ein vorliegendes Datenfile entsprechend einzulesen kann der diesbez glich sehr ausf hrlichen Hilfedatei des Programmes entnommen werden Anzahl der Items Bekanntgabe f r wie viele Items nun Daten eingelesen werden Ist die Anzahl der Antwortkategorien ber alle Items konstant GGUM k nnte auch mit Items verschiedener Antwortkategorien umgehen Es muss lediglich bekannt gegeben werden ob die Anzahl der Antwortkategorien im konkreten Fall ber alle Items konstant ist Y oder nicht N Umkodierung der Daten notwendig GGUM ben tigt die Antwortkategorien im Format o bis C 1 wobei C die Anzahl der Anwort m glichkeiten ist Es k nnte aber sein dass die Daten tats chlich im Format 1 bis C vorliegen In diesem Fall w re es erforderlich die Antworten zu recodieren die Zahl 1 von jeder Antwortkate gorie abzuziehen um die Daten im
279. s hypothesis B samples are generated under the Rasch model using 6 and the Pearson s x statistic T b 1 B is computed for each data set the p value is then approximated by the number of times T gt Tops plus one divided by B 1 where T denotes the value of the statistic in the original data set For the Sexual Attitudes data set this procedure yields R gt set seed 1234 R gt GoF rasch fit rasch1 B 200 8 IRT Analysis using the 1tm Package Bootstrap Goodness of Fit using Pearson chi squared Call rasch data SexAtt constraint cbind ncol SexAtt 1 1 Tobs 4374 69 data sets 201 p value 0 005 R gt GoF rasch fit rasch2 B 200 Bootstrap Goodness of Fit using Pearson chi squared Call rasch data SexAtt Tobs 6441 21 data sets 201 p value 0 005 139 An alternative method to investigate the fit of the model is to examine the two and three way x residuals produced by the margins method we illustrate for the unconstrained Rasch model R gt by default the two way margins are produced R gt margins fit rasch2 Call rasch data SexAtt Fit on the Two Way Margins Response 0 0 Item i Item j Obs Exp 0 E 2 E 1 6 7 4TT 339 81 55 39 x 2 7 8 382 282 62 34 94 x 3 6 8 407 314 41 27 27 Response 1 0 Item i Item j Obs Exp 0 E 2 E 1 6 7 10 145 74 126 42 2 1 2 29 5 30 106 00 1 8 57 19 65 70 97 x Response 0 1 Item i Item j Obs Exp 0 E
280. s sind also nur relative Vergleiche m glich Je geringer der jeweilige Wert desto besser passt das Modell auf die Daten wenngleich auch alle Modelle weit vom saturierten Modell abweichen k nnen Der Vorteil dieser Kriterien liegt darin dass die Komplexit t des Modells und der Fit der Daten auf das Modell eingehen Dem steht gegen ber dass absolute Kriterienwerte nicht hinsichtlich 4 WinMiRa 2001 7A der Frage ob ein Modell Daten gut beschreibt beantwortet werden k nnen F r gro e Itemzahlen und kleinen Patternh ufigkeiten empfiehlt B hner 2006 S 352 die BIC Kennzahl Akaike Information Criterion AIC 2logL 2n Bayes Information Criterion BIC 2logL logN 2np Consistent AIC CAIC 2logL logN np np ny Anzahl der Parameter des entsprechenden Modells N Stichprobengr e e L Likelihood Die folgende Tabelle fasst diese Informationskriterien f r L sungen mit zwei drei und vier Klassen zusammen AIC BIC CAIC 2 Klassen 1 723 10 1 763 84 1 774 84 3 Klassen 1 709 24 1 772 20 1 789 20 4 Klassen 1 715 31 1 800 50 1 823 50 Tabelle 4 1 Information Criteria KFT dat Demnach weist die L sung mit zwei Klassen die geringsten BIC und CAIC Werte auf weshalb diese L sung zu favorisieren ist Zwar zeigt diese L sung das h chste AIC was jedoch nicht verwundert da dieses Ma keinen Strafterm f r die Anzahl der im Modell ber cksichtigten Parameter beinhaltet 4 3 2 M
281. schema gibt der Separationsindex an wie verl sslich zwischen diesen Schemen anhand ihrer Strengema e unterschieden werden kann Analog liefert der Separationsindex im Falle der Fragen Information ber den Grad ihrer Unterscheidbarkeit anhand der Schwierigkeitsma e Wie bereits erw hnt kann auf Basis des Separationsindex der Index der Klassenseparation strata berechnet werden Im vorliegenden Fall ist kein Index von 1 gegeben was bedeutet dass die Auswertungsschemen Unterschiede in ihren Strengema en aufweisen und damit nicht austauschbar sind dies wurde auch so erwartet Bei den Studierenden kann man f nf verschiedene Klassen orten und bei den Fragen 23 unterschiedliche was bedeutet dass diese nicht austauschbar sind Weiters wird in diesen Tabellen die Reliabilit t angegeben Die Reliabilit t von allen Facetten ist sehr hoch was zum Beispiel f r die Facette Auswertungsschema bedeutet dass mit einer anderen Stichprobe an Studenten und oder Fragen auch dann wieder Alles oder Nichts als die mildere Beurteilungsvariante identifiziert werden w rde Generell kann also geschlossen werden dass diese Daten nicht mit einem MFRM mit drei Facetten abgebildet werden k nnen Eine weitere Information die aus diesen Tabellen gewonnen werden kann ist die berpr fung der Nullhypothesen dass alle Auswertungsschemen gleich streng bzw nachsichtig alle Studenten gleich f hig und alle Fragen gleich schwierig sind Model fixed al
282. scht wie auch BILOG MG die 1 2 und 3 Parameter Logistischen Modelle f r deren Erkl rung wir auf die Abschnitte 5 2 1 1 sowie 5 2 1 2 in diesem Kapitel verweisen wollen 5 2 2 2 Graded Response Modell Samejima Das graded response model von Samejima 1969 f r ordinale Antworten mit k Antwortkategorien von 1 bis m wobei h here Kategorien mit h heren F higkeitswerten 0 einhergehen ist in der logistischen Form wie folgt definiert Prix klO a Bik Pr k Pr k 1 5 4 i 1 Pr xy kj a Bik ivexp Da 0 Bi u 1 exp Da 0 B Ter Folgene Einschr nkungen gelten Pr 1 1 Pr m 1 o Inhaltlich ist a ein globaler Diskrimi nationsparameter f der Itemlokationsparameter und t der Schwellenparameter f r Kategorie k 5 BILOG MG und MULTILOG 81 Wahrscheinlichkeit Abb 5 1 Exemplarische ICCs der 1 2 und 3PL Modelle Pr k ist die Wahrscheinlichkeit dass eine Antwort in Kategorie k oder h her liegt wodurch sich die Nebenbedingungen Pr 1 1 und Pr m 1 o erkl ren 5 2 2 3 Nominal Response Modell Bock Das nominal response model von Bock 1972 verrechnet Daten deren Antwortalternativen von 1 bis m laufen Wie der Name schon sagt m ssen die Antwortkategorien der Items hier nicht geordnet sein sondern k nnen auch qualitativ nominal sein exp a O Pr x KO a B EDS 5 6 2 exp a O Bi 1 1 Jede Kateogrie hat einen Diskriminations a un
283. scrmn 2 148 0 452 4 748 o RadioWaste value std err z value 150 Catgr 1 0 827 0 115 7 174 Catgr 2 1 694 158 10 695 Dscrmn 2 814 0 566 4 970 o AirPollution value std err z value Catgr 1 0 466 0 088 5 309 Catgr 2 2 128 204 10 449 Dscrmn 3 100 0 651 4 760 o Chemicals value std err z value Catgr 1 0 848 0 105 8 064 Catgr 2 1 738 0 164 10 618 Dscrmn 2 716 0 486 5 592 Nuclear value std err z value Catgr 1 0 230 0 133 1 726 Catgr 2 1 232 166 7 427 Dscrmn 1 441 0 240 6 004 o Integration method Gauss Hermite quadrature points 21 Optimization Convergence 0 max grad 0 02 optimizer nlminb Dimitris Rizopoulos Due to the fact that fit gpcm1 is nested in fit gpcm2 and fit gpcm2 is nested in fit gpcm3 we can perform likelihood ratio tests in order to check if increasing the complexity of the model increases sufficiently the likelihood R gt anova fit gpcmi fit gpcm2 Likelihood Ratio Table AIC BIC log Lik LRT df p value fit gpcmi 2318 35 2362 43 1147 18 12 fit gpcm2 2248 03 2295 78 1111 02 72 32 13 lt 0 001 R anova fit gpcm2 fit gpcm3 Likelihood Ratio Table AIC BIC log Lik LRT df p value fit gpcm2 2248 03 2295 78 1111 02 13 fit gpcm3 2225 95 2292 07 1094 97 32 08 18 lt 0 001 We observe that the unconstrained GPCM provides represented by fit gpcm3 provide the best fit to the data at hand compared to the constrained versions The overall fit of the model can be checked
284. se enter 0 0 For CHAIN 2 Do you want to input the initial values for item parameters a b and c If yes enter 1 otherwise enter 0 0 For CHAIN 2 Do you want to input the initial values for proficiency parameters theta If yes enter 1 otherwise enter 0 0 For CHAIN 3 Do you want to input the initial values for item parameters a b and c If yes enter 1 otherwise enter 0 0 For CHAIN 3 Do you want to input the initial values for proficiency parameters theta If yes 34 enter 1 otherwise enter 0 0 Kathrin Gruber Do you have covariates for item parameters a not including intercept If yes enter 1 otherwise enter 0 0 Do you have covariates for item parameters b not including intercept If yes enter 1 otherwise enter 0 0 Do you have covariates for parameter theta If yes enter 1 otherwise enter 0 0 Do you have any covariates for the testlet effects not including intercept If yes enter 1 otherwise enter 0 0 Nachdem alle ben tigten Informationen angegeben wurden gibt SCORIGHT am Ende nochmals eine kurze bersicht ber die eingegebenen Daten So kann der Benutzer die Eingaben nochmals berpr fen bevor das Programm mit der Sch tzung beginnt Please check the input 2 means independent itens 1 means the first testlet itens 2 means the second testlet itens and so on 1111 2 2 2 2 2222 If the input is correct enter 1 otherwise enter 0 1 Sind alle Eingaben korrek
285. se of person v on category h item 7 is defined as exp A0 i P Xyn 1 expl v Bin MB exp O T Bit It is obvious that 6 6 is a simplification of 6 2 in terms of dn h As for the LLTM and the LRSM the LPCM is defined by reparameterizing the item parameters of the basic model i e 6 6 98 Patrick Mair und Reinhold Hatzinger p Bin X vajnj 6 7 j l These six models constitute a hierarchical order as displayed in Figure 6 1 This hierarchy is the base for a unified CML approach presented in the next section It is outlined again that the linear extension models can be regarded either as generalizations or as more restrictive formulations pertaining to the underlying base model The hierarchy for the basic model is straightforward The RM allows only items with two categories thus each item is represented by one parameter The RSM allows for more than two ordinal categories each represented by a category parameter wp Due to identifiability issues wo and w are restricted to o Hence the RM can be seen as a special case of the RSM whereas the RSM in turn is a special case of the PCM The latter model assigns the parameter fj to each I x Cp combination To conclude the most general model is the LPCM All other models can be considered as simplifi cations of Equation 6 6 combined with Equation 6 7 As a consequence once an estimation procedure is established for the LPCM this approach can be used for any of
286. sh Journal of Mathematical and Statistical Psychology 33 205 233 Haberman S J 1977 Maximum likelihood estimates in exponential response models The Annals of Statistics 5 815 841 Hoijtink H 1995 Linear and Repeated Measures Models for the Person Parameter In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 203 214 Springer New York Hoijtink H und Boomsma A 1995 On person parameter estimation in the dichotomous Rasch model In Fischer G und Molenaar I Hrsg Rasch Models Foundations Recent Developments and Applications Seiten 53 68 Springer New York Humphry S 2005 Maintaining a Common Arbitrary Unit in Social Measurement PhD thesis Murdoch University Australia Jannarone R J 1986 Conjunctive item response theory model kernels Psychometrika 51 357 373 Katz S Ford A B Moskowitz R W Jackson B A und Jaffe M W 1963 Studies of Illness in the Aged The Index of ADL A Standardized Measure of Biological and Psychological Function JAMA 185 12 914 919 Klassen D und O Connor W A 1989 Assessing the risk of violence in released mental patients A cross validation study Psychological Assessment A Journal of Consulting and Clinical Psychology 1 2 75 81 Kubinger K D 1989 Aktueller Stand und kritische W rdigung der Probabilistischen Testtheorie In Kubinger K Hrsg Moderne Testtheorie Ein Abriss samt
287. sichtlich Beispielsweise kann Item 14 f r die Untersuchung der Aufteilung von Hilfestellungen auf den Familien und Bekanntenkreis durchaus Relevanz besitzen im Kontext des Hilfebedarfs f llt eine Interpretation jedoch schwer 10 Stefan Angel und Richard M hlmann Tabelle 1 1 Dichotome Items I JADL Index Item Beschreibung Person ben tigt Hilfe bei mit 1 An und Auskleiden 2 K rperpflege baden duschen 3 Zubereitung von Mahlzeiten 4 Einnahme der Mahlzeiten 5 Hilfe mit Medikamenten erkl ren erinnern einnehmen 6 Verrichtung der Notdurft bzw Inkontinenzbetreuung 7 Hausarbeit Wohnung reinigen W sche waschen 8 Besorgung von Lebensmitteln Medikamenten usw 9 Hilfe bei der Fortbewegung auSerhalb der Wohnung 10 Hilfe bei der Fortbewegung innerhalb der Wohnung 11 Hilfe bei Geldangelegenheiten bzw Bankgesch ften 12 Durchsehen der Post 13 Hilfe Organisation von Arzttermine andere Betreuung 14 Gesprachen Unterhaltung 15 Emotionale Zuwendung Zuspruch 16 Sozialkontakte erhalten Freunde Familie treffen 17 Beaufsichtigung der betreuten Person Quelle VIC 2008 Als zweites Datenbeispiel soll das Partial Credit Modell anhand einer Kurzversion des Zarit Burden Interviews mit 4 Fragen B dard et al 2001 betrachtet werden Der Index zielt auf die Messung der psychischen Belastung von Pflegepersonen ab und besteht aus vier f nfstufigen Items Diese erfragen wie h ufig ein best
288. so aber nur sehr bedingt durchf hrbar Die Grundfunktionen von RUMM 2030 lassen sich relativ einfach mit Hilfe der online verf gbaren Manuale bedienen und nutzen Fortgeschrittene Analysen lassen sich am besten durch einschl gige Workshops erlernen Diesbez gliche Angebote finden sich auf der nicht gewinnorientierten Website http www matildabayclub net Der Matilda Bay Club ist ein interdisziplin rer Zusammenschluss von Forschern die zur Messung latenter Variablen das Raschmodell nutzen und sich f r dessen Diffusion in den Sozialwissenschaften einsetzen Kapitel 10 GGUM2004 Generalized Graded Unfolding Models Axel Sonntag und Daniela Weber Zusammenfassung In diesem Kapitel wollen wir einen Einblick in das Programm GGUM2004 geben das zur Analyse von Generalized Graded Unfolding Models Entfaltungstechnik Modellen von James S Roberts Haw ren Fang Weiwei Cui und Yingji Wang entwickelt wurde Bevor wir jedoch n her auf das Programm eingehen wollen und dies auch anhand eines praktischen Beispiels testen werden geben wir noch basierend auf Roberts et al 2000 einen theoretischen Einblick in die vielleicht eher weniger bekannten Unfolding Modelle In weiterer Folge wird die Benutzung des Programmes anhand des empirischen Beispiels erl utert bevor abschlie end alternative Softwarepakete kurz vorgestellt werden 10 1 Die Methode der Enfaltungstechnik In der empirischen Sozialforschung wurden auf Grund der verschiedensten Anwendu
289. spielswei se B hner 2006 oder auch Rost 2004 4 2 3 3 Handling Das Programm ist aufgrund des Graphical User Interfaces GUI einfach zu bedienen Der Men aufbau ist intuitiv 4 2 3 4 Schnittstellen WinMiRa unterst tzt zum Datenimport ASCII Tabellen mit der Dateiendung dat Die Datentabelle darf nach dem Freefield Format Spaltentrennung mittels Leerzeichen mittels eines vordefinierten Trennzeichens oder ohne Trennzeichen aufgebaut sein Des weiteren werden SPSS Dateien unter st tzt Datenfiles k nnen wieder als ASCII Tabellen und im SPSS Format exportiert werden Das 4 WinMiRa 2001 65 Outputfile als OUT ASCH kann ebenso wie Plots WMF und BMP exportiert werden Definiti onsdateien ini k nnen sowohl gelesen als auch geschrieben werden Sie beinhalten Informationen ber programmspezifische Bsp Pfad f r Outputfiles wie auswertungsspezifische Bsp Itemlabels Iterationsobergrenzen Einstellungen lax Bir Edit Search Data Specfication Job Definition Start Graphs Window Help l x oals xaa alele eli ase vam vam vars vare VARS E frequency me ME Person Parameters in Class 1 wth size 100000 LA 5 S n 5 ee Lie 2 o H ee A 5 AE d 5 aM EE Rawscer dae vols oes 4 5 4 d 1 Ceei Versi saved C Programme Winmira 2001 data Esu dat Show Person Paramete
290. spondierender t Werte aufgef hrt Zudem kann eine bersicht der Verteilung der Sch tzungen f r alle drei Parameter eingesehen werden Eine detaillierte Beschreibung des Vorgehens zur Analyse von Beurteilungsgeffekten findet sich ebenfalls im Manual von ACER ConQuest Wu et al 2007 In den Output Dateien werden die Sch tzungen der einzelnen Parameter die Sch tzfehler sowie die gewichteten und ungewichteten Fit Statistiken inklusive korrespondierender t Werte aufgef hrt Zudem kann eine bersicht der Verteilung der Sc tzungen f r alle drei Parameter eingesehen werden Eine detaillierte Beschreibung des Vorgehens zur Analyse von Beurteilungsgeffekten findet sich ebenfalls im Manual von ACER ConQuest Wu et al 2007 7 3 3 Beispiel 3 Mehrdimensionale latente Regression In diesem Beispiel wollen wir die wahre St rke von ConQuest veranschaulichen n mlich die M g lichkeit Modelle mit mehrdimensionaler Traitstruktur zu sch tzen Dies ist der gro e Unterschied zu anderen Programmen die meist nur ein oder maximal zweidimensionale Traits zulassen Wir ver wenden die Daten von Adams et al 1991 um eine f nfdimensionale multiple latente Regression zu sch tzen Es handelt sich um einen Datensatz der zur Feststellung naturwissenschaftlichen Wissens von Sch lern im australischen Bundesstaat Victoria erhoben wurde Mittels einer Testbatterie beste hend aus 65 dichotom verrechneten Multiple Choice Items und 4 Tests mit offenen Fragen jew
291. ssen Klasse KFT dat Die erste Klasse umfasst rund 54 der befragten Personen Der Spalte relative category scores k nnen die Antwortwahrscheinlichkeiten von Personen die dieser Klasse zugeordnet wurden ent nommen werden So liegt die Wahrscheinlichkeit dass die Personen dieser Klasse das Item VAR richtig beantworten bei rund 90 Bei Item 2 VAR 2 liegt diese L sungswahrscheinlichkeit bei rund 93 Diesen Personen f llt die richtige Beantwortung dieser beiden Fragen also leicht Hingegen liegt die L sungswahrscheinlichkeit bei Item 5 VAR 5 lediglich bei rund 48 die Wahrscheinlichkeit diese Frage nicht richtig zu beantworten liegt vice versa bei 52 F r diese Personen ist somit eine falsche Beantwortung dieser Frage wahrscheinlicher als die richtige Beantwortung dieser Frage In der Tabelle sind threshold parameters die Item Parameter f r diese latente Klasse dargestellt Dabei w rde ein Item das eine L sungswahrscheinlickeit von 50 aufweist einen Item Parameter von o auf weisen Items mit einer h heren L sungswahrscheinlichkeit weisen einen negativen Item Parameter auf Items mit einer geringeren L sungswahrscheinlichkeit als 5096 weisen einen positiven Item Parameter auf Die Itemparameter k nnen dabei grunds tzlich zwischen oo liegen wobei zumeist Werte zwischen 4 zu erwarten sind Somit sind die Fragen 1 4 VAR 1 4 unterdurchschnittlich leicht f r die Personen dieser Gruppe da die L sungswahrschein
292. steht die M glichkeit einen fehlenden Wert als teilrichtig zu verrechnen indem er als 1 m repr sentiert wird 84 Marco J Maier und Konradin Maier Wi BILOG MG for Windows test BLM Ss Fr Fie Edit Setup Data Technical Save Run Output ge EE Diels ee EE all all el For Help press F1 a Abb 5 2 BILOG MG Oberflache oneri RE x Job Description Model Response Labels r Response Model 1 Parameter Logistic DEL C 2 Parameter Logistic 2PL C 3 Parameter Logistic 3PL r Response Function Metric Special Models c C Normal Standard Differential Item Functioning DIF Logistic Item Parameter Drift DRIFT Variant Item Analysis VARIANT OK Abbrechen Hilfe Abb 5 3 Einstellungen und Auswahl des Analysemodells in BILOG MG wobei m die Anzahl der Alternativen ist Zuletzt kann man noch passende Labels vergeben die nach der Analyse im Output aufscheinen In einem zweiten Schritt wahlt man unter Setup die Option Item Analysis wobei sich nun ein Dialog mit drei Reitern Subtests Subtest Items und Advanced ffnet Wie der Name schon sagt kann man in den ersten zwei Abschnitten die Einstellungen fiir die Verrechnung der Subtests treffen wobei diese nur erscheinen wenn man im vorherigen Dialog die passende Anzahl an Subtests etc ausgew hlt hat Der Reiter Advanced bietet viele technische Einstellungen wie das Konvergenzkrite rium die maximale Anzahl an Iterationen f
293. steigende Schwellenparameter negativ auf den Modellfit auswirken Bei Anwendung des ordinalen Rasch Modells muss dies durch Inspektion der Schwellenparameter gepr ft werden Um eine bestimmte Eigenschaftsauspr gung zu erreichen muss die Person aufeinanderfolgende Schwellen erfolgreich berschreiten Siehe Abbildung 4 2 Dieses Modell wurde urspr nglich f r Items mit teilrichtigen L sungen partial credit entwickelt Die Ordnung der Schwellen muss nicht zwingend gegeben sein da selten Vermutungen dar ber bestehen welche Teilaufgabe schwierigerer leichter sind Das Partial Credit Model hat pro Item i und s Schwelle einen Parameter und zwar Tj Rost 2004 S 109f Die Schwellen werden in diesem Modell ohne Restriktionen gesch tzt Dabei m ssen nicht alle Items dieselbe Anzahl von Kategorien haben wie dies beim Rating Scale Model Equidistance Model bzw Dispersions Model der Fall ist Die allgemeine Notation des ordinalen Klassenmodells lautet exp xO Y 5 Tis KE exp sOj E 2e Tit Das Modell gibt die Wahrscheinlichkeit einer Person v bei einem Item i die Kategorie x zu wahlen wieder Diese Schwellenwahrscheinlichkeit bezeichnet den Anteil der h heren an der niedrigeren Kategorienwahrscheinlichkeit der relative Anteil der h heren Kategorienwahrscheinlichkeit an beiden Kategorienwahrscheinlichkeiten Die Schwellenwahrscheinlichkeit gibt also den Anteil der Wahrscheinlichkeit eine Kategorie sehr h ufig an der Wahrscheinlichkeit e
294. sweise nur von 1796 der Personen in dieser Klasse richtig beantwortet werden kann item fit assessed by the Q index itemlabel Q index Zq p X gt Zq sud ncs EE ncc ec os Oe REN VAR1 0 0486 0 4574 0 67631 Seit VAR2 0 0606 0 6766 0 75069 mo eb guis VAR3 0 1576 0 7662 0 22178 Lo 2 a VAR4 0 1202 0 0426 0 48299 are VARS 0 1788 0 8966 0 18495 Bes p lt 0 05 p gt 0 95 p lt 0 01 p gt 0 99 Abb 4 17 item fit class KFT dat Aus der Item fit Tabelle Abb 4 17 kann anhand des Q index Wertes abgelesen werden wie wahrscheinlich die Antwortmuster eines Items unter den gegebenen Modellparametern sind Dieser Q Wert kann grunds tzlich zwischen Null und Eins liegen wobei Werte gleich Null besagen dass bei diesem Item die Wahl einer Antwortkategorie exakt der F higkeitsauspr gung einer Person entspricht Liegt der Q Index nahe bei 0 5 kann davon ausgegangen werden dass bei diesem Item ein zuf lliges Antwortmuster vorliegt und eventuell auszuschlie en ist Ein Q Index nahe bei Eins deutet darauf 74 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel hin dass sich das beobachtete Antwortmuster exakt umgekehrt zu dem vom Rasch Modell erwarteten Antwortmuster verh lt Dies kann darauf hinweisen dass das Item umzupolen ist Als Normalwert f r den Q Index kann ein Bereich von 0 1 bis 0 3 gewertet werden B hner 2006 365f und die dort angef hrten Werke Im vorliegende
295. system gesch tzt werden kann Abb 3 3 Informationen am Bildschirm 3 5 Exemplarische Darstellung einer Anwendung Nachdem der technische Ablauf der Sch tzung von FACETS dargelegt wurde soll nun exemplarisch auf ein Beispiel eingegangen werden Insbesondere wird die genaue Spezifikation des Modells sowie die Interpretation des Outputs und der Graphiken die vom Programm generiert werden erl utert 3 5 1 Daten Grundlage der nachfolgenden Analysen bilden Daten einer Marketing Pr fung an der WU Wien welche im November 2008 stattfand Der vorliegende Datensatz besteht aus 1118 Studierende die zu dieser Pr fung angetreten sind Der Datensatz umfasst 31 Multiple Choice Fragen mit jeweils f nf Antwortm glichkeiten wobei jeweils eine oder mehrere richtig sein k nnen Der Fragen Typ mit mehreren richtigen Antworten wird in der Literatur Multiple Correct Options genannt und wurde 1953 von Dressel amp Schmidt eingef hrt Der Vorteil dieser Fragen liegt darin dass einerseits das Erraten der richtigen L sung verringert wird Andererseits besteht auch die M glichkeit Teilwissen zu honorieren Ben Simon et al 1997 46 Margit Kastner Amata Ring und Brigitte Stangl Zur Auswertung dieser Multiple Correct Options Fragen stehen mehrere Auswertungsschemen zur Verf gung Die einfachste und gebr uchlichste ist die sogenannte Number of Rights NR oder Number correct NC Regel Bei diesem Auswertungsschema beko
296. t beantwortet man die Frage mit 1 und SCORIGHT beginnt mit dem Durchlauf der Markov Ketten Am Bildschirm siehe Abb 2 2 erscheint zu Beginn die Startzeit jeder Kette sowie die Zeit nach der jede 11 te Iteration beendet wurde So erh lt man Informationen dar ber wieviel Zeit die Berechnungen ben tigen werden Im vorliegenden Beispiel ben tigt SCORIGHT f r 60 Iterationen nicht ganz Sekunde F r den Durchlauf einer Kette ben tigt das Programm also in etwa Minute An dieser Stelle ist allerdings anzumerken dass der simulierte Datensatz sehr einfach gestaltet ist Kompliziertere Datens tze die sowohl mehrkategorielle also auch 2PL und 3PL Items sehr viele Testlets und Kovariaten in den Parametern enthalten ben tigen durchaus sehr viel l ngere Rechenzeiten after 1661 after 1871 after 1881 after 1891 after 1181 after 1111 after 1121 after 1131 after 1141 after 1151 after 1161 after 1171 cycles cycles cycles cycles cycles cycles cycles cycles cycles cycles cycles cycles 2018 2018 2018 2018 2018 2618 2818 2818 Abb 2 2 Screenshot der Kurzinformationen des Iterationsprozesses des Sampling Algorithmus beim Durchlauf der ersten Markov Kette 2 Scoright 35 In dem im Vorfeld angelegten Unterverzeichnis werden von SCORIGHT die Ausgabedateien so wie einige zus tzliche Ordner ch ch2 und ch3 angelegt Die Anzahl der Ordner entspricht der Anzahl der Markov Ketten die durchlaufen wurde
297. te von o bereits 164 Abb 9 5 Zusammenfassender Gesamtfit SUMMARY STATISTICS for Analysis Name BASE E rITEM PERSON INTERACTION ITEMS PERSONS Location Fit Residual Location Fit Residual Mean 000 Mean ET Mean 1160 Mean 15 StdDev 0576 StDev 1 724 StdDev 0 577 StdDev 1 186 Skewness 0 995 Skewness 0 304 Kurtosis 0 604 Kurtosis 0 904 Correlation location stdResidual 050 Correlation location stdR esidual 0082 rITEM TRAIT INTERACTION Total Item Chi Square 258 868 Degrees of Freedom 92 Chi Square Probability 0 000000 RELIABILITY INDICES PerSepldx base with extms 0 85383 NO exms N A Cronb lpha N A Thomas Salzberger Cronbach alpha not applicable with missing data POWER OF ANALYSIS OF FIT r LIRELIHOOD PATIO TEST Analysis Likelihood ChiSq anaName2 Prob Too Low File Text Format Fixed C Tab Delimit Save Print ein Alarmsignal im Sinne von Personenmisfit Schlie lich werden im Bereich Reliabilit tsindizes der Person Separation Index PSI Andrich 1982 angef hrt welcher im Sinne der Definition der Reliabilitat die Truescore Varianz im Verh ltnis zur totalen Varianz angibt Cronbach s alpha wird nur bei vollst ndigen Datens tzen ausgewiesen Die Angaben zur Power der Analyse beruhen auf dem PSI wobei bei Werten von mindestens 0 85 eine exzellente Power ausgewiesen wi
298. tegorielle Daten ordinal und nominal inklusive DIF Routinen implementiert 5 2 Modelle 5 2 1 BILOG MG Abgesehen von herk mmlichen IRT Modellen hat BILOG MG zus tzlich Modelle zur Mehrgrup penanalyse Die zentrale Annahme bei mehreren Gruppen ist dass Personen aus unterschiedlichen Populationen stammen die jeweils normalverteilt sind Zur Sch tzung werden somit die Itemparame ter und die Parameter der gruppenspezifischen Verteilungen verwendet Zus tzlich bietet BILOG MG spezielle Analysem glichkeiten f r DIF DRIFT und VARIANT Modelle 5 2 1 1 1PLM Das PLM 1 Parameter Logistisches Modell modelliert eine richtige Antwort der Person v auf Item i xy 1 folgenderma en WU Wien Institut f r Statistik und Mathematik marco maier wu ac at WU Wien Institut f r Informationswirtschaft konradin maier wu ac at 79 80 Marco J Maier und Konradin Maier exp a 0 Bi 1 exp a 0 B wobei 0 der Fahigkeitsparameter der Person f der Schwierigkeitsparameter des Items und a ein Skalierungsparameter Diskrimination sind Im Gegenteil zum herk mmlichen Raschmodell wird hier ein Itemdiskriminationsparameter gesch tzt der jedoch f r alle Items gleich ist Pr xy 1 0y Bi a 5 1 5 2 1 2 2PLM und 3PLM Zu diesem Modell gibt es noch zwei Erweiterungen die in BILOG MG umgesetzt sind n mlich das 2PLM das zus tzlich einen Itemdiskriminationsparameter a pro Item i enth lt und das 3PLM wel
299. ter eine lognormale Verteilung angenommen wird da Diskriminationen positiv sein m ssen Beim 3PLM kommt dieser Ansatz auch bei den Rateparametern zum Einsatz wo bei sich hier f r das offene Intervall o 1 die Betaverteilung anbietet 5 BILOG MG und MULTILOG 83 5 3 2 Personenparameter 5 3 2 1 Maximum Likelihood Zur Sch tzung der Itemparameter mittels maximum likelihood ML werden die F higkeitsparameter ber einen Fisher scoring Algortihmus so angepasst dass die Likelihood maximiert wird Im Gegen satz zu den beiden Bayesianischen Verfahren ist es nicht m glich Parameter f r Antwortmuster bei denen alle Items gel st bzw nicht gel st wurden zu sch tzen 5 3 2 2 Expected A Posteriori Ein Bayesianisches Sch tzverfahren ist mit expected a posteriori EAP implementiert Hier werden die Fahigkeitsparameter als Mittelwerte der a posteriori Verteilung von unter gegebenen Antwort patterns gesch tzt Die Standardfehler sind hier am geringsten wobei Sch tzer einen Bias zum Populationsmittel aufweisen 5 3 2 3 Maximum A Posteriori Die maximum a posteriori MAP Sch tzer sind hnlich den EAP nur dass hier statt dem Erwartungs wert der Modus der jeweiligen a posteriori Verteilung berechnet wird 5 4 Bedienung der Software und Anwendungsbeispiele Von der Bedienung her sind sich beide Programme sehr hnlich daher werden wir den Fokus auf BILOG MG richten und danach Abweichungen und Erweiterungen von MULTILOG erg nze
300. terisk next ko a paraneter estimate indicates that it is constrained COUARIANCE CORRELATION MATRIX Dinension Dimension 1 Variance 0 866 An asterisk next to a paraneter estimate indicates that it is constrained Abb 7 6 Dichotomer Multiple Choice Test ex1 shw Item Separation Reliability Chi squared Test Mean Variance Tim Co Run Command Anales Tatler Pit Options Deko estimates not requested a 7 918 Tobe a Abb 7 7 Dichotomer Multiple Choice Test ex1 shw Item and latent distribution map for simple logistic model ConQuest ex1 Fie Edt Run Command Andyss Tables Pht Options Help ConQuest Generalised ten Response Hodelling Software Wed Dec 13 12 28 2086 GENERALISED ITEM ANALYSIS item 1 BSMMABT Cases for this item 1909 Discrimination 9 61 Item Threshold s 8 37 Weighted MNSQ 8 98 Item Delta s 8 36 Label Score Count of tot Pt Bis t p PUtfug 1 PUT SD 1 M 0 00 6 0 60 0 12 3 H1 000 0 03 1 22 a 1 08 645 65 58 0 61 24 08 000 1 48 9 82 b 6 80 23 2 30 0 12 3 72 008 4 42 9 7h c 6 60 AT 5 70 0 24 7 72 000 0 35 8 81 d 6 88 184 16 40 0 31 1B 12 8008 8 37 0 78 e 6 68 175 17 50 8 32 18 55 000 8 53 9 77 Abb 7 8 Dichtomer Multiple Choice Test ex1 itn Difficulty discrimination point biserial statistics mcc Diese Graphiken werden pro Item erzeugt und vergleichen die modellierten und empirischen Itemcharakteristiken bzw stellen das Verhalten von Dis
301. terschiedliche L sungswahrscheinlichkeiten der Fragen m glich sind Dadurch ist es m glich auch innerhalb der jeweiligen Klassen zwischen f higeren und weniger f higeren Personen zu unterscheiden 4 WinMiRa 2001 77 Hl Category Probability Plot ach JE OD 2 ree m maks S cess JS OS zlr Wr maks gen O m category 1 m category m Abb 4 23 Category Probability Plot KFT dat Inwiefern das Mixed Rasch Modell mit zwei Klassen nun h here Erkl rungskraft hat als das vorher betrachtete Latent Class Modell mit zwei Klassen kann anhand eines Vergleichs der Informationskri terien Tab 4 3 2 festgestellt werden AIC BIC CAIC Latent Class Modell mit zwei Klassen 1 723 1 1 763 8 1 774 8 Mixed Rasch Modell mit zwei Klassen 1 719 0 1 779 20 1 796 0 Tabelle 4 3 Informationskriterien AIC BIC CAIC KFT dat So weist das Latent Class Modell mit zwei Klassen die geringeren BIC und CAIC Werte auf weshalb diese L sung zu favorisieren ist 4 4 Conclusio Das Programm ist intuitiv zu bedienen und verf gt ber sehr gut auskommentierte Literatur siehe Kapitel 4 2 3 2 Somit ist der Einarbeitungsaufwand in das Programm berschaubar Die grafische Bedienungsoberfl che erleichtert das Aufrufen der Kommandos Prozeduren Die bersichtlichen Grafiken verdeutlichen auf sehr einfache Art und Weise die Personen und Itemparameter der Modelle Die Schnittstelle f r den Import Export von sav und csv F
302. the fit of the graded response model in the two and three way margins Moreover method anova performs a likelihood ration between the constrained and unconstrained models e g R gt anova fit grm1 fit grm2 Likelihood Ratio Table AIC BIC log Lik fit grmi 2238 39 2286 14 1106 19 LRT df p value fit grm2 2216 81 2282 93 1090 40 31 58 5 0 001 8 IRT Analysis using the 1tm Package 153 8 3 2 2 Plotting Plotting proceeds in the same manner as in the IRT models for dichotomous data In particular by default a call to the plot method for objects of either class gpcm or grm will produce the item response category characteristic curves R gt par mfrow c 2 2 R gt plot fit gpcm3 lwd 2 cex 0 8 xlab Latent Trait Item Response Category Characteristic Curves Item Response Category Characteristic Curves Item RiverSea Item LeadPetrol 7 eo eo gt e gt o 3 3 Fa Fa be be a st 2 o 2 o A A e e o o 4 2 0 2 4 4 2 0 2 4 Latent Trait Latent Trait Item Response Category Characteristic Curves Item Response Category Characteristic Curves Item RadioWaste Item AirPollution 1 1 3 3 eo eo gt gt 5 5 be be Q a st 2 o 2 o A A e e o o 4 2 0 2 4 4 2 0 2 4 Latent Trait Latent Trait Dimitris Rizopoulos 154 Item Response Category Characteristic Curves Item Response Category Characteristic Curves Item Chemicals Item Nuclear 1 3 co 3 2z c gt 5 2
303. tingskalenmodell Select TEST type Polytomou CALIBRATING SAMPLE No of Persons entered Project 125 invalid records 0 extreme scores Pu Analysis Options r Modifications for New Analysis CI i Analysis Base un analysis IV Delete sample pory MS T Delete it H c Random ec Zusammenfassung von Items in Subtests issing data Create NEW analysis 7 Subtest analysis C Individual tem Anchoring Ankeranalysen Display analysis outcomes Average Item Anchoring n x lescore items C Tailored analysis C Item Spit Se Rekodierung von Items Edit Illegal Response Item Splitting lt Main Menu Data Structure Delete Analysis Name Create NEW Analysis gt Erstens kann die Basis der Analyse ge ndert werden Einerseits kann die Stichprobe der Perso nen eingeschr nkt werden Hier k nnen individuelle Respondenten ausgeschieden werden oder Einschr nkungen aufgrund von Personenfaktoren vorgenommen werden z B nur Frauen oder nur Angeh rige einer bestimmten Nationalit t etc vorausgesetzt diese wurden bei der Projekterstel lung entsprechend definiert Schlie lich ist auch eine zuf llige Auswahl von Datens tzen m glich Andererseits k nnen individuelle Items ausgew hlt werden bzw bestimmte Items aus der Analyse ausgeschieden werden Nat rlich k nnen Modifikationen der Analysebasis im Hinblick auf Persone
304. tir die EM und Newton Algorithmen oder die Anzahl der Punkte f r die Gau quadratur siehe Abb 5 4 Unter Setup und Test Scoring kann man noch Einstellungen zur Sch tzung der Personenpara meter z B ML EAP oder MAP treffen und ggf eine Reskalierung der Werte vornehmen Examinee Data unter dem Men eintrag Data ffnet einen weiteren Dialog in dem die Daten eingelesen werden hierf r wird FORTRAN Syntax verwendet welche dem User durch Wizard jedoch abgenommen wird Weiters kann man F lle gewichten oder auch nur ein Sample aller Be obachtungen f r die Analyse verwenden In Item Keys gibt man f r jedes Item an welche Antwort korrekt ist Answer Key und welche Codes f r Item nicht vorgegeben bzw Fehlwert stehen Not Presented Key und Omit Key Will man noch tiefgreifendere technische Einstellungen treffen kann man unter Technical beispielsweise Parameterstartwerte Priorverteilungen und viele weitere Optionen setzen 5 BILOG MG und MULTILOG 85 item Analysis LU sl Subtests Subtest Items Group Items Advanced Maximum Number of EM Cycles Ip Maximum Number of Newton Cycles P Convergence Criterion 0 01 Chi square Item Fit Statistics Minimum Number of Items Required for Chi square 13 a Number of Ability Intervals for Computing Chi square 9 E Prior Item Constraints Number of Quadrature Points 15 zi Empirical Latent Distribution IT Prior on Threshold IV Prior on Slope E Prior
305. traktoren dar Eine genauere Beschreibung des Beispiels kann im Manual von ACER ConQuest nachgelesen werden Wu et al 2007 7 ACER ConQuest Generalised Item Response Modelling Software 125 ConQuest exi ie Edi Run Command Analysis Tables Pkt Options Help The following traditional statistics are only neaningful For complete designs and when the amount of missing data is minimal In this analysis 6 60 of the data are missing The following results are scaled to assume that a single response was provided For each item H 1988 Hean 8 44 Standard Deviation 2 40 Variance 5 78 Skewness 0 60 Kurtosis 0 19 Standard error of mean IM Standard error of measurement 1 43 Coefficient Alpha 9 65 SRB SEES SESS ER eS OS ER E EE ES E REES Abb 7 9 Dichotomer Multiple Choice Test ex1 itn Summary results E PlotQuest item 1 BSMMAOT ICC BEE EE Me Ed Vew Image Seres Pot Window Hep als mj eg me m gell Alt Characteristic Curve s By Score D le t ern Weighed mesa 000 Probability T Latent Trait logits Demi 036 Reedy wn Abb 7 10 Dichotomer Multiple Choice Test plot icc D PlotQuest item 1 BSMMAQ1 Distractor Plat BEE ir Edt Vew Image Zeie Pit Windom Help GEIER El ep pls 9 lalen Ap Characteristic Curve s By Category Weighled HO 0 80 D d ben Menta eth Mero een ts erte et Model Pickel Categor Probability DEEN Reedy
306. trale Informationen f r die Interpretation der Analyseergebnisse finden sich im Diagnosis Men auf das im Folgenden anhand der Beispieldaten n her eingegangen wird Abbildung 6 zeigt den Output zur Item Polarit t Diagnosis A Item Polarity Die Tabelle ist nach der Korrelation der Items mit dem gemessenen latenten Konstrukt sortiert Spalte PT MEASURE Anhand der Korrelationskoeffizienten kann abgelesen werden ob alle Items in der selben Richtung auf die latente Variable laden was beim hier verwendeten Zarit Burden Index der Fall ist Weites werden die Itemnummer der Rawscore der Items die Fallzahl konstant da keine Missings das errechnete Schwierigkeitsma der Items der Standardfehler Infit Mean Square und Outfit Mean Square samt t Statistiken ausgegeben Dieselbe Tabelle findet sich erg nzt um MOST MISFITTING RESPONSE STRINGS und MOST UNEXPECTED RESPONSES im Men Diagnosis E Item Misfit Table Die gleiche Information kann graphisch auch unter Diagnosis B Empirical Item Category Measures abgerufen werden Die zweite in Abb 6 abgek rzt dargestellte Tabelle schl sselt die Rawscores durchschnittli chen Schwierigkeiten durchschnittlichen Standardfehler Outfit Measures sowie Punktkorrelationen nochmals nach den Antwortkategorien auf Abb 1 6 Men Diagnosis A Item Polarity PERSON REAL SEP 1 88 REL 78 ITEM REAL SEP 6 59 REL 98 ITEM STATISTICS CORRELATION ORDER ENTRY TOTAL MOD
307. ts chlichen Unterschieden gegen bergestellt Auch f r die Personenparametersch tzungen insgesamt wird ein t Wert abh ngiger t Test ausgewiesen Die auf dem t Test basierende Methode kann selbstverst ndlich auch theoriegeleitet angewendet werden In diesem Fall erfolgt die Zusammenfassung der Items theoriegest tzt statt datengesteuert Letztlich hilft diese Methode die praktische Auswirkung von m glicher Multidimensonalit t abzu sch tzen Als alleiniges Verfahren zur Eindimensionalit tspr fung greift dieser Ansatz wohl etwas zu kurz zumal er insbesondere bei h her korrelierten Dimensionen rasch an M chtigkeit verliert 9 7 Grafische Ausgaben Ein weiterer zentraler Ausgabebereich in RUMM ist der Block Itemcharakteristiken In diesem Block sind grafische Ausgaben abrufbar Itemcharakteristkurven siehe Abbildung 9 7 stellen den Er wartungswert des manifesten Scores in Abh ngigkeit vom Personenparameter dar F r zu Klassen zusammengefasste Personen mit hnlichem Parameter werden die tats chlichen Itemscores empiri sche Itemcharakteristiken angegeben Aus dem Vergleich dieser Scores mit den erwarteten Werten ist ein grafischer Modelltest m glich Die Zahl der Klassenintervalle wird von RUMM so gew hlt dass in jeder Klasse rund 60 Personen zusammengefasst werden Diese Vorgabe kann allerdings vom Benutzer auch ge ndert werden Abb 9 7 ICC eines Items mit tats chlichen mittleren Scores in drei Personengruppen c21 2 product
308. ulfills this requirement By conditioning on the sufficient raw score vector r 0 disappears from the likelihood equation and L r can be solved without knowledge of 0 This issue is referred to as separability of item and person parameters see e g Wright und Masters 1982 Furthermore separability implies that no specific distribution should be assumed neither for the person nor for the item parameters Rost 2000 MML estimation requires such assumptions At this point it is clear that CML estimation is the only estimation method within the Rasch measurement context fulfilling the requirement of person free item calibration and thus it maps the epistemological theory of specific objectivity to a statistical maximum likelihood framework Note that strictly speaking any statistical result based on sample observations is sample dependent because any result depends at least on the sample size Fischer 1987 The estimation of the item parameters is sample independent a term indicating the fact that the actually obtained sample of a certain population is not of relevance for the statistical inference on these parameters Kubinger 1989 p 23 6 3 4 Estimation of person parameters CML estimation for person parameters is not recommended due to computational issues The eRm package provides two methods for this estimation The first is ordinary ML where the CML based item parameters are plugged into the joint ML equation The likelihood is opti
309. ultingauftrags 1984 resultierte aus dieser Arbeit die erste Version einer Rasch Analysesoftware zu diesem Zeitpunkt noch als Add on zu einer g ngigen Tabellenkalkulationssoftware Deren Limitationen erzwangen die Weiterentwicklung zu einem eigenst ndigen DOS Programm Microscale Dieses wurde 1987 zu einer Folgeversion f r UNIX basierte Rechner MSCALE umge schrieben und aufgrund des Aufkommens des PCs sowie um einige Funktionen erweitert 1989 als BIGSCALE ver ffentlicht Dieses Programm wurde wiederum um einige Funktionen erweitert ab 1991 unter dem Namen BIGSTEPS vertrieben Die Adaptierung von BIGSTEPS f r Windows f hrte schlussendlich 1998 zur Erstellung von Winsteps Abw rtskompatibilit t ist bis zur Version MSTEPS gegeben Linacre 2004b Die aktuelle Version von Winsteps verf gt ber betr chtliche Datenkapazit ten es k nnen bis zu 60 000 Items mit bis zu 255 Auspr gungen von bis zu 10 000 000 Personen analysiert werden Typischerweise mit Winsteps operationalisierte Rasch Modelle sind das dichotome Rasch Modell sowie polytome Rating Scale Partial Credit oder Grouped Response Structure Modelle Auch die Berechnung von komplexeren Modellen wie beispielsweise Paarvergleichsmodellen ist in Winsteps m glich jedoch wird die Anwendung der speziell f r komplexere Analysen erstellten Programmvariante Facets ausdr cklich empfohlen Die Verwendung des Programmes macht diesen Fokus auf Standardanalysen insofern ebenfalls
310. ung des unidimensionalen Modells Dabei wird es angenommen dass ein Set von D latenten Merkmalen den Antworten der Indivi duen zugrunde liegt Die D latenten Merkmale definieren eine D dimensionale Fl che wobei die Positionen der einzelnen Individuen mit dem Vektor 0 0 0 Op repr sentiert sind Die Wahrscheinlichkeit einer Antwort in der Kategorie k auf Items i wird folgenderweise modelliert exp b 0 aj Kj A exp b 0 aj Als Antwortvektor erh lt man dementsprechend 7 1 Pr Xij 1 A B 0 7 ACER ConQuest Generalised Item Response Modelling Software 119 f x 8 0 amp exp x BO AE 7 2 mit W 0 Donen 7 3 ze Zwischen dem unidimensionalen und multidimansionalen Modell besteht der Unterschied darin dass im unidimensionalen Modell die F higkeitsparameter ein skalares 0 ist w hrend im multidi mensionalen Modell das 0 einen D x 1 Spaltenvektor darstellt Der gleiche Unterschied besteht auch bez glich der Ergebnisfunktion der Antwort k auf Item i Zur Identifizierung des Antwortvektors m ssen die Matrizen A und B bestimmte Bedingungen erf llen wozu die Bedingungen von Volodin und Adams 1995 verwendet werden k nnen 7 2 2 Das Populationsmodell Das Item Response Modell ist ein konditionales Modell welches beschreibt wie Item Responses von einer latenten Variablen 0 abh ngen Die vollst ndige Definition des Modells basiert auf der Dichtefunktion fo 0 a 7 4
311. urch die Wahl jeder k ten Ziehung bleiben diese weitgehend unkorreliert und die Varianz der Sch tzer kann ohne die Modellierung einer Zeitreihe berechnet werden F r das simulierte Beispiel wird jede 11 te Ziehung in der Ausgabedatei aufgezeichnet Enter the size of the gab between posterior draws 10 Im n chsten Schritt wird definiert wieviele Markov Ketten man durchlaufen m chte Dies soll dem Benutzer die Beurteilung der Konvergenz erleichtern Das Programm SCORIGHT benutzt den F Test von Gelman amp Rubin 1992 als Konvergenzkriterium Es ist jedoch zu beachten dass je mehr Markov Ketten man definiert desto l nger rechnet das Programm blicherweise spezifiziert man zwischen drei und f nf Ketten How many chains do you want to run 3 In Folge k nnen noch Startwerte f r die einzelnen Parameter separat innerhalb jeder einzelnen Markov Kette angegeben werden Auch diese m ssen ber eine Eingabedatei welche wiederum eine bestimmte Struktur aufweisen muss eingelesen werden Dieses Vorgehen wird hier jedoch nicht weiter beschrieben Der Anwender sei daf r jedoch auf das Benutzerhandbuch von Wang et al 2005 verwiesen In diesem Beispiel werden deswegen alle weiteren Fragen mit o beantwortet For CHAIN 1 Do you want to input the initial values for item parameters a b and c If yes enter 1 otherwise enter 0 0 For CHAIN 1 Do you want to input the initial values for proficiency parameters theta If yes enter 1 otherwi
312. urch ergibt sich das Problem dass zu wenig unabh ngige Information durch die generierten Fragen gewonnen werden kann da die within testlet Abh ngigkeiten diese schm lern Aus diesem Grund wurden solche langen Stimuli mit einem B ndel von Fragen gepaart Auf diese einfache Art und Weise konnten solche Tests in effizienter Weise gestaltet werden In der Testlet Response Theorie TRT kam es jedoch ab dem Zeitpunkt zu einer Wende als das heute sehr vielf ltig angewandte computerisierte adaptive Testen CAT umsetzbar wurde Allerdings steht und f llt das Konzept des CAT mit dessen fundamentaler Annahme dass die Itemkennwerte unber ck sichtigt ihres Kontextes konstant bleiben engl assumption of item fungibility auch bekannt als Kontexteffekte Kontexteffekte sind all jene Einfl sse die ein Item dadurch erzeugt das es in Beziehung zu einem anderen Item des selben Tests steht z B Itempositionseffekte oder Kreuzinformationen Gerade im CAT ist der Kontext jedes Items aufgrund der Tatsache dass immer unterschiedliche Tests bearbeitet werden f r jede Person verschieden Diese Effekte wurden in Zusammenhang mit dem CAT bisher nur wenig gepr ft Einen alternativen L sungsansatz dieser Probleme bietet die TRT Ein Testlet besteht wie bereits erw hnt aus einer Gruppe von Aufgaben die als Einheit entwickelt wurden und gemeinsam vorgege ben werden Auch die Items innerhalb eines Testlets k nnen verzweigt adaptiv durch hie
313. uster ber cksichtigt werden Bei nominalen Personenvariablen werden die Kategorien nicht so angeordnet dass alle Itemfunktionen monoton steigen wohingegen bei ordinalen Personenvariablen alle Itemfunktionen monoton steigen So kann etwa die Klassenbildung ber die Auspr gungen der Personenvariable z B Klasse f hige Personen und Klasse 2 nicht f hige Personen erfolgen 4 1 3 2 Mixed Rasch Modell Mixed Rasch Modelle gehen von der Existenz unterschiedlicher Klassen von Personen aus f r die das Rasch Modell gilt Es wird einerseits quantifiziert also die Eigenschaftsauspr gungen einer Person be stimmt und klassifiziert die Klassenzugeh rigkeit ermittelt Die Itemparameter werden so bestimmt dass sie sich innerhalb der Klassen maximal unterscheiden Dabei werden maximal unterschiedliche Antwortmuster gesucht und anhand dieser in Klassen eingeteilt Passen Mixed Rasch Modelle zu den Daten kann auf eine unterschiedliche L sungsstrategie unterschiedliche Eigenschaften der Klassen mitglieder bei der Itembearbeitung geschlossen werden bzw unterschiedliche Pers nlichkeitstypen identifiziert werden 4 WinMiRa 2001 61 4 1 4 Annahmen ber threshold parameter im polytomen Mixed Rasch Modell Die Modellbeschreibungen orientieren sich an den Ausf hrungen von B hner 2006 von Davier 2001 4 1 4 1 Ordinal Partial Credit Model Partial Credit Modelle gehen davon aus dass die Schwellen geordnet sind da nicht auf
314. ut that each person in the sample gets an own parameter even though limited by the number of different raw scores 6 3 3 CML and specific objectivity In general the Rasch model can be regarded as a measurement model Starting from the nominally scaled o 1 data matrix X the person raw scores r are on an ordinal level They in turn are used to estimate the item parameters f which are on an interval scale provided that the Rasch model holds 104 Patrick Mair und Reinhold Hatzinger Thus Rasch models allow for comparisons between objects on an interval level Rasch reasoned on requirements to be fulfilled such that a specific proposition within this context can be regarded as scientific His conclusions were that a basic requirement is the objectivity of comparisons Rasch 1961 This claim contrasts assumptions met in classical test theory CTT A major advantage of the Rasch model over CTT models is the sample independence of the results The relevant concepts in CTT are based on a linear model for the true score leading to some indices often correlation coefficients which in turn depend on the observed data This is a major drawback in CTT According to Fischer 1974 sample independence in IRT models has the following implications The person specific results i e essentially 0 do not depend on the assignment of a person to a certain subject group nor on the selected test items from an item pool Y e Changes in the s
315. we plot the result using matplot R gt R gt R gt R gt R gt R gt R gt valsi lt plot fit gpcmi type IIC items 0 plot FALSE vals2 lt plot fit gpcm2 type IIC items 0 plot FALSE vals3 lt plot fit gpcm3 type IIC items 0 plot FALSE vals4 lt plot fit grm1 type IIC items 0 plot FALSE vals5 lt plot fit grm2 type IIC items 0 plot FALSE values lt cbind valsi test info vals2 test info vals3 test info vals4 test info vals5 test info matplot valsi z values type 1 col c black red blue green goldenrodi xlab Latent Trait ylab Information main A Comparison between Different Polytomous IRT Models lty 1 lwd 2 lgd lt c GPCM discrimination 1 GPCM discrimination equal among items GPCM discrimination different GRM discrimination equal GRM discrimination different 156 Dimitris Rizopoulos R gt legend topleft lgd col c black red blue green goldenrodi cex 0 8 lty 1 lwd 2 bty n A Comparison between Different Polytomous IRT Models GPCM discrimination 1 GPCM discrimination equal GPCM discrimination different GRM discrimination equal GRM discrimination different c co As t E 2 E N 4 E 0 2 4 Latent Trait 8 IRT Analysis using the 1tm Package 157 8 3 2 3 Estimating Latent Abil
316. wei subjektiven Antworten Je nach Lage auf dem Kontinu um positive oder negative Differenz zwischen 6 und 0 kann man zwischen Zustimmung von oben beziehungsweise Zustimmung von unten unterscheiden Zur Veranschaulichung soll hier Abbildung 10 1 dienen wobei die Abszisse die Differenz zwischen Personen und Itemparameter und die Ordinate die Wahrscheinlichkeiten f r eine subjektive Antwortkategorie darstellen Die vertikalen Linien bezeichnen hierbei die Thresholds t und die Kategoriebeschriftung bezeichnen die am h chsten wahrscheinliche Antwortkategorie e Roberts et al 2000 nehmen aufgrund der allgemeinen G ltigkeit zur Beschreibung der subjektiven Antworten das von Muraki 1992 definierte verallgemeinerte partial credit Model GPCM e Die Thresholds t s sind symmetrisch um den Punkt o 6 6j 0 9 Strongly Agree From Below 0 8 07 06 Strongly Disagree From Below Disagree From Below Strongly Agree From Above Agree From Above Disagree From Above Strongly Disagree From Above Agree From Below o a 04 Probability DA 02 01 Abb 10 1 Wahrscheinlichkeitsfunktionen der subjektiven Antwortkategorien Je nach positiver oder negativer Differenz zwischen Personen und Itemparameter dargestellt auf der Abszisse handelt es sich um eine Zustimmung bzw Ablehnung von oben bzw von unten Auf der Ordinate befinden sich die Wahrscheinlichkeiten f r eine subjektive Antwortkategorie aus R
317. wenden wir wiederum eine Monte Carlo Integration mit 2000 St tzstellen und einer Sc tz genauigkeit von 0 002 Insgesamt werden dafiir 29 Iterationen gebraucht sofern die Startwerte des unbedingten Modells verwendet werden Die Ergebnisse des unbedingten Modells sind in Abbildung 7 13 zu finden Da wir diesmal ein Regressionsmodell fiir die Werte auf den latenten Dimensionen aufstellten bekommen wir Schatzungen fiir die Regressionskoeffizienten fiir jede einzelne Dimension So haben die drei erkl renden Variablen sozio konomischer Status Geschlecht und Schulstufe unterschiedliche Effekte auf die Populationssch tzungen F r die Dimension Force amp Motion wurde eine Konstante von 1 477 ermittelt Sch lerinnen aus h heren Schulstufen haben h here Werte was Wissen in diesem Fachgebiet anbetrifft 0 737 Auch h herer sozio konomischer Status geht mit h herem Wissensstand einher 0 365 Ebenfalls einen Effekt wenn auch nicht besonders gross zeigt die Variable Geschlecht Hierbei zeigt sich bei Jungen ein h herer Wissensstand als bei den M dchen Alle Effekte sind signifikant auf einem 5 Niveau F r die Dimension Light amp Sight wurde eine Konstante von 1 962 ermittelt Sch lerinnen aus h heren Schulstufen haben h here Werte was Wissen in diesem Fachgebiet anbetrifft 0 71 Auch h herer sozio konomischer Status geht mit h herem Wissensstand einher 0 259 Auch hier zeigt die Variable Geschlec
318. wie auch die Abbildung 7 6 zeigt Der dritte Teil der Datei ex1 shw liefert einen Plot der Item Schwierigkeitsparameter wie auch in der Abbildung 7 7 dargestellt Die Ergebnisse der traditionellen Item Analyse werden in der Datei ex1 itn dargestellt Diese Analyse beinhaltet die klassische Schwierigkeitsanalyse und die Diskriminierungsstatistiken bzw die punkt biseriale Korrelation Die punkt biseriale Korrelation gibt die Korrelation zwischen der Gesamtpunktezahl der Studierenden und einem Indikator an der den Wert 1 annimmt wenn die Frage richtig beantwortet wurde und o wenn nicht Die Abbildung 7 8 zeigt einen Ausschnitt aus der Datei ex1 itn Am Ende der Datei ex1 itn werden auch die zusammenfassenden Ergebnisse dargestellt wie auch in der Abbildung 7 9 ersichtlich ist Die Abbildungen 7 10 und 7 11 zeigen je eine Graphik nach plot icc und plot 124 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch ConQuest ext ie Ede Run Command Analyss Tables Plot Options Heb EE Input Window An asterisk next to a parameter estimate indicates that it is constrained Separation Reliability 8 993 Chi square test of parameter equality 1585 14 df 11 Sig Level 8 888 Quick standard errors have been used Conquest Generalised Item Response Modelling Softuare Wed Dec 13 12 19 2006 TABLES OF POPULATION MODEL PARAHETER ESTIMATES REGRESSION COEFFICIENTS Regression Variable CONSTANT 1 878 6 629 hn as
319. wis a Person ITEM A data columns a fem NAME 1 First person label column ITEMI First item column T NAMELEN Person abellength T Nis Number of tems T Number of data rows T XWIDE columns per response Number of data columns 1 CODES Valid codes viet Data entry o Ramone direction eer Other specifications in control file ne Die meisten User werden vermutlich ein bestehendes Datenfile in das txt Format umwandeln und um Prozessinformation erg nzen wollen Winsteps kann importierte Daten in den Dateiformaten von Excel SAS SPSS und STATA umwandeln und verarbeiten 12 Stefan Angel und Richard M hlmann Abb 1 3 Datenimport in Winsteps WINSTEPS Version 3 68 2 Feb 26 19 22 2010 sunching Excel S 3 Procedure Current Directory C Minsteps examples Control file name e 9 exami txt Press Enter for Dialog Box WINSTEPS Version 3 68 2 Feb 2 sunching Excel S 3 Proceduro Current Directory C Minsteps Control file name de g exam SPSS File C Dokumente und Binstellungen Ste fan Eigen n Quantitative File Label Number of SPSS Cases 709 Number of 8PS8 Variables SPSS versions SPSS DATA FILE MS Windows 16 0 2 wersion 10 0 5 331 3 68 2 Choose the variables listed below under Other Variables that you want to fo Copy and paste those variables under Person Label Variables in the order yo There will be one space between the v
320. xAtt constraint cbind ncol SexAtt 1 1 R gt summary fit rasch1i Note that under both parameterizations the discrimination parameter coincides i e a 8 IRT Analysis using the 1tm Package 137 Call rasch data SexAtt constraint cbind ncol SexAtt 1 1 Model Summary log Lik AIC BIC 5030 831 10081 66 10131 48 Coefficients value std err z vals Dffclt divorce 2 3769 0 1042 22 8117 Dffclt sexdisc 1 9210 0 0928 20 6895 Dffclt premar 1 4958 0 0855 17 5033 Dffclt exmar 2 3384 0 1031 22 6721 Dffclt gaysex 1 1353 0 0813 13 9604 Dffclt gayscho 0 1201 0 0755 1 5906 Dffclt gayhied 0 2501 0 0756 3 3075 Dffclt gaypubl 0 4618 0 0762 6 0565 Dffclt gayfadop 1 8400 0 0917 20 0694 Dffclt gaymadop 2 6061 0 1111 23 4638 Dscrmn 1 0000 NA NA Integration method Gauss Hermite quadrature points 21 Optimization Convergence 0 max grad 5 7e 05 quasi Newton BFGS The summary O method returns more detailed output containing the parameter estimates and standard errors We can transform these estimates to probabilities of positive response for the average subject using the coef method R gt items ordered by difficulty and R gt probability of positive response by the average R gt individual R gt coef fit rasch1 prob TRUE order TRUE Dffclt Dscrmn P x 1 z 0 sexdisc 1 9209995 1 0 87224985 premar 1 4958421 1 0 81695353 gaypubl 0 4617927 1 0 61343937 gayhied 0 2501496 1 0 5
321. xX ample t Rasch model nebenan eq 107 6 5 3 Example 2 LLTM as a restricted Rasch model 109 6 5 4 Example 3 RSM and PCM vices vege dee eee ede ded IRR WR e 109 6 5 5 An LPCM for repeated measurements in different groups 112 6 6 Additional TOPICS ae o oe et pet e ee 113 6 661 TheeRm simulation module 00 eee 113 6 7 Discussionmand outlook cte eee ede m an 114 Inhaltsverzeichnis 5 7 10 ACER ConQuest Generalised Item Response Modelling Software 117 Bernadett Pauer Julia Anette von Poswik und Thomas Rusch 71 ACER ConQuest Eine Einf hrung NEEN NENNEN REENEN E Ue d e nn 117 gia Modellierungen im ConQ uest using REIN E E Ee 117 7 2 Modell und Sch tzung 118 7 2 1 Das multidimensionale multinominale Logit Modell mit zufallsbedingten TEE 118 7 2 2 Das Populationsmodell esee erre ne er ber EE n 119 oun Sch tz ng ccce ere RR eg ne ge mene pe nnn VICO EN ees 119 7 2 4 Der Aufbau von ACER Conquest sisse nee 120 7 3 Anwendungen vb RE ERU te d ine d ER 120 7 9 1 Beispiel 1 Dichotomer Multiple Choice Test 120 7 3 2 Beispiel 2 Die Analyse von Beurteilungseffekten 125 7 9 5 Beispiel 3 Mehrdimensionale latente Regression 20004 126 IRT Analysis using the ltm Package sesesseesses n 131 Dimitris Rizopoulos Bot Basics Of IRT essentiellen nenn 131 8 1 1 IRT Models for Dichotomous Data 131 8 1 2 IRT Models for Polytomous Data 132 8 1
322. xpression for the whole sample becomes P x r e 6 17 Xvi L e r P x r ae 1 6 18 With respect to raw score frequencies n and by reintroducing the f parameters 6 18 can be reformulated as exp X 1 X iBi Ies yr id where x are the item raw scores It is obvious that by conditioning the likelihood on the raw scores r the person parameters completely vanished from the expression As a consequence the parameters can be estimated without knowledge of the subject s abilities This issue is referred as person free item assessment and we will discuss this topic within the context of specific objectivity in the next section Pertaining to asymptotical issues it can be shown that under mild regularity conditions Pfanzagl 1994 the CML estimates are consistent for n oo and k fixed unbiased asymptotically efficient and normally distributed Andersen 1970 For the computation of a Rasch model comparatively small samples are sufficient to get reliable estimates Fischer 1988 Whether the MML estimates are unbiased depends on the correct specification of the ability distribution g 0 In case of an incorrect assumption the estimates are biased which is surely a drawback of this method If g 0 is specified appropriately the CML and MML estimates are asymptotically equivalent Pfanzagl 1994 Fischer 1981 elaborates on the conditions for the existence and the uniqueness of the CML estimates The crucial condit
323. xt Outputs sowie eine nicht durchge hende Nummerierung der Men optionen bei den Output Tabellen sind vor dem Hintergrund einer sehr gro en Zahl an verf gbaren Output Tabellen der bersichtlichkeit nicht allzu f rderlich Insgesamt verf gt Winsteps jedoch ber ein sehr umfangreiches und detailliertes Hilfe Dokument in dem sich an den entsprechenden Stellen v a bei den Sch tzverfahren auch Verweise auf wi en schaftliche Prim rliteratur befinden Dar ber hinaus erleichtert die Verkn pfung einer anwendungs orientierten Einf hrung in die Rasch Modellierung mit der Einf hrung in Winsteps im Buch von Bond und Fox 2007 den Einstieg in die Software Angesichts der weiter oben erw hnten Anschaf fungskosten ist die kostenlose reduzierte Programmversion Ministeps bzw das mit dem Erwerb des Buches von Bond und Fox 2007 verf gbare Programm Bond amp FoxSteps m glicherweise ein n tzliches Werkzeug zum Test der Programmfunktionen vor der Anschaffung der Vollversion Winsteps Abb 1 7 Output zu C Category Function SUMMARY OF CATEGORY STRUCTURE Mode FOR GROUPING 0 ITEM NUMBER 1 I ITEM DIFFICULTY MEASURE OF 08 ADDE R TEM1 D TO MEASURES CATEGORY OBSERVED OBSVD SAMPLE IN LABEL SCORE COUNT AVRGE EXPECT 0 1 138 21 1 46 1 42 2 205 31 22 19 3 200 31 1 36 1 25 4 FIT OUTFIT STRUCTURE CATEGORY MNSQ MNSQ CALIBRATN MEASURE TR 4 84 86 NONE IC 4 1
324. zun chst die erwarteten Klassengr en abgelesen werden So wird erwartet dass rund 57 der Personen aufgrund ihrer Antwortmuster der ersten Klasse zugeordnet werden wobei die Wahrscheinlichkeit einer richtigen Zuordnung rund 93 betr gt In Bezug auf die zweite Klasse wird erwartet dass dieser rund 28 Der Befragten zugewiesen werden wobei die Wahrscheinlichkeit einer richtigen Zuordnung lediglich 76 betr gt Die Treffsicherheit der Klassen zuordnung ist somit als eher schlecht einzuordnen Die Beurteilung der Modellg te anhand der im Output dargestellten Fit Werte ist auch in diesem Fall nicht sinnvoll Diese Beurteilung kann anhand eines parametrischen Bootstrappings durchgef hrt werden Um dies in WinMiRa durchzuf hren ist unter lt Job Definition gt lt Bootstrap GoF gt auszuw hlen Im vorliegenden Beispiel wurden die 76 Karl Lederm ller Thomas Peschta und Wolfgang Ziniel person fit index descriptives mean E 0 0521870 std dev 1 0 9837442 Skewness f 0 7135799 kurtosis 0 3993372 Statistics of expected class membership exp mean class size prob 1 2 NE rete ele er Messe 1 0 543 0 780 0 780 0 220 2 0 290 0 970 0 030 0 970 Abb 4 21 person fit descriptives KFT dat Programmvoreinstellungen bernommen Anschlie end ist das Modell durch lt Start gt lt Start Job gt erneut zu berechnen Der Output wurde nun um die Ergebnisse des Bootstrapping erg nzt Abb 4 22 Parametri

Download Pdf Manuals

image

Related Search

Related Contents

APC 9000 Power Supply User Manual  Philips AZ2558  User manual  Phihong POE20D-1AF  Podomètre H-215 Mode d`emploi    IKA® EUROSTAR 200 control IKA® EUROSTAR 200 P4  GUIDA DELL`UTENTE  Dataram DTM68104A memory module  Mess - Industrievertretung R. Krause GmbH  

Copyright © All rights reserved.
Failed to retrieve file