Home

THÉORIES ET TECHNIQUES DE BASE POUR L

image

Contents

1. SPSS fournit un test bas sur le rapport Mean Square Regression Mean Square Residual qui suit une loi de F 1 et n 2 degr s de libert On peut se contenter d examiner la p value de F si elle est inf rieure 0 05 r est significatif a SPSS fournit encore un autre test bas sur la pente a de la droite de r gression qui est donn e en m me temps que b la constante Le test consiste en un test d ajustement de la valeur de la pente la valeur th orique z ro correspondant l hypoth se nulle d ind pendance La valeur t calcul e par SPSS est donn e par le quotient de la pente par son erreur standard Dans la colonne standardized coefficients on trouve la pente de la droite de regression en scores z soit simplement la corr lation d j apparue plus haut Le test concerne toujours l hypoth se d ind pendance qui peut aussi se traduire par H la pente de la droite de r gression est nulle Note les trois tests pr c dents que ce soit celui sur r sur les carr s moyens ou celui de la pente sont rigoureusement quivalents et aboutissent au m me r sultat C est pourquoi il suffit d en consid rer un seul e Construction d un mod le si les conditions de base sont remplies et si r est significatif et assez lev on peut envisager de construire un mod le de r gression destin pr dire des scores C pour des individus dont on conna t le score P mais pas encore celui
2. ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 44 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 3 Mod le th orique attendu L hypoth se nulle appel e en g n ral H postule que les signes du zodiaque sont distribu s al atoirement dans l chantillon aucune influence du signe sur l orienta tion On postule donc un mod le uniforme de la distribution des probabilit s d attribution d un signe un sujet quel qu il soit On est donc conscient que ce mod le ne corres pond peut tre pas la distribution th orique r elle des signes de naissance dans la population globale Les fr quences attendues sont dans ce mod le p4 p12 1 12 Ce mod le est celui de l urne remplie de boules de douze couleurs diff rentes en nom bre gal ou du d douze faces Exp rience al atoire statistique Tirer al atoirement n boules d une urne dont le contenu est en principe hypoth se nulle conforme au mod le d uniformit d crit ci dessus Ou autrement dit interroger les n sujet de l chantillon propos de leur signe de nais sance Compter les occurrences des signes astrologiques et calculer les fr quences f fi fi2 r alisations des variables al atoires F F F 2 On note que les p sont des nombres alors que avant que l exp rience aie r ellement lieu les F constituent des variables al atoires En effet pour F on peu
3. La taille de l effet peut donc tre soit calcul e si H est bien pr cis e et si le sigma de la population est bien estim par celui de l chantillon soit choisie au moyen des rep res fournis par Cohen ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 33 Le raisonnement et les calculs permettant d expliciter les liens entre a S N et 1 b ne sont pas simples aussi est il plus commode d utiliser soit une table soit un petit logiciel qui permettent de conna tre la valeur de l un des 4 param tres en fonction des 3 autres cf table annexe de la puissance de Howell En conclusion si l analyse de puissance est peu pratiqu e c est peut tre parce qu elle n est pas simple comprendre et n cessite une vision tr s claire de ce qu est et n est pas un test d hypoth se Il faut aussi reconna tre qu elle est relativement difficile appliquer dans les cas autres que les tests les plus simples comme les comparaisons de moyennes tables de contingences etc Cependant la tendance actuelle montre que ces pr occupations entrent peu peu dans les habitudes intellectuelles des chercheurs en sciences humaines d autant plus qu il existe maintenant des petits logiciels de calcul tr s simples permettant de trouver facilement les param tres n cessaires Il ne nous reste donc qu proposer quelques exemples et exercices pour convaincre le
4. COURS 2008 UNIVERSIT DE LAUSANNE 58 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Etensuite z ETE 0 425 valeur qui ne d passe pas le seuil fix Cette exp rience ne permet donc pas de conclure que le comportement tabagique d pend du sexe des adolescents E 1 2 Cas 2 test d ind pendance entre deux variables cat gorielles quelconques le test du chi carr Le test dit du chi carr est une technique permettant de juger du degr de d pendance entre deux variables cat gorielles quelconques du point de vue du nombre de modalit s L hypoth se nulle est toujours une hypoth se d ind pendance Exemple tentative de validation de la typologie de Kretschmer test d ind pendance de deux variables cat gorielles On peut tout d abord se contenter de remarquer que pour les groupes tudi par Krets chmer hommes et femmes les proportions observ es sont suffisamment explicites pour corroborer sa th orie cf Tableau 1 supra et 2 suiv Cependant cette analyse descriptive est d une port e limit e sans grand int r t pour le progr s de la connaissance Ce qui nous int resse en r alit et c est sans aucun doute galement l intention de Kretschmer c est de d montrer la validit de sa th orie pour tous les hommes ou toutes les femmes Il faut donc adopter un point de vue inf rentiel que nous apprend cette observation particuli re sur la population g n r
5. JL Hi Cela tant fait il doit encore d cider de la sensibilit du test c est dire adapter ses caract ristiques la taille de l cart ou de l effef devant tre d cel Pour ce faire il doit d terminer un seuil d finissant le risque de seconde esp ce qui repr sente la probabilit de ne pas rejeter H alors qu elle est fausse Cette probabilit B permet imm diatement de conna tre la puissance pr vue du test ou probabilit de rejeter H bon escient gale 1 B Finalement l quilibrage de tous ces param tres exige galement un ajustement de la taille de l chantillon car B est une fonction du degr de chevauchement des distibutions chantillonnales sous H et H le chevauchement tant d termin par les cart types de celles ci cart types d autant plus minces que la taille de l chantillon est grande Voici en quelques mots une description sommaire mais suffisamment fid le de la conception du test d hypoth ses selon Neyman et Pearson On comprend ais ment que les articulations logiques d un tel raisonnement peuvent para tre lourdes et complexes ce qui peut expliquer que bien peu de chercheurs appliquent cette m thode l heure actuelle sous cette appellation et c est au contraire la conception hybride critiqu e par Gigerenzer qui pr vaut g n ralement Forts de la connaissance des origines il devient d s lors plus facile de comprendre l tat actuel de l
6. M par la valeur seuil pour t 95 ou 99 avec n 2 degr s de libert La taille d effet d l appartenance aux deux groupes peut se mesurer de deux mani res soit on utilise la formule de Cohen pour calculer d en utilisant comme estimation de la variance de la population la quantit 2 2 2 m 1l s n 1l s s soit on juge la corr lation point n 1 n 1 bis riale comme un coefficient de corr lation normal _ Situation 2 deux groupes tir s de mani re non ind pendante groupes appari s situation test retest On rencontre cette situation lorsque on d sire tester l effet d un traitement sur un groupe d individus La proc dure habituelle consiste mesurer un caract re avant un traitement donn puis mesurer ce m me caract re apr s le traitement de mani re savoir s il y a eu volution de la situation dans un sens ou dans l autre C est ainsi que l on peut mesurer l effet d un m dicament d une formation d une th rapie ou de n importe quel traitement sur les sujet d un groupe appel pr cis ment groupe traitement Dans les plans d exp rience classiques cette comparaison s effectue parall lement l tude d un groupe auquel est administr un placebo ou ne b n ficiant d aucun traitement appel groupe contr le Si l on s int resse sp cifiquement l effet du traitement sur l un des groupes on peut proc
7. Si pour une exp rience donn e le D calcul est inf rieur 19 67 rien ne nous signifie qu il faut rejeter l hypoth se nulle alors que si cette valeur d passait le seuil fix on interpr tera ce signe comme un d ni exp rimental de H qui devrait alors tre rejet e au profit d une hypoth se alternative avec les cons quences pratiques qui s en suivent En ce qui concerne notre exp rience l hypoth se nulle n est donc pas rejet e la valeur l g rement excessive de la variable D peut tre attribu e au seul al a d chantillon nage En d autre termes cette exp rience ne nous permet pas de rejeter le mod le de r partition uniforme des signes dans la population parente notre d r alisation de la variable de d cision D n est pas significatif Ce type de raisonnement tr s pragmatique date des alentours de 1933 et est d J Neyman et Egon Pearson fils de Karl Rappelons les implications pratiques des deux attitudes l attitude fish rienne renvoie une conception pist mique de l induction l exp rience permet d accro tre notre ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 48 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES connaissance de la r alit en pr cisant la fiabilit de la v rit de certaines hypoth ses Le probl me du risque d erreur n existe donc pas chez Fisher Il n en va pas de m me si l on appliqu
8. dire en les pr sentant en nombre suffisant pour satisfaire certains crit res math matiques KR de Kuder Richardson formule de Spearman Brown mais en veillant ne pas introduire certains items qui diminueraient la qualit de la dispersion Cette op ration d licate porte le nom d analyse d items elle repose en grande partie sur des crit res empiriques et ne peut tre formalis e de mani re rigide La moyenne et le mod le normal de l erreur La notion de moyenne a t introduite par le physicien T Simpson An attempt to show the advantage arising by taking the mean of a number of observations in astronomy Philosophical transactions 1755 A Qu telet Statisticien d tat belge reprit cette id e et l appliqua la description des populations C est lui qui formula l hypoth se de l homme moyen prototype id al de l homme parfait tel que voulu par le cr ateur dont les humains r els ne sont que des avatars plus ou moins bien r ussis cf Desrosi res p 98 Qu telet connaissait aussi la loi normale de Gauss et Laplace et sa conception d une humanit globalement diverse dont les caract ristiques fluctuent normalement autour d une valeur moyenne id ale recoupe exactement la th orie des erreurs propre la physique de son poque Les diff rences inter individuelles ne seraient donc qu un effet de halo au travers duquel il faut pouvoir distinguer la forme parfaite du mod le Par
9. par Howell 1998 p 182 il est question de l effet pr ventif de la prise d aspirine sur l occurrence de crises cardiaques chez les hommes Plus de 22000 m decins se sont pr t s l exp rience et la moiti d entre eux a pris r guli rement une certaine dose d aspirine les autres un placebo Apr s une certaine p riode on a enregistr l incidence de crises cardiaques et le tableau suivant a pu tre dress TABLEAU 9 Incidence de crises cardiaques en fonction de la prise d aspirine hommes Crise Pas de crise total cardiaque cardiaque Aspirine 104 10933 11037 Placebo 189 10845 11034 total 293 21778 22071 d 25 est significatif au seuil 5 il y a bien une relation entre la prise d aspirine et le taux de crises cardiaques mais comment la caract riser Quelle est l utilit pratique de cette observation On peut utiliser la mesure d association A 0 033 qui ne donne rien de convaincant avec un effectif si important la taille d effet est ridicule Par contre on peut s int resser au rapport des chances de pas avoir de crise par rap port au fait d en avoir subi une c est le rapport de 10933 104 chez les sujet ayant pris l aspirine soit 105 1 et de 10845 189 chez les sujets n en ayant pas pris soit 57 38 d apr s ces chiffres on a donc 105 1 57 38 1 83 fois plus de chances de ne pas avoir de crise cardiaque en prenant de l aspirine que
10. r alisa tions de l estimateur pour un chantillon donn observations 7 Les caract ristiques de la variable chantillonnale moyenne sont enti rement d termin es par le Th or me Central Limite On peut en effet d montrer que la moyenne d chantillons de taille n tir s al atoirement d une population de moyenne U et d cart type suit une loi normale de moyenne Li et d cart type F Le T C L n est tr s important car il constitue le fondement de l inf rence statistique De plus on sait qu il s applique m me si la distribution originale de X dans la population n est pas gaussienne Un autre tr s grand int r t du T C L est qu il permet la standardi sation de la variable chantillonnale M Puisqu on conna t la moyenne u de M et M H r 0 gt son cart type T alors la variable z est gaussienne de moyenne z ro n Jn et d cart type 1 et sa distribution correspond celle du u de la table 7 1 Soit une population dans laquelle un caract re X est distribu plus ou moins nor malement avec une moyenne U 50 et un cart type 20 Quelle est la probabilit qu une moyenne calcul e sur un chantillon de ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 105 7 2 Dans le m me chantillon quels sont les scores ayant une probabilit totale de Si on ne conna t pas l cart ty
11. une variance de moyennes l estimation n Sq est associ e au nombre de degr s de libert p 1 p tant le nombre d chantillons groupes intervenant dans le calcul de la moyenne et n le nombre d individus d un chantillon De mani re g n rale et pour simplifier on admettra que le quotient de deux estima tions de la m me variance th orique suit une loi F de Fisher associ e aux degr s de libert des deux estimations Par exemple pour un chantillon de taille n et un autre de taille n le rapport de leurs variances suit une loi de F la plus grande variance est toujours plac e au num rateur n 1 et n 2 degr s de libert l ordre des degr s de libert d pend de la taille des variances Ce th or me a d j t utilis dans le cadre du test d homo 2 l g n it des variances de deux chantillons ind pendants On crit dans ce cas S 2 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 110 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Fi Dim D gt C qui signifie que le rapport des variances empiriques suit une loi de F n 1 et n 2 degr s de libert Ces lois F sont tabul es et par exemple 2 dans celles de Saporta p 98 la r alisation F de la variable rapport des variances 2 empiriques est associ e aux indices v et v qui correspondent aux degr s de libert n 1 et n 2 respectivement Le premier degr de libert
12. MSSB tant au num rateur suit une loi de F avec df de MSSB df de MSSW degr s de libert Ilne reste alors qu r aliser une exp rience calculer SSB et SSW puis ta puis calculer les Mean Squares y et former le quotient F On lit ensuite dans la table du F de Fisher afin de v rifier que la valeur de F MSSB MSSW ne d passe pas un seuil convenu Sitel tait le cas c est dire si F empirique d passe une valeur Ff k 1 n 1 0 05 gt alors Ho peut tre rejet e au seuil 5 ta mesure un lien non nul les groupes ne sont pas homog nes du point de vue de la variable d pendante et ne sont donc pas tous tir s de la m me population 5 La derni re tape de l analyse consiste d crire les diff rences en vue de les inter pr ter Il s agit de savoir lequel ou lesquels des groupes se distinguent significativement des autres Cette question peut tre r solue par l interm diaire de comparaisons post hoc qui s effectuent au moyen de tests de Schefj entre autres Ces techniques comparent les groupes deux deux tout en ajustant le niveau de signification des tests __ Plans factoriels complexes plusieurs facteurs Nous n aborderons ici que tr s bri vement les plans permettant d analyser l effet de deux facteurs sur une variable d pendante Il est clair que si le facteur A comporte k niveaux et le facteur B n niveaux le plan factoriel comportera k x n cellul
13. agit de la loi bin miale qui donne les probabilit s suivantes pour une taille d chantillon 10 et une proportion 50 cf table A1 2 de Saporta TABLEAU 1 R partition donn e par la loi bin miale pour n 10 et 50 k nb deB 0 1 2 3 4 5 6 7 8 9 10 Prob 0 001 0097 044 1172 2051 246 2051 1172 044 0097 0 001 Prob Cum 0 001 0107 0547 1719 3770 6230 8281 9453 9893 9990 1 Remarquons que cette loi donne aussi la r partition des occurrences de Pile ou Face lors de 10 lancers d une pi ce de monnaie Notre probl me de boules se r duit donc celui qui consiste savoir si une pi ce est quilibr e H ou non Le principe du test statistique veut que si notre exp rience unique fournit un v nement trop rare sous Ho alors nous aurons tendance rejeter cette H au profit d une autre encore non pr cis e Qu est ce qu alors un v nement rare Par convention on admet que sont significatifs de la non validit de H dans la population des r alisations de la variable de d cision ayant moins de 5 de chances de se produire si Ho est vraie ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 19 Dans notre cas les v nements 0B 1B 9B et 10B sont tr s rares sous H Plus pr cis ment la probabilit tot
14. and the id in statistical reasoning In G Keren amp C Lewis Eds A handbook for Data Analysis in Behavioral Science Methodological Issues pp 311 339 Hillsdale Lawrence Erlbaum Fisher R 1935 The design of experiments 8th ed 1966 Edinburgh Oliver amp Boyd Howell D C 1998 M thodes statistiques en sciences humaines Bruxelles De Boeck Huberty C J 1993 Historical origins of testing practices the treatment of Fisher versus Neyman Pearson views in textbooks Journal of Experimental Education 61 4 317 333 Hunter J E 1997 Needed a ban on the significance test Psychological Science 8 3 7 Saporta G 1990 Probabilit s analyse de donn es et statistique Paris Technip Tryon W W 2001 Evaluating statistical difference equivalence and indeterminacy using inferential confidence intervals an integreted alternative method of conducting null hypothesis statistical tests Psychological Methods 6 4 371 386 Salsburg D S 1985 The religion of statistics as practiced in medical journals American Statistician 39 3 220 223 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 112 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE
15. d occurrence d un r sultat de recherche sous l Hypoth se nulle est simplement une mesure du degr de fiabilit de celle ci a posteriori Par contre les math maticiens Neyman amp Pearson le fils de Karl ont d fini le test statistique comme une v ritable m canique d cisionnelle dans le cadre d une th orie fr quentiste de la probabilit Pour eux la variable de d cision doit tre clairement partitionn e en un domaine dit de l acceptabilit provisoire de H et un autre dit de rejet au profit d une autre Dans cette conception la notion de seuil prend tout son sens ainsi que celui de probabilit d erreur Dans l optique fr quentiste celle ci se d finit simplement comme la probabilit cumul e d observer des v nements tr s improbables sous Ho Le point suivant explicitea plus clairement les probl mes pos s par la mauvaise compr hension de ces conceptions originales ainsi que les moyens de d passer le nivau de la pol mique en adoptant un point de vue raisonnable loin des pratiques parfois presque superstitieuses ou magiques li s l utilisation syst matique des tests d hypoth se C 3 Du bon usage des tests d hypoth se Depuis leur popularisation par Fisher dans les ann es 30 les tests d hypoth se ont t de plus en plus utilis s et constituent de nos jours un outil incontournable permettant la construction du savoir en sciences humaines m decine g ograph
16. de deux variables s assimile la force de leur lien et se repr sente par le coefficient de corr lation r calcul entre C et C La diff rence entre C et C que l on esp re minimum pour chaque cas s appelle le r sidu ou l erreur Pour expliciter l quation de pr diction il nous faut donc trouver les co fficents a et b de l quation ci dessus de telle mani re ce que la corr lation de C et C soit maximum La th orie statistique permet d estimer a et b sur la base d un chantillon ce qui permet certaines conditions tirage al atoire normalit des distributions de C et P etc d en inf rer que le mod le quation de r gression estim sur la base de cet chantillon d apprentissage est utilisable pour tout nouveau cas pris dans la population Par exemple on demande un chantillon d l ves en principe choisis al atoirement de passer un test P et on note le r sultat d un examen ult rieur C Cet chantillon d apprentissage permet en utilisant un logiciel statistique ayant int gr un certain algorithme de calculer une estimation de a ainsi que de b Admettons que a 2 et b 8 l quation de pr diction aura dans ce cas la forme simple suivante 2 P 8 C ce qui indique que pour toute personne ayant un score de p 5 au test on peut pr dire que sa note d examen C sera 2 avec un maximum de probabilit Cependant un calcul de pr diction r elleme
17. existence de cet effet au niveau de l int gralit de la population Alors que dans le sens commun la signification fait r f rence au sens l int r t ou l ampleur Une augmentation significative est donc pour le statisticien une augmentation observ e au niveau d un chantillon et suffisamment grande relativement sa taille pour en inf rer que cet effet peut tre g n ralis toute la population Au sens commun une augmentation significative est une forte augmentation rien de plus La confusion entre ces deux utilisations du m me mot est regrettable car un effet peut tre statistiquement significatif tout en tant insignifiant La signification statistique d un r sultat est donc une condition n cessaire mais non suffisante pour m riter d tre consid r avec attention La condition est n cessaire parce que si le r sultat n tait pas significatif l effet ou l cart observ ne peut tre attribu autre chose qu au hasard de l chantillonnage il est donc vain de l interpr ter La condition est non suffisante car les tests effectu s sur de grands chantillons aboutissent pratiquement toujours des r sultats significatifs pour la simple raison qu une hypoth se nulle correspond en fait et statistiquement parlant un v nement impossible En effet par exemple l v nement trouver deux moyennes strictement gales dans deux chantillons est un v
18. le abstrait destin d crire une r alit inobservable directement L approche statistique probabiliste d essence purement math matique va d river de l analyse combinatoire les principaux outils probabilistes utilis s en physique et dans la psychologie diff rentielle La loi normale ou loi de fr quence des erreurs reste la cr ation statistique probabiliste la plus c l bre elle servira de mod le au traitement des erreurs de mesure en physique puis dans la plupart des disciplines ayant recours des mesures Toutes les autres lois de distribution th oriques chi carr Student F et toutes les lois multivari es seront d riv es de ce mod le unique dont la conception m rite quelques claircissements On peut supposer que le mod le probabiliste de l erreur int ressa tr s vite les physiciens qui s empress rent de l adopter d s que Laplace et Gauss en fournirent l quation exacte Par contre l inf rence et la pens e inductive n int ressait gu re les astronomes et physiciens h ritiers de Newton N ayant pas travailler sur des chantillons mais sur une r alit directement observable masses distances temps les scientifiques de l poque pouvaient limiter leur travail la recherche et la v rification des r gularit s lois qu ils s effor aient de traduire en quations Ce qui tait vrai pour tel ph nom ne physique l tait bien entendu pour tous les autres ph nom
19. nes semblables faisant intervenir des objets semblables dans des circonstances semblables Par exemple ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 9 l tude du fonctionnement d un seul rein permet une connaissance du r le de cet organe dans l organisme humain en g n ral Cependant si la physique newtonienne ne fait pas r f rence explicitement la logique inf rentielle c est pourtant bien sur des estimations qu elle base ses calculs lorsqu elle prend pour valeur vraie d une mesure la moyenne de toutes les mesures effectu es consid r es comme entach es d erreurs C est donc lorsque la physique et en l occurrence l astronomie se pr occupa de d crire la r partition des erreurs autour d une valeur hypoth tique consid r e comme vraie qu elle int gra le premier mod le clef en main fourni par l approche statistique probabiliste Apr s l astronomie ce fut la thermodynamique qui int gra le plus efficacement l outil probabiliste En 1857 Clausius The nature of the motion which we call Heat jette les bases de la physique statistique bient t suivi par Maxwell 1860 et Boltzmann le fondateur de la physique statistique moderne Le mod le normal de l erreur et l inf rence sur la moyenne seront exploit s en sciences humaines d s la moiti du 19 si cle par les sociologues Qu telet puis par les premiers
20. on la rejettera avec un certain risque d erreur librement choisi et consenti e Voici un premier test intuitif Exemple reprenons notre exemple de lurne sans qu il soit possible d en inspecter le contenu elle contient nous dit on un certain nombre de boules Sur la base de cette maigre information on nous propose de d cider si elle contient lt H autant de boules blanches B que de boules noires N c est l hypoth se nulle d quiprobabilit H que des boules blanches B et aucune boule noire c est l hypoth se alternative Une premi re mani re rudimentaire de r soudre cette nigme est de sortir des boules une une de l urne et d s l apparition d une boule noire nous aurons la certitude de la v racit de l hypoth se nulle Mais ce proc d n est pas conomique car il est possible de tirer un grand nombre de boules blanches avant de tomber sur une noire Supposons maintenant que nous sommes dans une situation qui est g n ralement la r gle dans la r alit l obtention d l ments permettant la prise de d cision co te un certain prix Ainsi les grand chantillons n cessitent de plus grands investissements que les petits surtout en sciences humaines o la prise d information prend beaucoup de temps et n est parfois pas tr s commode ni toujours bien accueillie ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE
21. s de libert et si une r alisation t de T pour une exp rience particuli re d passe un seuil a fix test unilat ral alors H est rejet e avec un risque d erreur Q En r sum Comparaison de moyennes dans le cas de groupes non ind pendants situation test retest ou sujets appari s fr res et soeurs personnes d clar es semblables selon un crit re etc Conditions d utilisation pas de condition particuli re hormis la d pendance entre sujets des groupes Proc dure suivre soient n sujets mesur s deux fois propos d un caract re X X est la premi re mesure X la seconde Pour chacun des sujets calculer la diff rence d x x BI Puis calculer la moyenne des d My EX 1 n Et la variance des d S d my 1 Calculer ensuite la quantit t S d Jn Si H est vraie t suit une loi de t de Student n 1 degr s de libert il suffit donc de comparer cette valeur au seuil d termin par un domaine de rejet de 5 ou 1 dans la distribution de t de la table correspondant au nombre de degr s de libert n 1 Remarque on veillera bien d terminer les seuils en fonction des tests uni ou bilat raux selon qu on attend X plus grand que X ou inversement ou que l on a pas d attente particuli re ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 74 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES On peut ca
22. totale intra et inter groupes qui sont additives La variance totale SST N Sum of Squares Total N est la variance des carts des scores individuels la moyenne g n rale La variance intragroupe SSW N Sum of Squares Within N est la variance des carts des scores la moyenne de leur groupe elle est consid r e comme de l erreur et il faut la consid rer comme la variance chantillonnale habituelle des scores dans chaque groupe La variance intergroupe SSB N Sum of Squares Between N est la variance due l appartenance aux groupes c est la variance des carts des moyennes des groupes la moyenne g n rale On peut aussi dire que c est la part de variance due l effet du facteur sur la variable num rique On peut alors crire l quation de l analyse de la variance qui permet de compren dre l information totale apport e par la variable continue comme tant gale la somme d une information explicable variance intergroupes et d une part de variance d erreur variance intragroupe Chaque score individuel peut donc aussi tre d compos en sa partie explicable et sa partie d erreur et par cons quent les quatre expressions suivantes sont strictement quivalentes 1 Xij Xj M M Mn Mr ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 2 SST N variance tot SSW N variance
23. type of power analysis a priori compute sample size given power and effect size Q est toujours gal 0 05 one tail la taille d effet est 0 5 d 10 20 et la puissance 0 8 Cliquer sur le bouton calculate et le programme affiche imm diatement les r sultats qui montrent que 27 personnes suffisent pour r aliser les objectifs assign s au test ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 34 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Variante 1 si on dispose a priori de 16 personnes et que l on d sire mettre en vi dence la m me diff rence quelle sera la puissance du test Solution activer l option post hoc de G power compute power given effect size and sample size Entrer l effectif 16 garder a 0 05 one tail et d 0 5 calculate et la r ponse appara t 60 Un tel test peu sensible passera c t d une diff rence signi ficative erreur de 2 esp ce 4 fois sur 10 B 1 60 40 Variante 2 on d cide de se contenter de 16 personnes et on vise une taille d effet de 75 M 65 la puissance sera t elle suffisante Solution la r ponse est oui pour une telle taille d effet la puissance de ce test sera proche de 90 Variante 3 on veut tre pratiquement certain que notre test d tectera une diff rence faible par exemple M 54 d 0 20 combien de sujets seront n cessaires Solution on veut donc un test tr s sensible par ex
24. une ou plusieurs variables dites pr dictrices ou ind pendantes de mani re approximer au mieux une variable crit re ou d pendante Lorsqu il y a plusieurs pr dicteurs ces quations alg briques repr sentent des combinaisons lin aires Il existe galement des mod les de r gression non lin aires mod les logistiques quadratiques exponentiels etc mais ceux ci sont encore relativement peu utilis s en sciences sociales et particuli rement peu en psychologie Le terme de mod le de r gression peut induire en erreur vrai dire il est impropre et repr sente le r sidu terminologique d une th orie fausse due Galton th orie de la r gression vers la moyenne En fait on devrait utiliser le terme plus appropri de mod les de pr diction Donc les mod les de pr diction cherchent mod liser de mani re optimale les liens entre une ou plusieurs variables consid r es comme pr dictrices et une variable pr dire appel e crit re Deux situations peuvent se pr senter soit on tudie le lien entre le crit re et une variable pr dictrice pr diction simple soit on s int resse aux liens entre le crit re et plusieurs variables pr dictrices Il va de soi que c est le chercheur seul qui d cide d attribuer les r les de pr dicteur ou de crit re N importe quelle variable num rique ou ordinale peut jouer ces deux r les tout d pend des objectifs poursuivis qu ils so
25. une seconde tape que de convaincre le commanditaire de la recherche que ces r sultats sont inf rables la population des apprentis en g n ral On proposera donc certains mod les permettant de comprendre la r action g n rale de tout apprenti ce type de traitement Curieusement mais tr s classiquement le mod le le plus souvent test est celui de l inefficacit absolue du traitement H c est dire le mod le de l ind pendance entre les variables moyenne au crit re et la variable cat gorielle Avant Apr s Le choix de ce type de mod le implique videmment un fort d sir de rejeter H puisque la d cision de rejet signifierait que le traitement est efficace pour tout apprenti de la population consid r e Le chercheur esp re donc observer des niveaux de signification petits inf rieurs au seuil conventionnel de 5 Mais cette technique est de maigre rendement elle ne dit pas grand chose sur l ampleur de l ventuel progr s mis en vidence par le test Or r pondre cette question en exhibant des p values faibles est incorrect car leur valeur d pend de la taille de l chantillon En effet pour un effectif tr s grand la plus infime diff rence entre moyennes peut tre d clar e tr s significative par un test de Student utilis dans le cas de cet exemple La signification statistique n informe donc pas sur l int r t ou la signification psychologique de l effet observ Elle se b
26. 21 C 4 Analyse de puissance selon Cohen 28 C 5 Le probl me de l valuation a priori de la taille d un effet 32 C 6 Quelques exemples d application de l analyse de puissance 33 C 7 Un exercice d cisif sur l analyse de puissance 36 D Tests d ajustement des mod les th oriques 36 D 1 Introduction le contexte de la naissance des tests d ajustement EE LA Sr en Den es at ee nr gao 37 D 2 Test d ajustement une distribution th orique continue le mod le gaussien ou normal 42 R sum test de normalit mode d emploi 42 D 3 Test d ajustement une distribution th orique discr te uniforme nn M Se ir a Palais ane 43 R sum test d ajustement une distribution th orique discr te mode d emplois israel spin open avr 49 D 4 Tests d ajustement une proportion th orique 49 R sum test d ajustement une proportion th orique moded emploi De sans sos Sos med nne ida RS sie des on 51 D 5 Tests d ajustement une moyenne th orique 52 R sum test d ajustement une moyenne th orique mode d emploi EE al Ce 2 LUE el a ee AU GA 53 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNES TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES E Tests d INd PERDANC 2
27. BASE EN ANALYSE DE DONN ES La loi normale ou loi de Laplace Gauss a t appliqu e de diverses mani res en psychom trie donnant lieu diff rentes interpr tations de ses param tres Dans une perspective purement descriptive lorsque la loi normale s applique la distribution des scores d une population ou d un chantillon g n ralement des tres humains la variabilit des scores autour de leur moyenne doit tre interpr t e ici comme une dispersion mesur e par l cart type ou la variance Si l on est en pr sence de r sultats un test cette dispersion mesure la discrimination du test c est dire son pouvoir s parateur autrement dit son utilit Dans ce cas le score moyen n a pas d interpr tation particuli re moins de croire l existence de l homme moyen de Qu telet auquel cas il correspondrait la mesure id ale de l homme type voulu par Dieu Dans une perspective inf rentielle la loi normale permet de d crire la dispersion d un estimateur par exemple la moyenne des moyennes de plusieurs chantillons de m me taille tir s d une m me population Dans ce cas la dispersion de la variable al atoire moyenne encore un mod le math matique est appel e erreur d chantillonnage C est ce type d erreur qui est valu et analys dans les proc dures du type t de Student ou analyse de variance Lorsqu on applique la loi normale l
28. On peut observer huit cas de figure repr sent s graphiquement ci dessous 1 Pas d effet de A pas d effet de B pas d interaction V ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 81 2 Effet de A pas d effet de B pas d interaction V 3 Pas d effet de A effet de B pas d interaction V 4 Effet de A effet de B pas d interaction 6 Pas d effet de A pas d effet de B mais interaction yv ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 82 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 7 Effet de A pas d effet de B interaction v 8 Pas d effet de A effet de B interaction y E 3 Ind pendance entre deux variables num riques continues Le coefficient de corr lation utilis comme statistique d un test d ajustement l hypoth se d ind pendance Soit une s rie de n paires d observations effectu es sur n sujet ou objets tir s au hasard dans une population Les observations se rangent en deux variables X et Y si possible normalement distribu es Soient mx et my les moyennes et sx et sy les cart types empiriques de ces deux variables On appelle covariance empirique de X et de Y la quantit n bee gt Xi Mx Yi My 1 La corr lation entre X et Y est une mesure standardis e de la force du lien existant entre les deux variables
29. cons quent on ne s tonnera pas que Qu telet dispensa une grande nergie calculer des statistiques sur les mesures de toutes les parties du corps et m me de certains aspects moraux identifiant ainsi les penchants naturels de l homme moyen Il voulait ainsi se donner les moyens de dessiner le portrait de l homme parfait voulu par Dieu Remarquons la volont inf rentielle du travail de Qu telet si la moyenne objective des diff rentes mesures portant sur un m me objet r el n est rien d autre qu un ajustement sa mesure r elle troubl e par des circonstances accidentelles alors la moyenne de la 7 Qu telet est aujourd hui g n ralement ignor ou oubli par les psychologues Il fut pourtant tr s c l bre au si cle dernier et les sociologues le consid rent encore comme un des p res fondateurs de leur branche En effet le passage de l homme moyen l homme social tait par trop s duisant apr s avoir lu Qu telet on pouvait concevoir la soci t comme une nouvelle entit dont l existence pouvait tre consid r e comme ind pendante de celle de ses constituants Les travaux de Durkheim sur le suicide sont caract ristiques de cette vision d terministe des choses derri re lesquelles on pouvait discerner des causes constantes et analyser leurs effets au niveau macroscopique Gr ce Qu telet la magie statistique prenait corps derri re la diversit infinie des individus il
30. correspondant la variance empirique la plus grande plac e au num rateur 2 1 Que vaut Fa 0 05 20 3 autrement dit quel est le percentile 95 de Fjo 3 2 4 44 44444 dessus 2 2 Quelle est la probabilit de trouver un Fj 5 4 sup rieur 14 2 2 3 On suppose que deux chantillons n 20 n 30 sont tir s d une m me population de variance th orique inconnue pour un caract re X quelle est la probabilit d observer un rapport des variances empiriques inf rieur 1 96 Note la variance du premier chantillon est suppos e plus grande que celle du deuxi me ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 111 Sources et r f rences Bavaud F Capel R Crettaz F amp M ller J P 1996 Guide de l analyse de donn es avec SPSS 6 Gen ve Slatkine puis Desrosi res A 1993 La politique des grands nombres histoire de la raison statistique Paris La D couverte Capel R Monod D amp M ller J P 1996 Essai sur le r le des tests d hypoth se en sciences humaines rite propitiatoire ou pi ce conviction Actualit s psychologiques 1 1 pp 1 50 Cohen J 1988 Statistical power analysis for the behavioral sciences 2th ed Hillsdale NJ Erlbaum Gendre F 1976 L analyse statistique multivari e Gen ve Droz Gigerenzer G 1993 The superego the ego
31. d crire une distribution de probabilit s d une probabilit ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 3 niveau formel comme un jet de pi ce et sa r ponse comme l observation d un de ses c t s Afin de mieux comprendre cette analogie consid rons un mod le interm diaire Purne de Bernouilli Consid rons cette urne remplie de boules blanches et noires dans une proportion inconnue et tirons par exemple 50 boules Figure I les trois niveaux de l analyse statistique Estimation de la composition o Composition 50 50 jj H PB p rejet e Pr diction HONHJYNHAANI TEST A Description de l chantillon 3Net2B En ce qui concerne leur t che descriptive les statistiques permettent de conna tre le nombre de boules de chaque couleur extraites de l urne De leur c t les statistiques probabilistes vocation inf rentielle se posent la question de la composition de l urne Celle ci est consid r e comme une population de taille infinie si le tirage s effectue avec remise et le n tirage al atoire en constitue un chantillon La question est de savoir ce qu on peut parier propos de la composition de l urne sur la base des r sultats de ce n tirage On peut par exemple tester l hypoth se que sa composition est d
32. dans le domaine consid r Aucune technique statistique ne permet de juger de la valeur et de l int r t heuristique et pratique d un coefficient de corr lation Le test de la corr lation permet seulement de rejeter ou non l hypoth se de l ind pendance des variables dans la population parente On peut aussi se baser sur le carr de r qui donne la part de variance commune mais encore une fois cette valeur doit tre rapport e ce qu on observe habituellement dans le domaine Donn es deux variables X et Y mesur es sur n sujets satisfaisant la condition de normalit X est d clar e pr dicteur et not e P Y est d clar e crit re et not e C pour des raisons de conformit avec la th orie qui pr c de Premiers calculs L ordinateur calcule mp et m sp et Sc moyennes et cart types empiriques Aussi calculables la main calculette EXCEL etc On obtient aussi r et son carr la p value pour r est donn e dans la proc dure SPSS corr lation mais non dans r gression Tous les logiciels statistiques calculent encore la pente a et la constante b unstandardized coefficients Tests de signification pour r ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 89 La significativit statistique du coefficient r peut tre test e en utilisant la formule de Fisher et en consultant la table des valeurs critiques pour r
33. de t sur un ou deux groupes en fonction de trois types d effets pr d finis Taille d effet d N 1 ch N 2 ch petite 0 2 196 784 moyenne 0 5 32 126 grande 0 8 13 49 Le cas des tables de contingences G power permet aussi en principe de r pondre aux questions de l analyse de puissance pour les diff rences observ es entre distributions de scores cat goriels tables de contingences Le probl me ici est qu il est bien plus difficile de se d cider a priori au sujet de diff rences pertinentes ou non surtout en sciences humaines La situation est par exemple bien plus claire en botanique o les lois de Mendel permettent clairement de d finir des mod les attendus comme le montrera le chapitre suivant Comme de plus G power n est pas d un usage tr s simple dans le cas des tables de contingences il exige le calcul d un param tre de non centralit sans expliciter clairement le calcul nous laissons provisoirement ce chapitre en suspens __ Diff rences entre deux proportions deux corr lations ou entre plusieurs moyennes Le logiciel G power permet de r pondre aux questions de l analyse de puissance pour des diff rences entre proportions z tests et pour des ajustements de corr lations la ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 36 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES valeur 0 ou toute autre valeur Un grand nombre de variante
34. devenait possible de parler d entit s singuli res existant un niveau sup rieur dont les relations devenaient plus simples mod liser cf Desrosi res ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 14 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES distribution des mesures d un caract re a priori abstrait objective la tendance centrale en l identifiant elle aussi une entit r elle e Lak r gression et la corr lation Le mod le math matique du ph nom ne que Galton appellera reversion puis regression toward mediocrity avait d j t tudi 80 ans auparavant par le math maticien Legendre qui s attaqua en 1805 un probl me pos par les astronomes tant donn un certain nombre de couples x y d observations entach es d erreurs que l on suppose li s par une quation lin aire quels sont les param tres optimaux de l quation ajust e permettant d associer tout x une valeur f x aussi proche que possible du y que l on trouverait si on le mesurait sans erreur Legendre imagina une m thode encore utilis e aujourd hui dans la construction des droites d ajustement la m thode des moindres carr s Le terme de r gression fut introduit beaucoup plus tard en biom trie la suite d un changement radical d int r t scientifique v ritable r volution qui donna naissance la psychologie diff rentielle Depuis 1830 et surtout avec Qu telet on pe
35. dit si les groupes sont tir s de la m me population Cette hypoth se est l H du test de F associ l analyse de variance Le principe du test de F est le suivant On peut admettre ou supposer sans exprimer une hypoth se particuli re que les variances empiriques des k groupes d effectif total N sont toutes des estimations de la variance o de la population Donc leur moyenne pond r e en fonction des effectifs est aussi une estimation de cette variance Or cette moyenne pond r e vaut pe lt H 2 2 gt Mi j li 1 _ SSW N k N k on l appelle Mean SSW MSSW et elle ne doit pas tre confondue avec la variance intragroupes qui vaut SSW N ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 79 Toujours si H est vraie et en vertu du th or me central limite la variance des 2 moyennes estime n donc K 2 2 nj Mj Mr Si _ SSB k i k i estime aussi O cette quantit est appel e Mean SSB MSSB et elle ne doit pas tre confondue avec la variance intergroupes qui vaut SSB N donc MSSW et MSSB estiment toutes deux o Afin de ne pas confondre les Mean Squares avec les variances intra et inter on notera que les Mean Squares ne sont pas additives Nous sommes donc en pr sence de deux estimations de la m me variance th orique or nous savons que le rapport de ces deux estimations la plus grande
36. dont les auteurs parents sont myst rieusement occult s et pour cause aucun des deux n y reconna trait son petit On attribue la paternit des tests de signification l agronome math maticien Fisher qui proposa cette technique d j utilis e par Pearson pour se faire une id e intuitive de la cr dibilit d une hypoth se Une hypoth se nulle concernant un mod le valable dans une population est mise l preuve dans un test de signification effectu sur un chantillon repr sentatif tir en principe al atoirement de ladite population La valeur observ e r alisation de la variable chantillonnale pour l exp rience en question ne devrait pas si H est vraie s loigner trop d une valeur attendue donn e par une table Cette technique suppose que la distribution de la variable chantillonnale est connue et tabul e sous une forme standardis e ce qui permet de conna tre pr cis ment la probabilit d apparition exprim e en centile d une valeur observ e Fisher 1935 d clarait volontiers qu une valeur empririque d passant le percentile 95 amp 5 de la distribution de la variable chantillonnale loi normale r duite chi carr t ou F jetait le doute sur l hypoth se nulle et incitait poursuivre l exp rimentation avec d autres chantillons En utilisant cette technique intuitive ou pouvait peu peu affiner le mod le de proche en proche en adaptant les hy
37. du domaine 2 la d charge de toutes les personnes r sistantes ou imperm ables au mode de raisonnement statistique remarquons que ces th ories sont n es tr s tardivement dans l histoire de la pens e scientifique et que de plus leur d veloppement fut comme nous l avons vu plut t lent 3 Remarquons que cette p riode fut une des plus riches de la physique puisqu elle vit le d veloppement de la th orie de la relativit Einstein et celle des quanta avec M Planck W Heisenberg r suma les apports de la m canique ondulatoire fondamentalement probabiliste en 1926 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 10 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES B 2 Les principaux outils probabilistes utilis s en psychologie D velopp s et appliqu s d s le 19 si cle et r ellement popularis s apr s la seconde guerre mondiale les outils probabilistes utilis s en psychologie tirent cependant leur origine 250 ans plus t t dans les m ditations de quelques passionn s de jeu du 17 si cle L analyse combinatoire doit sa naissance vers 1650 la rencontre et l amiti de trois personnages fort diff rents mais fortuitement int ress s par la m me probl matique savoir celle de la probabilit B Pascal g nie universel esprit religieux pr occup par le probl me de l existence de Dieu rencontre un personnage de cour le chevalier de M r soucieux de maximiser ses g
38. e lors d une seule exp rience Exp rience faite nous trouvons f 432 562 768 valeur qui ne tombe pas dans l intervalle de confiance d fini ci dessus 6 Que penser apr s cette exp rience Le test aboutit donc un relatif discr dit de l hypoth se nulle attitude de Fisher ou son rejet pur et simple au seuil 5 si l on suit une r gle de d cision la Neyman Pearson en excluant les 2 5 extr mes de notre intervalle de confiance on fixait un seuil implicite 5 la lumi re de cette nouvelle exp rience nous sommes forc s de croire que Kretschmer a peut tre raison les individus schizothymes sont plut t du type longiligne Mais nous savons aujourd hui comment ces donn es ont t biais es par les a priori du chercheur si bien que notre conclusion est erron e la th orie de Kretschmer n a plus gu re d adeptes de nos jours En r sum test d ajustement une proportion th orique mode d emploi e Conditions d utilisation les individus doivent tre tir s au hasard ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 52 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES e Proc dure suivre soit p la proportion th orique et f la proportion observ e f p Q p p n Si H est vraie z suit une loi normale centr e r duite il suffit donc de comparer cette quantit au seuil d termin par un domaine bilat ral de rejet de 5 ou 1 dans la
39. en moyenne Cette loi biologique de r gression g n tique vers la moyenne fut publi e en 1885 Elle est aujourd hui consid r e comme fausse car r sultant d une grave erreur de raisonnement Galton fut lui m me troubl par le paradoxe suivant si l h r dit rapproche les extr mes de la moyenne comment expliquer que la variance des tailles des enfants est pratiquement la m me que celle des parents Pour en trouver la r ponse il dut s adresser des math maticiens qui lui fournirent l explication elle r sidait dans la notion de corr lation L erreur de Galton fut de croire que par exemple la frange des parents les plus grands devait n cessairement correspondre avoir donn naissance la frange des enfants les plus grands Si tel avait t le cas le ph nom ne qu il appela r gression n aurait pas t observable En termes modernes on dirait que la corr lation entre les variables taille des parents et taille des enfants aurait t parfaite c est dire gale 1 Cette remarque fut formul e par des math maticiens qui connaissaient le concept de corr lation introduit par le physicien et astronome fran ais Auguste Bravais qui en exprima la formule en 1846 mais ne lui donna pas de nom particulier C est le math maticien et coll gue de Galton K Pearson fondateur de la statistique moderne qui d finit exactement l indice qui s appellera d sormais le coefficient de corr lation Bravai
40. encore trois chances sur cent de tirer 5 boules blanches successives si H est vraie mais il ne reste que 1 5 de chances de tirer 6 boules blanches dans cette hypoth se Il semble raisonnable d admettre mais ce n est qu une convention que si l on tire 6 boules blanches successives de l urne celui ci ne contient pas de boules noires Cette d cision est justifi e par le fait que l v nement tirer successivement 6 boules blanches d un sac est trop rare pour que l on puisse croire qu il contient une quantit gale de boules blanches et noires Cette d cision est pourtant assortie d un certain risque car m me si H tait vraie les probabilit s de tirer 6 ou 7 ou 8 ou n boules blanches ne sont jamais vraiment nulles Toutefois ce type de test intuitif ne correspond pas aux situations que l on rencontre dans la r alit de la recherche o l on est forc de tirer en une seule fois un chantillon de taille d finie Les r sultats fournis par l tude de ce seul chantillon doivent alors servir de base pour la d cision en faveur ou contre H c est la situation de test standard ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 18 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES e Test statistique standard selon Fisher test du mod le d quiprobabilt par exemple H p B p N pas d hypoth se alternative On nous propose nouveau de d cider si une urne contient d
41. intervalle de confiance autour de la valeur 17 pr dite par le mod le e La th orie des erreurs de pr diction Le concept de corr lation est voqu chaque fois que l on s interroge au sujet de la force des liens pouvant exister entre au moins deux s ries d observations P et C pr lev es sur un chantillon suppos tir al atoirement d une population dans laquelle les distributions des variables P et C sont suppos es normales La valeur de cet indice varie entre 1 et 1 et sa formule a t d j d velopp e dans le cadre des tests d ajustement une corr lation th orique Le carr d une corr lation exprime la part de variance commune propre deux variables En effet si on raisonne en scores z la variance de deux variables C et P est toujours 1 et l quation de r gression liant C P s crit zC r zP ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 87 l 2 2 Donc la variance de zC var r zP r var zP r car var zP 1 La variance des zC s interpr te donc comme la variance de zC expliqu e par la variation du pr dicteur zP et par cons quent le rapport r yar zC ler exprime le de variance du crit re expliqu e par le pr dicteur Si la variance de zC r on peut trouver la valeur de la variance de l erreur ce qui nous permettra ensuite de construire des intervalles de confiance E
42. la taille des effets ce que l on peut voir de mani re bien plus pr cise en regardant directement les effets corr lations t F etc Il nous semble donc in vitable de supposer que le chercheur qui affuble les l ments de sa matrice de corr lations de petites toiles se livre un rituel vide de sens dont il serait bien en peine d expliquer le sens et la raison mais qu il juge incontournable ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 27 En guise d exemple reprenons le tableau que nous avions comment dans un article pr c dent Capel amp al 1996 Il est certes un peu forc mais explique bien l enjeu li aux petites toiles TABLEAU 2 Corr lations entre deux jeux de variables X1 X2 X3 Y2 48 50 02 Y3 BLER 29 29 Note p lt 02 df 40 p lt 001 df 40 p lt 0007 df 40 44p lt 0003 df 40 ktp lt 0001 df 40 N est il pas vident ici que le nombre d toiles n indique rien d autre que la hi rarchie des tailles de corr lations Comment se fait il que des chercheurs scientifiques crivant pour des pairs l exemple est r ellement tir d une revue scientifique puissent parler un langage aussi vide de sens pour nous faire voir de mani re indirecte des choses que tout le monde peut voir directement et de mani re beaucoup plus informative Fisher ser
43. moyennes n est pas non plus rejet e on a une bonne conviction en faveur de l unicit de la population d origine Si l hypoth se nulle sur les variance doit tre rejet e on n obtiendra qu une conviction partielle au sujet de l origine des chantillons une diff rence de moyennes non significative sugg re la conclusion que les chantillons proviennent d une population unique mais seulement du point de vue de la moyenne ce qui n est pas toujours suffisant _ D autre part si les variances diff rent significativement les formules du test de Student doivent tre adapt es cf Howell p 225 e Proc dure suivre soient 2 groupes chantillons de sujets de taille n et n gt mesur s selon une caract ristique X Calculer les moyennes et variances empiriques de chaque chantillon tester une H sur les variances si elle est rejet e s interroger s rieusement sur l opportunit de continuer comparer les deux chantillons Il faut noter que le test sur les variances d crit ci dessus est tr s sensible la violation de l hypoth se de normalit des distributions originales il convient de lui pr f rer le test de Levene figurant dans la sortie standard SPSS Si les diff rences de variances ne sont pas significatives calculer l estimation de la variance th orique en pond rant les variances empiriques par les effectifs 2 2 n 1 s n 1l s n 1 n 1 2 S E
44. on pr f rera parler dans ce cas de test d ind pendance entre deux variables cat goriel les Les donn es disposition sont celles de l auteur de la th orie on doit faire con fiance Ce qui signifie qu on ne sait pas pr cis ment comment Kretschmer a choisi ses sujets d exp rience Les deux variables cat gorielles ou nominales en question sont Type physique 3 cat gories et Type psychique 2 cat gories Le tableau de contingence a donc 2 x 3 6 cases On appelle totaux marginaux les sommes par ligne et par colonne On appelle total g n ral ou effectif de l chantillon la somme des totaux marginaux lignes ou colonnes 3 Mod le th orique attendu Il faut admettre comme un principe m thodologique que les mod les th oriques postulent souvent l ind pendance des variables en question pour des raisons de simpli cit des calculs Ce postulat revient dire que le hasard seul explique les diff rences de r partition dans le tableau en fonction des totaux marginaux bien entendu Mais on peut videmment aussi tester des mod les de d pendance plus complexes il s agit alors plut t de mettre en place une r gle de d cision permettant de choisir entre deux ou plusieurs mod les Dans notre cas et en fonction de la probl matique d finie ci dessus on postulera un mod le d ind pendance entre les types physiques et psychologiques dans la popula tion consid r e ROLAND CAPEL COU
45. orie fr quentiste de Neyman amp Pearson nous rappelle que cette assurance est trom peuse car le risque d erreur reste par d finition gal au seuil fix 5 Rappelons enfin que l histoire a montr que malgr l vidence que l on pourrait tirer de ces chiffres la th orie de Kretschmer n est pratiquement plus admise aujourd hui si le test est correct les donn es sont quant elles extr mement biais es et sans valeur scientifique Dans un tel cas les traitements les plus complexes n abou tissent qu des r sultats non pertinents En r sum test d ind pendance entre deux variables cat gorielles test du chi carr mode d emploi e Conditions d utilisation pas plus d un quart des effectifs th oriques ne doivent tre inf rieurs 5 Les individus doivent tre suffisamment nombreux et tir s au hasard e Proc dure suivre H les variables sont ind pendantes Dresser le tableau des effectifs observ s o ce tableau comporte r lignes et c colonnes Calculer les effectifs th oriques e attendus d coulant du mod le d ind pendance Tr A 20 Ojj ei Calculer la quantit d DD na j RoR j 1 J 18 Les expressions tr s significatif extr mement significatif et toutes autres fantaisies s mantiques du m me genre trop souvent rencontr es dans nombre d articles scientifiques n ont pas le sens pr
46. p et F suit une loi normale d esp rance p et d cart type UPP 2 On s int resse maintenant la diff rence de ces deux quantit s car il est clair que si H est vraie l esp rance de cette diff rence sera z ro alors que son cart type ess 15 sera gal la racine carr e de la somme des variances Or comme dene Uen ETE a e E pHa fui DES MODS il s en suit que la variable F F suit une loi normale d esp rance 0 et d cart ss E type 4 1 p p gt A Re Finalement si H est vraie la variable standard Fes NE 1 1 N 1 p p ose 1 2 suit une loi normale de moyenne 0 et d cart type 1 ce qui permet de consulter la table de r partition de u pour trouver les seuils correspondants aux domaines critiques Q 5 ou 1 Z Par exemple au seuil 5 z ne doit pas d passer 1 96 test bilat ral sinon Ho devra tre rejet e Si l on reprend l exemple du d but la proportion de leptosome et schizothyme est de 932 1258 74 et la proportion de leptosome et cyclothyme est de 183 756 24 15 La variance d une somme ou d une diff rence de deux variables ind pendantes est gale la somme 2 2 des variances o xy 0 x O Y 2 2 C est pourquoi O X4Y Ox t Oy ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 57 On calcule donc tout d abord la q
47. pendance sous Ho Par exemple l effectif th orique de la case AxA est de 20x16 30 10 67 ce nombre indique le nombre d accords propos de la cat gorie A entre les juges s ils avaient class au hasard tout en respectant les effectifs marginaux ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 65 Il est clair que ce calcul n a un int r t que pour les cases situ es dans la diagonale du tableau puisqu on s int resse un degr d accord cf Tableau 4 Finalement on peut constater que le hasard seul classerait 12 94 30 43 43 des sujets ce qui n est pas n gligeable Ce qui nous int resse finalement dans cette affaire c est le degr d accord entre juges apr s correction de l effet d au hasard On doit Cohen une formule qui permet de conna tre cette valeur il s agit d un indice kappa gt ED ED n ED o n est l effectif de l chantillon ED est la somme des effectifs diagonaux observ s et ED est la somme des effectifs diagonaux attendus c est dire le nombre de concordances dues au seuil hasard de l chantillonnage On se rend compte que par rapport la proportion que nous avons calcul e plus haut savoir ED n la formule de Cohen corrige ce rapport en soustrayant ED au num rateur comme au d nominateur Le K vaut ici 21 12 94 301294 047 Il faut tre attentif au f
48. pourquoi nous l exposons ici ne serait ce que pour pailler l absence possible d ordinateurs dans une situation ou une autre ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 96 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES e Analyse typologique partir d une matrice de distances On part en principe d une matrice de distances mais celles ci sont parfois plus difficiles calculer que des corr lations c est pourquoi nous utiliserons ce dernier cas de figure en notant qu il est toutefois bien commode de calculer les corr lations avec une machine 1 Soit un jeu de p variables v vp et leurs corr lations dresser la matrice de toutes les corr lations sym trique avec les unit s dans la diagonale 2 Dans chaque colonne identifier et souligner la corr lation la plus lev e 3 Identifier parmi ces derni res la corr lation la plus lev e de la matrice elle d ter mine le noyau du premier cluster noter sur un papier brouillon Ve wouve Vk le signe n gatif s inscrit si la corr lation est n gative mais il est aussi possible d inverser la variable en changeant son nom par exemple sentiment d inf riorit gt sentiment de sup riorit 4 Dans la ligne de v chercher une autre corr lation soulign e hormis la pr c dente elle d termine la seconde variable qui a sa relation la plus forte avec v lier celle ci au cluster l aide d une fl che qui
49. psychologues diff rentialistes dont le plus c l bre reste Galton dont il sera question plus loin propos de la d couverte du ph nom ne de r gression En r sum nous retiendrons que la mise au point des premiers outils probabilistes applicables aux sciences de la nature date donc du d but du 19 si cle Ils furent utilis s principalement en physique et en astronomie mais aussi en sociologie avec Qu telet puis en psychologie vers la fin du si cle avec Galton et son trange d couverte de la r version puis avec les premiers crits de Spearman sur la construction d chelles d aptitudes 1904 Curieusement le d veloppement des techniques inf rentielles associ es tests de normalit etc dut attendre les travaux du math maticien anglais K Pearson qui fut le premier vers 1898 seulement mettre au point des tests d ajustement l intention des astronomes et g n ticiens Ce n est finalement que dans les ann es 1920 1930 que la biom trie Fisher crit statistical methods for research workers en 1925 et la psychologie Spearman expose sa conception factorielle des aptitudes humaines en 1926 int grent le raisonnement statistique inf rentiel en l appliquant aux mod les de mesure utilis s en psychologie La th orie des tests fournit un bel exemple de cette association dans la th orie classique de construction des tests appel e pr cis ment fh orie de l chantillonnage
50. s la pratique des tests d hypoth se le raisonnement inf rentiel l analyse combinatoire etc Lorsqu un profane s exprime sur les statistiques il recourt l une des plus anciennes conceptions des statistiques savoir celle d un ensemble de techniques de calcul plus ou moins indigestes visant d crire l tat pr sent d une collectivit ou d un quelconque groupe humain ou non La Sfaatistik est n e pendant la premi re moiti du XIX si cle avec l introduction de recensements et fut parfois consid r e par les esprits les plus r formateurs de l poque comme la vraie science d tat Cette science nouvelle a une vocation essentiellement descriptive son objectif est de d crire des faits c est dire de compter des fr quences et des pourcentages ventuellement de calculer des moyennes et des cart types Depuis quelques d cennies et surtout depuis le d veloppement fulgurant des moyens informatiques on range galement dans les techniques statistiques descriptives l analyse factorielle ACP et analyse de correspondances ainsi que toutes les techniques d riv es de l analyse canonique analyse discriminante On parle dans ces cas d analyse exploratoire La statistique probabiliste a des vis es beaucoup plus g n rales il ne s agit pas seulement de d crire une r alit limit e des circonstances donn es mais d imaginer un mod le th orique dont cette r alit o
51. si l on en prend pas Et voici que ces chiffres prennent soudain un autre sens tr s pratique au point que plusieurs m decins prescrivirent d office de l aspirine tous leurs patients m les suspect s d avoir des probl mes vasculaires et ceci malgr un phi d risoire rappelons le ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 67 E 2 Ind pendance entre une variables cat gorielles et une variable num rique continue E 2 1 Cas 1 tests d ind pendance entre une variable num rique et une variable cat gorielle dichotomique le test de Student Un grand nombre de techniques d analyse de donn es s int ressent aux moyennes d chantillons dans le but de les comparer soit une valeur th orique cf test d ajustement d j abord ci dessus soit une ou plusieurs autres moyennes d chantillons Les questions qui se posent au sujet des moyennes sont en g n ral de deux ordres Situation 1 on veut savoir si deux groupes ind pendants distingu s par une caract ristique sexe classe d ge ou toute autre indiqu e par une variable dichotomique varient en moyenne selon une dimension continue taille aptitude num rique trait de personnalit etc e Situation 2 on cherche conna tre l effet d un traitement sur la mesure d une dimension continue mesur e avant et apr s dans un m me groupe les deux chanti
52. suite en progressant dans les tages du triangle de Pascal et en dessinant un graphe pour chaque ligne on voit peu peu se dessiner l allure caract ristique de la loi divine En 1657 le math maticien hollandais C Huygens s int resse passionn ment ces probl mes et vient Paris pour s initier ces nouvelles th ories D u par la discr tion de Fermat qui le prit peut tre uniquement pour un passionn de gain il retourne en Hollande pour crire un trait sur l art de calculer les gains aux jeux de hasard De Ratiocinis Ludo Alea Ses crits sont lus par Jacob James Bernouilli qui fonde la th orie de l analyse combinatoire dans son Ars Conjecturandi 1713 C est aussi J Bernouilli que l on doit la premi re loi proprement statistique connue aujourd hui sous le nom de loi des grands nombres Cent ans apr s Pascal le math maticien De Moivre g n ralise la loi binomiale au cas continu ce qui revient faire tendre n vers linfini dans la formule a b La loi de fr quence des erreurs est conceptuellement pr te mais ne trouve pas encore d applications pratiques Ce n est que gr ce aux perfectionnements permis par le calcul diff rentiel et int gral d Leibniz qu elle trouvera chez Gauss et Laplace ind pendamment semble t il la formulation math matique qui est encore utilis e de nos jours L Allemand Gauss l appliquera pour la premi re fois en astronom
53. thique de la soci t britannique du d but du XIX si cle Ayant l esprit les deux contraintes pr c dentes le plus simple en th orie est de jouer sur la taille de l chantillon ayant fix une taille d effet et des seuils a et b il ne reste qu d terminer combien de sujets l exp rience doit comporter pour satisfaire aux exigences du chercheur Proc der de la sorte consiste effectuer une analyse de puissance a priori qui est le moyen le plus conomique et le plus efficace permettant de d clarer significatif ou non un effet pr alablement bien d fini Pour illustrer cette mani re de faire de mani re intuitive il suffit d admettre que si l on veut visualiser un objet c leste la lune pluton un crat re lunaire une constellation il semble assez vident que l on ne se servira pas des m mes instruments d observation selon les objectifs du chercheur Reprenons l exemple du point A 2 un chercheur est d sign pour tester l efficacit d une nouvelle m thode d enseignement sur la moyenne g n rale une branche scolaire peu importe laquelle Ayant pr alablement accept le risque de premi re esp ce de 5 risque de d clarer utile la nouvelle m thode d enseignement mais aussi le risque B conventionnellement fix 20 risque de ne pas mettre en vidence les b n fices de cet enseignement et ayant d cid qu il fallait d celer une diff rence d au moins un de
54. tirer des conclusions trop d finitives de notre exp rimentation Une derni re condition d utilisation porte sur la normalit des distributions du caract re num rique vrai dire peu d utilisateurs s en pr occupent vraiment pr textant que l analyse de variance est une technique robuste Il convient maintenant de distinguer cinq tapes fondamentales dans le processus d analyse de la variance 1 La premi re tape est purement descriptive il s agit avant tout d examiner les moyennes empiriques m des groupes et les comparer la moyenne g n rale mr on peut ainsi se faire une premi re id e de l effet du facteur sur la variable num rique et identifier imm diatement le ou les groupes susceptibles de se distin guer des autres 2 La deuxi me tape est analytique elle consiste d composer l information c est dire l cart entre le score de chaque individu xi et la moyenne g n rale Mr une variable si l on raisonne en toute abstraction avant toute r alisation On reconna tra sans peine que l cart total d un score quelconque la moyenne g n rale peut se d composer en un cart intra groupe du score la moyenne de son groupe un cart inter groupe de la moyenne du groupe la moyenne g n rale Si l on divise la somme des carr s de ces carts Sum of Squares par N nombre de sujets on est en pr sence des trois variances
55. 0 12 1 1 10 9 10 13 15 10 12 5 TABLEAU 11 Test B53 Crit re C 16 10 18 4 8 10 7 9 8 10 16 20 I5 16 15 6 6 15 8 11 20 16 16 13 7 Calculs avec SPSS ou tout autre logiciel sp cialis de statistique Lacommande regression linear fournit R qui devrait tre en minuscules pour la r gression simple 592 35 adjusted R square qui sert calculer l erreur type Std error of the estimate 3 912 est l erreur type cart type des r sidus calcul l aide de adjusted R square La table ANOVA fournit les sommes de carr s les degr s de libert correspondants les carr s moyens pour les scores pr dits ainsi que pour les r sidus Leur rapport ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 91 F ici 13 472 est accompagn de sa p value Sig 001 Des valeurs inf rieures 0 05 indiquent que la r gression explique mieux le crit re que le hasard Ce test remplace le test direct de Fisher sur r La table coefficients donne les param tres de la droite de r gression et le test sur la pente Mais il est pratiquement inutile d crire l quation car si l on a pris soin de cocher les cases unstandardized predicted values et prediction intervals individual dans l option save on obtient d un coup les scores pr dits et leur intervalle de confiance Tout nouveau score peut tre ajout en bas de la colonne des scores du p
56. 23524 eus MES AAA ns se 54 E l Tests d ind pendance entre deux variables cat gorielles 55 E 1 1 Comparaison de deux proportions observ es 55 E 1 2 Tests d ind pendance entre deux variables cat gorielles le test du chi carr in ne enter nr sn ee 58 R sum test du chi carr mode d emploi 62 E 1 3 Extension analyse d une table de contingences issue de classements d experts le kappa de Cohen 63 E 1 4 Extension analyse d une table de contingences comportant des effectifs tr s in gaux le rapport de chances 65 E 2 Tests d ind pendance entre une variable cat gorielle et une variable num rique Conte as sr etat smile Aie 67 E2 1 Situation 1 groupes ind pendants Cas 1 2 niveaux lexetest de Stud nt Dires se sata had na rates Ladies Da 67 R sum comparaison de moyennes dans le cas de groupes ind pendants mode d emploi 69 Situation 2 groupes appari s Cas 1 2 niveaux mesures successives ou li es n onassimeschte puces 71 R sum comparaison de moyennes dans le cas de groupes d pendants mode d emploi 73 E 2 2 Tests d ind pendance entre une variable num rique et une variable cat gorielle Cas 2 plusieurs niveaux le test de Fisher ou analyse de variance 75 Plan simple un seul facteu
57. 8 30 Le premier expert classe 16 sujets dans A 6 dans B et 8 dans C Le second expert classe 20 sujets dans A 6 dans B et 4 dans C Les deux juges sont d accord pour classer 15 l ves dans A 3 dans B et 3 dans C Par contre 2 l ves que le juge 2 d clarait A sont en B pour le juge 1 et 3 l ves que le juge 2 d clarait dans A sont dans C pour le juge 1 de m me que 2 l ves class s en B par le juge 1 sont en C pour le juge 2 Quant lui le juge 1 trouve sans probl mes un l ve que le juge 2 classe en B et le juge 1 classe en B un l ve que le juge 2 classe en C On constate finalement que les deux juges sont d accord dans 21 cas sur 30 soit pour 70 des cas Cette valeur n est pourtant pas tr s int ressante car on voit bien que la cat gorie pas de probl mes recueille une majorit des suffrages Il faut donc tenir compte des effectifs marginaux et imaginer que les juges pourraient classer au hasard les l ves tout en respectant la r partition globale entre A B et C Le juge 1 r partirait au hasard mais en respectant les proportions de 16 A 6 B et 8 C Le juge 2 r partirait aussi au hasard mais en respectant les proportions de 20 A 6 Bet4cC Cette situation refl te une hypoth se d ind pendance entre les classements op r s par les deux juges Comme dans le cas des tableaux de contingences habituels on peut alors calculer les effectifs attendus en cas d ind
58. AUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 93 corr lation multiple R maximum Les coefficient B sont appel s dans ce cas les poids b tas qui repr sentent des corr lations partielles entre chaque pr dicteur et le crit re On peut ainsi par exemple chercher pr dire la note un examen en fonction de plusieurs pr dicteurs mais le probl me est souvent de savoir quel est le meilleur mod le Ce probl me important a occup la carri re de plus d un auteur On peut en effet poser la question de l conomie les pr dicteurs tant souvent co teux mesurer temps de passation etc et il serait utile de savoir lesquels sont les plus utiles et lesquels on peut laisser tomber sans trop diminuer la qualit de la pr diction Ce probl me est d autant plus d licat que tr s souvent les pr dicteurs sont li s entre eux et qu il devient difficile d valuer l apport propre de chacun d eux e Application Un exemple d application des mod les pr dictifs multiples les tests fonctionnels La principale caract ristiques des tests fonctionnels et qui les distingue de tous les autres tests construits jusqu ce jour est que les items sont caract ris s selon un certain nombre de dimensions Demander une personne de noter des items selon l attirance qu ils exercent sur elle revient en fait mesurer son attirance fondamentale pour les dimensions sous jacentes qui sont pr cis me
59. BASE EN ANALYSE DE DONN ES 17 De mani re analogue dans notre exemple des boules supposons que le tirage de chaque boule co te un certain prix et l int r t d un test consiste donc dans l conomie de ses moyens quel est le nombre de tirages minimum permettant de d cider entre les deux hypoth ses avec de bonnes chances de tomber juste Par le biais du test nous allons donc renoncer l acquisition co teuse d une certitude au profit de l acquisition moins on reuse d une conviction aussi solide que possible Combien nous faut il alors tirer de boules de l urne au minimum pour pouvoir choisir entre H et H Pour r pondre cette question nous allons choisir de tester H Si H est vraie quelle est la probabilit de tirer une boule blanche elle est videmment de p 1B 50 Si H est vraie quelle est la probabilit de tirer deux boules blanches successives apr s remise elle est de p 2B p 1B p 1B 25 car v nements ind pendants Toujours si H est vraie la probabilit de tirer 3 boules B successives est 1 2 125 et la probabilit de tirer 4 boules B successives est 1 2 0625 et la probabilit de tirer 5 boules B successives est 1 2 0312 On voit que la probabilit de tirer plus de 5 boules blanches successives devient tr s faible si H est vraie il faut donc choisir un seuil au del duquel il ne devient plus possible de croire en l hypoth se nulle On a
60. ES 47 Mais supposons maintenant que cette exp rience serve de base une d cision par exemple de pr coniser aux conseillers d orientation de diriger vers la psychologie tous les sujets n s sous le signe du taureau et int ress s par les sciences de l esprit mais ind cis Il s agit alors de d finir une r gle de d cision Formellement il s agit donc de choisir entre deux hypoth ses alternatives H Les signes de naissance sont distribu s al atoirement dans la population des tudiants en psychologie H Les signes de naissance ne sont pas distribu s al atoirement dans la population auquel cas la connaissance du signe de naissance serait pr dicteur d une certaine forme d int r t pour les sciences humaines Pr cisons en principe avant l exp rience la valeur seuil ou critique que D ne devrait pas d passer auquel cas on d cidera que l hypoth se nulle doit tre rejet e au profit d une hypoth se alternative H les signes de naissance des sujets de la population de psychologues ne sont pas distribu s al atoirement Ce seuil sera d termin par la probabilit pour D de tomber dans des valeurs extr mes excluons donc le 5 des valeurs de ce type et attribuons les une zone de rejet de H donc celle de l adoption de H Dans notre cas la valeur de 19 67 constitue la valeur seuil recherch e cf table La r gle de d cision prend donc la forme suivante
61. ES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES HI Intervalles de confiance Un intervalle de confiance gaussien Q d finit un intervalle dans lequel une cer taine valeur x d une distribution gaussienne a Q de chances de se trouver Cons truire un intervalle de confiance revient donc trouver les bornes sup rieures et inf rieures de la distribution au del desquelles une valeur x n a que 1 0 chances de se trouver Les intervalles de confiance tant en g n ral sym triques il suffit donc de trouver le percentile de la distribution correspondant Les intervalles de con fiance usuels sont d finis pour 95 ils excluent donc les 2 5 extr mes de la distri bution Les bornes d un tel intervalle se trouvent en cherchant le percentile 97 5 de la distribution normale standard savoir 1 96 Pour cette distribution tr s particu li re l intervalle de confiance s crit 1 96 1 96 il est bien entendu centr en Z TO On en d duit que pour toute distribution centr e en m et d cart type s l intervalle de confiance 95 sera centr en m et born par 1 96s 1 1 D terminer un intervalle de confiance 95 pour une mesure distribu e norma lement dont la moyenne est 50 et l cart type 20 Supposons que l on connaisse la moyenne d une population u mais non sa variance Cela n emp che pas de se demander si la moyenne d un chantillon de taille n sera compris dans un certain
62. La corr lation cor X Y ou r x v ou simplement r varie entre 1 et 1 et n est rien d autre que la covariance de X et Y standardis s n n 1 1 cov zx Zy Zxi7 0 zyi 0 Ex Zyi donc i i 1 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 83 SCT Sx Sy n 1 1 i l i n ee _ cov X Y _ i M 1 COV Zx Zy BI Les tests d ajustement des coefficients de corr lation th oriques non nuls exigent une transformation pr alable de r cf Howell p 292 et ne seront pas trait s ici Nous nous contenterons de pr senter l ajustement le plus simple et le plus courant c est dire celui d une valeur r observ e la valeur th orique z ro Ce type d ajustement revient donc tester l ind pendance de X et de Y On admettra sans d monstration que si H est vraie ind pendance de X et de Y alors r calcul sur un chantillon suit une loi peu pr s normale et d esp rance z ro Plus pr cis ment Fisher a montr que la quantit ba r n 2 N1 r suit une loi de Student n 2 degr s de libert Il faut noter qu il existe des tables sp cialement con ues pour lire le niveau de signification d un coefficient de corr lation cf table valeurs critiques pour r Exemple Dans un chantillon de 27 individus tir s au hasard dans une population d termin e on mesure une cor
63. O i indique les lignes etj les colonnes les effectifs observ s lors d une exp rience al atoire du type tirer 2014 hommes au hasard et noter leurs types physique et psychologique et e les effectifs attendus expected si le mod le est vrai Les e sont des nombres cf Tableau 7 Les O sont des variables puisqu on peut imaginer autant d exp riences al atoires du type d crit ci dessus que l on veut en respectant toutefois l effectif de 2014 Les quantit s O e diff rences case par case sont donc aussi des variables de A py a 2 m me les carr s de ces quantit s et de m me encore les quantit s O e e Finalement la quantit 3 2 2 2a Oj e a 1 1 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 61 est aussi une variable dite de d cision dont on conna t la distribution th o Sos 2 rique dans le cas o H est vraie Dans notre cas la quantit variable D suit une loi de chi carr 2 degr s de libert 2 3 1 2 1 Cette quantit variable D est lestimateur de la distance r elle A entre les distri butions d effectifs observ s et th oriques Intuitivement on s attend observer une distance proche de z ro si notre chantillon de 2014 hommes est bien tir d une popu lation dans laquelle le mod le d ind pendance est vrai c
64. ONN ES 37 Contrairement une croyance bien r pandue dans ce genre de test ce n est pas le rejet de H qui est interpr t comme un r sultat int ressant mais au contraire sa conservation D 1 Introduction le contexte de la naissance des tests d ajustement Vers 1900 De Vries red couvre les travaux de Mendel oubli s depuis 1865 concernant les lois qui semblent r gir la transmission des caract res simples au travers des g n rations Reprenant les exp riences classiques De Vries leur appliquera une m thode statistique plus rigoureuse celle des tests d ajustement mis au point la m me poque dans les laboratoires anglais notamment par K Pearson En voici un nonc simplifi Les caract res h r ditaires sont port s par les chromosomes au nombre de 2n selon l esp ce animale ou v g tale Chez l tre humain il y en a 46 2 fois 23 de type X chez la femme et 23X 22X 1Y chez l homme La transmission des caract res simples se fait par les chromosomes et ob it un certain nombre de lois dites de Mendel En voici quelques illustrations Figure 2 G n ration P X x X y parents CR px x ED x Gam tes G G n ration F Xix le x x X y enfants D 1 a Transmission h r ditaire du sexe On trouve bien figure 2 la proportion g n ralement observ e de 50 de gar ons et de 50 de filles mais cette proportion est th orique car dans un chantillon celle ci fluct
65. RS 2008 UNIVERSIT DE LAUSANNE 60 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Une telle hypoth se nulle permet de calculer un tableau d effectifs attendus i e ce que l on devrait observer le plus probablement si le mod le d ind pendance est vrai faciles calculer TABLEAU 7 Effectifs attendus e en cas d ind pendance entre morpho et psychotypes hommes Schizothyme Cyclothyme Total Pycnique 354 8 213 2 568 Leptosome 696 5 418 5 1115 Athl tique 206 7 124 3 331 Total 1258 756 2014 Pour trouver par exemple l effectif attendu de la case Pycnique et Schizothyme on multiplie la probabilit d tre de type pycnique 568 2014 par celle d tre Schizothyme 1258 2014 Ces deux v nements tant suppos s par H tre ind pendants le produit obtenu repr sente bien la probabilit de figurer dans 568 1258 2014 2014 total est de 2014 l effectif attendu dans la case en question sera donc 568 1258 2014 568 1258 2014 2014 2014 la case Pycnique et Schizothyme savoir Sachant que l effectif 3548 4 Exp rience al atoire Comme dans un test d ajustement une distribution th orique discr te on va s int resser la distance entre des effectifs observ s lors d une exp rience par exemple celle de Kretschmer et les effectifs attendus si le mod le d ind pendance est vrai On appellera
66. S calculer ensuite l cart type de la diff rence des moyennes puis la valeur M M G D s pi 1 CNET ONE TE ny M S1H est vraie t suit une loi t de Student n n 2 degr s de libert il suffit donc de comparer cette valeur au seuil d termin par un domaine de rejet de 5 ou 1 dans la distribution de t e Remarques une fois l homog n it des variances tablie la violation des hypoth ses de normalit n a pas grand effet sur les r sultats du test sur les moyennes on dit que le test de Student est robuste ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 71 Plus les chantillons sont grands plus les corrections apporter en raison de l h t rog n it des variances sont inutiles Pour valuer la force du lien entre les deux variables dichotomique et continue on peut d duire un coefficient de corr lation point bis rial partir de t l aide 2 t de la formule r t n n 2 Une bonne alternative au test d hypoth se classique de plus en plus critiqu s dans la litt rature scientifique consiste calculer un intervalle de confiance autour de la diff rence des moyennes observ es ayant 95 ou 99 de chances de contenir la valeur attendue z ro si H est vraie Cet intervalle est centr en m m et sa demi largeur est gale au produit de l cart type de la variable M
67. Si l on veut que le passage par induction du particulier au g n ral ou de l observation au mod le soit pertinent et productif en mati re de connaissances il faut imp rativement que les chantillons tudi s remplissent certaines conditions Ils doivent tre avant tout sus dunes sabre de la population parente et pour cela doivent en principe tre tir s sessssseseeseesseesesseesseese D autre part ils doivent permettre des estimations fiables et suffisamment pr cises pour permettre la cons truction de mod les utilisables C est pourquoi les chantillons doivent si possible tre assez grands Soit un chantillon comportant n sujets cases en anglais par ex dans SPSS tir s au hasard pour un caract re donn chaque cas donne lieu une observation consign e g n ralement sous la forme d une r ponse on d finit ainsi une obser vable taille nom ge aptitude au raisonnement etc Si les observations sont num riques et ordonnables on parle d une variable X repr sentant le caract re tudi qui se r alise pour chaque sujet sous la forme d un score On peut d crire la distribution de ces scores l aide des indices statistiques nombres usuels savoir ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 104 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 4 Il existe une autre cat gorie de variables savoir celles qui associent des
68. TH ORIES ET TECHNIQUES DE BASE POUR L ANALYSE DE DONN ES EN PSYCHOLOGIE Inf rence analyse de puissance tests d hypoth se pr diction lin aire simple et multiple r gression structuration de donn es multiples Ann e 2008 Roland Capel Facult des SSP Universit de Lausanne TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES TABLE DES MATI RES A Introduction qu est ce que les statistiques 1 A l D crire estimer pr dire deux exemples th oriques 2 Pilerou Face ionur aria e oa s e E a E ARE pes 2 L urne d B rnoulli miseru nera erano nan aa a a E 2 A 2 D crire estimer pr dire deux exemples tir s des sciences humaines nnou unanunua aue 4 B Les bases du raisonnement statistique moderne 7 B 1 Origine de la pens e probabiliste formalis e 7 B 2 Les principaux outils probabilistes utilis s en psychologie 10 La loi normale ss anne d MSN SMS a de 10 La moyenne et le mod le normal de l erreur 13 La r gression t la corr lation imasste mea sites 14 C La notion de test statistique 16 C l Exemple th orique et d finitions irons den Tr eee nds nt 16 C2 Signification de la signification statistique 20 C 3 Du bon usage des tests d hypoth se
69. YSE DE DONN ES Sans logiciel sophistiqu mais avec EXCEL on calcule facilement la quantit N1 r que l on multiplie avec Sc cart type du crit re On obtient ainsi l cart type des r sidus recherch Sa SPSS calcule par d faut une valeur corrig e de cet cart type sous l appellation standard error of the estimate version SPSS 11 ou simplement standard error sous model summary En fran ais on l appelle souvent erreur type sur un score pr dit individuel Sa valeur se trouve en divisant par n 2 et non par n 1 la somme des carr s des r sidus Connaissant s ou mieux l erreur type on calcule facilement les bornes de tout intervalle de confiance pour C construit autour de la valeur pr dite C L intervalle de confiance gaussien 95 autour de C est born par C 1 96 Sgi Si l on veut s approcher au plus pr s des r sultats calcul s par SPSS il faut remplacer Sa _Q Par l erreur type fournie par le logiciel SPSS calcule ces bornes pour tout individu mais utilise une loi de distribution des erreurs diff rente t au lieu de la loi gaussienne Pour des chantillons petits les valeurs de SPSS peuvent tre l g rement diff rentes que celles calcul es par la m thode expos e ici Exemple Voici les donn es correspondant deux tests de raisonnement pass s 27 personnes 16 10 18 TABLEAU 10 Test RGC 20 Pr dicteur P 9 14 14 10 11 10 12 9 13 9 9 17 12 1
70. a dispersion des scores pr dits possibles correspondant un seul score pr dicteur gr ce un mod le de r gression estim on est en pr sence d une erreur d estimation ou de pr diction Indirectement cette erreur est aussi due l chantillonnage puisque celui ci conduit calculer un mod le de pr diction estim et non th orique auquel cas on ne parle plus d erreur mais de r sidu Enfin lorsque la loi normale s applique au score brut individuel pour d crire la distribution de tous les scores qu un seul individu aurait obtenus au m me test dans toutes les situations possibles on parle d erreur de mesure et on se place au m me niveau d interpr tation qu un physicien face l incertitude de sa mesure Le traitement de ce type d erreur a t abord au cours valuation psychologique Notons que lorsque l on veut construire un bon test il est n cessaire de r p ter au moins deux conditions en plus de la validit il faut que les scores soient pr cis bonne fid lit et que la discrimination des individus soit aussi bonne que possible En termes statistiques il faut que la dispersion des scores soit aussi large que possible et que l erreur sur chaque score soit pour sa part aussi petite que possible Le concepteur de tests se Le th or me central limite est consid r comme le fondement de l inf rence statistique car il permet l estimation d un param tre i
71. a question Selon Huberty 1993 et bien d autres auteurs les tests d hypoth se utilis s depuis bient t 40 ans ne sont en effet ni directement fish riens ni r ellement fid les aux directives rigoureuses de Neyman et Pearson Leur nature est en ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 25 v rit hybride car ils nient leurs origines tout en r alisant des confusions regrettables Huberty remarquait en effet que tr s peu de manuels citent les p res Fisher et Neyman Pearson comme si ces techniques existaient sui generis incitant l utilisateur croire qu elles seraient h rit es immuables d une tradition s culaire gage de qualit et de s curit absolue d utilisation La v rit est pourtant toute autre on sait que Fisher et Neyman amp Pearson travaillaient dans le m me institut et entretenaient des rapports conflictuels au point que ces derniers furent oblig s de poursuivre leurs recherches en Am rique Les quipes des deux courants en conflit vitaient de boire le th au m me moment etc Les anecdotes piquantes ne manquent pas ce sujet On peut reconstruire sans trop de peine cette petite histoire cf Peters qui devrait nous rappeler que le traitement des tests d hypoth se et le traitement des m thodes inf rentielles en g n ral n a jamais t l objet d un consensus et a toujours t l origine de con
72. ailleurs que le mod le pr dictif ainsi construit permet de pr dire la r ponse n importe quel item condition qu il soit caract ris dans les m mes dimensions m me s il n appartient pas au test Une autre possibilit d exploiter le mod le consiste tudier la diff rence entre zC et zC c est dire le r sidu ou erreur de pr diction Calculer la diff rence zC zC ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 95 revient mettre en vidence les items pour lesquels le mod le se trompe le plus lourdement par rapport la r ponse que la personne a donn e en r alit Ces items particuliers sont appel s singularit s et peuvent tre de deux sortes Les items que la personne a not s beaucoup plus haut que ce qui est pr dit pas le mod le et que l on appelle les sur estim s et les items not s beaucoup plus bas appel s sous estim s Du point de vue technique les items sur et sous estim s s isolent en standardisant la diff rence entre zC et zC puis en reportant les items pour lesquels cette diff rence d passe un certain seuil par exemple deux cart types Plus g n ralement une matrice de corr lations exprime l information commune globale v hicul e par un jeu de p variables num riques Il existe diverses m thodes pour structurer cette information Des m thode purement descriptives n
73. ains au jeu de hasard Pascal soumet ce probl me son ami math maticien Fermat Une riche correspondance s en suivit aboutissant entre autres l invention du triangle de Pascal base de l analyse combinatoire et premier jalon de la d couverte de la loi binomiale par Newton puis de la loi normale La loi normale Depuis son invention par Laplace et Gauss la loi normale a joui d une popularit grandissante et rien ne semble aujourd hui encore pouvoir mettre son r gne en p ril Il faut pourtant savoir qu au d but de ce si cle d j le math maticien fran ais Poincar ironisait son sujet Tout le monde y croit car les exp rimentalistes s imaginent que c est un th or me math matique et les math maticiens que c est un fait exp rimental La glorieuse histoire de la loi normale commence avec une intuition du philosophe et scientifique Blaise Pascal qui semble avoir t le premier avoir sugg r l existence d un lien formalis entre une quation math matique et une s rie d v nements d termin s par le hasard Il d couvrit que les d veloppements du bin me de Newton arrang s sous la forme d un triangle donnaient exactement la description quantitative des diff rentes combinaisons d occurrences Pile ou Face au jeu de la pi ce de monnaie En effet Si l on jette une pi ce deux fois on a la possibilit d observer trois types de combinaisons de P et de F auxqu
74. ait que kappa n est pas un d accord il mesure en fait un faux d am lioration par rapport au hasard Son niveau de signification d pend du nombre de sujet jug s et n est que rarement discut par contre son ampleur doit tre interpr t e Certains auteurs Gendre 1976 ont donn des appr ciations de kappa dans le domaine de la m thode des juges K compris entre 0 et 20 est consid r comme faible K compris entre 0 21 et 40 est consid r comme non n gligeable K compris entre 0 41 et 60 est consid r comme mod r K compris entre 0 61 et 80 est consid r comme lev K compris entre 0 81 et 1 est consid r comme exceptionnel Ces rep res doivent toutefois tre relativis s selon les domaines dans lesquels ils sont appliqu s En orientation professionnelle par exemple les exigences sont inf rieures et un indice de 50 est d j consid r comme exceptionnel E 1 4 Extension 2 analyse d une table de contingences comportant des effectifs tr s in gaux le rapport de chances ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 66 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Appliqu certaines tables de contingences 2x2 et d effectifs tr s in gaux le test du chi carr ne fournit parfois que de maigres informations et il peut tre utile d appliquer d autres m thodes tr s simples et souvent plus fructueuses Dans un exemple cit
75. ait sans doute choqu de d couvrir un tel forfait contre le bon sens lui qui crivait 1935 Pourvu que l cart soit nettement significatif il est sans importance pratique que p soit 01 ou 000001 Quand Neyman et Pearson ils seraient sans doute tr s tonn s d apprendre que de telles pratiques portent un nom qu ils ont donn une technique d cisionnelle qu ils ont voulu rigoureuse pour en finir avec les attitudes fiduciaires de Fisher et substituer des calculs de risques au sentiment d incertitude Une deuxi me r action face l vidence d une g n ralisation de pratiques hybrides mal comprises est de le rejeter et par suite de pr coniser d autres mani res d exprimer des diff rences Divers auteurs pr conisent depuis quelques ann es de ne plus utiliser les tests d hypoth se et de les remplacer par des calculs d intervalles de confiance qui vitent d avoir calculer des p values probl matiques Cette attitude a toutefois peu de chances de s imposer et il semble qu un nouveau type de compromis s impose peu peu on a pu remarquer que les derni res versions des logiciels statistiques les plus courants affichent maintenant les tailles d effet et les puissances post hoc par exemple SPSS Reconnaissons qu il s agit l d un progr s notoire en ce qui concerne les tailles d effet m me si l on peut facilement l valuer sans trop de peine en convertissant t F ou chi
76. ale appel e parente par les statisticiens TABLEAU 6 Kretschmer table de contingences entre morpho types et psycho types normaux hommes Schizothyme Cyclothyme Total Pycnique 21 547 568 Leptosome 932 183 1115 Athl tique 305 26 331 Total 1258 756 2014 Un tel tableau crois cf Tableau 6 ou table de contingence montrant des liens peut tre consid r de plusieurs mani res selon la port e de l inf rence envisag e Point de vue global y a t il dans la population des hommes un lien entre le type physique et le temp rament comme le pr tend l auteur sur la base de son exp rience ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 59 etun autre point de vue plus ponctuel par exemple Les hommes schizothymes en g n ral appartiennent ils bien au type leptosome plut t qu tout autre Ce probl me a d j t trait dans le cas des femmes dans le cadre du test d ajustement une proportion th orique 1 Probl matique On s int resse v rifier la pertinence d une th orie du d terminisme corps esprit propos d une population d hommes 2 Plan exp rimental V rification de la validit concourante par corr lation entre type physique et psychologique La notion de corr lation tant li e l approche statistique num rique
77. ale de l un ou l autre de ces v nements est gale 2 0107 0214 soit environ 2 Si l on ajoute les v nements 2B et 8B aux cas tr s rares on obtient 2 0547 1094 soit environ 11 ce qui ne correspond plus au seuil fix Ce qui signifie que nous pouvons observer entre 2 et 8 boules blanches dans notre chantillon de 10 sans pour autant devoir douter de H Par contre si notre unique exp rience fournit 0 1 9 ou 10 boules blanches alors nous rejetterons H au seuil amp 5 fix par convention On notera que la d cision de rejeter H si on trouve 0 1 9 ou 10 boules blanches est erron e 2 fois sur 100 puisque cette probabilit est pr cis ment celle d observer de tels v nements sous Ho En principe et dans tous les cas o la distribution de la variable de d cision est continue l erreur de premi re esp ce est gale e D finitions Les boules contenues dans l urne myst rieuse constituent la population qui nous int resse H est une hypoth se nulle mise propos de cette population Les boules que nous pouvons tirer constituent un chantillon L acte de tirer cet chantillon est une exp rience al atoire Le nombre de boules blanches observ es l occasion de toutes les exp riences al atoires du type tirer n boules est une variable al atoire appel e variable de d cision Notre unique exp rience correspondant une exp rience al ato
78. alement gr ce ces mod les on pourra pr dire le niveau de connaissance des l ves apr s le cours sur la seule base de leurs r ponses avant Ceux qui ont des r sultats pr dits trop faibles par rapport une norme pourraient b n ficier de cours sp ciaux ou d un encadrement mieux personnalis par exemple Une derni re remarque s impose l observation de notables am liorations dans la connaissance des techniques de recherche d emploi ne s explique pas n cessairement par le seul effet de la formation on peut aussi supposer que le fait d interroger les apprentis au sujet de leurs connaissances avant toute forme d intervention ait suffi les int resser au probl me et suscit des discussions fructueuses avec leurs parents amis etc Du point de vue purement exp rimental le plan d crit ci dessus ne permet donc pas de d clarer que le traitement est utile Une recherche plus rigoureuse aurait exig un plan plus complexe comportant au moins un groupe t moin test deux fois mais n ayant pas suivi le cours Il semble que pratiquement cette exigence soit le plus souvent impossible satisfaire B Les bases du raisonnement statistique moderne Apr s avoir montr les diff rents objectifs des techniques statistiques appliqu es dans la recherche en sciences humaines il est temps de pr senter les principaux courants de pens e qui ont contribu la conception de la th orie statistique moderne
79. ant la moyenne des diff rences sujet par sujet Soit un caract re X mesur aux temps t t t4 s par s par un traitement L hypoth se nulle d inefficacit des traitements se formalise par Ho Ha 0 autrement dit X et X sont une seule et m me variable ou encore on ne peut pas pour un individu donn distinguer des scores de X avant et apr s le traitement Sujet X to X ti Xo X u di 1 X X X1 xX 2 X X X2 X 3 X3 X 3 X3 X 3 etc jusqu n Xp Xi Xi Ki L hypoth se nulle d inefficacit des traitements se formalise par Ho Ha O autrement dit X et X sont une seule et m me variable ou encore on ne peut pas pour un individu donn distinguer des scores de X avant et apr s le traitement La moyenne des diff rences observ es est une variable M si H est vraie M est 2 normale a une esp rance z ro et une variance mais on ne conna t pas la n variance th orique des diff rences on va donc l estimer par la variance des diff rences observ es dans l chantillon savoir SG ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 73 et on sait que M suit donc une loi de Student 2 P R Sq d esp rance z ro et de variance n f a 55 M R Finalement la quantit standardis e T suit une loi 2 Sa n de Student n 1 degr
80. aque caract ristique constituera une variable et l ensemble de ces variables peut tre soumis l ACP Le r sultat de cette technique sera directement orthogonal ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 100 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Dans le cas o les caract ristiques ne sont pas ind pendantes comme dans le premier cas ci dessus il est possible de les orthogonaliser condition que leurs intercorr lations ne soient pas trop fortes Orthogonaliser une s rie de n variables suppose d effectuer une ACP avec rotations Varimax en exigeant que la solution comporte autant de facteurs que le nombre de variables de d part Les saturations permettent d identifier les facteurs et de v rifier qu ils correspondent bien aux variables originales ils se pr sentent souvent dans un ordre diff rent Les caract ristiques d un test fonctionnel de bonne qualit devraient tre construites en combinant les r sultats de ces deux m thodes ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE I TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 101 APPENDICE EXERCICES DE LECTURE DE TABLES ET QUESTIONS DE STATISTIQUE Loi de r partition normale standardisation 1 1 1 2 1 3 2 1 22 Ar 3 2 3 3 Si x est le score maximum de X quel est son percentile R ponse Quel est le percentile du m dian R ponse Si moyenne et m dian sont
81. arer cette quantit au seuil d termin par un domaine de rejet de 5 ou 1 dans la distribution de t de la table Laquantit d MH est la taille de l effet d l appartenance au groupe s exp rimental vs th orique e Remarque la statistique t est robuste et supporte bien la violation de la r gle de normalit du caract re X dans la population Le probl me est plus d licat pour les tests unilat raux Exemple sans analyse de puissance a priori On mesure sur un chantillon de 25 enfants une moyenne de 113 64 une preuve de Q I L cart type est de 12 4 On d sire savoir si cet chantillon peut tre consid r comme tir d une population g n rale dans laquelle la moyenne est de 100 H l chantillon est tir d une population o u 100 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 54 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES oncaleule t 7H 113 64 100 14 J PE 5 5 113 64 100 la taille de l effet est gale 12 4 environ 1 la diff rence observ e est donc tr s importante Cette quantit peut tre compar e la valeur de t24 au seuil 5 qui est 2 064 si Ho est vraie On constate que notre valeur d passe largement ce seuil ce qui nous incite rejeter PH et conclure provisoirement avec un risque de premi re esp ce de 5 que notre chantillon provient d une population particuli re dans laquelle le Q I
82. ariables originales et chaque facteur s appelle le de variance totale expliqu par chaque facteur somme des carr s des saturations en colonne Cet indice montre la repr sentativit de chacun des facteurs il est en relation directe avec la variance de chacun d eux On cherche en g n ral a construire un mod le optimal r duit quelques facteurs exprimant eux seuls l information utile et interpr table Divers crit res Kaiser Cattel etc permettent de choisir le nombre de facteurs retenir e Un cas particulier orthogonalisation de dimensions descriptives d items mod le de mesure fonctionnel Nous avons vu que les items d un test pouvaient tous tre d crits au moyen d un certain nombre de caract ristiques dont le choix d pend de la m thode utilis e On peut soumette les items un chantillon de personnes et analyser la structure de leurs interrelations L analyse en Composantes Principales d gagera une structure orthogonales dont les l ments peuvent tre interpr t s Pour caract riser les items on peut utiliser les corr lations saturations de chacun d eux avec les facteurs Ces saturations n tant pas orthogonales on doit ensuite les orthogonaliser conform ment aux exigeances d crites dans le chapitre pr c dent On peut aussi charger un groupe d experts de caract riser les items selon des caract ristiques a priori Dans ce cas la moyenne de leurs valuations ch
83. atisticiens sont plus pointilleux sur les termes utilis s ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 99 Du point de vue technique on peut construire autant de facteurs qu il y a de variables originales Chaque facteur est une combinaison lin aire de celles ci au sens des r gressions multiples Le choix des coefficients est videmment un probl me ardu tant donn les contraintes impos es les facteurs doivent tous tre orthogonaux entre eux et leurs variances l information doivent tre d croissantes vrai dire les math maticiens avaient d j la solution ce probl me d s le 19 si cle bien avant que les statisticiens psychologues ne posent le probl me Nous nous contenterons ici de dire que ce probl me trouve sa solution dans la d composition spectrale due Eckart amp Young de la matrice de corr lations des variables originales Les corr lations entre les variables originales et les facteurs s appellent les saturations elles permettent de nommer interpr ter les facteurs et de leur donner un sens psychologique La corr lation multiple entre les facteurs et chaque variable originale s appelle la communalit racine carr e de la somme des carr s des saturations en ligne cet indice permet de savoir quel point chaque variable est bien repr sent e par la structure factorielle La corr lation multiple entre les v
84. au hasard des plantes dans la population F de leurs enfants On compte alors les occurrences du ph notype D Si ce taux avoisine 100 on acceptera l hypoth se H sinon on pr f rera H Ne serions nous pas ici en pr sence d un test d eug nisme D 2 Test d ajustement une distribution th orique continue le mod le normal Une bonne partie des tests d aptitudes sont pr sent s dans les manuels accompagn s d talonnages normalis s en particulier les tests de Q I Il n est pourtant pas vident que certaines aptitudes soient automatiquement distribu es normalement dans toutes les populations et il peut tre int ressant de tester la normalit d une distribution lorsqu on dispose de donn es provenant de populations peu tudi es Les tests de normalit peuvent consister en diverses analyses de complexit variable Le simple coup d oeil distingue facilement des distributions tr s asym triques mais ne peut pas juger les carts dus la voussure ce genre de test empirique est donc insuffisant L analyse des param tres de distribution est plus fiable et on peut tester les coefficients de sym trie et de voussure ou aplatissement cf Capel Guide des T P p 87 La plupart des logiciels d analyse statistique effectuent sur demande un test de normalit avec analyse du Q Q Plot et test du K S de Lilliefors Le principe des tests de normalit est bas sur la mesure
85. ble et une puissance exig e priori par exemple 1 B 80 on peut se ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 31 demander quelle taille d effet minimum un tel test peut d celer avec une probabilit de 80 par exemple En r sum on se rend donc compte que les grandeurs suivantes sont li es le niveau de signification du test la puissance du test la taille de l effet d celer et la taille de l chantillon ce qui signifie que si l on en contr le une on fera n cessairement varier les autres Le but de ces ajustements est de mettre en place un test suffisamment sensible pour mettre en vidence un effet d clar pertinent et int ressant dans le domaine de la recherche Lors de ces ajustements certaines limites sont toutefois accept es de mani re plus ou moins conventionnelle Cest rarement inf rieur 5 Il est en effet tr s mal per u qu un test se donne trop de latitude envers le risque de 1 esp ce un tribunal peut difficilement se permettre d tre injuste Dans les recherches qui se pr occupent du risque de AD esp ce on constate que B 20 est assez couramment accept ce qui montre que ce risque tre un tribunal inutile est quatre fois mieux tol r que le risque de 1 esp ce Il nous semble que l on devrait en toute bonne foi se demander si ces conventions ne d coulent pas directement du code
86. bserv e fortuitement n est qu une r alisation au sens statistique d coulant d une exp rience al atoire parmi d autres Dans cette optique la t che de la recherche est certes de d crire certaines observations mais aussi de tester l ad quation d un certain mod le ces observations Depuis le d but de ce si cle un arsenal impressionnant de tests d hypoth se a t d velopp cette fin Dans les cas multivari s les analyses factorielles confirmatoires jouent le m me r le il s agit de tester l ad quation d une structure th orique une structure observ e En plus de la simple description le second r le des statistiques est donc d ordre d cisionnel elles permettent dans certaines limites de confiance de d cider si oui ou non une certaine r gularit observ e localement peut tre g n ralis e un ensemble plus g n ral savoir la population Les statistiques remplissent encore un troisi me r le qui consiste r aliser l inf rence c est dire estimer et pr dire Ces deux termes ne sont pas superposables Supposons par exemple que le lien d clar non nul par un test d hypoth se convenable entre deux grandeurs mesur es X et Y sur un chantillon puisse tre consid r comme lin aire et que l quation les liant s exprime sous la forme aX b Y Les param tres a et b de l quation ci dessus ne sont que des estimations des param tres th or
87. carr en un quivalent de coefficient de corr lation mais il faut aussi admettre que le calcul de la puissance post hoc n est pas tr s informatif celle ci sera en effet insuffisante ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 28 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES si le test n est pas significatif et suffisante si le test l est Ce ph nom ne d coule n cessairement du mode de calcul qui identifie la diff rence observ e la taille d effet qui aurait d tre d termin e l avance Une troisi me attitude consiste reprendre la r flexion probabiliste la base et de s int resser aux travaux de Cohen 1994 auteur d un type d approche souple et originale pas trop complexe du point de vue math matique savoir l analyse de puissance a priori power analysis On pourrait dire en simplifiant un peu que cette th orie constitue une tentative de revenir aux conceptions originales de Neyman et Pearson mais sans leur adjoindre des notions fish riennes l id e n tant plus de savoir si un r sultat est significatif ou non mais de mettre en place un d tecteur de diff rences calibr sur mesure pour mettre en vidence une diff rence laquelle on a r fl chi pr alablement et qui nous int resse Cette approche implique l usage de la notion de puissance d un test qui est l objet du point suivant C 4 L analyse de puissance selon Cohen 1988 et ouvra
88. cette valeur doit tre compar e la valeur de t 4 degr s de libert au seuil unilat ral droite 5 On regarde donc la table dans la colonne 10 et on voit que le seuil 5 unilat ral droite est 2 13 H est donc rejet e au profit de H le traitement semble efficace On peut aussi calculer un intervalle de confiance 95 autour de my r alisation de M4 dont l esp rance est z ro et l cart type e 0 316 l intervalle de confiance se d termine donc comme suit 2 to9s 0 316 2 to o5 0 316 2 0 67 2 0 67 1 33 2 67 et on voit bien qu il ne contient pas la valeur z ro E 2 2 Cas 2 tests d ind pendance entre une variable num rique et une variable cat gorielle quelconque plusieurs niveaux le test du F de Fisher Snedecor et l analyse de variance On regroupe sous le terme analyse de variance une grande diversit de techniques qui ont toutes pour but de distinguer si deux trois ou plus de trois groupes peuvent tre consid r s comme ayant t tir s d une seule et m me population S il n y a que deux groupes on se retrouve dans le cas de la comparaison de deux moyennes par le biais d un test de Student mais l analyse de la variance peut aussi tre appliqu e C est principalement lorsque l on est en pr sence de trois ou davantage de groupes que l analyse de variance s impose il est en effet tr s peu judicieux
89. confondus dans quelle proportion partagent ils la distribution des scores R ponse Standardiser revient centrer et r duire une distribution Si m 100 et s 15 quel est le score standard score z de x 85 R ponse Sim 100 ets 15 le score standard score z de x est 1 quel est alors x R ponse Usage de la loi normale r duite cf table de u Quel est le percentile du score x m s r partition suppos e normale R ponse Quel est le percentile du score x m s r partition suppos e normale R ponse Quelle est la proportion de scores compris dans l intervalle m s id R ponse ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 102 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 3 4 Soit une distribution suppos e normale de moyenne 20 et d cart type 6 quel est le pourcentage de scores inf rieurs 15 R ponse 3 5 Soit une distribution suppos e normale de moyenne 60 et d cart type 10 20 des scores sont sup rieurs R ponse 3 6 Soit un test d aptitudes dont les r sultats ou scores sont suppos s distribu s normalement et arrondis 5 leur moyenne est 50 et l cart type est 10 Suppo sez que vous deviez s lectionner le 40 d individus ayant obtenu les meilleurs r sultats quel est le meilleur score non s lectionn R ponse 3 7 Utilisant les m mes r sultats qu
90. consiste proposer divers cours permettant aux apprentis de mieux pratiquer les diff rentes techniques de recherche d emploi r diger un CV une lettre soutenir un entretien t l phoner L indice quantitatif ou crit re utilis pour mesurer ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 6 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES l effet du cours est par exemple le degr de connaissance des techniques auto valu par les apprentis Le chercheur assumant cette recherche tire en principe un chantillon de ch meurs au hasard afin que celui ci soit repr sentatif de l ensemble des personnes concern es Le crit re connaissance des techniques est mesur deux fois une fois avant le cours une fois apr s L chelle utilis e est du type Likert en six points Les deux moyennes sont calcul es puis leur diff rence On peut aussi d tailler les r sultats l ve par l ve tout en pr cisant leur sexe leur ge niveau scolaire classe tablissement commune etc Cette phase correspond l fape descriptive qui aboutit en g n ral des tableaux dans lesquels figurent des effectifs des pourcentages des moyennes et des cart types L interpr tation de ces r sultats peut r v ler que les diff rences apr s avant sont positives donc que le cours aurait entra n un certain progr s dans la connaissance des techniques pour le groupe consid r C est l objet d
91. contre le risque de premi re esp ce sous pr texte qu il craint de condamner des innocents il doit aussi se donner les moyens de ne pas relaxer des crapules car cela l exposerait tre un tribunal inutile Le risque de passer c t d un coupable risque de seconde esp ce B est pour sa part valu en g n ral 10 ou 20 dans les manuels de statistiques Cette valeur conventionnelle montre que les statistiques inf rentielles semblent ob ir aux imp ratifs sociaux et thiques de l Angleterre d mocratique du d but du XX si cle et tout porte croire que pour un tribunal il est moins grave d tre inutile qu injuste Nous ne pouvons qu approuver cette r solution mais nous ne pouvons nous emp cher d tre surpris qu il en aille de m me avec les tests d hypoth ses ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 29 La puissance d un test est un nombre gal la probabilit lors d une d cision bas e sur une exp rience al atoire de rejeter avec raison l hypoth se nulle ou en termes juridiques de condamner un coupable bon escient La puissance d un test peut donc tre associ e la capacit de celui ci d tecter une diff rence existant entre deux mod les mis en comp tition dans un test de type Neyman amp Pearson Pr cisons ces termes le test Fish rien classique avec d finition d une H mais
92. correspondant au type consid r dans le tableau des effectifs observ s ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 51 D cidons que si le mod le est valable alors la valeur num rique f observ e dans une exp rience particuli re devrait se trouver contenue dans un intervalle de confiance aux limites bien d finies construit autour de la valeur th orique p p tant l esp rance math matique de F D finissons les bornes de cet intervalle Si F est distribu e de mani re gaussienne alors elle se comporte comme les valeurs standardis es u telles que d crites dans une table de la loi normale On y voit que par exemple la valeur de 1 96 on peut arrondir 2 pour les calculs rapides marque la limite des 2 5 inf rieurs et des 2 5 sup rieurs On calcule ainsi un intervalle ayant 95 de chances d accueillir notre valeur exp rimentale si Ho est vraie Comme notre variable F a une moyenne esp rance p 0 60 et un sigma cart type de J Lee 0 02 en proc dant l op ration inverse de la stan dardisation on peut facilement calculer les bornes d un intervalle 95 construit autour de 0 60 Borne sup rieure 0 60 0 02 1 96 0 60 0 04 0 64 Borne inf rieure 0 60 0 02 1 96 0 60 0 04 0 56 5 La question d cisive Notre intervalle contiendra t il la valeur observ
93. d effet est il int ressant de mettre en vidence n est pas toujours simple Dans le but d aider les chercheurs Cohen s est attach clarifier au mieux les liens unissant Q 1 f N effectif de l chantillon et d la taille de l effet Ces relations sont particuli rement faciles comprendre dans le cas des tests portant sur des diff rences de moyenne Dans un tel cas Cohen d finit d abord la taille de l effet comme la diff rence entre les moyennes th oriques attendues sous H et sous H rapport e l cart type de la population parente Cette valeur n cessite la connaissance du sigma de la population qui est en principe th orique et donc inconnue mais elle peut tre facilement estim e en prenant le sigma de l chantillon Ainsi d finie d est ind pendante de N mais comme nous venons de le souligner ci dessus H n est pas toujours facile d finir il faut alors estimer intuitivement d op ration que nombre de chercheurs r pugnent effectuer car ils estiment en g n ral ne rien savoir de H Cohen pr tend que tout chercheur peut se faire une id e m me impr cise de la taille de l effet attendu et il va m me jusqu proposer 3 cat gories d effets _ D lt 20 petits effets les distributions chantillonales sous H et H se chevauchent 85 20 lt D lt 50 effets moyens 66 de chevauchement D gt 80 effets importants 53 de chevauchement
94. d un outil probabiliste la loi dite normale au service de l inf rence sur la mesure vraie d une distance en astronomie L apport de Gauss la pens e scientifique fut de r unir trois courants de la pens e scientifico philosophique ayant suivi depuis leur naissance environ un si cle plus t t des volutions parall les L approche scientifique classique h rit e de Newton et des grands astronomes du 18 si cle cherchait tirer des lois g n rales partir d observations aussi pr cises que possible astronomie applications fondamentales la navigation maritime par exemple Rappelons l intuition g niale de Newton caricatur e par l v nement de la chute de la pomme le grand Newton peut expliquer l v nement le mouvement de la pomme par rapport la terre en toute g n ralit par une quation math matique simple faisant intervenir la masse des objets en pr sence la terre et la pomme ainsi que le carr de leur distance L approche inf rentielle d essence plus logico philosophique ne s int ressait pas aux mouvements des corps physiques Son objectif tait de formaliser en recourant galement aux math matiques les m canismes de la pens e inductive classique En introduisant la notion de probabilit conditionnelle et celle de probabilit a priori Bayes 1702 1761 montra le premier la voie qui conduira la possibilit d estimer les param tres d un mod
95. dans le contexte historique de leur d veloppement B 1 L origine de la pens e probabiliste formalis e On fait volontiers remonter les origines de la pens e scientifique l Antiquit grecque mais c est Kepler le premier et surtout Newton et Leibniz quelques ann es plus tard que revient traditionnellement la paternit des premiers d veloppements scientifiques formalis s d crivant des lois naturelles r gularit s exprim es sous la forme d quations math matiques Cependant la brillante tradition scientifique qui s en suivit dut attendre le d but du 18 si cle pour tre enfin en mesure de ma triser un probl me qui embarrassait tous les exp rimentalistes et observateurs de la nature aussi bien ceux attach s l tude de l infiniment grand que de l infiniment petit il s agit du probl me des erreurs de mesure ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 8 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES C est probablement Gauss et Laplace que le contr le des erreurs de mesure a pu devenir possible et permettre enfin l closion des m thodes d analyse de donn es modernes encore utilis es de nos jours en physique ainsi qu en sciences naturelles et humaines et ailleurs encore C est en effet Gauss v n r aux Etats Unis comme l un des plus grands g nies scientifiques de tous les temps qu on attribue la premi re utilisation vers 1810
96. de distinguer plusieurs groupes au moyen de tests de t successifs les groupes n tant pas ind pendants les tests sont li s et les niveaux de signification des divers tests se contaminent les uns les autres si bien qu il faudrait leur apporter des corrections qui ne sont pas toujours simples Lorsqu on est en pr sence de plusieurs groupes ceux ci peuvent tre d termin s par une seule variable cat gorielle appel e facteur ou par plusieurs facteurs dont les niveaux se croisent Par exemple une variable cat gorielle trois niveaux bas moyen lev d termine videmment trois groupes Mais si on la croise avec une variable dichotomique par ex sexe F ou M on est en pr sence de 6 groupes F bas M bas F moyen etc Si l on ajoute encore l influence d un troisi me facteur ge lt 15 ans gt 15 ans on se retrouve avec 12 groupes Et les choses deviennent rapidement tr s complexes ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 76 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Les exp riences qui sp cifient soigneusement les combinaisons de variables et qui s int ressent la moyenne d une variable continue dans chacun des groupes doivent d crire un plan factoriel pr cis dans lequel il doit tre sp cifi si les niveaux des facteurs sont fixes ou al atoires si les mesures sont successives appari es ou non si un facteur est nich dans un aut
97. de l cart entre certains fractiles de la distribution observ e et les m mes fractiles donn s par la loi normale Ces diff rences sont mises au carr rapport s aux valeurs attendues et somm es et la valeur globale de la diff rence est une quantit D qui suit une loi de chi carr n 1 degr s de libert n tant le nombre de fractiles utilis s cf Tables statistiques en annexe En r sum test de normalit mode d emploi e Conditions d utilisation si possible au moins 100 sujets tir s au hasard e Proc dure suivre Calculer les fr quences et effectifs observ s nf ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 43 Standardiser la distribution empirique n sujets en 9 classes Stanines lin aires Calculer les effectifs th oriques np impos es par la loi normale c est dire en multipliant n par les fr quences th oriques correspondant aux 9 classes soit p 4 7 12 17 20 17 12 7 4 y 2 nf np Calculer la quantit g X cafi np 1 SB Comparer cette quantit au seuil d termin par un domaine de rejet de 5 dans la distribution de 4 savoir 15 5 e Remarque le fait de rejeter l hypoth se nulle de normalit n oblige pas n cessairement normaliser la distribution tout d pend de la caract ristique mesur e S il s agit d un trait de personnalit rien n indique
98. der une comparaison de moyennes et se demander si les r sultats avant se distinguent significativement de ceux apr s L hypoth se nulle postule l inefficacit du traitement les r sultats du groupe sont les m mes aux al as de l chantillonnage pr s avant et apr s traitement autrement dit les deux distributions empiriques ne peuvent pas tre distingu es aux al as de l chantillonnage pr s ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 72 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Traitement du probl me On pourrait croire que les formules d velopp es plus haut vont s appliquer dans ce cas comme dans les pr c dents il n en est pourtant rien cause de la d pendance entre les groupes les variances avant et apr s ne sont pas ind pendantes puisque calcu l es sur les r sultats des m mes individus mesur s deux fois Il s en suit que l estimation de la variance de la diff rence des moyennes ne peut plus se faire simplement car les variances ne sont plus additives et 2 2 ni S L M M 1 2 n n on ne peut donc plus crire que Lorsque deux chantillons ne sont pas tir s de mani re ind pendante la variance de la somme ou d une diff rence de deux variables n est pas gale la simple somme des variances Solution on peut contourner la difficult en ne s int ressant plus la diff rence des moyennes mais en calcul
99. diquer les pratiques douteuses li es l usage des tests statistiques Pour reprendre les termes acides de Salsburg 1985 elles se sont impos es comme une v ritable religion gage 9 NHST Null Hypothesis Significance Testing 10 Tryon utilise ce dernier argument pour introduire une nouvelle mani re de contourner l usage des NHST technique qui ne nous int ressera pas ici ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 23 d emplois et de salaires pour d innombrables chercheurs universitaires diteurs imprimeurs et autres professions associ es tous int ress s ce que p lt 0 05 Les lignes qui suivent ont pour but de montrer que p lt 0 05 n est en fait pas une garantie de l int r t d un r sultat ou d une recherche mais que l usage intelligent des tests d hypoth se est possible et pas si difficile condition d apprendre se servir d un logiciel d analyse de puissance ou de poss der quelques notions de programmation Bien plus cet effort peut constituer la source d un int r t nouveau loin du climat de culpabilit malsain propre l usage m canique et vide de sens des valeurs p et autres toiles simples doubles ou triples directement inspir es d un c l bre guide gastronomique En pr ambule rappelons que les tests d hypoth se actuellement utilis s sont une cr ature hybride Gigerenzer 1993
100. distribution normale soit 1 96 ou 2 54 Calculer la quantit z La quantit p f peut directement tre interpr t e comme une taille d effet laquelle on peut appliquer les crit res de Cohen e Remarque les quantit s np ou n 1 p effectifs attendus doivent tre toutes deux sup rieures 5 D 5 Test d ajustement une moyenne th orique Ce probl me a t celui de W Gosset Student qui travaillait dans une brasserie de bi re et tait charg de surveiller les taux de diverses substances pr sentes dans les ton neaux en fermentation D rang par l odeur des tonneaux Gosset chercha v rifier sans avoir ouvrir tous les tonneaux si les taux X d une certaine substance avaient bien pour moyenne une valeur th orique 4 Connaissant le th or me central limite Gosset savait que le taux moyen M mesur sur un chantillon de taille n suivait une loi normale d esp rance Li et d cart type 2 n 2 si H l chantillon est tir d une population dans laquelle m 1 Il lui aurait alors t facile de tester la quantit standardis e Z M H qui suit une loi normale cen o Jn tr e r duite si H lt gt l chantillon est tir d une population dans laquelle la moyenne du caract re mesur est U est vraie Pour Gosset l ennui r sidait dans le fait que s il connaissait la moyenne u des taux X dans la population de tonneaux il en ignorait par c
101. dit quel est le ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE V TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 109 2 7 Que vaut Xa 0 5 7 autrement dit quel est le 2 8 Quelle est la probabilit de trouver un iii sup rieur 9 348 7 2 9 Quelle est la probabilit de trouver un A sup rieur 12 838 2 10 Quelle est la probabilit de trouver un X Ts gal 2 366 usesyesusmte 2 11 Quelle est la probabilit de trouver un X13 sup rieur 1 869 et inf rieur 6 25 Distribution de rapports de variances et loi F de Fisher Nous avons vu dans les points pr c dents qu une variance th orique peut s estimer de plusieurs mani res en particulier l aide des variances d chantillons mais aussi l aide de la variance des moyennes d chantillons de taille fix e La th orie statistique s est aussi int ress e conna tre la distribution de rapports d estimations de variances Toute variance tant une somme de carr s de diff rences sa distribution chantillonnale pour une taille d chantillon fix e suit une loi de chi carr d pendante de la taille de l chantillon Par exemple la variance d un chantillon de taille n suit une loi Xin 1 gt On dit aussi que le nombre de degr s de libert attach la somme de carr s est n 1 Pour une estimation de variance obtenue partir d
102. du premier degr d finissant une combinaison lin aire qui s crit C B P B P K Comme dans le cas pr c dent on collecte un chantillon d apprentissage earning sample dans lequel on mesure les P et C R soudre un probl me de pr diction consiste trouver les meilleurs coefficients B ainsi que la constante K tels que C et C soient en corr lation maximum Les logiciels modernes permettent en g n ral de trouver les nombres n cessaires en quelques secondes Le probl me de la qualit de la pr diction se pose nouveau Il est intuitivement vident que plus les pr dicteurs sont globalement li s au crit re plus la pr diction sera pr cise Ce lien est mesur par la corr lation entre C et C mais comme C n est pas une variable mesur e mais une variable construite par combinaison lin aire des P on appelle ce coefficient corr lation multiple et on le note par convention R Toujours par convention les coefficients B sont appel s poids B De m me que pour le cas des mod les simples plus R est proche de 1 ou 1 plus la pr diction est pr cise si R est nul elle est impossible On peut aussi simplifier l quation de r gression pr diction multiple en standardisant les variables P en zP et C en zC Dans ce cas on construit une combinaison lin aire de A variables en scores z zC B zP B zP B zP avec zC et zC en ROLAND CAPEL COURS 2008 UNIVERSIT DE L
103. e ce qui pourrait tre le cas ici il ne peut tre quantifi lorsque H est simplement compl mentaire H Il n existe en effet pas de distribution th orique pour une hypoth se composite de ce genre e Conclusions On peut s interroger sur les enseignements de cette exp rience Du point de vue du progr s de la connaissance on reste sur sa faim une seule exp rience ne permet pas de mettre une hypoth se en doute surtout si elle est bien ancr e dans la rationalit comme le mod le d uniformit des naissances _ Onsait d autre part que m me en l absence de toute influence astrale il est probable que cette hypoth se th orique ne corresponde pas la r alit Une plus ample documentation est n cessaire pour juger du ph nom ne de l irr gularit saisonni re des naissances Ce fait n aide pas clarifier la situation Et finalement comment distinguer une ventuelle influence des astres de celle d autres facteurs saisonniers Si H avait t rejet e aurions nous r ellement tenu un argument pour l astrologie Certainement pas tout au plus une piste d investigation explorer de mani re plus s rieuse plus grands chantillons meilleure repr sentativit etc ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 49 On a donc appris bien peu de choses et c est ce qui peut expliquer la relative indiff rence d
104. e 50 50 on se retrouve alors dans le cas de la pi ce de monnaie Si cette hypoth se devait tre rejet e de nouvelles questions se posent L estimation statistique va tenter de formuler un nouveau mod le de la composition de l urne sur la base des r sultats du n tirage par exemple p Blanche 40 cette estimation est bien entendu assortie elle m me d une distribution de probabilit s donc d un intervalle de confiance Dans un tel cas la pr diction statistique permet de parier sur un nombre de boules blanches proche de 40 pour un nouveau tirage de 100 boules par exemple ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 4 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES La strat gie de recherche d crite dans la figure ci dessus p pr c dente est celle qui a t adopt e g n ralement en psychologie A 2 D crire estimer et pr dire deux exemples emprunt s aux sciences humaines e Exemple 1 Dans le cadre de la psychologie des int r ts on peut se demander si les tudes en sciences humaines attirent autant les hommes que les femmes Si on tire un chantillon d effectif 100 la simple tude descriptive consiste compter les tudiants des deux sexes Si ce r sultat devait permettre une inf rence la population globale des personnes susceptibles d tre attir es par ce type d tudes on peut dans un premier temps tester l hypoth se que la r partition est
105. e Total Pycnique 20 202 231 Leptosome 432 86 518 Athl tique 101 14 032 115 Total 562 302 864 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 50 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 2 Plan exp rimental Imaginons l exp rience al atoire tirer un chantillon de n individus femmes par exemple d clar s schizothymes et demander un expert de les ranger selon leur type physique d apr s la m thode de Kretschmer 3 Mod le th orique attendu D crire un mod le d ind pendance i e postuler que Kretschmer a tort suppose un peu de r flexion Comme dans le cas de la r partition des signes astrologiques on pourrait postuler un mod le uniforme de r partition des probabilit s si bien que si le classement des sujets se ferait en trois types selon des probabilit gales savoir 1 3 33 Autrement dit dans un tel mod le la probabilit d tre class e leptosome pour une femme schizothyme est de 33 contre 66 d tre class e autrement Cependant les chiffres fournis par Kretschmer ne nous permettent pas de postuler un mod le quiprobable Si l on admet que l chantillon tudi constitue un chan tillon plus ou moins al atoire il est clair que les leptosomes sont plus nombreux dans la population courante que les individus des deux autres types Plus pr cis ment en ce qui concerne les femmes Kretschmer a observ 518 types l
106. e savoir s ils sont utiles ou non Parmi les auteurs qui ont tent de redonner aux tests statistiques leur dignit Cohen est le plus cit C est lui en effet qui est l origine de l analyse de puissance power analysis qui peut d une certaine mani re tre consid r e comme une remise au go t du jour de l approche de Neyman amp Pearson Selon cette approche un test statistique ne peut mettre en jeu qu une seule hypoth se il doit obligatoirement mettre en jeu deux hypoth ses concurrentes pr cises Il n est donc pas question comme on le voit souvent de d finir des hypoth ses alternatives vagues du type r 0 contre r diff rent de 0 La puissance d un test ne peut en effet tre d finie que si l on dispose de deux hypoth ses alternatives pr cises et elle est d autant plus grande que B est petit et il y a donc 3 mani res de la contr ler Plus est grand plus B est petit et donc grande est la puissance mais on n accepte quasiment jamais que amp gt 0 05 car le risque de rejeter H tort est tr s mal v cu un tribunal qui se respecte refuse avant tout d tre injuste Comme on ne peut pas agir sur Q on peut faire varier le d calage entre les deux distributions correspondant aux deux hypoth ses en concurrence cette distance est ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 30 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES appel e faille de l
107. e une r gle de d cision si une hypoth se est pr f r e une autre et que ce choix a des cons quences pratiques alors il est n cessaire de quantifier le risque que l on court lorsqu on agit de la sorte Dans notre cas si l on d clare qu une valeur observ e D comprise dans le 5 des valeurs extr mes de la dis tribution de chi carr signe le rejet de H alors il faut s attendre se tromper 5 fois sur 100 exp riences puisqu il est clair d apr s la distribution th orique que 5 exp riences sur 100 fournissent de telles valeurs m me si l hypoth se nulle est vraie Dans cet exemple on supposait qu il n est pas trop grave d orienter des gens d j int ress s par les sciences psychologiques vers ce type d orientation sur la seule base du crit re signe astrologique d o le choix d un seuil peu exigeant Dans la vision fr quentiste des probabilit s le risque de premi re esp ce rejeter Ho alors qu elle est en fait vraie est donc gal la probabilit de trouver une valeur sup rieure au seuil valeur de chi carr fix Dans le langage m thodologique actuel on appelle seuil aussi bien la valeur donn e par la table 19 67 que la probabilit cumul e que chi carr d passe cette valeur 5 Dans cette conception la probabilit d un ris que est simplement associ e une fr quence Quand au risque de seconde esp ce ne pas rejeter Ho alors que H est vrai
108. e valeur empirique 80 ne s y trouve pas On pourrait se demander quelle est la probabilit d observer une fr quence f 8 sous H Cette valeur s carte de 80 50 30 de l esp rance p de la variable F sous H Cette valeur de 30 quivaut 30 s 30 05 6 cart types de l esp rance ce qui rend cet v nement extr mement rare sous Ho Nous voici donc amen s rejeter le mod le d quiprobabilit ce qui signifie que si nous tirons au hasard une personne tudiant en psychologie la probabilit de tirer une personne de sexe f minin est sup rieure celle de tirer une personne de sexe masculin Le risque de se tromper en affirmant cela est de 5 pour cent ce qui pratiquement signifie que sur 100 tirages d chantillons de 100 personnes 5 d entre eux fourniraient des valeurs f situ es hors de l intervalle de confiance autour de 5 alors m me que H serait vraie Le mod le a priori d quiprobabilit tant rejet on adh rera provisoirement un mod le a posteriori savoir celui d une r partition de 80 20 mais ce nouveau mod le va devoir tre confirm par de nouvelles exp riences testant l hypoth se nulle p F 8 Et ainsi progresse la connaissance Exemple 2 L administration d un canton s interroge au sujet de l opportunit de financer un programme de formation la recherche d emploi destin des apprentis Le traitement
109. e variables on les repr sentera par des fl ches de couleur diff rentes Pour ce faire souligner dans chaque colonne la deuxi me corr lation la plus forte et proc der colonne par colonne on liera les deux variables entretenant cette corr la tion par une fl che allant de la variable figurant dans la premi re colonne la variable figurant dans la ligne correspondante la seconde corr lation la plus lev e sou lign e dans cette premi re colonne Et ainsi de suite On voit que certaines fl ches vont d un cluster un autre ce qui permet de mieux fixer leurs positions respectives On peut encore souligner la troisi me corr lation la plus forte dans chaque colonne et repr senter cette troisi me relation par une fl che d une autre couleur en suivant les m mes r gles que pr c demment pour ce qui est du sens des fl ches Il est alors temps de recopier les clusters de mani re les placer de mani re harmo nieuse et aussi claire que possible c est possible On peut encore identifier les prototypes ce sont pour chaque cluster la variable qui entretient les corr lations les plus fortes avec toutes les autres Il suffit donc de cal culer la somme des carr s des corr lations dans chacune des colonnes des variables constituant un cluster pour l identifier il s agit de la variable totalisant la somme la plus lev e Il y a donc autant de prototypes que de clusters mais le prototype n est
110. effet effect size On voit que si l on demande un test de d tecter une diff rence importante il sera plus sensible puissant que si on lui demande de d tecter une petite diff rence ce qui para t normal On peut aussi jouer sur la taille de l chantillon car plus l cart type des distributions chantillonales est petit moins les distributions se recouvrent et plus B se r duit pour une taille d effet gale Les chercheurs qui ne se pr occupent pas de la puissance de leurs tests et qui veulent absolument trouver des r sultats significatifs jouent sur ce dernier ph nom ne ils augmentent la taille de leurs chantillons ou cherchent disposer des groupes les plus grands possible jusqu ce que leurs r sultats deviennent significatifs Mais en n gligeant de r fl chir propos de la puissance ils ont aussi n glig de r fl chir une taille d effet pertinente et r ellement int ressante ils en viennent en proc dant de la sorte mettre en vidence des diff rences entre valeurs th oriques et chantillonales si petites que les tailles d effet au niveau des populations n ont peut tre aucun int r t Les conclusions tirer de ce qui pr c de sont les suivantes On ne devrait pas proc der des tests d hypoth se sans r fl chir auparavant l ampleur des effets attendus autrement dit sans tre capable de d finir assez pr cis ment Ho et son alternative H1 Nous verr
111. elles correspondent certaines fr quences bien pr cises celles comportant deux P PP 1 celles comportant un seul P PF FP 2 et celles o P est absent FF 1 Par exemple la probabilit d avoir un seul P en deux lancers est donc de 2 4 5 Et le plus curieux pour les esprits de l poque fut de constater que les occurrences de ces combinaisons correspondaient exactement aux termes num riques du d veloppement du bin me de Newton que tout le monde apprend encore aujourd hui l cole a b 1 a 2 ab 1 b 4 L analyse combinatoire et le calcul des probabilit s sont indissociables si l on veut par exemple conna tre la probabilit d observer un total de 10 en jouant deux d s il faut conna tre le nombre de combinaisons donnant un total de 10 en le rapportant toutes les combinaisons possibles ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 11 Si l on jette une pi ce frois fois on a la possibilit d observer quatre types de combinaisons de P et de F auxquelles correspondent nouveau certaines fr quences bien pr cises celles comportant trois P PPP 1 celles comportant deux P PPF PFP FPP 3 celles comportant un P PFF FPF FFP 3 et celles o P est absent FFF 1 Par exemple la probabilit d avoir un seul P en trois lancers est donc de 3 8 375 Et on retrouve les termes du bin me a b Et ainsi de
112. emple de puissance 0 95 G power renvoie un effectif minimum de 272 personnes Pour un test bilat ral il faut 327 personnes e Exemple 2 tests sur deux chantillons ind pendants Dans ce cas le probl me de la diff rence de taille des groupes n est pas tr s important G power g re tr s bien ces situations qui peuvent tre source de complications si l on se r f re des tables On s int ressera par exemple aux diff rences entre scores moyens l chelle Tension d un test de personnalit pass par des hommes et des femmes Toujours pour simplifier admettons que les scores sont d j standardis s et s expriment sous forme G c est dire avec une moyenne th orique de 50 et un cart type th orique de 20 population parente th orique e H le sexe des participant es n entra ne aucun effet Mp My Mo sur les scores de tension e H le groupe d hommes est en moyenne plus tendu que les femmes la diff rence est de 5 soit un quart d cart type donc d 0 25 Cherchons pour une puissance usuelle de 1 B 80 la taille n cessaire d un chan tillon permettant de mettre cette diff rence en vidence Autrement dit quelle est la taille de l chantillon permettant de mettre en vidence une diff rence de 5 dans le sens d une augmentation le test sera unilat ral entre la moyenne du groupe d hommes et celui des femmes Solution choisir l option t test means di
113. eptosomes sur 864 femmes ce qui donne une probabilit th orique d faut de mieux car on est oblig de croire les chiffres de l auteur de 6 Finalement pour une femme class e schizothyme la probabilit de ne pas tre leptosome est donc de 4 R sumons donc H p 60 est pour une femme la probabilit th orique d tre class e leptosome si le mod le d ind pendance est vrai et si Kretschmer classe correctement les types physiques et 1 p 40 celle d tre class e autrement 4 Exp rience al atoire Soit l exp rience al atoire abstraite tirer 562 sujets au hasard dans une popula tion de femmes d clar es appartenir au type psychique schizothyme et noter leurs types physiques Les sujets sont class s en deux cat gories les leptosome et les autre Nous d signerons par F la proportion de leptosomes or cette quantit F est une variable tant que l exp rience n a pas r ellement eu lieu dont on aimerait bien con na tre le comportement si le mod le est effectivement valable dans la population dont P chantillon a t tir On sait maintenant que si le mod le est vrai dans la population d o l chantillon a t tir et pour n assez grand minimum 30 la distribution chan tillonnale des valeurs de F suit une loi de probabilit gaussienne d esp rance p et d cart type pr 14 Cf le total marginal colonne
114. erti Dans un article essentiel Gigerenzer 1993 cit in Capel amp al 1996 tentait d analyser les causes psychologiques de ces probl mes d interpr tation en m me temps que les raisons du caract re incroyablement persistant de ces pratiques mettant en cause d une part l implacable injonction publish or perish s vissant dans les milieux professionnels de chercheurs et d autre part les origines extr mement conflictuelles qui ont pr sid la naissance des tests d hypoth se conflits qui sont g n ralement occult s ou ignor s par les enseignants de ces techniques Le fait est que pour un chercheur en sciences humaines il est bien souvent tr s difficile d y voir clair c est dire de savoir exactement ce qu il fait faux lorsqu il utilise des tests d hypoth se et pire encore peu lui est enseign pour rem dier ces probl mes except quelques citations de Cohen 1988 qui font allusion une myst rieuse analyse de puissance dont tout le monde semble avoir entendu parler mais que bien peu appliquent r ellement Selon Gigerenzer il s est install un climat de vague culpabilit qui est propice au dogmatisme scientifique La chasse la p value significative constitue ni plus ni moins un imp ratif cat gorique vital si p lt 0 05 publish mais si p gt 0 05 perish Et l on comprend alors mieux pourquoi il est si difficile voire impossible d ra
115. erts le kappa de Cohen La m thode des juges permet de faire valuer des objets ou des personnes par un certain nombre de juges On obtient ainsi soit des rangs que l on peut comparer par des m thodes non param triques soit des classements que l on peut repr senter dans une table de contingences C est ce dernier cas qui nous int resse ici dans le cas particulier de 2 juges ayant class n objets ou individus L analyse du kappa de Cohen permet de se faire une id e de a force de l accord entre les deux juges tant donn que dans une telle situation un test d ind pendance n a aucun int r t tablir l ind pendance des juges reviendrait dire qu ils mettent leurs jugements au hasard Prenons l exemple cf Howell 1998 d une classe de 30 adolescents qui se trouvent class s en 3 cat gories cliniques par 2 juges experts en la mati re Les trois cat gories sont A pas de probl mes B retrait d pression et C agitation manie on se demande si les avis des deux experts concordent propos de ce groupe ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 64 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Si l on croise les valuations on obtient le tableau suivant TABLEAU 8 R partition de jugements de 2 juges propos de 30 sujets Juge 1 Juge 2 A B C total A 15 10 67 2 20 B 1 3 1 20 2 6 C 0 1 3 1 07 4 total 16 6
116. es chelles de mesure psychologiques ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 94 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES On retiendra que les caract ristiques des items sont en scores z et orthogonales par construction L quation mod le pr dictive de C s crit donc cf plus haut en scores z zC Bi zP B zP B zP o les zP sont les caract ristiques des items standardis es par construction zC les r ponses pr dites du sujet en scores z et les B sont les poids b tas ou coefficients de corr lation partiels entre les pr dicteurs et le crit re Or les zP sont orthogonaux par construction Il s en suit que dans l quation ci dessus les b tas ne sont pas des corr lations partielles mais des corr lations normales gales celles d j mesur es ci dessus Les scores bruts d un sujet aux chelles fondamentales sont donc les coefficients d un mod le de r gression permettant de pr dire les r ponses qu il aurait donn es s il avait appliqu une strat gie constante tout au long du test Par cons quent on peut galement dire que les scores bruts aux chelles fondamentales qui sont les corr lations entre ses r ponses et les caract ristiques des items sont aussi les pond rations qu il applique implicitement aux caract ristiques des items chaque fois qu il choisit une r ponse quel que soit l item C est pourquoi ce jeu de
117. es boules blanches et noires en quantit s gales Aucune autre hypoth se pr cise n est nonc e il faut simplement d cider si H est acceptable ou non en regard des donn es fournies par un chantillon tir de l urne La taille de cet chantillon peut donner lieu de longues discussions mais admettons qu il nous soit permis de tirer 10 boules de l urne en remettant chaque fois la boule tir e tirage avec remise condition d ind pendance des tirages Pratiquons l exp rience al atoire et tirons 10 boules observons les r sultats il y a 3 boules blanches dans notre chantillon que penser alors de H On se rend bien compte que l on pouvait trouver entre 0 et 10 boules blanches dans notre chantillon avec davantage d espoir d en trouver 4 5 ou 6 si H tait vraie En fait ce qui nous manque c est la distribution chantillonnale de la variable nombre de boules blanches figurant dans un chantillon de 10 boules tir es d une urne contenant autant de boules blanches que de boules noires Cette variable est aussi appel e variable de d cision puisque c est sur la base de la valeur qu elle prend lors de notre unique exp rimentation que nous nous basons pour prendre une d cision vis vis de Ho Or il se trouve que les statisticiens ont trouv une loi permettant de conna tre la probabilit d apparition de 0 1 10 boules blanches dans une situation telle que la n tre Il s
118. es des chantillons sont suffisamment proches c est dire qu elles peuvent toutes deux tre consid r es comme deux estimations de la m me variance th orique ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 68 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES e Principe du test sur les variances On pose H les deux variances empiriques S et S de deux chantillons de taille n et n2 sont deux estimations de la m me variance th orique o 2 Zoi 2 2 pus autrement dit H s crit 6 6 O homog n it des variances Si H est vraie le rapport Fe S on met la plus grande variance au num rateur suit une loi de F Fisher Snedecor n 1 et n 1 degr s de libert Si le rapport J S d passe un seuil fa Za fix l H est rejet e avec un risque a d erreur Q e Principe du test sur les moyennes test du t de Student On pose H les deux moyennes empiriques M et M de deux chantillons de taille n et n2 sont deux estimations de la m me moyenne th orique U autrement dit H s crit U44 M L SiH est vraie M est une variable chantillonnale d esp rance u et de variance 2 1 Comme d j vu dans le cas du test d ajustement cette variable suit une loi n de t Student et non une loi gaussienne car la variance de la population est estim e par celle de l chantillon 2 S de m me p
119. es dont il est possible de calculer la moyenne 20 Les logiciels courants ne calculent pas les variances mais seulement les sum of squares et les mean square ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 80 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES L analyse de la variance des scores individuels consiste d cortiquer les carts de chaque score la moyenne g n rale en un cart d un ventuel effet du facteur A un cart d un ventuel effet du facteur B un cart d un ventuel effet d interaction entre les niveaux de A et de B un cart r siduel d la pr sence incontournable d un al a d chantillonnage variance intragroupe Chacun de ces effets peut tre valu au moyen d un coefficient ta et d un test de signification appropri Tout le probl me consiste alors savoir se servir d un logiciel statistique et de conna tre suffisamment bien le jargon de l analyse de variance pour comprendre et interpr ter les sorties Exemple Afin de bien saisir ce que l on entend par analyse des effets on peut prendre un exemple relativement simple Soit un facteur A traitement groupe trois niveaux m dicament 1 placebo 2 contr le 3 e et un facteur B test occasions deux niveaux avant traitement 1 apr s 2 La variable d pendante V tant le niveau d anxi t par exemple
120. est dire une population dans laquelle la th orie de Kretschmer ne classerait pas mieux les individus que ne le ferait le seul hasard 5 La question d cisive La distance D observ e lors d une exp rience n est elle pas trop loign e de ce que l on attend si le mod le est vrai Autrement dit la non co ncidence des tableaux observ et attendu peut elle tre attribu e au seul al a de l chantillonnage ou doit on admettre qu il existe bien dans la population parente un lien entre les variables tudi es Pour r pondre cette question il faut tester l hypoth se nulle d ind pendance en regard d une exp rience 2 7 Mais auparavant il faut examiner le comportement de D dont notre unique exp plia 2 rience va fournir une r alisation d un nombre cette fois ci 2 Nous avons vu plus haut que D suit une loi de chi carr 2 degr s de libert 121 On peut donc se fixer quelques rep res gr ce la table du m me nom On y d couvre que si H est vraie ip peut en principe varier de 0 l infini mais la valeur la plus probable est 2 2 esp rance math matique de 21 On voit aussi que D ne d passera la valeur de 4 6 que dans 10 des cas et la valeur 6 dans 5 des cas Cela tant connu on peut maintenant effectuer un test l aide d une exp rimenta tion en l occurrence celle de Kretschmer 6 Test d ind penda
121. fference between two independant means two groups et entrer les param tres d cid s a priori type of power analysis a priori compute sample size given power and effect size Q est toujours gal 0 05 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 35 one tail la taille d effet est 0 25 d 5 20 et la puissance 0 8 c t de allocatio ratio entrer le rapport entre les effectifs des groupes a priori 1 si possible Cliquer sur le bouton calculate et le programme affiche imm diatement les r sul tats qui montrent que 51 personnes par groupes suffisent pour r aliser les objectifs assi gn s au test Si l on ne pouvait disposer que de tr s peu d hommes par exemple 4 fois moins allo cation ratio 4 le test renvoie les effectifs de 31 hommes et 125 femmes e Exemple 3 tests sur deux chantillons pair s d pendants Dans ce cas le probl me de la diff rence de taille des groupes ne se pose plus on cher che d celer une diff rence de moyenne entre deux passations d un m me test par un m me groupe d individus Solution choisir l option t test means matched pairs et proc der comme d crit ci dessus En r sum pour les t tests il peut tre int ressant de disposer d un tableau r capitulatif donnant les effectifs requis pour diverses situations TABLEAU 3 Effectifs requis pour des tests
122. flits intellectuels aigus Cette r alit explique sans doute pourquoi les techniques inf rentielles utilis es ces derni res ann es sont non seulement hybrides dans une tentative d s sp r e de concilier les p res ennemis mais aussi orphelines dans la mesure o l impossibilit de concilier l inconciliable faisait pr f rer l oubli des origines l aveu de l impossibilit de proposer une doctrine consensuelle Cette situation pour le moins trange dans l histoire de la science ne pouvait que provoquer certains d rapages pr cis ment ceux qui sont d cri s par toute une foule d auteurs auxquels nous avons d j largement fait allusion Voici donc en quoi consiste la pratique hybride cible des critiques de Gigerenzer et de bien d autres Face cette r alit trois types de r actions sont possibles et peuvent s observer en examinant les revues de litt rature La premi re approche de loin la plus courante est celle des manuels de statistiques et d analyse de donn es en sciences humaines qui et on devrait s en tonner davantage sont extraordinairement nombreux sur le march comme si chacun de leurs auteurs pensait qu il est seul vraiment tre capable d expliquer des techniques que pratiquement tout le monde utilise et croit conna tre Ces approches que l on pourrait qualifier de p dagogiques tendent rapprocher le sens des tests d hypoth se des conceptions de Neyman et Pears
123. forme achev e du test d hypoth se dont certains l ments nous sont encore familiers de nos jours La conception fr quentiste des probabilit s partag e par Neyman et Pearson donna naissance la notion de risque quantifiable Alors que Fisher d clarait Nous nous trompons rarement en adoptant comme limite conventionnelle 0 05 la conception fr quentiste veut que la limite de 0 05 d termine pr cis ment une zone critique incitant au rejet de l hypoth se nulle susceptible de conduire exactement 5 d erreurs de d cision sur le long cours De plus le simple rejet d une hypoth se ne conduisant pas une conclusion satisfaisante et en aucun cas la possibilt d une d cision Neyman et Pearson introduisirent l hypoth se alternative for ant ainsi le chercheur d terminer plus ou moins exactement d finir l cart qu il s attend voir d cel par le test Le test d hypoth se ainsi d fini on est en pr sence d une v ritable m canique d cisionelle dans laquelle les tats d me du chercheur n ont plus aucune place celui ci doit avant de commencer l exp rience d finir un seuil de rejet d finissant ainsi le risque de premi re esp ce savoir la probabilit de rejeter H tort d cider d un cart int ressant pour sa discipline cart pouvant tre par exemple d termin par deux moyennes alternatives caract ristiques de deux populations diff rentes
124. ges suivants Avant de d finir la notion de puissance d un test traduisons dans la mesure du possible le jargon inf rentiel de Neyman et Pearson en une langue plus accessible permettant de nous introduire celle de l analyse de puissance Nous pouvons comparer un test d hypoth se et son exp rience al atoire associ e un tribunal dont la fonction est de juger si un individu est innocent H ou coupable H en regard de certaines pi ces et t moignages les faits de Fisher Il est clair que l accumulation des faits incite douter de l innocence qui joue ici le r le de l hypoth se nulle en droit anglais la personne est a priori consid r e comme innocente et il en va de m me avec l hypoth se d une liaison entre deux variables elle est a priori suppos e absente Au del d une certaine quantit seuil critique de faits la pr somption d innocence n est plus tenable mais l accus n avoue jamais et on ne trouve h las jamais de preuves absolues Nous ne sommes donc jamais certains de sa culpabilit si bien que toute condamnation s accompagne toujours du risque d avoir condamn un innocent Ce risque gravissime tre un tribunal injuste est socialement mal tol r donc minimis conventionnellement Q est fix 5 ou 1 Cependant cette pr caution n est pas suffisante pour garantir l exercice efficace de la justice car un bon tribunal ne doit pas seulement se pr munir
125. ie en 1810 de son c t en France Laplace en donne la formulation moderne dans sa Th orie Analytique des Probabilit s ouvrage dans lequel il d montre entre autres le th or me fondamental de l inf rence statistique le th or me central limite 5 Cette loi d finit pour la premi re fois dans l histoire des sciences une relation entre l observation d un v nement particulier et celle portant sur une s rie de r alisations semblables mais effectu es au long cours La loi des grands nombres dit que si un v nement unique se produit avec une probabilit p alors la fr quence moyenne de cet v nement lors d exp rimentations r p t es en nombre n tend vers p lorsque n devient tr s grand Par exemple un tr s grand nombre de lancers d une pi ce quilibr e donneront des taux de Pile et de Face tr s proches la limite si on lan ait la pi ce une infinit de fois le rapport des taux serait de 50 50 exactement noter que cette loi est l origine d une croyance erron e qui veut que si on obtient une longue s rie de Pile cons cutifs alors la probabilit d obtenir Face au coup suivant serait sup rieure comme s il s agissait de compenser la moyenne postul e par la loi des grand nombres Cette intuition est trompeuse car les lancers successifs sont des v nements ind pendants ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 12 TH ORIES ET TECHNIQUES DE
126. ie et bien d autres disciplines scientifiques Cependant quelques voix discordantes en nombre croissant depuis les ann es 1980 ont mis en doute la bonne utilisation de ce type de technique Ces derni res ann es on a m me vu certains auteurs demander que cesse l usage d clar abusif des tests d hypoth se en sciences humaines notamment voir ce propos Capel amp al 1996 Entre 1990 et 2000 la situation ne semble avoir gu re volu dans la pratique et en d pit de critiques en nombre croissant aucun changement d cisif ne se profile Certains auteurs Gigerenzer r f rence in Capel 1996 allant m me jusqu consid rer l usage abusif des tests d hypoth se comme une condition du d veloppement d un certain corpus de connaissances particuli rement en sciences humaines g ographie et m decine psychiatrie pour ne citer que les domaines o les usages pervertis semblent tre les plus r pandus Un article r cent Tryon 2001 montre qu apr s le tournant du si cle le probl me n a encore trouv aucune solution Dans un paragraphe intitul the human factor problem l auteur s attache d crire la situation critique qui est celle de la plupart des chercheurs ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 22 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES en sciences humaines On peut en effet s imaginer l tat d esprit d un chercheur d butant lisant ces l
127. ient d ordre pratique ou th orique Notons encore que si la variable crit re est qualitative on n utilisera plus des mod les de r gression mais des mod les discriminants qui sont en g n ral tudi s dans le cadre des th ories et techniques dites de classification par contraste avec le terme de r gression 21 Une exception notable la th orie des tests bas s sur des mod les stochastiques tels le mod le de Rash Birnbaum etc ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 85 Mod les de r gression lin aire simple Supposons que l on s int resse au lien existant entre un pr dicteur P variable ind pendante par exemple une note un test et un crit re C variable d pendante par exemple une note d examen Construire un mod le de pr diction de C par P consiste trouver une quation lin aire en P permettant d approcher C au mieux Supposons que cette quation existe Comme elle est lin aire elle est de la forme a P b C o a est un nombre appel coefficient de r gression P est une variable et b est une constante appel e intercept Il va de soi que cette relation peut tre repr sent e graphiquement sous forme d une droite dont a est la pente et b l ordonn e l origine La contrainte d ajustement que nous nous imposons implique que C soit aussi proche de C que possible En statistique la proximit
128. ignes plut t effrayantes concernant le mauvais usage des NSHT prominent investigators publishing in our best peer reviewed journals for at least 3 decades have consistently misused NHST procedures ce qui signifie que editors and rewiewers who published these articles did not catch these mistakes et pire encore NHST procedures are mistaught in at least six books written by leading psychometricians et pour d stabiliser d finitivement tout nouveau chercheur en psychologie Authors of nearly two dozen introductory psychology texts published between 1965 and 1994 err in their presentation of NHST procedures Tryon remarque finalement que non seulement toutes les tentatives entreprises depuis quelques d cennies pour corriger ces mauvaises conceptions des tests d hypoth ses se sont r v l es vaines mais que tout effort suppl mentaire est sans doute galement inutile Pour r sumer ce tr s rapide survol de la question nous noterons que depuis longtemps quasiment depuis son introduction l outil test de signification appel aussi test d hypoth se est consid r du point de vue de tr s nombreux auteurs comme tant mal utilis et mal compris surtout par les personnes non form es en statistiques psychologues sociologues g ographes psychiatres etc Rappelons l article de Hunter 1997 qui appelait la cessation imm diate de l usage de cet outil notoirement perv
129. impliquant aucune analyse de la variance totale en une part explicable et une part r siduelle comme en r gression dites analyses en clusters bas e sur le regroupement de variables selon leur proximit s les distances utilis es pouvant tre soit de corr lations plus elles sont hautes plus la distance est petite soit des distances euclidiennes ou encore d autres types de distances Des m thodes analytiques ayant pour but de construire un mod le r duit permettant d expliquer une part de la variance totale Si ce mod le est d duit des seules donn es on est en pr sence d analyses factorielles descriptives ou exploratoires et si le mod le est th orique et externe aux donn es on est en pr sence d analyses confirmatoires Les m thodes de ce type sont couramment appel es analyse factorielle si les objectifs sont confirmatoires analyse de pistes causales LISREL etc ou analyse en composantes principales ACP si l on se limite une perspective descriptive qui est pratiquement toujours celle des psychologues actuels G Structuration de donn es G 1 L analyse en clusters ou analyse typologique Avant d aborder des techniques plus complexes nous allons exposer une proc dure manuelle tr s simple qui permet de comprendre la structure des liens existant dans un jeu de variables il s agit de l analyse typologique ou analyse factorielle du pauvre Peu de gens la connaissent encore c est
130. intervalle de confiance 95 autour de u En effet pour un chantillon de taille n on sait que la variable chantillonnale M suit une loi de Student n 1 degr s de libert et aura une esp rance L et un cart type de S n 1 le percentile 97 5 de la distribution de tjn 1 qui d pend de n que l on peut noter t4_ S tant l cart type du caract re dans l chantillon Il faut alors chercher a 2 n 1 L intervalle de confiance s crit alors S S H Mob H F ti a 2f n 1 ao ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 107 2 1 Soit un chantillon de taille n 17 de moyenne 70 et d cart type 20 D ter miner un intervalle de confiance ayant 95 de chances de contenir la moyenne de la population c est le probl me inverse du point pr c dent mais il se r sout de la m me fa on 2 2 M me question mais la taille de l chantillon est n 101 puis comparer le r sultat avec celui obtenu en utilisant une loi normale au lieu d une loi de t IV Estimation d une variance th orique variance d une distribution de moyennes loi du Chi carr Les formules permettant le calcul des valeurs de t suivant une loi de Student montrent que la variance S d un chantillon de taille n permet directement d estimer la variance th orique o de la population dont il est tir Ainsi la pond ration par
131. intra SSB N variance inter k k k 3 E EG MY E E M D n Mj Mp j li 1 j li 1 j 1 4 SST SSW SSB 3 La troisi me tape a des finalit s pratiques elle consiste valuer la force du lien existant entre le facteur et la variable num rique autrement dit mesurer l inten sit de l effet du facteur Cette mesure peut s effectuer par l interm diaire d un coefficient ta qui est l analogue d un coefficient de corr lation Sachant que le carr d une corr lation mesure le de variance totale d une variable expliqu e par l autre on peut calculer dans le contexte de l analyse de variance la part de variance totale due la variance explicable c est dire 2 __ Var INTER _ Var INTER SSB Var TOTALE Var INTER Var INTRA SSB SSW Comme dans le contexte de la r gression ta carr exprime un de variance expliqu e et ta s interpr te comme un coefficient de corr lation usuel ce qui en fait une bonne estimation de la taille de l effet d l appartenance aux groupes 4 La quatri me tape est inf rentielle car il reste maintenant savoir si cet effet mesur par ta peut tre r ellement attribu l effet du facteur dans la popu lation ou s il est simplement d aux al as d chantillonnage Cette question revient se demander si les moyennes empiriques ne varient qu en raison de l chantillonnage autrement
132. ion H z ro est de loin le plus facile tester l aide des techniques invent es par Pearson ou Fisher que l on soit en pr sence de variables num riques ordinales ou cat gorielles ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 55 E 1 Ind pendance entre deux variables cat gorielles E 1 1 Cas 1 test d ind pendance entre deux variables cat gorielles dichotomiques Comparaison de deux proportions observ es Nous avons d j abord plus haut le probl me de la comparaison d une proportion observ e avec une proportion th orique le probl me revenait se donner les moyens de d cider si l chantillon dans lequel on avait mesur la proportion observ e f pouvait tre consid r comme tir d une population dans laquelle la proportion th orique tait gale une valeur p donn e On rencontre souvent une situation diff rente la proportion p de la population est inconnue mais on dispose de deux chantillons dont on se demande s ils sont tir s de la m me population On peut par exemple mesurer la proportion de leptosomes dans un premier chantillon d hommes schizothymes 932 sur 1258 selon Kretschmer puis mesurer de la m me mani re la proportion d hommes leptosomes et cyclothymes 183 sur 756 Si ces deux proportions diff rent de mani re significative on en d duira qu il existe un lien entre le type physi
133. iquement les premiers facteurs ont t construits par Spearman d but du 20 si cle dont l objectif tait de repr senter la part de variance commune observ e entre plusieurs tests Cette part pr pond rante fut associ e de l intelligence et le facteur suppos la mesurer fut baptis facteur g Ainsi l intelligence devenait le facteur principal permettant d expliquer la part la plus importante de la variation commune de plusieurs tests D autres facteurs plus sp cifiques furent ensuite d gag s raisonnement R spatial S verbal V etc De l vint sans doute l expression Analyse en Composante Principale ACP qui d signe la technique de mise en vidence de structures factorielles Une structure factorielle peut tre donn e par l exp rience on parle alors d ACP exploratoire mais elle peut aussi tre d termin e par une th orie et sa structure soumise des contraintes d cid es a priori on parle alors d ACP confirmatoire Le terme d analyse factorielle est actuellement un peu confus et d signe des techniques nombreuses et diff rentes On lui reconna t toutefois un usage g n rique surtout dans les logiciels qui proposent l option g n rale factor analysis qui renferme alors des variantes appel es ACP confirmatory analysis etc En bref les psychologues se comprennent tout de m me assez bien lorsqu ils parlent d analyse factorielle mais il faut reconna tre que les st
134. iques ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 2 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES inconnus Q et B de l quation th orique valable pour toute la population GX f Y L estimation statistique permet de trouver tant donn des circonstances exp rimentales d termin es les meilleures estimations possibles a et b de t et B Dans un second temps l estimation d un mod le ayant t r alis e on peut utiliser l quation incarnant le mod le pour pr dire tout score Y connaissant X Il ne s agit donc plus d estimation proprement parler mais d une pr diction statistique r alis e l aide d un mod le qui lui est estim A 1 D crire estimer et pr dire deux exemples th oriques e Pile ou Face Le jet d une pi ce de monnaie constitue l exp rience al atoire la plus simple et la mieux connue que l on puisse r aliser elle est la base de tout le raisonnement probabiliste Les trois t ches de la statistique peuvent s appliquer ce type d exp rience que l on pourrait qualifier d arch typique Lan ons une pi ce 50 fois en l air et notons les r sultats T che 1 des statistiques Staatistik compter les occurrences de P et de F dresser un tableau calculer des pourcentages T che 2 des statistiques on confronte ce r sultat des attentes on se sert des donn es pour valuer une hypoth se par e
135. ire bien particuli re fournit un nombre le nombre de boules blanches dans les 10 tir es qui est une r alisation de la variable de d cision pour l exp rience en cours La r partition de la variable de d cision est connue et tabul e si bien qu il est possible de d finir un seuil ou domaine de rejet que la valeur de la r alisation de la variable de d cision dans notre exp rience ne doit pas d passer sous peine d invalider H La probabilit cumul e d observer des v nements d passant le seuil de rejet est gale au niveau Q de signification du test Q 5 en g n ral Par cons quent Q est aussi la probabilit de commettre une erreur de premi re esp ce e rejeter H alors qu elle est vraie ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 20 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES La probabilit de l erreur de deuxi me esp ce B i e ne pas rejeter H alors qu elle est fausse n est pas calculable dans ce cas et n est pas un concept d fini dans la perspective fish rienne La puissance du test 1 B i e la probabilit de rejeter H alors qu elle est effectivement fausse n a pas non plus de sens dans ce contexte C2 Signification de la signification statistique Dans le jargon statistique la signification doit tre comprise comme signe de Par exemple l effet que j observe dans un chantillon constitue un signe de l
136. istance ne correspond pas la notion alg brique en effet m me si dans le cas H vraie la distance entre le profil estim et le profil th orique est intuitivement parlant nulle il se trouve que l esp rance math matique de l estimateur de cette distance n est pas nulle en fait gale n pour une loi chi carr n du simple fait que cet estimateur ne peut pas prendre des valeurs n gatives tant donn qu il est une somme de carr s ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 46 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES En particulier la variable de d cision D suit une distribution de chi carr 11 degr s de libert 12 1 cases peuvent tre remplies librement connaissant le total n On peut donc consulter des tables pour examiner le comportement attendu des valeurs 2 yea PSS 2 de D on voit imm diatement que si H est vraie Up peut varier de 0 l infini mais la valeur th orique la plus probable l esp rance math matique de Xi est 11 et non pas z ro contrairement l attente intuitive cf note 10 On voit aussi que D ne d passera la valeur de 17 27 que dans 10 des cas et la valeur 19 67 dans 5 des cas Le cadre th orique tant maintenant parfaitement d crit on peut maintenant effectuer un test d ajustement l aide d une exp rimentation pratique 6 Test du goodness of fit d K Pearson env 1900 C
137. it la construction de la plupart des outils statistiques modernes Principal initiateur de ce courant et donc premier fossoyeur de l homme moyen immuable de Qu telet Galton cherchait d s 1870 des lois g n tiques permettant de pr voir les caract ristiques acquises de g n ration en g n ration Il commen a par tudier les caract ristiques des grains de pois et d couvrit le ph nom ne qu il appela tout d abord r version Il remarqua que si l on d coupait la distribution d une caract ristique des parents poids du grain en tranches n tiles gales et que l on en calculait la moyenne alors la moyenne de la m me caract ristique mesur e chez les enfants correspondants n tait pas exactement la m me Les groupes de parents de taille lev e par rapport la moyenne donnaient des enfants dont la taille tait galement lev e par rapport leur moyenne mais pas autant que celle des parents Intrigu par ce ph nom ne incompr hensible Galton r colta lors d une exposition internationale sur la sant 1884 les mensurations de pr s de 9337 personnes hommes et femmes parents et enfants adultes Il r p ta ses observations et en conclut que l h r dit avait une tendance naturelle rapprocher les caract ristiques extr mes de la moyenne de g n ration en g n ration Ainsi un enfant d adultes tr s grands Galton calcula un parent moyen sera aussi tr s grand mais un peu moins
138. la question pr c dente vous d cidez d homog n iser le groupe d individus en liminant le 20 des moins forts et le 20 des plus forts Quels sont les scores critiques R ponse inf rieurs et sup rieurs arrondis au dixi me pr s 4 Certains r sultats statistiques peuvent tre gravement fauss s par la pr sence de sco res objets individus etc consid r s comme aberrants en anglais outliers On les reconna t leur grande excentricit par rapport la moyenne Leur probabilit d apparition est tr s faible et on les trouve donc tr s loin de la moyenne au del des queues de la loi normale En liminant les cas de ce type on vite d int grer dans les calculs des scores qui r sultent souvent d erreurs de frappe ce qui vite de biaiser gravement les calculs de moyennes qui auraient des r percussions d sastreuses sur tous les autres indices statistiques Le crit re de d pistage des outliers est simple mais 1l faut avant tout s assurer qu on est bien en pr sence d une erreur manifeste et non d un individu particulier dont l limination ne serait pas r ellement justifi e si l intention de l tude est de comprendre la r alit dans toute sa diversit En g n ral on limine tous les sujets dont le score n est pas compris dans l intervalle m 3s 4 1 Consid rant la distribution de la question pr c dente 3 6 d terminez les
139. lculer une estimation acceptable de la taille de l effet en divisant la diff rence des moyennes des deux variables par l cart type de toutes les observations Lu m m Howell donne une formule plus pr cise q 17 o sont les seda p moyennes des deux passations s il s agit d un test s est la variance de l une des passations et r la corr lation entre les deux donc la fid lit du test Exemple Voici les donn es d un groupe de 5 sujets test s deux fois sur une caract ristique X une fois avant t un certain traitement et une fois apr s t On se demande si le traitement a eu un effet positif Comme on attend une augmentation de X en moyenne on postule deux hypoth ses compl mentaires H le traitement est sans effet donc Ug 0 contre une alternative H le traitement a un effet positif donc uq gt 0 Tableau des observations Sujet X t X t Xo Xaa 1 3 4 l 2 2 2 3 5 7 2 4 6 8 2 5 2 5 3 La moyenne des diff rences vaut 1 2 2 2 3 5 2 La variance des diff rences vaut 1 27 2 2 2 C 2 3 2 4 1 0 0 0 1 4 1 2 La variable de d cision M a donc une esp rance de 0 et pour notre exp rience un cart type de 5 Jt 2 La valeur de t standardis e vaut donc t 2 J10 6 32 1 10 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 75
140. lecteur de l int r t de cette approche et de son accessibilit voir en fin de volume appendice C 6 Quelques exemples d application de l analyse de puissance e Exemple l Ajustement une moyenne th orique On s int resse au score moyen l chelle Tension d un test de personnalit pass par des personnes exer ant la profession d enseignants Pour simplifier admettons que les scores sont d j standardis s et s expriment sous forme G c est dire avec une moyenne th orique de 50 et un cart type th orique de 20 e H le score moyen des enseignants est M 50 moyenne de la population g n rale e H le score moyen des enseignants est M 60 Cherchons pour une puissance 1 B 80 la taille n cessaire d un chantillon permet tant de mettre cette diff rence en vidence Autrement dit quelle est la taille de l chantillon permettant de mettre en vidence une diff rence de 10 dans le sens d une augmentation le test sera unilat ral entre la moyenne du groupe et la moyenne th o rique 50 avec un risque de premi re esp ce de 5 et la garantie que si la diff rence est significative alors le test va la mettre en vidence 8 fois sur 10 Solution le plus simple est d avoir recours un programme de calcul comme par exemple G power gratuit t l chargeable sur internet Choisir l option t test one sample test et entrer les param tres d cid s a priori
141. leurs effectifs de plusieurs variances d chantillons peut constituer une bonne esti mation de la variance th orique m me si les chantillons ne sont pas de m me taille nr Lie CRE Il existe une autre mani re d estimer o qui est bas e sur la variance de la variable chantillonnale des moyennes M Soient les M scores de cette variable M et u son 2 3 2 DE ne M Ez esp rance La variance S des M s crit s 1 d chantillons tous de m me taille n Dans cette formule u est un nombre et les M P p tant le nombre constituent une variable distribu e de mani re gaussienne d apr s le Th or me central limite les diff rences M u sont donc aussi distribu s de mani re gaus sienne mais leur carr n est par contre pas gaussien il suit une loi dite du chi carr 3 F 24 Mr g un et la somme de ces carr s suit selon la th orie une loi dite du chi carr p 1 qui se note Xip 1 Le terme p 1 d finit ce que l on appelle les degr s de 23 24 Car l esp rance de s est n 1 n 6 c est dire pratiquement la variance de la population Une variable constitu e par la somme de k carr s de lois normales ind pendantes suit une loi dite du chi carr k 1 degr s de libert ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 108 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES libert de la loi en question gal au
142. llons sont de ce fait constitu s des m mes individus et sont donc dits d pendants ou appari s e Situation 1 deux groupes tir s de mani re ind pendante Comparer deux moyennes ou deux variances d chantillons ne signifie pas que l on se demande si elles sont identiques la probabilit qu elles le soient rigoureusement est nulle mais la vraie question est de savoir si elles ne sont pas trop diff rentes ce qui nous permettrait de ne pas rejeter l hypoth se nulle d ind pendance savoir que les deux chantillons proviennent de la m me population En effet postuler l ind pendance des deux variables en jeu celle indiquant l appartenance au groupe et celle mesurant une dimension continue revient dire que la connaissance du groupe d appartenance ne permet pas de pr dire la valeur la dimension continue et inversement la connaissance de la valeur de la dimension continue ne permet pas de deviner l appartenance l un ou l autre groupe Postuler une H d ind pendance revient donc postuler que les deux chantillons proviennent d une m me population de moyenne Li et de variance o La comparaison de deux distributions du caract re X mesur dans deux chantillons suppose donc la comparaison de deux variances ef de deux moyennes Logiquement le test sur les variances pr c de celui sur les moyennes car ce dernier appel test du t de Student n est pertinent que si les varianc
143. mi point en moyenne sur une chelle de 6 entre le groupe traitement et le groupe ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 32 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES contr le 1l ne reste qu calculer le nombre de sujets n cessaires cette exp rimentation Cette mani re de faire l analyse de puissance a priori est pr conis e par Cohen et c est celle que nous conseillons vivement aux chercheurs C5 Le probl me de l valuation a priori de la taille d un effet Nous n allons pas exposer ici les d tails techniques n cessaires la mise en oeuvre d une analyse de puissance le manuel de Howell 1998 est bien assez clair ce sujet mais il nous a sembl utile de pr ciser quelques concepts centraux de cette th orie et les questions auxquelles ils sont li s La puissance du test est galement li e la taille de l effet suppos tre mis en vidence et le plus naturel semble que le cherche soit capable de fixer avant l exp rience une taille d effet int ressante pour son domaine Pour un astronome cette exigence revient se demander quel type de lunette il va commander pour pouvoir correctement examiner l ensemble du disque lunaire par exemple et il va de soi que s il veut observer une exoplan te situ e dans une constellation lointaine son instrument lui co tera beaucoup plus cher En sciences humaines la r ponse la question quelle taille
144. moyen semble sup rieur celui de la population g n rale Comme nous n avons pas mis d hypoth se alternative nous n avons pas d autre estimation de ce niveau sup rieur que celle fournie par notre chantillon savoir 113 64 Toute la description de cette population particuli re reste donc faire E Tests d ind pendance Pr cisons tout d abord qu il ne faudrait pas consid rer les tests d ind pendance comme une classe de tests compl tement distincts des tests d ajustement en fait ils n en constituent qu une sous cat gorie savoir celle des test d ajustement un mod le particulier celui de l ind pendance Par exemple nous avons d j vu qu un test d ajustement une distribution uniforme revenait en fait tablir l ind pendance entre une variable cat gorielle signe astrologique et une autre variable cat gorielle appartenance une fili re de formation vs non appartenance Le cas est particuli rement vident avec le coefficient de corr lation qui permet de tester l ajustement une valeur d termin e pratiquement toujours z ro qui repr sente justement l ind pendance entre deux variables Les tests d ind pendance constituent donc une sous classe restreinte comprise dans l ensemble des tests d ajustement Si les tests d ind pendance sont si universellement connus et utilis s c est que le mod le de l ind pendance g n ralement formalis sous l appellat
145. n d duire la connaissance du g notype structure d s lors que les g notypes D D et D r d terminent le m me ph notype M thode astucieuse croiser un individu dont on ne sait pas s il est D D ou D r avec un homozygote r cessif r r ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 41 Cas 1 Si l individu dont le g notype est inconnu est homozygote g n tique ment pur on a Figure 8 D p ee i NX NX D D x C Gam tes G RP D D D D 25 25 25 25 On ne retrouve plus de r r mais 100 d hybrides dentel s Cas 2 Par contre si le sujet inconnu est hybride Figure 9 De fr i po N O D Ta E Gam tes G Aa Deiz De zF r 25 25 25 25 r On trouve 50 d hybrides dentel s D r et 50 de ph notypes r cessifs purs de type r r Du point de vue du plan exp rimental deux hypoth ses sont en concurrence H la vari t s lectionn e est de race pure et H la vari t s lectionn e est un hybride H correspond le mod le A 100 de ph notypes D et ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 42 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES H correspond le mod le B 50 de D et 50 de r L exp rience al atoire consiste croiser des plantes dont le g notype est inconnu avec des plantes de g notype r cessif r r puis de tirer
146. n effet les variances tant additives on peut d composer la variance du crit re en une partie expliqu e et une autre partie r siduelle La partie expliqu e tant la variance des scores pr dits qui s interpr te comme l information commune aux deux variables P et C La variance r siduelle ou d erreur qui repr sente la partie impr dictible du crit re La d composition une analyse au sens propre de la variance totale du crit re en ces deux parties s crit Var zC Var zC Var zC zC Comme Var zC 1 et comme vu ci dessus Var zC on en tire que la variance 2 2 des zr sidus Var zC ZC vaut 1 r En extrayant la racine carr e on trouve fina lement l cart type des zr sidus qui vaut v1 r Les r sidus tant standardis s que bruts tant centr s en z ro on retrouve l cart type des r sidus bruts en les multipliant par l cart type du crit re Pour un chantillon assez grand on peut admettre que les erreurs se distribuent norma lement autour du score pr dit individuel Un intervalle de confiance pour 100 1 amp autour d un score brut pr dit C est donc d limit par les bornes suivantes Borne sup rieure Csup C ag SCi l r 4 Borne inf rieure Cinf C lu Sc 1 r ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 88 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Si l on
147. nce ou test du chi carr Exp rience faite nous trouvons d 1173 qui d passe de loin toutes les valeurs critiques usuelles qu elles soient d finies par des seuils de 5 de 1 ou moins 16 Dans un tableau 3 x 2 dont les effectifs marginaux sont fix s il n y a que deux cases sur six dont on puisse d cider librement de l effectif 17 On veillera ne pas confondre l esp rance math matique d une variable c est dire sa moyenne et la valeur attendue th orique d un param tre ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 62 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES On dit que cette valeur est significative car elle peut tre interpr t e comme un signe de l ventuelle non validit du mod le Note les logiciels anglo saxons appellent cette valeur directement chi square convention que certains statisticiens d plorent comme d ailleurs la d nomination de test du chi carr Que penser apr s cette exp rience On pouvait esp rer une valeur pas trop loign e de 2 en supposant le mod le d ind pendance vrai La valeur trouv e 1173 entame donc tr s s rieusement notre conviction en sa validit attitude pist mique de Fisher Si l on avait appliqu une r gle de d cision au seuil 5 on aurait rejet H d s que d d passe 6 Le rejet de H ne semble donc pas poser trop de probl mes mais la th
148. nconnu valable au niveau g n ral d une population sur la base d un param tre empirique mesur sur une partie limit e accessible de cette population l chantillon Le Th or me de la Limite Centrale ainsi mieux nomm par Saporta 1990 affirme que si un certain caract re mesur sur une population a une moyenne U g n ralement inconnue alors la moyenne des moyennes de tous les chantillons de m me taille tir s de cette population est la meilleure estimation de U Le th or me est encore plus fort car il permet aussi une estimation de la variance la variance de la distribution des moyennes de tous les chantillons de taille n est la meilleure estimation de G n 0 tant la variance du caract re dans la population ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 13 trouve donc face ce qui a t parfois appel le paradoxe psychom trique utilisant le m me mod le appliqu au m me objet il doit travailler simultan ment sur deux plans d interpr tation diff rents Sur le plan de la distribution des scores de la population il doit maximiser la dispersion en ajustant le temps de passation par exemple ainsi qu en s lectionnant les items dont la corr lation avec le total est suffisamment lev e Sur le plan de la pr cision du score individuel il doit minimiser l erreur augmenter la fid lit en jouant sur le nombre d items c est
149. nement dont la probabilit d occurrence est nulle La signification statistique est donc surtout int ressante consid rer lorsque les chantillons sont petits car dans ce cas les al as d chantillonnage peuvent largement affecter la valeur des estimations Il est important dans ce cas de savoir si on travaille sur un effet attribuable au hasard ou non Lorsque la taille des chantillons est respectable n gt 100 la notion de signification perd de son int r t au profit de celle de taille de l effet Par exemple si l on tudie les liens existant entre des variables mesur es sur des chantillons de taille n gt 1000 pratiquement toutes les corr lations calcul es sont significatives mais le v ritable travail de recherche consiste interpr ter la diff rence entre une corr lation significative de 065 et une autre galement significative de 84 Il est clair que la premi re ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 21 mesure nous incite en d duire l inexistence d un lien m me si H a t vigoureusement rejet e et cela jusqu preuve du contraire Rappelons enfin cf Capel amp al 1996 a donn lieu de vives pol miques D fenseur d une conception fiduciaire des probabilit s Fisher n a jamais d fini la signification vis vis d un seuil fix d avance pour lui la p value ou probabilit
150. nombre de carr s de diff rences ajout s moins l eE 2 2 un Il faut savoir qu il existe une relation fondamentale entre o et S variance des moyennes d un chantillonnage de taille n qui permet d estimer la premi re variance partir de la seconde la th orie montre que la quantit ne Su peoi apia 1 suit une loi Y p 1 degr s de libert o La technique dite de l analyse de variance exploite pr cis ment cette double possi bilit d estimer une variance th orique l une partir des simples variances des chantillons et lautre partir de la variance de la variable chantillonnale M des 2 2 moyennes o s estime par n Sy Le rapport de ces deux variances suit une loi dite de F qui est tabul e cf point suivant ce qui permet de savoir dans quelle mesure l une des deux estimations exc de l autre 2 Comme la loi du f de Student la loi du chi carr est donc associ e un certain nombre de degr s de libert Il existe des tables permettant de conna tre les fractiles des lois du chi carr pour divers degr s de libert 2 1 La forme d une distribution loi du 4 d pend de 2 2 La moyenne d une loi X123 MAUR AS AR SUR ne e n a ns 2e 2 3 Que vaut HE autrement dit quel est le 2 4 Que vaut Xa 0 05 2 gt autrement dit quel est le 2 5 Que vaut SE autrement dit quel est le 2 2 Que vaut x 0 012 autrement
151. nombres non pas des sujets mais des chantillons Ainsi on peut associer tout chan tillon de taille n tir toujours de la m me population un nombre appel moyenne Cette quantit est une variable s nsesesseeseeseeeee car elle associe un nombre la moyenne tout chantillon de taille fix e n Ainsi variance moyenne cart type etc sont aussi des variables qui se r alisent en des nombres particuliers pour un chantillon donn 5 Certaines variables chantillonnales sont utilis es comme des variables de d cision celles ci sont utilis es dans les tests inf rentiels que l on appelle aussi tests d hypoth se ou encore tests de signification Les variables de d cision les plus connues sont z t Student chi carr Pearson r coefficient de corr la tion de Bravais Pearson F de Fisher Snedecor ete 6 Les variables chantillonnales moyenne variance etc sont aussi utilis es comme des estimateurs des param tres th oriques de la population Les valeurs num riques observ es dans un chantillon sont des estimations de ces valeurs th oriques incon naissables Par exemple la variable chantillonnale moyenne M Xx n est lesti mateur de la moyenne u d une population Si on tire un chantillon et qu on en cal cule la moyenne m alors m est une estimation de u Les estimateurs se repr sentent p r OS aie alors que les estimations sont des 0000
152. nsait que les moyennes de la plupart des caract res mesur s sur une population restaient stables d ann e en ann e la taille des gens les taux de suicides etc ne changeaient pas l homme moyen se perp tuait immuable Darwin et les premiers volutionnistes et bien entendu les eug nistes anglais avaient pour leur part d autres pr occupations leur attention se portait au contraire sur les extr mes des distributions le concept d homme moyen n avait pas grand int r t pour eux car seuls retenaient leur attention les g nies et les tar s Le mod le normal de l erreur dont l esp rance tait pr cis ment l homme moyen changeait alors radicalement de sens peu peu on ne parlera plus d erreur mais plut t de variation ou de diversit En ne s int ressant plus la mani re des sociologues la tendance centrale mais aux extr mes de la courbe c est dire non plus ce qui unit les individus mais ce qui les s pare l volutionnisme darwinien et ses d riv s eug nistes furent l origine des premiers d veloppements de la psychologie diff rentielle C est le biom tricien eug niste Galton qui introduisit les notions de m diane et de quartiles dans l tude des caract ristiques des populations Son objectif tait de construire un espace commun dans lequel il pourrait repr senter tous les cas tudi s de mani re les comparer entre eux L id e de la standa
153. nt ces caract ristiques Cette attirance est mesur e par le biais de corr lations entre le vecteur de r ponses du sujet avec les n dimensions descriptives des items Ces corr lations sont ensuite standardis es sur un groupe de sujets et repr sentent les scores de la personne des dimensions psychologiques communes aux items ef aux sujets Cette situation peut tre mod lis e dans le cadre des mod les pr dictifs Le parall le n est pas vident c est pourquoi nous allons le d tailler de la mani re suivante Dans ce qui suit il est important de noter que les expressions suivantes sont quivalentes au niveau d interpr tation pr s Caract ristiques des items Echelles ou dimensions fondamentales pr dicteurs du vecteur de r ponses Corr lations entre caract ristiques et r ponses du sujet scores bruts aux chelles fondamentales vecteur de strat gie du sujet pond rations du mod le pr dictif des r ponses Les caract ristiques des items peuvent tre associ es des pr dicteurs les P permettant de pr dire la variable r ponses du sujet qui joue le r le de crit re C Les attirances du sujet pour les dimensions fondamentales sont mesur es par des corr lations entre C et les P Ces corr lations standardis es en scores G des r ponses avec les caract ristiques des items sont interpr t es comme des scores aux dimensions fondamentales que l on identifie d
154. nt utile n cessite de construire un intervalle de confiance ayant par exemple 95 chances sur 100 de contenir la note r elle que l individu obtiendra l examen Pour ce faire il est n cessaire de conna tre l cart type des r sidus ou en d autres termes la dispersion des erreurs Celle ci d pend de la qualit de la pr diction effectu e par le mod le bien entendu le mod le est d autant plus pr cis fiable que la corr lation entre C et C est haute dans l chantillon d apprentissage Par exemple si l on veut pr dire la note un examen de gymnastique l aide d un test de raisonnement on risque de construire un mod le totalement inefficace r tant quasi ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 86 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES nul Au contraire la note un examen de math matiques peut tre assez bien pr dite gr ce un mod le incluant un test de raisonnement Le coefficient r est donc une bonne mesure de la qualit de la pr diction s il vaut 1 ou 1 la pr diction est parfaite C C P S il vaut 0 la pr diction ne vaut pas mieux que celle du hasard C orthogonal C En psychologie on consid re en g n ral qu une corr lation de plus de 50 est d j acceptable mais ce seuil d pend du domaine cf Gendre 1977 p 78 Certains auteurs pr f rent interpr ter le carr de r savoir a qui quivaut au de variance commune entre le
155. ntimement ancr es dans les r flexes pist mologiques des penseurs de sciences humaines C est ainsi qu on en est venu notamment probabiliser l hypoth se nulle sur la base des faits supr me perversion tant pour Fisher que pour les inventeurs du tests d hypoth se Expliquons nous probabiliser l hypoth se nulle est une des erreurs les plus graves comment es par Schmidt amp Hunter Il s agit de l erreur qui consiste croire que p p H D probabilit de la v rit du mod le incarn par l hypoth se nulle tant donn les donn es alors qu on se souvient que p n est rien d autre que la probabilit des donn es tant donn l hypoth se Cette tendance irr pressible vouloir probabiliser la v racit d un mod le hypoth tique explique bien le culte de la p value ridiculis par Gigerenzer ifp lt 05 publish if not perish Li ce culte de la p value il existe un v ritable rituel des petites toiles accompagnant pratiquement tous les r sultats statistiques t de Student corr lations etc Officiellement ces toiles sont cens es informer le lecteur de la valeur p du r sultat une toile indique que la probabilit du r sultat sous Ho est inf rieure 0 05 deux toiles qu il est inf rieur 0 01 et trois toiles apportent un luxe suppl mentaire le fin du fin Que nous apprennent r ellement ces toiles La r ponse est rien Sinon l information q
156. on Cependant dans la mesure o les hypoth ses alternatives restent vagues du genre Ho r 0 et H4 r diff rent de 0 l attitude fiduciaire de Fisher reste l honneur H n a en effet pas d int r t en soi et ne repr sente rien d autre que la n gation de H Ces conceptions qui font intervenir des hypoth ses alternatives non sp cifi es ne sont pas tr s loign es des conceptions hybrides voqu es ci dessus En effet dans la mesure o elles empruntent la rigueur de la m canique d cisionnelle de Neyman et Pearson certains l ments typiquement fr quentistes seuil risque d erreur pour les m ler l id e fish rienne du test de signification tout se passe comme s il s agissait de forcer Fisher prendre une d cision face ses donn es attitude qu il a toujours refus d adopter Cette volont de retrouver une certaine rigueur en fixant des valeurs de probabilit li es des risques ne devrait pas occulter le fait que les sciences humaines ont une conception beaucoup plus fish rienne que neyman pearsonienne des probabilit s Mais en affirmant cela nous sommes encore loin d avoir en main la clef ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 26 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES de la compr hension de l existence et de la t nacit des pratiques illicites car la vraie conception hybride va encore y m ler des conceptions baysiennes tr s i
157. onnaissant la distribution des valeurs attendues de D dans le cas de H vraie adop tons l attitude suivante tirons ou contentons nous des sujets disposition un chantillon de 135 individus et calculons pour cette exp rience particuli re la valeur de l estimateur D et comparons ensuite cette valeur celles attendues Exp rience faite nous trouvons d r alisation de D 16 02 Que penser alors de notre hypoth se nulle Si le mod le est vrai on attend une valeur proche de 11 ou du moins pas trop loign e On imagine bien que si on avait trouv 56 par exemple on ne pourrait plus croire que le mod le est acceptable et on serait forc d admettre que cette exp rience pourrait attester de l effet des astres sur la profession envisag e Notre d est le centile 87 de la distribution attendue il est donc assez rare de tomber sur un tel chantillon 13 des cas en supposant que le mod le soit Vrai Nous pouvons en conclure que l effet astral observ n est peut tre pas seulement d au hasard notre confiance dans le mod le d uniformit est un peu diminu e mais seule une nouvelle exp rience au moins nous fixera plus pr cis ment ce sujet Ce type de raisonnement aurait sans doute t celui de Fisher cf article actualit s psy chologiques ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN
158. ons plus loin que ce n est pas si difficile Si la prise d information est facile et ne co te rien les tests pratiqu s avec de grands chantillons sont toujours plus puissants que ceux pratiqu s avec des petits Le tout est lorsqu on a de tr s grands chantillons de savoir si les effets mis en vidence ont vraiment un int r t pratique Par exemple calculer une corr lation significative de 0 12 sur un chantillon de 500 sujets n a sans doute pas grand int r t s il s agit de la corr lation entre deux tests Si la prise d information co te cher et parfois il peut tre tr s co teux d ajouter ne serait ce que quelques individus un chantillon et si de petits effets observ s peuvent d j tre consid r s comme int ressants et il est souvent tr s utile de pouvoir calculer a priori le nombre minimum d individus pour disposer d un test suffisamment puissant capable de d tecter une diff rence laquelle nous pouvons donner sens dans une perspective th orique ou pratique S iln est plus possible d augmenter la taille de l chantillon et que les donn es sont prises bien avant la phase de traitement il peut tre int ressant de conna tre post hoc la puissance des tests qu il est possible de pratiquer tant donn une taille d effet d finie et une taille d chantillon invariable Un dernier cas de figure peut se pr senter tant donn une taille d chantillon non varia
159. ontre la variance o Il lui a donc fallu l estimer C est naturellement la variance S de l chantillon qui lui servit d estimation de o Mais du coup le th or me central limite ne s appliquait plus et Gosset dut s adresser des math maticiens pour conna tre la distribution th orique de M si H est vraie ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 53 Il apparut que M suivait une distribution proche de la normale mais n anmoins diff rente surtout dans les cas o l chantillon tait petit Cette nouvelle distribution fut appel e par Gosset distribution du t de Student Ainsi si est estim e par S cart type de l chantillon la distribution chantillonnale de M suit une loi t d esp rance u et d cart type S 1l tait d s lors possible de tabuler la distribution de la variable n t standardis e pour divers degr s de libert En r sum test d ajustement une moyenne th orique mode d emploi e Conditions d utilisation les individus doivent tre tir s au hasard et le caract re X de moyenne u doit tre normalement distribu e Proc dure suivre soit u la moyenne th orique m la moyenne l chantillon de taille n et s son cart type Calculer la quantit t M2 H s Jn Si H est vraie t suit une loi de t de Student n 1 degr s de libert il suffit donc de comp
160. opre d fini ici et devraient de ce fait tre proscrites ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 63 Comparer cette quantit au seuil d termin par un domaine de rejet de 5 ou 1 dans la distribution de A 1 c 1 e Commentaires Dans les tableaux 2x2 la fr quence attendue la plus petite doit tre sup rieure 10 Dans les tableaux 2x2 on peut transformer d en un quivalent phi d indice de 2 corr lation z Cet indice varie entre 0 et 1 et peut tre consid r n comme un indicateur de taille d effet Pour les tableaux plus grands Cram r a propos un indice phi ou V qui s crit 2 P ET o k est le plus petit des nombres de lignes ou de colonnes Cet indice varie entre O et 1 contrairement au coefficient de contingences et peut tre interpr t comme la valeur absolue d un coefficient de corr lation et il peut donc aussi tre consid r comme un indicateur de taille d effet On voit aussi que pour les tableaux 2 x 2 le phi de Cram r se r duit l indice d fini au point pr c dent Lorsque les fr quences attendues sont faibles il peut tre bon de regrouper certaines cat gories mais cette op ration ne doit pas tre motiv e par le constat d cevant de r sultats non satisfaisants E 1 3 Extension 1 analyse d une table de contingences issue de classements d exp
161. orne d clarer que l effet observ n est pas nul et qu il n est pas possible de l attribuer au seul hasard de l chantillonnage Or pour le commanditaire de la recherche la question fondamentale est la suivante quel progr s minimum ou moyen le cours peut il garantir pour justifier son financement Il est beaucoup plus pertinent dans ce cas de postuler des hypoth ses plus sp cifi es que celle de l ind pendance par exemple Ho le cours augmente la moyenne du crit re de 1 point sur une chelle de 6 Raisonnablement on s attendrait ce que cette hypoth se soit discut e avec le commanditaire avant le d but de toute exp rimentation c est rarement le cas ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 7 Plus pertinente encore est l estimation d un mod le de l effet du cours sur le crit re mais ce type de calcul fait appel des techniques plus complexes statistiques bay siennes qu il est encore rare de rencontrer dans le domaine des sciences humaines Dans un troisi me temps les mod les postul s ayant r sist aux tests ou ceux qui auraient ventuellement t estim s peuvent tre affin s en fonction de divers param tres il se peut que le cours soit plus utile pour certaines techniques que pour d autres ou qu il profite mieux certains groupes qu d autres ge sexe niveau etc Fin
162. our M dont la variance est 2 ny Toujours si H est vraie la variable M M suit aussi une loi t d esp rance z ro i 19 et de variance gale la somme des variances des chantillons 2 2 2 Si S3 S L M M 1 2 n n Mais si H est vraie les deux variances empiriques estiment la m me variance a2 x th orique o on peut donc calculer une estimation S un analogue du p dans le 19 La variance de la somme ou de la diff rence de deux variables ind pendantes est gale la somme des deux variances cf note 12 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 69 cas du test sur les proportions de oen pond rant les variances empiriques S4 et S par leurs degr s de libert ou autrement dit par les effectifs des groupes diminu s de 1 2 2 f 12 D s n 1 S cette estimation vaut S n 1 n 1 Donc la variance de la diff rence des deux moyennes empiriques vaut 2 2 Si Ss _ Pi E a Si t n 1 S 1 1 Si H est vraie la variable M M suit donc une loi t d esp rance z ro et d cart Les tables d crivent les fractiles de la loi de t standardis e il faut donc centrer et r duire notre variable M M de mani re pouvoir y situer l une de nos r alisations m m gt pour une exp rience donn e Comme la variable M M a une e
163. pas n cessairement une des variables du noyau Une analyse de second ordre est possible en reconstituant une nouvelle matrice de corr lations en ne prenant que les prototypes on obtient ainsi une superstructure parfois plus claire mais aussi plus r duite que celle de niveau inf rieur Enfin l analogie avec l analyse factorielle peut tre plus pouss e chacun des proto types repr sente un facteur et les corr lations des variables du cluster avec lui m me sont comme les saturations de ces variables dans leur facteur On aboutit ainsi une sorte de structure dont les l ments sont obliques non orthogonaux et dont on peut v rifier la validit en soumettant le jeu de variables une analyse en composantes principales ordinaire les r sultats des deux m thodes ne sont souvent pas tr s diff rents Les mod les factoriels Contrairement aux mod les de pr diction qui s expriment la plupart du temps sous forme d une quation parfois d une matrice de probabilit s cha nes de Markov par exemple les mod les factoriels sont des syst mes de rep res ou bases au sens alg brique ou g om trique du terme dans lesquelles on cherche repr senter des variables ou des individus On rencontre aussi fr quemment le terme de structure qui d signe aussi un ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 98 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES syst me de rep re
164. pe de X dans la population ce qui est pratiquement toujours le cas on est forc de l estimer gr ce l estimateur cart type de X dans l chantillon L cart type th orique inconnu sera donc remplac pour l chan n 2 tillon d termin par la valeur de l estimateur pes 5 1 M peut donc toujours tre standardis e mais l utilisation de l cart type empirique en lieu et place du th orique introduit un biais qui a pour effet que la variable standardis e T M E nest plus distribu e normalement Elle suit par contre Jn une loi assez proche mais d pendante de la taille de l chantillon nomm e loi du t de Student n 1 degr s de libert Notons que lorsque n est grand le biais d l utilisation de S au lieu de o perd de son effet et la variable M standardis e suit une loi tr s proche de la normale 8 1 Soit une population dans laquelle un caract re X est distribu plus ou moins nor malement avec une moyenne Li 50 et un cart type inconnu Quelle est la pro babilit qu une moyenne calcul e sur un chantillon de taille 36 S 24 d passe 8 2 Dans le m me chantillon quels sont les scores ayant une probabilit totale de 8 3 M me question que 8 1 mais l chantillon est de taille 100 8 4 M me question que 8 2 mais l chantillon est de taille 100 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 106 TH ORI
165. pe c est celui qui est exprim par un g ne D D dit dominant qui occulte l autre appel dans ce cas r cessif Le caract re r cessif r ne pourra donc s exprimer que si le g ne dominant est absent autrement dit si le g nome du porteur comporte une paire de g nes r cessifs r r Comme le montre la figure suivante les enfants de parents D D homozygote dominant et r r homozygote r cessif sont tous h t rozygotes de ph notype D ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 40 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Figure 6 D Jo dominant r r cessif G n ration P r ON px non D D C C Gam tes G DJ 24 ar D o 100 de sujets hybrides dentel s h t rozygotes Si l on croise maintenant deux hybrides D r cf figure suivante on observe 75 d individus de ph notype dentel dont 25 de g notype dentel pur et 50 d hybrides h t rozygotes On trouve par ailleurs 25 de feuilles r guli res pur Le g ne r cessif ne peut donc s exprimer que dans 25 de la deuxi me g n ration D 7 D F ON ON D a T Gam tes G Te Se ae nr S 25 25 25 25 Probl me important pour les g n ticiens du d but du si cle Comment savoir en pr sence d un individu de ph notype donn s il est de race pure ou s il est hybride Autrement dit connaissant le ph notype l apparence comment peut on e
166. pond rations ou scores bruts unique pour chaque individu a t appel le vecteur de strat gie implicite du sujet On peut alors profiter de tous les b n fices secondaires du mod le si les P sont en scores z et standardis s alors la somme des carr s des poids b tas quivaut au carr de la corr lation multiple R on admettra ce fait sans discussion Comme enfin ces poids ou pond rations sont les scores bruts aux chelles fondamentales que l on a calcul s par corr lation alors la corr lation multiple entre les pr dicteurs et le crit re R est la racine carr e de la somme des carr s des scores bruts Ce nombre est appel la coh rence des r ponses et mesure quelque chose de l ordre de l ad quation du test et de son mod le psychom trique sous jacent la personne En effet si une personne r pond au hasard c est dire ne tient pas du compte des dimensions sous jacentes sa coh rence sera nulle autrement dit ses r ponses sont totalement impr dictibles l aide des caract ristiques des items En revanche une personne tr s l aise pour r pondre sensible aux dimensions sous jacentes aura une coh rence lev e ce qui signifie que ses r ponses seront tr s faciles pr dire condition de disposer de son vecteur de strat gie implicite c est dire du jeu de pond rations n cessaire la construction de l quation de pr diction des r ponses On notera par
167. poth ses et en r p tant les exp riences autant de fois que n cessaire Telle tait la m thode inf rentielle de Fisher dans laquelle la valeur p 1 percentile de la r alisation de la variable chantillonale pour l exp rience donn e repr sente videmment p D H c est dire la probabilit des donn es tant donn H et non pas le contraire p H D probabilit que l hypoth se nulle soit vraie tant donn les donn es erreur fr quemment rencontr e dont nous reparlerons Remarquons galement que pour Fisher il n est question ni de d cision ni de risque d erreur ni bien s r de puissance d un test Pour les math maticiens Neyman et E Pearson le fils de Carl Pearson associ au coefficient de corr lation avec son pr d cesseur fran ais Auguste Bravais l attitude 11 on ne rejette pas vraiment l hypoth se on en doute plus ou moins en mettant en vidence un d saccord entre les donn es que Fisher appelle les faits et celle ci ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 24 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES fiduciaire de Fisher ne pouvait pas donner lieu une v ritable construction de savoir scientifique Pour ces esprits plus tranch s une hypoth se ne peut pas tre que plus ou moins recevable elle est doit n cessairement tre admise comme vraie ou fausse il s agit donc de d cider Neyman et Pearson mirent au point en 1928 la
168. pr dicteur et le crit re de variance de l un expliqu e par l autre Cette valeur est aussi parfois appel e coefficient de d termination Une corr lation de 50 quivaut une variance commune expliqu e de 25 soit le quart de la variance totale du crit re il ne faut pas tre trop exigeant en psychologie Une corr lation de 80 est jug e excellente et des valeurs sup rieures sont parfois jug es suspectes _ L quation de r gression est plus simple si l on standardise les variables En effet si la combinaison lin aire C a P b et le crit re C sont en corr lation maximum r avec a et b bien choisis on peut montrer que zC r zP donc en fait si on standardise les variables pr dicteur et crit re l quation de pr diction se simplifie car le coefficient de r gression est simplement r pente de la droite de r gression et la constante b dispara t la droite passe par l origine Si l on reprend l exemple ci dessus en admettant que la corr lation entre P et C soit de 50 et en admettant que le score z de P zP soit 0 34 alors le score au crit re zC note pr dite d examen standardis e vaut 50 34 17 en score z Il ne reste alors plus qu transformer ce score z en score brut pour retrouver la m trique initiale en le multipliant par l cart type du crit re et en ajoutant la moyenne Mais encore une fois cette valeur ne suffit pas il faut calculer un
169. qu ils obtiendront C En utilisant les coefficients a et b donn s par le logiciel on construit facilement l quation pr dictrice valable pour les scores bruts Si l on n a pas les coefficients a et b il faut construire une quation en scores z et utiliser r cela demande un peu plus d efforts car il faut ensuite tout reconvertir scores bruts SPSS et la plupart des logiciels statistiques calculent en un clin d oeil tous les scores pr dits Si l on ne dispose pas de logiciel sp cialis EXCEL fait aussi l affaire mais il faut passer par les scores z e Calcul d intervalles de confiance individuels Le plus commode est d obtenir directement les bornes des intervalles de confiance en scores bruts les scores z sont pour leur part plus pratiques pour raisonner Il faut donc calculer l cart type des r sidus bruts 22 Les carr s moyens calcul s par SPSS sont ceux obtenus partir des scores pr dits regression et des r sidus residuals La compr hension de ce test n cessite celle de l analyse de variance et du test de F les carr s moyens regression et r sidual sont consid r s comme deux estimations de la variance du crit re dans la population Si cette hypoth se est vraie leur rapport F doit tre compris dans certaines limites d o le test ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 90 TH ORIES ET TECHNIQUES DE BASE EN ANAL
170. que celui ci doive tre normal dans la population D 3 Test d ajustement une distribution th orique discr te uniforme Prenons pr texte d une pseudo v rification empirique de l astrologie pour introduire la m thode utilis e par Gauquelin le test d ajustement d K Pearson technique lar gement utilis e en sciences humaines et naturelles depuis le d but du si cle Comme il s agit d un exercice acad mique la maigreur de l effectif n a pas beaucoup d impor tance ce qui ne nous emp chera pas de discuter des caract ristiques de l exp rience en conclusion 1 Probl matique On s int resse v rifier la pertinence d une typologie en mati re de pr diction de l orientation professionnelle 2 Plan exp rimental V rification de la validit concourante avec comme crit re la fili re de formation et comme pr dicteur le signe astrologique de naissance Plan simplifi on ne consid re qu une fili re fili re universitaire en psychologie et on interroge un chantillon n 135 au sujet du signe de naissance des individus qui le constituent On prend note que l chantillon n est pas repr sentatif des tudiants en psychologie en g n ral mais seulement de ceux qui suivent certaines formations sp cialis es Le tirage n tant pas al atoire l chantillon est dit de convenance il ne s agit donc pas d un plan exp rimental au sens propre
171. que et le type psychique d un individu c est pourquoi les techniques de comparaison de proportions peuvent tre consid r es comme des tests d ind pendance entre variables cat gorielles Dans notre exemple les deux variables cat gorielles sont le type physique et le type psychique On traite ce genre de probl me en testant une hypoth se nulle d ind pendance les deux groupes proviennent d une m me population savoir celle des hommes en g n ral en supposant que la distinction entre schizothyme et cyclothyme couvre l entier de la population Cette H peut se repr senter de la mani re suivante population tous p A A B chantillon 1 schizothymes F a a b 7 D chantillon 2 cyclothymes F a a5 b ES etsi elle est vraie F et F sont des variables al atoires d chantillon d esp rance p et d cart type Ccpip pour l chantillon 1 de taille n et d cart 1 type CZP P pour l chantillon 2 taille n3 2 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 56 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Le probl me est que cette fois ci nous ne connaissons pas p Il s agit donc de l estimer partir des proportions observ es en les pond rant en fonction de la taille de l chantillon p L n F tn F n T n lA FA 7 1 D D F suit donc une loi normale d esp rance p et d cart type UPP p 1 x s 1 p
172. quivalente Si cette hypoth se devait tre rejet e en regard des donn es on peut estimer un mod le de r partition diff rent qui permettra de pr dire la r partition en hommes et femmes d une future vol e d tudiants en sciences humaines ou la probabilit qu une personne tudiant en Facult des sciences humaines soit une femme ou un homme Application num rique Un groupe d tudiantes et d tudiants par exemple n 100 en psychologie est constitu 80 de femmes A quelles conditions et dans quelle mesure peut on induire de cette observation que les femmes sont davantage int ress es par cette branche que les hommes Traitement du probl me Il faut tout d abord se demander quel est le mod le mis en cause par cette question Il s agit l vidence du mod le quiprobable car se demander s il y a une diff rence d int r t entre hommes et femmes pour la psychologie c est avant tout mettre en question une Hypoth se nulle savoir p H p F 5 Remarquons que nous traitons le probl me d une diff rence d int r t par le biais d une observation portant sur des taux d inscription aux fili res qui nous int ressent Ce lien n est pas vident tant donn qu il n est pas possible d observer tous les tudiants inscrits en psychologie dans tout le pays ou dans le monde en g n ral on doit se contenter d observations portant sur un chantillon en l occ
173. r dicteur en faisant tourner encore une fois la commande on obtient son score pr dit et l intervalle de confiance associ Idem pour tout autre nouveau score Calculs avec EXCEL premi re variante Les donn es des deux variables doivent tre dispos es en colonnes Quoique ce logiciel ne soit pas vraiment fait pour ce genre de calcul il est possible de calculer toutes les statistiques n cessaires r erreur type F pente et constante laide la fonction DROITEREG col C col P vrai vrai mais cette option n est pas vraiment tr s accessible il faut l entrer en criture matricielle elle est peu pratique et ne donne pas de r sultats de test sur r Ce dernier s obtient en examinant la valeur de F dans une table ou en transformant r selon la formule de Fisher Calculs avec EXCEL seconde variante Les fonctions l mentaires d EXCEL permettent de calculer les moyennes cart types et coefficient de corr lation r Par contre les param tres pente et constante de la droite de r gression ne sont pas calculables simplement De plus le test de r doit tre effectu l aide de la formule de Fisher et de la loi de Student accessible dans EXCEL Il faut donc passer par les scores z on standardise le pr dicteur l aide de sa moyenne mp et de son cart type sp On construit formule le mod le en scores z et on cr e une colonne de scores z pr dits zC que l on reconvertit dan
174. r lation de 58 entre deux tests d aptitudes Peut on consid rer que chacun de ces tests valide l autre On pose H les r sultats aux deux tests sont ind pendants la corr lation entre les variables est nulle dans la population On calcule ensuite 2 0 58 427 2 Jas La valeur 3 56 d passe le seuil fix pour Q 5 savoir 2 06 lu dans la table la ligne correspondant aux degr s de libert 25 t 3 56 La corr lation est alors d clar e significative ce qui signifie que l on peut rejeter hypoth se nulle avec un risque de premi re esp ce gal 5 Plus simplement on peut aussi regarder dans une table la limite inf rieure d une corr lation significative au seuil 5 mesur e dans un chantillon de taille 27 On ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 84 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES peut y lire colonne 0 05 et ligne 27 2 25 que cette valeur limite est 38 Comme notre valeur empirique 58 est sup rieure l hypoth se nulle d ind pendance peut tre rejet e F De la d pendance lin aire la pr diction F 1 Cas 1 le coefficient de corr lation utilis comme param tre d un mod le pr dictif mod les de r gression simple e Mod les pr dictifs d finition Les mod les de r gression lin aire ou non lin aire sont des quations alg briques du premier degr permettant de combiner de mani re optimale
175. r de classification 76 Plans factoriels complexes plusieurs facteurs 79 E 3 Tests d ind pendance entre deux variable num riques continues corr lation same sdb ne D aa RS ee Pieds 82 F De la d pendance lin aire la pr diction 84 F 1 Cas 1 mod les de r gression lin aire simple 84 F2 Cas 2 mod les de r gression lin aire multiple 92 G Structuration de donn es 95 G I Analyse typologique partir d une matrice de distances 95 G 2 Les mod les factoriels LR nine ee Re cs ss 97 APPENDICE exercices de r capitulation 101 Sources et r f rences 25224 ni Nr tou dde ne ea at da 111 ANNEXES tables statistiques 112 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 1 A Introduction qu est ce que les statistiques Les statistiques telles que nous les connaissons aujourd hui constituent un ensemble de th ories et de techniques extr mement vari es remplissant des t ches diverses dont les relations ne sont pas toujours claires description estimation test de mod les pr diction et bien d autres Quelles sont en fait les relations entre ces diff rents objectifs et le calcul des probabilit
176. rdisation tait n e bien plus performant que la r duction l homme moyen ce concept nouveau permettait une description pr cise de 8 Galton fut aussi un des premiers constructeurs de tests Soucieux de comparer divers groupes humains entre eux il construisit un test des facult s humaines qu il administra pr s de 9000 personnes Cet instrument pr te aujourd hui sourire car soucieux de faire plaisir son cousin C Darwin Galton se crut oblig de mesurer tous les aspects de la vie personnelle psychique physique et quotidienne des individus il les interrogea sur la ferveur de leurs convictions religieuses leur opinion vis vis de l cole leur aspect physique leurs qualit s morales leurs aptitudes vivre conjugalement et toutes sortes d aspects qui nous paraissent un peu incongrus de nos jours ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 15 groupes humains ainsi que des comparaisons et des classements ind pendants des circonstances variables de l valuation L objectif des eug nistes anglais de la fin du 19 si cle tait l am lioration de la soci t par la s lection biologique des individus les plus m ritants Cette id e h rit e directement de la th orie initiale de Darwin cousin germain de Galton allait se concr tiser au d but du 20 si cle dans le courant scientifique appel biom trie auquel on do
177. re ou non et si on s int resse aussi l effet des facteurs sur une deuxi me voire une troisi me variable continue appel e alors covariable auquel cas on doit s aventurer du c t des techniques d analyse de variance multiples MANOVA qui ne sont pas toujours simples saisir pour des non statisticiens En bref un tour d horizon des diverses techniques de l analyse de variance n cessiterait un cours complet lui seul et nombreux sont les ouvrages volumineux qui y sont consacr s dire vrai l analyse de variance est surtout pratiqu e par les exp rimentalistes qui en ont fait une sorte de religion caract ris e par des rites et des terminologies parfois diff rentes ce qui ne facilite pas son abord par les non initi s Dans ce cours nous nous contenterons d expliciter le principe fondamental de l analyse de variance et cela dans le cadre le plus simple celui de l analyse de variance simple un seul facteur de classification et une seule variable d pendante Il n est peut tre pas inutile de rappeler que l analyse de variance est une technique de d composition de la variance des scores individuels qui a pour but de d terminer si des groupes diff rent selon leurs moyennes Ce test devrait effectivement tre accompagn d un test sur les variances comme dans le cas du test de Student car si plusieurs groupes sont cens s tre tir s de la m me population on attend au moins q
178. riable de d cision est l estimateur de la distance r elle A entre la distribution de probabilit s d appartenance un signe du zodiaque dans la population de psychologues et la distribution uniforme du mod le 5 La question d cisive Cette distance r elle A estim e par D peut elle tre consid r e intuitivement comme nulle non rejet de l hypoth se nulle ou diff rente de z ro auquel cas il fau drait envisager un effet des astres sur les choix en mati re d orientation professionnelle Pour r pondre cette question il faut tester l hypoth se nulle en regard d une exp rience d faut de mieux 2 Mais auparavant il faut examiner le comportement de D dont notre unique exp r ET s pA x 2 7 rience va fournir une r alisation d un nombre cette fois ci de la variable D appel e aussi variable de d cision Or il se trouve que la quantit variable De exprimant la distance entre deux distribu tions l une observ e et l autre th orique a une distribution de probabilit connue en particulier si hypoth se nulle est vraie Cette distribution a t calcul e par les statisticiens et porte le nom de distribution du chi carr Ces distributions forment une famille il y en a une diff rente pour chaque AT 2 cas selon le nombre de cat gories sur lesquelles on calcule D 13 On remarquera en passant que dans ce raisonnement la notion intuitive de d
179. s condition que celui ci ob isse un un certain nombre de contraintes li es la simplicit Dans le domaine de la recherche et de la mod lisation en sciences sociales ces contraintes de simplicit s expriment g n ralement par trois conditions Les l ments de la structure doivent tre facilement interpr tables et si possible non redondants Ces l ments doivent tre en nombre minimum mais doivent repr senter la majeure partie de l information contenue dans un ensemble de donn es redondantes et difficiles interpr ter Chaque l ment de cette structure porte une certaine quantit d information ind pendamment des autres et cela dans un ordre hi rarchique le premier l ment porte le maximum d information le dernier le moins Dans un vocabulaire plus technique une structure factorielle permet de mod liser dans le but de la clarifier la structure complexe des inter relations entre plusieurs variables originales redondantes Un l ment de la structure factorielle est une variable latente un facteur suppos e expliquer la variance commune de plusieurs variables intercorr l es Ainsi plusieurs groupes de variables intercorr l es peuvent tre remplac es par autant de facteurs uniques repr sentant chacun lui seul l essentiel de l information v hicul e par un groupe de variables li es Ces facteurs devant tre si possible ind pendants les uns des autres Histor
180. s Pearson ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 16 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES Le paradoxe de Galton se trouvait alors expliqu si la taille des enfants ne pouvait pas tre pr dite exactement sur la seule base de la taille des parents l galit des variances des distributions des deux variables ne pouvait s expliquer que par la variance d une quantit al atoire d pendante de la force du lien existant entre elles appel e r sidu Le mod le de r gression n est donc devenu op rationnel qu au d but de ce si cle quand bien m me Legendre en avait crit l quation d s 1805 comme nous l avons vu plus haut Le terme de r gression a toutefois surv cu malgr son inad quation personne n ayant r ussi lui trouver une alternative unanimement accept e C La notion de test statistique C 1 Exemple th orique et d finitions La notion de test d hypoth se semble principalement due Pearson et appara t la fin du 19 si cle Un test statistique d hypoth se consiste en une mise l preuve d une hypoth se dans le cadre des relations du couple population chantillon si les donn es d un chantillon confirment aux al as du tirage pr s un mod le th orique formalis dans une hypoth se dite nulle nonc e toujours propos d une population alors notre confiance dans cette hypoth se va s accro tre dans le cas contraire
181. s de l analyse de variance ANOVA et MANOVA simple ou multiple est galement pris en compte mais l tude compl te de toutes les possibilit s exigerait le volume d un manuel sp cifique sur ce th me C 7 Un exercice d cisif sur l analyse de puissance Le lecteur d sirant comprendre de mani re approfondie le sens d un test statistique et l apport de l analyse de puissance peut se livrer l exercice suivant G n rer une population U th orique de scores distribu s normalement de moyenne 0 et d cart type 1 scores standards gaussiens veiller ce que N soit grand disons 10000 Cette distribution est associ e l hypoth se nulle Ho G n rer une population X th orique de scores distribu s normalement de moyenne 0 5 et d cart type 1 N 10000 aussi Cette distribution est associ e l hypoth se alternative H Dans U tirer al atoirement 100 scores et pratiquer un test d ajustement sur la moyenne th orique 0 au seuil amp 5 unilat ral V rifier que sur 100 tests de cette sorte environ 5 donnent un r sultat significatif alors que H est vraie puisqu on a pris la population U parente Noter que ce ph nom ne est ind pendant de n Ensuite d terminer l aide G power la taille de l chantillon n cessaire pour d tecter une diff rence de 0 5 taille d effet correspondant la diff rence de moyenne entre U et X avec un seuil amp de 5 et une p
182. s la m trique du crit re en les multipliant par sc et en leur ajoutant m On obtient donc les C autour desquels il faut construire un intervalle de confiance On calcule l cart type des r sidus bruts par la formule Sa SC 1 r Si l on est perfectionniste on peut calculer l erreur type exacte en calculant les r sidus bruts puis en calculant leur cart type corrig en divisant par n 2 Pour des ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 92 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES grands chantillons n plus grand que 100 cette diff rence n a pas grande importance Dans cet exemple y1 81 Sc 4 76 et l cart type des r sidus bruts vaut donc 4 76 0 81 3 85 SPSS donne la valeur exacte 3 91 erreur type de pr diction Pour un nouveau score observ 16 la variable P la valeur C pr dite est 16 20 et les bornes de l intervalle de confiance gaussien construit autour de cette valeur et ayant 95 chances sur 100 de contenir la vrai valeur C sont 16 20 1 96 3 85 23 7 et 8 67 L intervalle calcul par SPSS utilisant l erreur type de 3 91 associ e une distribution de Student est un peu plus large F 2 Cas 2 Les mod les de r gression lin aire multiple Dans ce cas on a toujours un seul crit re C mais on dispose de plusieurs pr dicteurs P pour l approcher au mieux Un mod le lin aire pr dictif multiple est une quation
183. sans hypoth se alternative ne permet de juger que le risque de F7 esp ce savoir rejeter tort l hypoth se nulle et il est impossible d valuer la sensibilit du test c est dire la probabilit de ne pas rejeter H tort erreur de gt esp ce B ou ce qui revient au m me la probabilit de rejeter H avec raison En utilisant l analogie avec un tribunal le test Fish rien s assure bien qu un condamn innocent ne soit pas condamn tort mais ne se pr occupe pas de savoir si le tribunal se donne les moyens suffisants pour condamner effectivement un coupable Or un tribunal qui se pr occupe de minimiser l erreur de 1 esp ce vite certes d tre injuste mais un 5 RE me sa tribunal qui ne se pr occupe pas de minimiser l erreur de 2 esp ce risque bien d tre inutile et on sait par exp rience qu un bon tribunal doit se pr munir de mani re quilibr e aussi bien contre l injustice que l inutilit Le fait que la plupart des chercheurs en sciences humaines pratiquent les tests statistiques sans se pr occuper de B ou de leur puissance 1 B a suscit ces derni res ann es une vive r action de la part de th oriciens de logique statistique selon eux une pratique des tests d hypoth se qui n glige les consid rations sur leur puissance quivaut pratiquer un rituel vide de sens autant alors renoncer totalement aux tests puisqu on ne se pr occupe pas d
184. seuils critiques au del desquels un score peut tre consid r comme aberrant 4 2 Dans la distribution ci dessous en haut de la page suivante m 25 2 ets 8 5 obtenue partir de scores un test verbal identifiez un score aberrant et expliquez sa pr sence ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE IL TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 103 7 4 4 4 1 4 4 8 2 4 4 1 3 3 4 4 1 8 5 4 1 7 1 8 3 5 7 4 4 4 0 8 2 9 9 4 8 9 4 4 5 3 0 2 9 9 6 2 1 4 4 6 6 2 4 4 7 0 3 2 9 9 7 9 4 4 1 7 1 8 9 7 5 4 1 7 1 8 11 5 6 4 1 7 1 8 13 2 7 13 555 ST 18 9 Distributions chantillonales de moyennes loi de Student tudier un caract re en g n ral attribut dimension param tre etc le vocabulaire est large et mal sp cifi revient en statistique chercher conna tre les caract ristiques moyenne variance extr mes etc de sa distribution dans la population qui est au centre de nos int r ts Comme cette population ne peut pas tre consid r e dans son entier le chercheur doit pratiquement toujours se contenter d tudier des chantillons partiels mais si possible repr sentatifs de cette population Chercher conna tre le g n ral partir d informations collect es sur des r alit s particuli res limit es revient utiliser la pens e inductive qui en statistique se r alise dans un ensemble de techniques relevant de
185. sp rance ou une moyenne de 0 si H est vraie elle est d j centr e il faut donc encore la r duire en la divisant par son cart type et finalement la quantit T M M 2 2 m 1 s Re Es n 1 n 1 n n suit une loi de t de Student n 1 n 1 degr s de libert d esp rance nulle et d cart type n n 2 o n n n3 et si une r alisation t de T pour une exp rience particuli re d passe un seuil tiei test bilat ral fix alors H est rejet e avec un risque d erreur Q En r sum Comparaison de moyennes dans le cas de groupes ind pendants Conditions d utilisation Les individus des deux groupes sont tir s au hasard le caract re X est suppos normalement distribu dans les deux chantillons Logique des techniques de comparaison de moyennes et de variances le probl me de fond est de savoir si deux chantillons proviennent d une m me population ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 70 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES L hypoth se nulle peut donc porter sur la seule moyenne ou tre plus exigeante et porter sur la moyenne ef la variance Comme le test de Student ne fonctionne bien que si les variances sont proches il vaut mieux toujours commencer par le test des variances Si l on ne rejette pas l hypoth se nulle sur les variances la situation est favorable et si l hypoth se nulle sur les
186. t imaginer autant de valeurs f qu il existe de mani res diff rentes de tirer notre chantillon de n individus dans un r servoir population en prin cipe illimit Si l on s int resse maintenant la distance entre ce que l on observe et ce que l on attend conform ment au mod le on s int ressera n cessairement la diff rence entre les quantit s nf effectifs observ s et np effectifs attendus sous Ho les nf np sont donc des variables puisque les f le sont Rappelons que toutes les valeurs p sont gales 1 12 L id e intuitive de distance globale entre les distributions observ e et attendue impli 12 que une sommation de ces diff rences effectif par effectif of np 1 ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 45 Cependant la possibilit de termes n gatifs ne permet pas d tablir un lien n cessaire entre cette somme et la distance recherch e c est pourquoi on effectuera la sommation sur des carr s de diff rences Finalement on obtient une estimation de la distance entre les deux distributions observ e et th orique en rapportant les carr s des diff rences l effectif th orique correspondant cette estimation est appel e D Le r sultat du calcul sera donc une distance carr e d sign e par le symbole 12 2 nf np 1 aB Cette quantit d r alisation de va
187. te ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 39 Figure 5 CR CR 6 OE S DODE 25 25 25 25 Les caract ristiques parentales r apparaissent la seconde g n ration dans une proportion de 1 4 rouge 1 4 blanc le reste tant rose Ce ph nom ne ne s explique que par la seconde loi de Mendel dite de la puret des gam tes qui postule que les gam tes ne sont jamais hybrides car haplo des Une telle loi peut se v rifier par l exp rience En croisant des fleurs rouges et blanches sur deux g n rations on devrait si la th orie est vraie retrouver la distribution th orique des fr quences ci dessus soit dans ce cas 25 de rouge 50 de rose et 25 de blanc Au d but de ce si cle K Pearson r solut math matiquement ce genre de probl me d ajustement qui dans des cas plus complexes requiert l usage de distributions th oriques de type chi carr qu il fut le premier calculer On comprend du m me coup pourquoi le d veloppement de la statistique des tests d ajustement statistiques est si troitement li e au d veloppement de la g n tique Pearson a t directeur pendant pr s de 30 ans du Galton laboratory of genetics D 1 3 Cas de dominance d un caract re Dans ce cas par exemple D feuille dentel e et r feuille r guli re lorsque deux caract res diff rents sont pr sents dans le m me g noty
188. u ils aient m me moyenne et m me variance Pour simplifier les choses le test de Levene qui porte sur l homog n it des variances s effectue par le bais d un test sur les moyennes Plan simple un seul facteur de classification Il est important d expliciter pr alablement les hypoth ses de base de l analyse de variance L hypoth se nulle du test sur les moyennes veut que les groupes soient tir s de la m me population autrement dit que les moyennes observ es pour chacun des n groupes soient les estimations de la m me moyenne u dans la population On crit couramment que Ho U4 W2 H H Le test d hypoth se standard sur les moyennes n est en fait valable que si les diff rents groupes ont m me effectif et m me variance En g n ral on s arrange pour que les effectifs soient peu pr s gaux et on pr suppose que les variances des groupes sont peu pr s gales Il faut savoir qu en psychologie il est parfois difficile de satisfaire ces deux conditions on calmera toutefois nos scrupules en utilisant des logiciels qui tiennent ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 77 compte des diff rences d effectifs d une part et en testant l homog n it des variances empiriques d autre part Cela dit lorsque le test de Levene aboutit au rejet de l hypoth se d homog n it des variances on se gardera de
189. u public aux arguments de Gauquelin M me s il peut exhiber quelques r sultats significatifs ceux ci ne peuvent nous convaincre de la r alit de l influence des astres sur l orientation professionnelle En r sum test d ajustement une distribution th orique discr te mode d emploi e Conditions d utilisation pas plus d un quart des effectifs th oriques ne doivent tre inf rieurs 5 Les individus doivent tre tir s au hasard e Proc dure suivre Calculer les c fr quences et effectifs observ s nf Calculer les c effectifs th oriques np impos s par le mod le c 2 nf np Calculer la quantit d a 1 Pi Comparer cette quantit au seuil d termin par un domaine de rejet de 5 ou 1 dans la distribution de X l D 4 Test d ajustement une proportion th orique 1 Probl matique On se souvient des efforts de Kretschmer qui cherchait un lien entre la constitution physiques des tres humains et leurs caract ristiques temp ramentales cf cours va luation psychologique Cherchons plus pr cis ment savoir si pour une femme le fait d tre catalogu e schizothyme par la th orie de Kretschmer implique qu elle appartienne plus souvent au type physique leptosome plut t qu tout autre TABLEAU 4 Kretschmer table de contingences entre morpho types et psycho types normaux femmes Schizothyme Cyclothym
190. uantit _ 1258 0 74 756 0 24 1258 756 p 0 55 puis N NEE I I C1 E EEE E E D a E E valeur qui exc de largement le seuil de 1 96 L hypoth se nulle ne peut qu tre rejet e si on en croit les chiffres de Kretschmer le type physique et fortement li au type psychique Exemple on se demande si le comportement tabagique des adolescents d pend du sexe On se propose donc de tester le lien entre deux variables qualitatives dichotomiques sexe modalit s F ou M et comportement tabagique modalit s fume ne fume pas On interroge 100 gar ons dont 32 disent qu ils fument et 80 filles dont 28 disent aussi fumer L H est d finie comme suit les deux chantillons sont tir s de la population g n rale des adolescents dans laquelle les filles et les gar ons fument dans la m me proportion p inconnue On peut disposer les donn es de la mani re suivante TABLEAU 5 Table de contingences sexe et comportement tabagique Fume Ne fume pas total Filles 28 52 80 Gar ons 32 68 100 total 60 120 180 Un tel tableau se pr te tr s bien un test du chi carr cf suivant mais on peut aussi l utiliser pour illustrer le point trait ici savoir le test sur les proportions On calcule f 28 80 7 20 pour les filles et f 32 100 8 25 pour les gar ons donc f fy 0 03 et p 60 180 0 33 ROLAND CAPEL
191. ue leur utilisateur ne sait peut tre pas que la p value est fonction de l effectif de l chantillon Il est pourtant clair qu une corr lation calcul e sur 1000 individus a toutes les chances d tre trois toiles alors que a m me corr lation calcul e sur 100 individus ne sera gratifi e que d une seule toile et toujours la m me calcul e sur 30 personnes sera rel gu e avec m pris l inf me condition de non significant Cela dit il est certes parfaitement vrai qu une corr lation estim e partir de 1000 individus est bien plus stable donc fiable que la m me calcul e sur 100 mais la p value n a rien faire dans cette affaire la seule information pertinente qu elle nous apporte est que toute corr lation si elle est non significative ne peut pas s interpr ter comme l indice le signe d un lien entre deux variables dans une population parente On comprend donc mieux le sens des petites toiles il y en a d autant plus que l effet est grand certes mais leur nombre augmente galement si l chantillon est grand Donc en pr sence d une s rie de r sultats calcul s sur des chantillons de tailles diff rentes on ne sait pas ce que signifient r ellement les toiles grand effet ou grand nombre Et dans le cas de plusieurs r sultats calcul s avec le m me chantillon par exemple une matrice de corr lations le nombre d toiles n indique rien d autre que
192. uera autour de cette valeur attendue avec un cart type plus ou moins grand D o l int r t de disposer d une technique permettant de tester si la proportion observ e ne s carte pas significativement de la valeur attendue 50 auquel cas il faudrait remettre en question la th orie du m canisme de transmission des caract res sexuels 12 On notera qu il a fallu attendre 1933 pour comprendre les m canismes cellulaires mis en jeu Roux et Weisman th orie chromosomique de l h r dit ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 38 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES D 1 2 Transmission h r ditaire d un caract re C ind pendant du sexe Figure 3 Clo CR CR i o Con e Gam tes G a a a ce Cle ce C e enfants 100 de sujets purs homozygotes C G n ration P C parents L une des principales loi de Mendel est la loi d uniformit dans le cas de la transmission de deux caract res de force gales cas des v g taux fleurs par exemple C4 rouge et C blanc on observe le ph nom ne suivant Figure 4 ED blanc G n ration P pi parents AN 7 Ci Ci C2 C2 Gam tes G G n ration F enfants 100 de sujets b tards roses h t rozygotes La premi re g n ration est donc uniforme mais si on continue croiser les sujets de cette g n ration on observe le ph nom ne suivant cf figure p suivan
193. uissance 80 On trouve n 27 Dans X tirer al atoirement 27 scores et pratiquer un test d ajustement sur la moyenne th orique 0 au seuil amp 5 unilat ral V rifier que sur 100 tests de cette sorte environ 20 donnent un r sultat non significatif alors que H est vraie puisqu on a pris la population Z parente On peut faire varier la puissance ou la diff rence entre les distributions U et Z et se rendre compte concr tement de ce que repr sente la sensibilit d un test quantifi e par la notion de puissance plus un test est puissant plus il est sensible D Tests d ajustement des mod les th oriques Les test d ajustement ont pour but de comparer des r sultats observ s ceux que l on devrait obtenir th oriquement si un certain mod le a priori d crivait parfaitement une r alit donn e L objectif de toutes ces m thodes est donc de savoir par le biais de l information apport e par une exp rience particuli re si un mod le th orique simple une loi une distribution de fr quences ou une valeur peut d crire une r alit inobservable directement Souvent les mod les th oriques sont l expression de certaines th ories comme par exemple la th orie chromosomique de l h r dit et le non rejet de l hypoth se nulle peut tre interpr t comme une confirmation empirique de celle ci ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE D
194. urrence 100 personnes dont on esp re qu elles sont repr sentatives de tous les tudiants inscrits dans cette branche On sait que si un v nement E ici tre inscrit en psychologie ef tre une femme se produit avec une fr quence de p dans une population alors la distribution chantillonnale de la variable F dont les scores sont des f probabilit s d observer l v nement E dans un chantillon de 100 tudiants en psychologie a les caract ristiques suivantes la variable F est gaussienne et a une esp rance gale p ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 5 etun cart type gal s d P P Avec n 100 taille de l chantillon Ces valeurs nous permettent de calculer la largeur d un intervalle de confiance 95 par exemple qui aura 95 chances sur 100 de contenir une valeur f observ e au cours d une exp rience celle que nous traitons ici si H est vraie Si notre valeur empirique savoir 8 n est pas incluse dans l intervalle de confiance calcul autour de 5 alors nous rejetterons l hypoth se nulle avec 5 de chances de prendre une d cision erron e Calculons maintenant cet intervalle dont la largeur vaut approximativement 2 cart types de F plus exactement E SEL 06 De 1 96 0 05 0 1 L intervalle de confiance sym trique 95 autour de 5 est donc born par 40 et 60 et notr
195. va de la nouvelle variable vers vi Regarder ensuite dans la ligne de cette variable s il y a une corr lation soulign e si oui lier cette nouvelle variable de la m me mani re et etc jusqu ce qu il n y aie plus de corr lation soulign e dans la ligne de la derni re variable li e au cluster par v 5 Op rer exactement de la m me mani re avec v et lier les ventuelles variables au cluster jusqu ce qu il n y aie plus de corr lation soulign e On obtient un graphe du genre Vi lt gt Vk 27 Le premier cluster est ainsi constitu les angles des fl ches n ont pour l instant pas d importance et on s efforce de dessiner des fl ches d autant plus longues que les corr lations sont faibles Le sens des fl ches signifie toujours que la variable origine a ses relations les plus fortes avec les variables situ es la pointe V Va Vf ROLAND CAPEL COURS 2008 UNIVERSIT DE LAUSANNE 10 11 12 G 2 TH ORIES ET TECHNIQUES DE BASE EN ANALYSE DE DONN ES 97 On fait abstraction des lignes et colonnes constituant le premier cluster et on identifie la corr lation la plus haute dans la matrice r siduelle Le deuxi me cluster est cons titu de la m me mani re puis le troisi me et les suivants s il y a en a Les clusters dessin s sur ce premier sch ma vont ensuite tre li s entre eux en repr sentant les secondes liaisons les plus fortes entr
196. veut construire un intervalle 95 u 1 4 2 est le centile 975 de la distribution normale standardis e table gal 1 96 On a donc pu construire pour chaque individu un intervalle de confiance ayant 95 chances sur 100 de contenir le score C au crit re au cas o cette information devenait disponible Cette m thode permet aussi de pr voir que sur 100 scores du crit re effectivement observ s 95 d entre eux seront compris dans l intervalle d fini autour du C pr dit par le mod le alors que 5 d entre eux seront en dehors En pratique la r gression lin aire simple ce qu il faut savoir ce qu il faut faire calculer par un logiciel et ce qu il faut calculer soi m me Pr cautions d usage Pour construire et utiliser un mod le de r gression il est recommand de v rifier les conditions suivantes un trop petit chantillon ne fournira pas de bonnes estimations des param tres du mod le mieux vaut disposer d au moins 100 personnes pour l chantillon d apprentissage les distributions des variables utilis es devraient tre pr alablement test es du point de vue de leur normalit un diagramme de dispersion des donn es devrait confirmer l id e d un lien lin aire entre les variables le coefficient de corr lation empirique calcul sur les donn es ne doit pas seulement tre significatif mais il doit aussi tre gal une valeur consid r e habituellement comme forte
197. xemple que la pi ce est vraie quilibr e Si l on s tonne que le r sultat s carte d une certaine attente cela signifie qu un test implicite a t op r A ce stade il est primordial d expliciter les mod les de mani re pouvoir les formaliser Le test d hypoth se classique devient alors possible la pi ce est elle quilibr e ou non T che 3 des statistiques la recherche ne s arr te pas avec l affirmation selon laquelle la pi ce est ventuellement truqu e si c est le cas l estimation statistique doit quantifier le d s quilibre des chances c est dire construire un nouveau mod le tenant compte des donn es fournies par l exp rimentation Dans cet exemple l exp rience des 50 lancers permettra d estimer les param tres de la distribution des probabilit s d une certaine hypoth se par exemple que la pi ce est truqu e dans le sens d avoir 65 de Pile Ce calcul tant fait il devient possible de pr dire la r partition d une s rie de nouveaux lancers L urne de Bernouilli Ce probl me de pi ce de monnaie ne semble pas avoir premi re vue de rapport direct avec l valuation psychologique Il constitue pourtant son mod le th orique fondamental en particulier pour les items dont les r ponses sont du type vrai faux En effet chaque personne prise au hasard et r pondant un tel item peut tre repr sent e au 1 On cherche en fait

Download Pdf Manuals

image

Related Search

Related Contents

取扱説明書 - オプトロム 環境エネルギー事業部  Série SP 3300 - Firmware Center  Manuel  HP Intel Xeon X6550  etre assistant(e) aujourd`hui : mode d`emploi      EP8526 tw1000_out copy.eps  Bullbar Installation Guide - Dobinsons Spring & Suspension  

Copyright © All rights reserved.
Failed to retrieve file