Home
un algorithme de regroupements d`unités statistiques selon
Contents
1. Au del de ce probl me de troncature les diff rences li es aux prises de note phrases compl tes ou abr ges discours indirect ou direct nous ont conduit pr f rer une approche th matique partir d une analyse lexicom trique du fait des fortes disparit s entre les corpus textuels difficilement allouables l enqu t et surtout une grande prudence quant la g n ralisation des r sultats du fait des possibles traductions des r ponses libres des enqu t s par les enqu teurs Mais ce type d intervention de l enqu teur sur le corpus textuel tudi n est pas la seule L effet enqu teur Cette question ne peut tre mise de c t d s lors que l on traite d une tude sur une population en difficult d insertion sociale En effet lors d une tude m thodologique sur les principes adopter pour am liorer la qualit des enqu tes sur ce type de population Dub chot Legros 1993 les auteurs montrent l importance de contr ler au mieux l effet enqu teur En fonction de son ge de son exp rience de sa formation professionnelle la relation qu il va tablir avec l enqu t sera de nature diff rente et peut en raison de l impossibilit d une standardisation parfaite de cette relation malgr les instructions donn es aux enqu teur conduire un d roulement diff renci des entretiens Cet effet est d autant plus sensible que dans notre cas nous nous int ressons la question finale et
2. enqu teur utilisait des abr viations ce qui est le cas dans un nombre important des r ponses soit le discours continuait La lecture de certains questionnaires 6 confirme les deux cas envisag s Ainsi un questionnaire rep r comme tronqu finissait effectivement par le dernier mot saisi En revanche un autre se prolongeait longuement la personne enqu t e donnant son opinion ou son sentiment sur de nombreux sujets Difficult s particuli res par rapport au logement diff rentes Toulouse C tait plus facile l insertion Toulouse que sur Paris Il y a lair d avoir plus de structures mais moins de places On peut tourner de foyers en foyers sans d autres issues que par le travail car il faut la caution Quand on est dans un foyer c est difficile de trouver du travail horaires peu de calme Diff rent Toulouse o on m avait donn un studio sans caution Le Samu Social 115 injoignables j ai bataill et on m a dit qu il fallait redescendre Toulouse trois semaines dans la rue Vous n avez qu redescendre en stop Le foyer Emma s nickel au niveau propret le seul probl me il faut partir de 8h 18h toute la journ e dans la rue sans ressource et sans savoir quoi faire Paris demande beaucoup de courage et de sant On se sent perdu sans rep re Les domiciliations sont difficiles les prix des transports aberrants sur un RMI Si je n ai pas de place dans un h tel social je redescendrais sur Toulouse
3. quelles sont les raisons qui peuvent expliquer cet enthousiasme Tout d abord les questions ouvertes sont particuli rement performantes lorsque l on souhaite recueillir une information spontan e d Aubigny 2001 Ensuite des volutions technologiques ont modifi le co t et la faisabilit du recueil de ces informations Collecte Assist e Par Informatique ou CAPD Enfin l engouement pour ce nouveau 1 l Insee a peu publi d tudes s appuyant sur des analyses textuelles si ce n est l tude de Christian Baudelot et Michel Gollac sur Bonheur et travail r alis e certes partir d une partie variable de l enqu te permanente sur les conditions de vie des m nages EPCV mais par une quipe de sociologue de PENS Baudelot Gollac 1997 Or les questions ouvertes peuvent tre au c ur m me de la probl matique tudi e Par exemple dans la partie variable Transmissions familiales de l EPCV les deux questions suivantes taient pos es Qu est ce que vos parents vous ont transmis ou l gu de plus important Qu est ce qui est pour vous le plus important de transmettre ou de l guer vos enfants Cette derni re a t exploit e par le DEP du Minist re de la Culture associ l enqu te Une autre question ouverte Quelle profession ou quel genre de profession souha iteriez vous pour votre enfant a t exploit e de fa on assez sommaire dans un article r cent Les familles
4. s articulation logique des cat gories doit reposer sur un principe unique de classification et assurer cette derni re un caract re disjonctif et exhaustif elle doit s adapter la structure de la situation analys e elle doit s adapter au cadre de r f rence de l enqu t Une fois ces principes de base adopt s reste en suspens la question des techniques de codification Une pratique assez courante consiste fabriquer une grille de codagel a priori partir de la confrontation des travaux de deux codeurs diff rents Montgomery Crittenden 1977 Trois cas sont possibles les cat gories identifi es par les codeurs se correspondent totalement c est dire qu elles regroupent exactement les m mes r ponses plusieurs cat gories de l un correspondent une seule cat gorie de l autre pas de correspondance possible Cette premi re analyse permet de d gager les cat gories qui seront retenues en s appuyant sur les quatre conditions requises pour g rer le cas pas de correspondance possible et de pr ciser les instructions pour les futurs codeurs Ensuite l ensemble des r ponses sont analys es par diff rents codeurs qui disposent tous de la m me grille de lecture cat gories et instructions Dans le cas o une m me r ponse serait cod e diff remment la r gle de la majorit est appliqu e c est dire que le code le plus souvent cit est retenu Des r gles plus pratiques de post codage
5. s d j tudi s au travers des nombreuses questions ferm es qui constituaient le questionnaire mais plut t de renseigner sur la mani re dont ils les formulent tant entendu qu elle mettra ainsi en valeur les affects qu elle contient Aldeghi 1988 p148 L autre inconv nient majeur concerne les difficult s traiter les r ponses complexes ou composites qui sont selon Ludovic Lebart litt ralement lamin es par le post codage alors m me que c est dans ce cas que la valeur heuristique des r ponses libres est la plus grande 9 C est le principe de toute nomenclature construite en une arborescence de plus en plus fine 10 Cette grille peut s appuyer sur des r flexions reposant sur les autres questions de l enqu te en particulier si la question ouverte vient compl ter une batterie de questions sur un th me pr cis Elle peut aussi reposer sur un sous chantillon de r ponses Ce dernier point doit tre nuanc par le fait que si ce travail de r duction n tait pas fait il n y aurait de fait aucune information transmise 2 Toutefois rien n emp cherait a priori un codeur de d crire chaque r ponse selon une variable d crivant la forme qualit de l expression et le fond th me de la r ponse 4 Insee Actes des Journ es de M thodologie Statistique 2005 Lebart 2001 Enfin les r ponses rares ou peu fr quentes difficiles analyser en premi re lecture sont par construction affect
6. contrario Geer montre lors d une tude que les personnes qui ne r pondent pas une question ouverte le font par manque d int r t sur le sujet tudi plut t que du fait d une incapacit r pondre ce type de question Geer 1988 L autre critique concerne la pertinence de l information collect e G n ralement les enqu t s seraient peu susceptibles de sonder leur m moire de fa on assez pr cise pour se rappeler correctement des informations qui ont g n r leur jugement global sur la question pos e Smith 1989 p84 Plus pr cis ment les commentaires ne r v leraient pas leur opinion fondamentale Au contraire les r ponses r v leraient des go ts ou des aversions plus superficiels comme ceux que l enqu t aurait pu lire r cemment dans les journaux ou entendre la t l vision ou lors d une conversation avec un ami Smith 1989 p84 Plus g n ralement les opposants aux questions ouvertes pensent qu elles g n rent de simples st r otypes A l oppos les partisans des questions ouvertes consid rent qu elles permettent aux enqu t s de d finir elles m mes leur propre champ et de nommer les probl mes qui les concernent directement Kelley 1983 Parall lement Geer montre que premi rement les questions ferm es sont tout aussi sensibles que les questions ouvertes l actualit deuxi mement l influence de l actualit s exerce essentiellement sur les sujets d int r
7. corpus entier nous pouvons d cider d appliquer une r gle syntaxique Si enqu teur a mis un s nous consid rerons que l enqu t r clame une augmentation du nombre de places si l enqu teur n en a pas mis que l enqu t constate un manque de place dans les structures d accueil Cette r gle est simple mettre en place mais elle est la lecture de l ensemble des r ponses un pis aller En effet il existe un nombre tr s important de fautes d orthographes dans l ensemble des corpus textuels saisis qui l gitiment la remise en cause de cette proc dure Afin d viter ce genre de probl me des solutions ont t propos es utilisation de logiciels de retranscription enregistrement des r ponses avant saisie formation sp cifique des enqu teurs la saisie de tel corpus Ces techniques n taient pas pr sentes lors de la collecte de enqu te sans domicile 2001 De plus aucune instruction sp cifique cette question n tait pr sente dans le manuel d instructions aux enqu teurs La saisie des r ponses a donc t source de nombreuses disparit s entre les diff rents enqu teurs 13 Jacques Jenny a effectu une pr sentation tr s compl te des fondements th oriques de l laboration des logiciels d assistance l analyse de contenu et de discours disponibles Jenny 1997 14 En particulier il serait int ressant d ajouter si n cessaire des inflexions pour rendre compte au mieux du discours
8. es la cat gorie autre r ponse ce qui emp che g n ralement toute interpr tation de cette derni re Or ces r ponses rares peuvent tre produites par des cat gories particuli res d individus et donc pr senter un certain int r t lors de l interpr tation des r sultats Parall lement le d veloppement d outils ou logiciels a facilit le traitement de ces donn es complexes que sont les r ponses libres Cependant ces outils ont g n ralement t d velopp s dans le cadre d un des nombreux courants de recherche ou cole de pens e de l analyse textuelle que sont la lexicom trie l analyse de contenu th matique l analyse automatique des r seaux de mots associ s l analyse propositionnelle et pr dicative du discours etc l Aussi le choix d un logiciel d analyse de donn es textuelles n est pas innocent puisqu il sous entend l adoption d un cadre th orique d analyse de discours En particulier Brugidou et al 2000 se sont interrog s sur la complexit des param tres qui interviennent dans le choix d un logiciel Dans notre cas nous allons donner les raisons qui ont guid notre choix dans la mise en variable des r ponses libres en insistant en particulier sur les contraintes qui pesaient sur notre mat riau brut 2 Les probl mes li s la collecte De loral l crit L enqu te a t collect e sur papier pour des raisons pratiques videntes et dans des conditions parfois diffi
9. et Moine sur la longueur des textes Nous avons donc analys la distribution de la longueur des textes bruts Ainsi pour chaque enqu teur nous avons calcul partir des r ponses non corrig es la taille moyenne des r ponses en nombre de caract res La longueur des r ponses varie beaucoup de 5 caract res 200 et un sixi me des r ponses compte au moins 190 caract res Le fait d tudier la taille par enqu teur permet de compl ter cette premi re tude Une nouvelle fois nous constatons une grande disparit dans la longueur des textes 17 Ce taux est obtenu sur les r ponses diff rentes de RAS et ses d clinaisons La mise en variable des textes un sujet de controverse 7 Figure 2 nombre d enqu teurs en fonction de la longueur des r ponses DOC 201 84 Taille moyenne Tout d abord l effet li la troncature des r ponses est de nouveau visible la queue droite de distribution est paisse Ensuite le nombre moyen de caract res pour un enqu teur donn est de 111 caract res moyenne des moyennes par enqu teur contre 117 sur l ensemble des r ponses Cette diff rence est significative en terme statistique test non param trique du fait des caract ristiques de notre variable mais apporte a priori peu d informations En effet six caract res permettent peut tre d crire un mot mais pas une id e nouvelle sauf dans le cas des r ponses t l graphiques Cela implique seulement que les r po
10. ouvri res face au devenir de leur enfant toujours par un chercheur ext rieur l Insee Poullaouec 2004 Enfin Ludovic Lebart a exploit la demande de l Insee les deux questions ouvertes de l enqu te sur le devenir des allocataires du RMI mais dans une vis e p dagogique ou comme il le dit lui m me explorer les possibilit s et avantages de ce type de recueil 2 Ce processus est valable pour toute tude statistique et correspond au passage de data information collect e par le statisticien given information offerte par le statisticien apr s apurement redressement imputation etc pour reprendre ces anglicismes chers Jean Claude Deville champ d investigations a entra n la multiplication d outils informatis s qui non seulement ont simplifi le traitement gain de temps en particulier mais lont rendu plus efficace en termes d informations produites Nous allons nous int resser un point particulier de ce vaste domaine qu est l analyse textuellei le traitement des questions ouvertes dans les enqu tes aupr s des m nages l aide d une analyse lexicom trique Pour sch matiser cette m thode se r sume la constitution d un tableau lexical entier TLE comprenant en colonne l ensemble des mots utilis s dans le corpus textuel d fini par l ensemble des r ponses et en ligne les fr quences d utilisation de chaque mot pour un enqu t Par la suite les analyses st
11. peuvent aussi tre appliqu es Ainsi Xavier Marc 2001 conseille de ne pas cr er de cat gorie autre r ponse concernant plus de 5 de la population enqu t e et parall lement de ne pas retenir de th me concernant moins de 3 de la population L avantage de ce mode de chiffrement est que les analyses statistiques qui vont suivre s appuieront sur des proc dures d j consolid es puisque cette op ration de codage consiste fermer la question Cependant l ensemble des questions soulev es pr c demment pose le probl me de la l gitimit d effectuer un post codage des r ponses une question ouverte puisque id alement il n cessiterait le travail de plusieurs codeurs pour assurer une certaine robustesse des r sultats et que de toutes fa ons il entra nerait la perte d une quantit importante d information 1 Ces proc dures de codage ont assez peu d inconv nients pour des r ponses simples ou st r otyp es ou peu nombreuses Mais de nombreux l ments d analyse sont perdus lors du post codage qualit de l expression registre du vocabulaire syntaxe tonalit g n rale de l entretien longueur des r ponses etc l ments qui sont parfois li s l introduction de ces questions 2 Par exemple dans l enqu te du CREDOC sur les Nouveaux arrivants au RMI l analyse de la question ouverte sur les jugements des allocataires sur le RMI n avait pas pour but une quantification des jugements port
12. produit La mise en variable des textes un sujet de controverse 5 Les r ponses ont t crites par l enqu teur puis ont t saisies par des op rateurs De nombreux enqu teurs ont adopt un style t l graphique sans sujet ni conjugaison et utilis des abr viations afin de collecter l ensemble du discours produit par l enqu t Cependant les r ponses saisies ne pouvaient d passer 200 caract res source d un certain nombre de r ponses tronqu es Dans notre cas une m thode biais e pour estimer le nombre de r ponses tronqu es a consist compter toutes les r ponses contenant deux cents caract res Elles sont au nombre de 128 sur les 218615 r ponses abordant au moins un sujet c est dire diff rente de RAS non rien ajouter etc soit 5 6 des r ponses A priori on peut penser qu elle tend surestimer le nombre de r ponses tronqu es puisque le discours saisi peut tr s bien s arr ter effectivement 200 caract res On peut parall lement compter les r ponses de 200 caract res finissant par un mot tronqu Il faut am liorer les conditions de v ou une phrase incompl te souhaite avant tout pouvoir Il y a 20 phrases qui sont manifestement incompl tes et 46 phrases qui finissent par un mot tronqu Dans ce dernier cas de figure deux possibilit s sont envisageables soit le discours finissait par ce mot tronqu soit par manque de place soit parce que l
13. t Dans les cas pr c dents il s agit seulement d un souhait alors que dans le dernier exemple l utilisation du La mise en variable des textes un sujet de controverse 9 verbe trouver laisse supposer qu il y aura une recherche de sa part Cette distinction est n cessaire d s lors que l on s int ressera non pas seulement aux th mes abord s mais aussi la formulation et la constitution de posture Reinert 2001 c est dire de discours types relatifs certaines cat gories de personnes D autres travaux auraient pu tre envisag s en particulier le traitement de la polys mie et de l homographie assez fr quentes dans la langue fran aise Dans les deux cas l objectif est d ajouter des marqueurs qui permettent de rep rer les diff rents sens d un m me mot afin d viter des probl mes d interpr tation des r sultats Dans le deuxi me cas des r gles syntaxiques permettent de s parer les homographes en associant chaque forme une cat gorie grammaticale Ainsi des chercheurs ont d velopp des logiciels contenant des nomenclatures de mots fran ais en regroupant leurs diff rentes flexions sous un m me lemme tiquett de sa forme grammaticale Par exemple toutes les formes conjugu es d un m me verbe sont r unies sous le doublon nom du verbe l infinitif verbe De m me toutes les d clinaisons de l article le la l les sont r unies sous le doublon le a
14. t des enqu t s et de toutes fa ons si l information est pertinente il semble logique qu elle soit int gr e dans le discours des personnes Geer 1991 Toutefois il est n cessaire de 3 Jacques Jenny donne en 1997 une liste tr s compl te des logiciels d analyse textuelle d velopp s et utilis s en France Jenny 1997 4 Dans l article cit pr c demment Jacques Jenny dresse une liste tr s compl te des diff rents champs et m thodes de l analyse textuelle op cit 5 Les partisans de Craig pourraient r pliquer que l int r t n est pas ind pendant du niveau d ducation sous l hypoth se que plus le niveau d ducation est lev plus on aurait de centres d int r t mais ceci reste discuter 2 Insee Actes des Journ es de M thodologie Statistique 2005 garder pr sent l esprit que l actualit aussi bien collective v nement ayant eu des r percussions m diatiques qu individuelle v nement qui vient d affecter directement la vie de l enqu t influence la r ponse de l enqu t L objectif ici n est pas de relancer le vieux d bat sur la sup riorit des questions ouvertes ou ferm es qui existe depuis au moins soixante ans Mais si jusqu pr sent les questions ferm es ont t privil gi es principalement car elles taient plus faciles poser coder et analyser Schuman and Presser 1981 les r cents progr s technologiques devraient relancer l utilisation des questio
15. La mise en variables des textes un sujet de controverses Ga l de PERETTI INSEE D partement des prix la consommation des ressources et des conditions de vie des m nages After language our greatest invention is numbers Numbers make measures and maps and so enable us to figure out where we are what we have and how much it s worth Wright B D A History of Social Science Measurement Educational Measurement Issues and Practice Winter 1997 33 45 52 Si l emploi de questions ouvertes dans les questionnaires s est d velopp ces derni res ann es leur exploitation reste relativement rare en particulier l Insee du fait de la difficult des traitements de ce type de donn es On peut distinguer trois temps la collecte la mise en variables des r ponses et l analyse des r ponses Nous nous concentrerons plut t sur le deuxi me temps mais il semble n cessaire de d crire les deux autres car ils sont bien videmment li s L ensemble de ce processus va n cessiter la manipulation de trois savoirs compl mentaires et diff rents la statistique les sciences du langage et les sciences sociales Cette difficult suppl mentaire peut aussi tre per ue comme un avantage dans le sens o elle offre un vaste champ de recherches pluridisciplinaires d Aubigny 2001 Ceci peut en partie expliquer l engouement r cent pour ce type d analyse Outre l int r t intellectuel que suscitent ces analyses
16. artis parmi les diff rentes cat gories tudi es Or dans notre cas cette r partition non al atoire pourrait s expliquer en grande partie par la disparit des techniques de recueil des r ponses des enqu teurs Nous avons donc pr f r les supprimer L op ration de lemmatisation incluant aussi des regroupements th matiques et de suppression des mots outils s appelle une quasi lemmatisation Lebart 2000 Construction des donn es et interpr tation Les r ponses compl tes donnent lieu un corpus de 47879 occurrences longueur totale de l ensemble des r ponses en nombre de formes graphiques pour les 2186 r ponses diff rentes de RAS et toutes les variantes Les r pondants ont utilis 4588 mots distincts formes graphiques soit 9 6 des occurrences 8 Parmi ces mots diff rents 52 sont des hapax forme graphique n apparaissant qu une fois Les proc dures de normalisation et quasi lemmatisation ont r duit le vocabulaire tudi 438 lemmes ce sont soit des mots soit des lemmes soit des segments r p t s L ensemble des proc dures statistiques que nous allons commenter s appuie sur ce vocabulaire r duit ou sur une extraction de celui ci Ce vocabulaire repr sente lui seul 57 4 des formes graphiques sachant que les mots outils supprim s articles certaines pr positions ou pronoms relatifs repr sentent 34 9 des formes graphiques Les choix retenus pour la constitution du vocabulaire ont donc forte
17. atistiques consistent comparer les diff rents profils lexicaux Dans cette pr sentation nous allons dans un premier temps revenir sur l int r t des questions ouvertes et de l analyse textuelle Puis au travers de la question finale de l enqu te sur les usagers des services d h bergement et de distribution de repas chauds dite sans domicile 2001 Souhaitez vous ajouter des informations que ce questionnaire n a pas permis de recueillir nous regarderons l impact de la collecte sur ce type de questions Enfin nous d velopperons la phase de mise en variables des r ponses cette question 1 Les questions ouvertes int r t et traitement Qu est ce que l on mesure L introduction d une question n a de sens que si elle apporte une information pertinente Ceci est valable aussi bien pour les questions ferm es que pour les questions ouvertes Ces derni res doivent faire face trois probl mes Le premier a t et est encore le sujet de d bats particuli rement aux Etats Unis propos des enqu tes d opinion La critique la plus fr quente sur l utilisation de questions ouvertes dans les enqu tes concerne les difficult s d expression de certains enqu t s qui les emp cheraient de produire une r ponse claire alors qu ils peuvent avoir une id e pr cise sur le sujet abord Ainsi les questions ouvertes mesureraient plus leur niveau d ducation que leur position sur le sujet Craig 1985
18. au singulier correspond g n ralement a un usage n gatif Apr s avoir v cu 20 ans dans mon pays personne ne veut m aider c est lamentable Le mot au singulier vise d signer des individus avec lesquels l enqu t est entr en contact ou une cat gorie de gens Dans les associations certaines personnes ne nous aident pas Que les organismes type HLM puissent accepter des personnes au RMI Afin d viter la perte de certains th mes nous avons eu dans certains cas une approche quasi th matique en nous appuyant sur le contexte des 10 Insee Actes des Journ es de M thodologie Statistique 2005 r ponses En effet il est possible de conna tre pour tous les mots de notre vocabulaire les phrases dans lesquelles ils sont utilis s Cette contextualisation assure une certaine robustesse la lemmatisation Ainsi le lemme conjoint regroupe les mots ou segment suivants concubin concubine compagne compagnon copain copine pouse poux mari ma femme Nous avons d retenir seulement le segment ma femme car le mot femme recouvrait d autres sens que celui d pouse Enfin afin de d finir compl tement le vocabulaire sur lequel nous avons travaill nous avons supprim tous les mots outils En effet ces derniers sont tr s fr quemment employ s et apportent peu d information sur le contenu du texte Ces derniers n auraient d int r t que s ils n taient pas al atoirement r p
19. cette interaction ne modifie pas significativement l information apport e par cette question et les liaisons entre les th mes abord s et les caract ristiques des enqu t s Du fait de la particularit de notre enqu te et de la diff rence entre une question d opinion classique et notre question ouverte il est n cessaire de v rifier si dans notre cas l effet enqu teur est diff rent Une premi re approche de cet effet enqu teur consiste regarder les taux de r ponse cette question par enqu teur et plus particuli rement la distribution de ces taux 315 enqu teurs ont men cette enqu te et ont collect en moyenne 13 questionnaires Les diff rences entre enqu teurs sont grandes Neuf enqu teurs ont collect 1 questionnaire et un en a collect 29 De m me les disparit s sur les taux de r ponse la derni re question sont tr s fortes voir Figure 2 Ainsi quatorze enqu teurs ont un taux de r ponse nul ils ont en moyenne enqu t 5 6 personnes et vingt cinq enqu teurs ont un taux de r ponse de 100 ils ont en moyenne enqu t 8 7 personnes En moyenne non pond r e un enqu teur a obtenu un taux de r ponse de 53 3 cette question Figure 1 Nombre d enqu teur selon le taux de r ponse la question ouverte 35 30 25 20 15 10 5 0 lt lt g A g Pii 4 4 s s S E s Kei K Y Kij ss Ki 4 s ge La deuxi me approche revient v rifier l hypoth se de Caillot
20. ciles En particulier lors des entretiens dans les services de distribution de repas chauds l enqu teur ne disposait pas toujours d un lieu r serv ou d une table isol e pour r aliser son interview Ind pendamment des conditions de collecte le protocole retenu impliquait le passage d un discours oral une retranscription crite de l enqu teur Implicitement cela suppose que l on fasse l hypoth se que l crit sera l image fid le de l oral or il est clair qu il n existe pas de bijection entre oral et crit dans un tel cadre Lallich Boidin 2001 En effet l crit est videmment plus pr cis dans certains cas marque du pluriel et du genre majuscule et minuscule sujet des verbes La perte de ces informations est appel e la neutralisation des oppositions opposition entre unicit et nombre homme et femme etc De fa on duale l crit n est pas capable de retranscrire les distinctions de l oral c est ce probl me auquel nous sommes confront s Ainsi comment interpr ter la phrase plus de place s dans les centres Dans le cas o cette phrase serait extraite d un corpus textuel plus riche nous utiliserons le contexte pour d cider si l enqu t voulait souligner le manque de place dans les structures collectives ou demander l augmentation du nombre de places dans les structures existantes ma s rien ne permet d affirmer que nous pourrons choisir avec certitude Dans le cas o elle serait le
21. e est la r ponse Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 73 90 2001 10 Cicourel A Method and Measurement in Sociology The Free Press of Glencoe New York 1964 11 Craig S C The decline of partisanship in the United States a reexamination of the neutrality hypothesis Political Behavior n 7 pp 57 78 1985 12 Desrosi res A Pour une politique des outils du savoir le cas de la statistique Communication la conf rence Politics and knowledge Democratizing knowledge in times of the expert Universit de Bergen 21 22 juin 2004 13 Dohrenwend B S Some effects of open and closed questions on respondents answers Human Organization 24 pp 175 184 1965 14 Dohrenwend B S S A Richardson Directiveness and non directiveness in research interviewing a reformulation of the problem Psychological Bulletin 60 pp 475 485 1963 15 Dub chot P Legros M La qualit des enqu tes aupr s de populations en difficult d insertion sociale CREDOC Cahier des recherches n C47 1993 21 De m me que le statisticien pr f re manipuler des nombres que des classes il accorde g n ralement plus de cr dit aux r gressions qu aux analyses de donn es la fran aise du fait de la possibilit de parler des effets d une variable toutes choses in gales par ailleurs 12 Insee Actes des Journ es de M thodologie Stat
22. eneral principles of questionnaire classification in Paul F Lazarfeld and Morris Rosenberg eds The language of social research Glencoe Ill The Free Press 25 Lebart L Salem A 1994 Statistique textuelle Paris Dunod 1994 26 Lebart L 2001 Traitement statistique des questions ouvertes quelques pistes de recherche Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 7 20 27 Lebart L 2000 Traitement statistique des questions ouvertes de l enqu te sur le devenir des personnes sorties du RMI 28 Marc X 2001 Les modalit s de recueil des r ponses libres Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 21 28 29 Montgomery A C Crittenden K S 1977 Improving coding reliability for open ended questions Public Opinion Quaterly vol 41 pp 235 243 30 Poullaouec T 2004 Les familles ouvri res face au devenir de leurs enfants Economie et statistique n 371 d cembre 2004 31 Reinert M 2001 Approche statistique et probl me du sens dans une enqu te ouverte Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 59 71 32 Schuman H Presser S 1981 Questions and answers in attitude surveys New York Academic Press 33 Sheatsley P B 1983 Questionnaire construction and item writing in Handbook of Survey Research P H Rossi J D Wright and A B Anderson eds Ne
23. eux sociaux diff rents 8 Ce probl me n est pas enti rement r solu en travaillant sur l ensemble du texte du fait du biais possible introduit par la saisie des enqu teurs mais aussi voire surtout par la quantification ou mise en variable des textes qui par construction conduit une r duction de l information La mise en variable des textes un sujet de controverse 3 d ciderait de conserver plusieurs th mes doit on se fixer une limite en nombre de th mes et si oui quels crit res appliquer pour fixer ce nombre Si l on d cide de conserver l ensemble des th mes doit on tenter de les hi rarchiser ou se contenter de noter leur co occurrence Enfin il faut se poser la question des r ponses rares et de leur traitement Faut il seulement les consid rer comme du bruit ou plut t comme une information sur une certaine cat gorie de la population L ensemble de ces questions a conduit des praticiens fixer des r gles de codification afin de rendre plus robuste cette op ration Ainsi d s le d but des ann es 1950 un certain nombre de travaux ont t consacr s au probl me de codification des r ponses aux questions ouvertes En particulier Lazarsfeld et Barton 1955 sp cifiaient quatre conditions requises pour une bonne codification la codification doit aller du g n ral au particulier afin de permettre une analyse plus ou moins fine selon que l on utilise les grands th mes ou des items plus d taill
24. ge l analyse textuelle Pendant longtemps les proc dures de quantification des questions ouvertes ont consist les fermer c est dire les coder Ce traitement a suscit de nombreux d bats toujours d actualit Tout d abord se pose le probl me de la m diation du chiffreur ou codeur En effet toute codification n cessite une interpr tation par le codeur de la r ponse de l enqu t Or des travaux ont montr le biais introduit lors du codage de questions ouvertes du fait de la distance qui existe entre ce que voulait dire l enqu t et l interpr tation qu en a fait le codeur Kammevyer Roth 1971 Ces travaux ont consist comparer le codage et une description d taill e des r ponses par les enqu t s Les auteurs ont aussi insist sur le fait que l on ne peut postuler que les erreurs commises se compensent et qu ainsi l articulation g n rale reste la m me Ceci les a conduit conclure sur l extr me prudence lors de l interpr tation et ce quelles que soient les pr cautions prises lors du codage Ensuite toute codification entra ne une perte de m ta information En effet par essence classer ou regrouper des individus revient supprimer de l information De m me coder du texte revient r duire un corpus textuel plus ou moins dense un simple th me Toute l information lexicale contenue dans les r ponses en clair comme la longueur des phrases le vocabulaire employ la densit sy
25. is comme nous allons le voir par la suite il est possible de prendre en compte le contexte dans certains cas pour viter cette confusion La lemmatisation Dans un deuxi me temps nous avons travaill sur la lemmatisation de notre corpus c est dire donner un mot du discours une forme canonique servant d entr e de dictionnaire Cette proc dure correspond tout fait au double objectif de r duction du nombre de mots et de limitation de la perte d information L id e est de regrouper sous un m me lemme diff rents mots dont le sens est identique afin de lui donner plus de poids mais surtout afin d viter de ne pas les prendre en compte du fait de la disparit des formes utilis es En effet nous avons fait le choix de supprimer de l tude tous les lemmes n apparaissant pas au moins 15 fois dans l ensemble du corpus La proc dure retenue est simple Nous avons regroup toutes les conjugaisons d un m me verbe sous la forme infinitive si elle existait sauf si une forme tait largement majoritaire fr quence trois fois sup rieure aux autres formes Dans ce cas le lemme correspondait cette derni re forme Les formes au pluriel et au singulier sont regroup es sous un m me lemme sauf si leur utilisation correspond deux sens diff rents et que leurs fr quences respectives permettent de les conserver toutes les deux A nsi les mots personne et personnes correspondent deux lemmes diff rents Le mot
26. istique 2005 16 Geer J G 1988 What do open ended questions measure Public Opinion Quaterly vol 52 pp 365 371 17 Geer J G 1991 Do open ended questions measure salient issues Public Opinion Quarterly vol 55 3 pp 360 370 18 Jenny J 1997 M thodes et pratiques formalis es d analyse de contenu et de discours dans la recherche sociologique fran aise contemporaine tats des lieux et classification Bulletin de M thodologie Sociologique n 54 mars 1997 pp 64 112 19 Kelley S 1983 Interpreting elections Princeton Princeton University Press 20 Labb D 2001 Normalisation et lemmatisation d une question ouverte les femmes face au changement familial Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 37 57 21 Lahlou S 1995 Vers une th orie de l interpr tation en analyse statistique des donn es textuelles JADT 1995 3rd International Conference on Statistical Analysis of Textual Data Bolasco S Lebart L Salem A eds CISU Roma 1995 Vol I pp 221 228 22 Lallich Boidin G 2001 Donn es linguistiques et traitement des questions ouvertes Journal de la Soci t Fran aise de Statistique tome 142 vol n 4 pp 29 36 23 Lazarsfeld P E 1944 The controversy over detailed Interviews an offer for negotiation Public Opinion Quarterly 8 pp 38 60 24 Lazarfeld P F Barton A H 1955 Some g
27. ment r duit le nombre de mots moins de 10 de l effectif de d part tout en conservant une grande partie du contenu th matique au pire 75 1 L objectif de cette r duction est de travailler sur des tableaux lexicaux plus petits ce qui assure une meilleure robustesse des calculs Parall lement dans une optique de classification elle peut tre l origine de la suppression de certaines classes de petits effectifs produisant un discours tr s particulier Ces choix sont videmment discutables puisqu ils introduisent une part de subjectivit dans un processus de quantification qui se veut au d part une m thode d objectivation des r sultats Mais cette subjectivit est consid r e comme une r ponse possible aux probl mes pos s par les donn es brutes et les r sultats que l on compte en tirer elle doit tre reconnue et assum e En effet notre hypoth se est que ces r ponses sont autant de vues diff rentes sur le monde des usagers des services d aide travers le prisme de l enqu te sans domicile 2001 et que parmi ces vues partielles de ce monde certaines renvoient une m me chose une m me id e L approche quantitative des textes comme m thode pertinente s appuie sur trois hypoth ses que nous allons d crire en reprenant la m taphore de la ville d velopp e par Saadi Lahlou 1995 Chaque r ponse est analogue une photographie prise par un touriste Paris A partir de ces centaines de clich s o
28. ments afin d en r duire le nombre tout en limitant la perte d information et d obtenir ce que nous appellerons notre vocabulaire d tude L ensemble des traitements statistiques d velopp s par le logiciel repose sur une analyse lexicom trique du corpus que l on peut d velopper selon deux axes le poids absolu d une forme graphique dans l ensemble du corpus tudi ou le poids relatif d une forme graphique au sein de diff rentes cat gories de population Enfin il est possible de cr er un tableau contenant en ligne des individus avec leurs caract ristiques ge sexe etc mais aussi la fr quence d utilisation des mots retenus dans le vocabulaire d tude afin de caract riser la r ponse la question ouverte des individus Ce tableau le TLE permet de r aliser l ensemble des traitements statistiques connus classification analyse factorielle r gression chaque mot du vocabulaire tant devenu une variable 8 Insee Actes des Journ es de M thodologie Statistique 2005 Cette approche peut para tre paradoxale car comme le rappelle Dominique Labb 2001 Peu de mots d passent le seuil de 1 de fr quence relative et ce ne sont probablement pas les plus int ressants puisque selon le vieil adage classique la quantit d information v hicul e par un mot est inversement proportionnelle sa fr quence d apparition Ceci est confirm par la liste des vingt mots les plus fr quemment utilis s dans les r po
29. n e avec jour et ann e en chiffre Toutes les sommes d argent sont sous la forme xxxf avec xxx correspondant au montant voqu et f franc enqu te r alis e en 2001 Nous avons syst matis le recours aux acronymes ou aux sigles avec une orthographe unique en lettres capitales Enfin nous avons transform l ensemble des textes en les mettant au discours direct Toutefois nous avons conserv l organisation grammaticale de la r ponse Ainsi la r ponse un travail et un logement n est pas modifi e alors que la r ponse il voudrait un logement et un travail devient je voudrais un logement et un travail Cette correction est un choix pratique qui n est pas enti rement satisfaisant Il est en effet impossible de savoir dans les deux cas pr c dents si l enqu teur a r ellement transcrit le discours de l enqu t Les deux personnes ont tr s bien pu dire j aimerais bien avoir un logement et un travail Les deux transcriptions pr c dentes sont possibles car elles conservent les th mes voqu s Nous avons choisi de modifier le moins possible le corpus de base Ceci a pour cons quence que dans la suite de l analyse les trois r ponses suivantes seront quivalentes un travail et un logement avoir un travail et un logement j aimerais bien avoir un travail et un logement En revanche la r ponse trouver un travail et un logement est diff rente puisqu elle implique plus directement l enqu
30. n peut tenter de reconstituer les monuments de Paris Ainsi partir des similarit s entre les r ponses elles seront regroup es et assimil es un objet ou une id e qu elles seraient cens es d crire Comme la reconstitution de Paris sera d autant plus pertinente que l on conna t bien cette ville l interpr tation des r sultats et des classes produites sera d autant plus pertinente que l objet analys est connu par l analyste Ceci pour rappeler que quel que soit le degr d objectivit des objets manipul s et des techniques utilis es2 la phase d interpr tation 18 titre de comparaison dans l enqu te devenir des allocataires du RMI les 2 010 r ponses contenaient 40 004 occurrences et 4 003 formes graphiques soit 10 des occurrences 19 Cette valeur est obtenue en rapportant la part de formes graphiques que constitue notre vocabulaire d tude au vocabulaire initial priv des mots outils ces derniers ne pouvant tre vecteurs de th me 20 Ceci fait r f rence l chelle hi rarchis e des mesures en fonction de leur loignement de la m trique stricto sensu La mise en variable des textes un sujet de controverse 11 fera n cessairement appel la connaissance et aux rapports entretenus avec le sujet par l analyste ce qui peut tre source d une certaine subjectivit Cette derni re phase devrait faire l objet d une publication dans un num ro sp cial d une revue consacr enqu te
31. ns ouvertes d s lors que l on s accorde sur la pertinence et la richesse des informations collect es gr ce ces derni res Toutefois et malgr ces progr s le dernier probl me concerne justement la phase de quantification Nous reprenons ici une terminologie d velopp e entre autres par Alain Desrosi res Le premier moment est celui de la quantification proprement dite Le verbe quantifier est ici employ dans un sens diff rent de celui du verbe mesurer L id e de mesure inspir e des sciences de la nature suppose implicitement que quelque chose de bien r el d j existant analogue la hauteur du Mont Blanc peut tre mesur selon une m trologie r aliste En revanche le verbe quantifier implique une traduction c est dire une action de transformation r sultant d une s rie d inscriptions de codages de calculs et conduisant une mise en nombre Celle ci contribue exprimer et faire exister sous une forme num rique par mise en uvre de proc dures conventionnelles quelque chose qui tait auparavant exprim seulement par des mots et non par des nombres Desrosi res 2004 Et cette quantification est d autant plus d licate que les proc dures de codage et de traduction ne sont pas fix es dans le marbre ni m me parfois reconnues Le mat riau transformer est tr s complexe et cette transformation est explicitement li e ses parties aval analyse ou interpr tation et amont collecte Du coda
32. nses notre question ouverte et qui repr sente pr s d un tiers des formes utilis es 32 8 de je un les pas pour et est la le d des que l en j on ne il L objectif premier est donc de r duire le nombre de mots formes graphiques que nous prendrons en compte dans les analyses statistiques du fait des particularit s de notre corpus li es la collecte tout en limitant la perte d information par rapport notre axe d interpr tation des r sultats Cette r duction a pour but de faciliter et rendre plus robuste les calculs qui seront men s par la suite afin d viter de travailler sur des tables immenses et pleines de z ro En revanche il est n cessaire de bien d finir les traitements que l on va op rer car ils auront de fait des cons quences sur les r sultats produits par les calculs Ces effets devront donc tre pris en compte lors de l interpr tation des r sultats Parall lement les r gles de traitements que l on d finit doivent tre en accord avec les vis es finales de l tude Dans notre cas les contraintes impos es par la collecte nous ont conduit viser une analyse de contenu de type th matique C est dans cette phase que l on retrouve les tensions entre objectivit et subjectivit Nous allons fixer un certain nombre de conventions qui vont modifier l objet sur lequel nous travaillons Parall lement ces conventions doivent apporter de la robustesse au sens statistique aux p
33. nses longues sont plut t concentr es sur certains enqu teurs Ces approches sommaires permettent de mettre jour les disparit s de r sultats de collecte entre les enqu teurs mais n apportent pas de solution pour les corriger Ces disparit s confirment la n cessaire prudence lors de la phase d interpr tation et vont conditionner la mise en variable des textes comme nous allons le voir par la suite 3 Normalisation quasi lemmatisation des outils de l analyse lexicom trique Comme nous l avons d j fait remarquer l engouement pour l analyse statistique de texte a entra n le d veloppement parall le d un grand nombre de logiciels ayant chacun ses sp cificit s propres d pendant compl tement de l approche du concepteur Or le choix plus ou moins contraint d un logiciel a des cons quences sur le type d analyse que l on peut envisager Nous avons travaill sur le logiciel SPAD T dont la philosophie g n rale consiste rep rer l ensemble des mots formes graphiques utilis s dans le corpus textuel et de calculer leur occurrence Dans ce logiciel avant tout traitement statistique il est n cessaire d effectuer deux proc dures ou m thodes selon la terminologie propre au logiciel qui permettent respectivement de rep rer les mots utilis s mais aussi les groupes de mots ou segments r p t s Parall lement il est possible d effectuer des corrections et des regroupements de mots ou seg
34. ntaxique l utilisation de verbes modaux l articulation des id es est g n ralement perdues Ces probl mes sont encore accentu s quand la r ponse coder est complexe Faut il se contenter de retenir le th me principal abord dans la r ponse Quels sont les crit res qui permettent de le d tecter Dans le cas o l on 6 De nombreux articles traitent du sujet par exemple Blair Sudman Bradburn Stocking 1977 Bradburn 1983 Bradburn Sudman and Associates 1979 Dohrenwend 1965 Dohrenwend Richardson 1963 Juan 1986 Lazarsfeld 1944 Schuman Presser 1981 Sheatsley 1983 Sudman Bradburn 1982 L ensemble de ces recherches sugg re qu il n existe pas de format de question sup rieur l autre dans chaque situation et que de ce fait les deux formats ont leur place dans les enqu tes 7 Dans les ann es 1960 une critique radicale de la sociologie quantitative en particulier la sociologie d enqu te par questionnaire d velopp e par Lazarfeld s appuie sur cette m me id e de diff rence entre les sch mes de perception des acteurs enqu t s et des sociologues qui montre que l erreur d interpr tation est d autant plus grande que l cart social et culturel est important Cicourel 1964 Ces critiques conduiront une prise en compte de l importance du questionnement de l interaction entre enqu teur et enqu t mais aussi des probl mes d agr gation de r ponses identiques formul es par des personnes de mili
35. qu aucune instruction sp cifique n tait donn e aux enqu teurs dans leur manuel d instructions Apr s une tr s longue s rie de questions plus ou moins personnelles voire stigmatisantes ou per ues comme telles le fait de r pondre cette derni re question peut tre influenc par la relation qui s est instaur e au cours de l entretien entre enqu t et enqu teur ce qui d pend a priori fortement des caract ristiques propres de ce dernier 5 Ceci correspond un taux de r ponse de 52 ce qui est proche du taux de r ponse 59 la question quivalente dans l enqu te devenir des allocataires du RMI 16 Ces questionnaires ont t selectionn s au hasard parmi les questionnaires en provenance d Ile de France 6 Insee Actes des Journ es de M thodologie Statistique 2005 L tude des questions ouvertes dans des enqu tes d opinion a mis en vidence un effet enqu teur sur les r ponses des enqu t s Cependant cet effet est g n ralement consid r comme mineur sur les questions d opinion ouvertes Caillot Moine 2001 L objectif de l analyse textuelle au del de l analyse de l univers lexical des r ponses est de croiser cet univers lexical avec les caract ristiques des individus afin de d terminer l influence de ces derniers sur le contenu des r ponses La conclusion de l tude de Cai llot et Moine est que si l on constate des effets sur la forme du corpus textuel et le nombre de th mes abord s
36. roc dures d analyse statistique qui seront produites par la suite Il est n cessaire de pr ciser ces conventions ma s aussi de tenter de cerner du mieux possible les cons quences qu elles auront sur les analyses qui vont suivre La normalisation Avant de se lancer dans une analyse textuelle des r ponses nous avons pris le parti d effectuer des corrections sur le texte saisi L objectif de cette normalisation des r ponses est de d bruiter au maximum les r ponses du fait des fortes disparit s dans les proc dures de recueil des r ponses des enqu t s Le probl me majeur de la correction est qu elle implique n cessairement une interpr tation de la part du correcteur Lallich Bo din 2001 Ceci conduit appliquer un traitement standard l ensemble des r ponses et fixer des normes li es aux corpus et aux traitements vis s La mati re brute sur laquelle nous avons travaill est un texte en lettres capitales transcription int grale d s lors que la r ponse contient moins de 200 caract res du texte crit par enqu teur L ensemble des textes a t retranscrit en minuscules accentu es afin d viter les confusions du type a et bornes et born s Tous les noms propres commencent par une majuscule et les mots composant le nom d une association sont coll s Ainsi les Restos du c ur deviennent les Restosducoeur Toutes les dates sont crites sous la forme jour mois an
37. rticle Ensuite l ensemble des r gles syntaxiques de la langue fran aise sont connues du logiciel ce qui lui permet la lecture du texte de s parer l essentiel des ambigu t s Cela permet de distinguer automatiquement les deux sens du mot tre dans les phrases suivantes Faut conna tre les difficult s pour un tre humain de vivre dans la rue o tre est un nom masculin et N ai pas l impression d tre aid o tre est un verbe La polys mie est plus d licate traiter puisque le sens va d pendre du contexte Ainsi le verbe sortir a de multiples sens dans la langue fran aise Le sens le plus fr quemment retrouv dans les r ponses tudi es est celui de quitter la situation de pr carit actuelle de s en sortir C est difficile de s en sortir avec des dettes Ensuite sortir est utilis dans les sens d aller hors d un lieu O est ce que l on va quand on doit sortir du foyer 8h du matin Enfin il est utilis dans le sens d aller hors de chez soi pour aller se distraire Je souhaiterais pouvoir sortir plus le soir en semaine Pour le premier cas le logiciel SPAD en rep rant le segment r p t en sortir permet d viter la confusion de sens En revanche il n est possible de distinguer les deux autres cas qu la lecture de la r ponse C est videmment une limite de l approche lexicom trique Toutefo
38. sans domicile 2001 Bibliographie 1 Aldeghi I Etude compl mentaire sur les nouveaux arrivants au RMI apports du RMI volution de la situation mat rielle opinions sur le dispositif CREDOC Collection des rapports n 196 octobre 1998 2 d Aubigny G Introduction Journal de la Soci t Fran aise de Statistique tome 142 vol 4 pp 1 5 2001 3 Baudelot C Gollac M Faut il travailler pour tre heureux Insee premi re n 560 d cembre 1997 4 Blair E S Sudman N M Bradburn and C B Stocking How to ask questions about drinking and sex response effects in measuring consumer behavior Journal of Marketing Research 14 pp 316 321 1977 5 Bradburn N M Response Effects in Handbook of Survey Research P H Rossi J D Wright and A B Anderson eds New York Academic Press 1988 6 Bradburn N M S Sudman Asking Questions San Francisco JosseyBass 1982 7 Bradburn N M S Sudman and Associates Improving interview method and questionnaire design response effects to threatening questions in survey research San Francisco Jossey Bass 1979 8 Brugidou M Escoffier C Folch H Lahlou S Le Roux D Morin Andreani P Piat G Les facteurs de choix et d utilisation de logiciels danalyse de donn es textuelles Actes des Journ es internationales d Analyse des Donn es Textuelles 2000 9 Caillot P Moine M Mais quell
39. w York Academic Press 84 Smith E R A N 1989 The unchanging american voter Berkeley University of California Press La mise en variable des textes un sujet de controverse 13 14 Insee Actes des Journ es de M thodologie Statistique 2005
Download Pdf Manuals
Related Search
Related Contents
Brother MFC-680CN All in One Printer User Manual User Guide/Mode d`emploi/Guía para el Usuario User`s Manual PMM DR-01 Recuvyra, Fentanyl Master-Pin-System Systéme Master Pin Master-Pin-System iHome iBN4 User's Manual Copyright © All rights reserved.
Failed to retrieve file