Home
Télécharger le Manuel en format pdf
Contents
1. A cette tape il est possible de s lectionner comme option les proc dures de bootstrap et ou de classification En effet dans Dtm Vic les analyses factorielles peuvent tre compl t es par une proc dure de bootstrap qui permet de valider la position des variables sur le plan factoriel et ou une classification avec une description automatique des classes a S lection d une option e Cliquer sur 1 Select some options Une fen tre Options Bootstrap and or Clustering of observations apparait 28 Il Donn es num riques F1 Options bootstrap and or clustering of observations 1 Do you want a bootstrap validation 2 25 Ent gt Cliquer sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas adopt cliquer sur no Note technique Les diff rents types de bootstrap pour variables non tex tuelles dans Dtm Vic voir aussi section VII 10 Validation a _ Bootstrap partiel pour les variables actives Avec ce type de bootstrap le plan initial sert d espace de r f rence pour accueillir les r plications qui sont projet es comme des variables suppl mentaires Le bootstrap partiel n a pas pour vocation de valider la stabilit de l espace de d part qui n est pas remis en question Il donne une id
2. Qu est ce qui est le plus important pour vous dans la vie Quelles sont les autres choses tr s importantes pour vous relance de la premi re question Que pensez vous de la culture de votre pays Nous nous int ressons ici aux deux premi res questions que nous voulons par la suite mettre en relation avec l ge et le niveau d instruction du r pondant Une variable nominale 9 cat gories est cr e combinant les trois niveaux d ge avec trois degr s d instruction Cet exemple est disponible dans le dossier EX_A05 Text Responses_1 inclus dans le r pertoire DtmVic Examples_A Start On y trouve 3 fichiers d entr e Dtm Vic Dictionnaire Donn es num riques Donn es textuelles Ces fichiers en format Dtm Vic peuvent tre g n r s par une proc dure d importation a partir d un fichier Excel unique cf chapitre IV 6 Cf Hayashi C Suzuki T Sasaki M 1992 Data Analysis for Social Comparative research International Perspective North Holland Amsterdam Le Professeur Chikio Hayashi ancien Directeur de Institute of Statistical Mathematics Tokyo et ma tre d uvre de ces enqu tes f t aussi un de premiers d couvreur de l analyse des correspondances Ill 2 Analyse textuelle de questions ouvertes 79 1 fichier de donn es pour les questions ferm es TDA_dat txt extrait Ce fichier comprend 1043 lignes les individus et 15 colonnes s par es par des espaces blancs
3. S3 A_LITTLE_WORSE emale 55 issing_valueyERY_MUCH_WORSE male lo m E S2 A_LITTLE_WORSE S3 VERY_MUCH_WORSE Save as Bitmap uf female 055 55 high casar OTHER female 30 SAME NOT_CHANGES gfw DE Cat gories suppl mentaires avec l option Etiquettes d placables PLANE VIEW with moveable tags 102 Ill Donn es textuelles et mixtes Dans le sous menu propos par PLANEVIEW with moveable tags nous avons s lectionn les cat gories suppl mentaires qui constituent le principal int r t de ce type d analyse directe des r ponses Le graphique ci dessus nous montre que l ge est une des variables tr s importantes dans la dispersion des r ponses ouvertes ainsi que le niveau d instruction et le genre sexe L utilisation de la proc dure BootstrapView pourra confirmer que la position de ces points cat gories est significative statistiquement C est a la suite de ce type d analyse r alis e sans a priori que l on peut choisir les crit res de regroupement des r ponses les plus pertinents Les autres outils ClusterView Kohonen peuvent tre utilis s selon les pr conisations des sections pr c dentes 103 IV Importation cr ation exportation des fichiers au format Dtm Vic Les fichiers en format interne de Dtm Vic sont les fichiers dictionnaire les fichiers de donn es num riques et les fichiers de textes pr sent
4. VI 3 Description de graphes 163 gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir le fichier ngus_ind txt individus ou observations Les principales coordonn es des individus lignes sont s lectionn es En fait ici la matrice de donn es est sym trique il est quivalent dans ce cas tr s particulier de choisir ngus_var_act txt gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant S lectionner No partition gt Cliquer sur Graphics puis choisir les axes 1 et 2 par d faut dans la petite fen tre S lection des axes et cliquer sur Continue puis sur DISPLAY Dans une nouvelle fen tre intitul e Vizualisation Graphics le plan factoriel principal s affiche voir figure VI 1 Figure VI 1 Plan factoriel principal Analyse des correspondances pour le graphe Damier apr s changement de police bouton Font et changement de couleur bouton Colour Dans la barre d outils verticale de la fen tre Graphics le bouton ExtG va nous permettre de tracer le graphe initial partir du codage externe gt Pour repr senter les ar tes du graphe d origine cliquer sur le bouton ExtG graphe externe de la barre verticale gt Ouvrir le fichier Chessboard_Extern_7x7 txt 164 VI Autres analyses avec Dtm Vic gt Cliquer sur le bouton Graph On obtient alors une repr sentation du graphe original avec une repr sentation des ar tes originales Figu
5. deux les l ments les plus proches L algorithme de base de la CAH produit une hi rarchie en partant de la partition dans laquelle chaque l ment classer constitue une classe pour aboutir la partition form e d une seule classe r unissant tous les l ments Pour n l ments classer il est compos de n tapes A la premi re tape il y a donc n l ments classer On construit la matrice de distances entre les n l ments et l on cherche les deux plus proches que l on agr ge en un nouvel l ment On construit une nouvelle matrice des distances qui r sultent de l agr gation en calculant les distances entre le nouvel l ment et les l ments restants On se trouve dans les m mes conditions qu l tape mais avec seulement n 7 l ments classer 2 La classification est une branche de l analyse des donn es qui constitue une tape fondamentale dans beaucoup de disciplines scientifiques Elle a donn lieu des publications nombreuses et diversifi es dont Sokal et Sneath 1963 et Benz cri 1973 M thodes factorielles Classification 203 On cherche de nouveau les deux l ments les plus proches que l on agr ge On r it re le processus jusqu n avoir plus qu un seul l ment regroupant tous les objets et qui constitue la derni re partition eB db Figure A 8 Dendrogramme ou arbre hi rarchique L algorithme ne fournit pas une partition en q
6. Coordonn es des variables nominales aS eee actives Coordonn es des mots observations 2 Plans factoriels gt Cliquer sur El planeview Une fen tre s affiche proposant diff rentes visualisations de plans factoriels gt Choisir la rubrique Actives columns variables rows observations adapt e a cette analyse En effet elle concerne des lignes et des colonnes de la table lexicale Apparait alors une fen tre pour s lectionner la paire d axes souhait e Choisir les axes 1 er 2 puis cliquer sur display Le plan factoriel apparait Save Meregrsphe Mainmenu Sgnofsx Zom Font Rane Aves color HEP which 2 welfare os mind 05 son church i them kids 55 high ot 2 for security peace Other h hildrenz conten 55 medium bi way leisure SON FEjmediumand no gettingohome with salth X Nou hter Very wi freedorrgeneral 80 55high famiha 30 55 low al fr 8iV wife should me n a A JR er os standard usotme ee WN my ovant Word 99 ona w they p I myself eP gia ysel lon imprt gt tha Saentneir Yet ge a see k Sag PPT ar well wa after gandch ducation La ee ingble to a oe Fin e love S0 medium nothing le don not Se lt piig anything satisfacion health 02 going mS job ia a food com el keep there ies your nice N9 i los Commun jones more future mends ay just think make 80 highgs oa out want is go car do a what ie about Les cat gories actives Age x Education
7. Jeux_Jardina E Jardinage_Br Yi Loisirs_exte Livres C D marches Promenade L Courses C D placements s g 2 L4 dl LA LA s LA Ld s LA s 2 Li 2 LA s 2 s LA s 2 7 Fr auentatio gt S lectionner dans la rubrique Click to Select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list gt Choisir ensuite le plan factoriel puis cliquer sur Confidence ellipses pour obtenir l affichage graphique des variables actives si le fichier ngus_var_boot txt a t charg ou des cat gories suppl mentaires si le fichier ngus_sup_cat_boot txt a t charg Une fen tre des zones de confiance bootstrap s affiche voir plus bas gt Fermer la fen tre et choisir maintenant le bouton convex Hulls Les ellipses sont remplac es par les enveloppes convexes des r plications bootstrap Les enveloppes convexes prennent en consid ration les points p riph riques tandis que les ellipses sont dessin es en utilisant la densit des nuages des r plications Les deux informations sont compl mentaires gt Pour revenir au menu principal de Dtm Vic cliquer selon la fen tre soit sur la croix en haut a droite soit sur return 38 Il Donn es num riques Enfants ka a Disque_ sse iste_amis M nage wr r Coursesoli s FAREN Promenade Ne oz Petit_D jeun Fr quentatio oo fos re de Le Rep
8. Les cinq premi res applications donnent lieu des visualisations valid es par la technique du bootstrap En esp rant avoir motiv le lecteur par cette premi re pr sentation des fonctionnalit s du logiciel on aborde au chapitre IV les proc dures d importation des donn es On con oit facilement que traiter des unit s statistiques aussi disparates qu un nombre une cat gorie une r ponse laconique une question ouverte ou un roman de Zola peut parfois tre compliqu La transparence totale des fichiers d entr e ou produits par Dtm Vic tous les fichiers sont en format texte non propri taire devrait cependant rassurer l utilisateur et limiter la complexit du processus Arriv au seuil du quatri me chapitre la lectrice ou le lecteur dispose d j d une certaine autonomie Quelques proc dures l mentaires d archivage ou de recodage sont propos es au chapitre V pour permettre d affiner ou d approfondir les analyses pr c dentes Enfin le sixi me et dernier chapitre pr sente des applications plus approfondies mettant notamment en uvre de nouvelles options des proc dures de visualisation Ce chapitre VI aborde aussi les analyses de contiguit les descriptions de graphes et illustre les capacit s de compression des techniques factorielles Toutes ces phases de l apprentissage supposent que le logiciel et le recueil d exemples aient t copi s ou t l charg s depuis http www Dtm Vic com 3 On pou
9. famille nsp nr opinion_sur_le_mariage mariage indissoluble mariage dissout_si_pb_grave mariage dissout_si_accord mariage ne_sait_pas travaux menage enfants la_femme_seule plutot_la_femme homme_et_femme tr femmes ne_sait_pas satisfaction_logement Le dictionnaire MCA_dic txt contient nominales et 10 continues 51 activite_professionnelle plein_temps temps_partiel non_activite n a_jamais_travail conflits_travail vie_person conflits oui conflits_non chomage_douze_derniers_mois chomage_oui chomage_non maux_de_tete maux_de_tete_oui maux_de_tete_non mal_au_dos mal_au_dos_oui mal_au_dos_non nervosite nervosite_oui nervosite_non etat_depressif etat_depressif_oui etat_depressif_non satisfaction_sante satisfaction_sante tres satisfaction_sante satisf satisfaction_sante peu satisfaction_sante pas_du_t nombre_de_personnes_logt les identifiants de 49 variables 39 Rappel L identifiant d une variable nominale est pr c d par le nombre N de ses cat gories en colonne 5 Les N lignes suivantes identifient les N cat gories des r ponses un identifiant en 4 caract res occupe les colonnes 1 4 et un identifiant long 20 caract res maximum commence la colonne 6 utiliser une police intervalle fixe Une variable num rique telle que l ge ou le nombre d enfants a conventionnellement z ro cat gorie Les espaces vides dans les identifiants ne sont pas permis 2 fichi
10. Examples and Methods for p Value Adjustment J Wiley New York Wong M A 1982 A hybrid clustering method for identifying high density clusters J of Amer Statist Assoc 77 p 841 847 Young G A 1994 Bootstrap more than a stab in the dark Statistical Science 9 p 382 418 L2C Avril 2013 ISBN 978 2 953777 0 8 T l chargeable a partir du site www dtm vic com
11. Individuals observ Active variables Suppl Categories Individuals obser Identifier aisi avic2 avis 3 Age_super_60 i i feminin satisfaction_sante p s satisfaction_sante p NE ue bas etat_depressif_oui E p ge_inf justice ne_sait_pas Niv_Educ_moyen mariage ne_sait_pas lt 4 Age_inf 40 la_femme_seule i Ane hi 30 transf soc ne_sait E aan de lee ol Niv_Educ_haut solitude assez_d acc solitude tres_d acco nervosite_oui mal_au_dos_oui satisf log peu justice refus repond satisf log assez plutot_la_femme mariage dissout_si_p cdv assez E 123 famille oui 2 184 Coordonn es x 1000 des variables Coordonn es x 1000 des var nominales actives nominales suppl mentaires 2 Plans factoriels Cet outil fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations gt Cliquer sur H PlaneView Une fen tre s affiche proposant diff rentes visualisations Dans cet exemple d analyse six rubriques sont possibles colonnes actives variables cat gories cat gories suppl mentaires lignes actives individus observations colonnes actives lignes actives individus actifs densit et colonnes actives cat gories suppl mentaires Litem PLANEVIEW with moveable tags reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible l
12. LISTP yes Global Parameters To obtain these results Click on Execute NDICZ datbase_global_dic tt dictionary file NDONZ datbase_global_dattt data file peed ne pne tom he men ae or by reading them from the STEP ARDAT reading dictionary and data saved file imp txt using a notepad builds the Archive Dictionary or a text editor NQEXA 10 NIEXA 1043 NXMOD 12 gt NEDIT 0 NIDI 1 TEST 999 STEP SELEC Selection for STATS Les proc dures s affichent en bloc la fin de l ex cution l tape Ardat archive les donn es et le dictionnaire L tape Selec choisit les variables pour le traitement suivant dans ce cas ci toutes les variables disponibles sont choisies L tape Stats calcule les statistiques g n rales Les r sultats peuvent tre consult s dans l tape ju ia gS gt Cliquer sur Basic numerical results par exemple pour ouvrir le fichier en for mat html puis sur Return pour en sortir et revenir au menu principal IV 2 Saisie manuelle 114 IV 2 Saisie manuelle DtmVic propose un module de collecte de donn es num riques Il est surtout utilisable dans un contexte p dagogique pour saisir de petits jeux de donn es num riques Ce module ne permet cependant pas de saisir des questions ouvertes Le passage par un fichier Excel est souhaitable IV 2 1 Le fichier dictionnaire gt S lectionner dans le menu principal Data Importation Preprocessing Dat
13. Numer Num risation du texte Motex table de contingence Mots textes les textes tant ici les regroupement de r ponses selon la variable active s lectionn e Mocar mots et r ponses caract ristiques Aplum analyse des correspondances pour ce type de tables Selec Selection des variables en vue de la description de la variable active Decat description automatique des modalit s de la variable active partir des variables suppl mentaires Note Une fois le fichier param tre param_ANALEX txt cr il est possible apr s avoir quitt Dtm Vic de l ouvrir nouveau dans le menu principal avec la proc dure Open an existing command file puis d ex cuter ce fichier Execute Les utilisateurs exp riment s peuvent modifier les param tres directement sous l diteur propos par Open an existing command file ou avec un autre diteur de texte hors de Dtm Vic voir le bouton Help about parameters dans le menu principal et dans le menu de l diteur de texte interne 11 2 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique REMA du menu principal gt Cliquer sur Basic numerical results pour naviguer dans le fichier en format html puis sur Return pour en sortir et revenir au menu principal 111 2 Analyse textuelle de questions ouvertes 87 Rappel Le fichier r sultat imp txt comme son homologue imp html est galement sauv sous le nom imp suivi de la date et l
14. adopter une optique de pr vision en projetant les variables suppl mentaires dans l espace des individus Celles ci seront expliqu es par les variables actives 3 faire ressortir l essentiel d une structure masqu e par l existence d un point actif de faible masse mais tr s excentr qui pourrait d former le nuage 38 Ces axes rappelons le sont d finis par les variables actives que sont les mots 218 VII Annexe statistique Dans tous les cas la nature asymptotique des r sultats et l hypoth se sous jacente de normalit font consid rer les r sultats comme purement indicatifs VII 10 5 Les techniques de bootstrap Face aux r sultats d une analyse factorielle certaines questions sur la validit des axes obtenus se posent naturellement Existe t il des crit res pour tester la stabilit d une structure et la valider Quelle est la part de l chantillonnage des individus mais aussi notion plus complexe celle du choix ou de la s lection des variables Pour tenter de r pondre partiellement ces questions on peut recourir aux m thodes empiriques de validation Elles consistent perturber le tableau initial par des ajouts ou retraits d l ments du tableau individus ou variables poids codage etc L hy poth se est la suivante si les perturbations effectu es sur les chantillons n af fectent pas les configurations observ es dans les sous espaces celles ci sont suppo s es stables et l
15. apparait gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir le fichier ngus_ind txt Les principales coordonn es des individus lignes sont s lectionn es gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant choisir alors Load partition File et ouvrir le fichier part_cla_ind txt partition en 3 classes issue des phases RECIP et PARTI Apr s le chargement de cette partition les trois derni res op rations pr c dentes cf VI 2 5 a 1 a VI 2 5 a 3 c est dire les op rations Minimum Spanning Tree N N et Graphics peuvent tre effectu es a nouveau Il est int ressant de visualiser les individus dans le plan engendr par les axes 1 et 2 avec les ellipses de densit des trois classes ou encore comme ci dessus les enveloppes convexes de ces classes VI 2 Donn es num riques et Contig it 153 M me plan principal que la figure pr c dente Attention Les couleurs diff rencient les classes issues de l algorithme de classification non supervis e et non plus les esp ces La classification non supervis e en trois classes ne r ussit isoler que la classe de droite Les deux autres esp ces sont m lang es au sein des deux classes restantes Comme on le soup onnait la partition obtenue directement partir des mesures num riques en ignorant l esp ce n est pas en mesure de s parer les trois esp ces Seule l esp ce setosa bien s par
16. dans la rubrique SEEN EST cliquer sur le bouton Correspondence Analysis pour commencer L analyse s effectue c1 Pour obtenir un aper u de la reconstitution des donn es de 1 100 axes cliquer directement sur le bouton Series from first term to total greyscale dans le panel Images for all the axesk On peut alors observer la reconstitution progressive de l image c2 Si vous vous int ressez un nombre d axes particulier S lectionnez le VI 4 Reconstitutions d images 177 nombre requis dans la liste verticale correspondante et visualisez chaque image avec le bouton utilis en b cf Figure V1 8 Figure VI 8 Cas de l analyse des correspondances Images reconstitu es successivement avec un axe principal quatre axes et 16 axes Dans le cas d un seul axe la formule de reconstitution contient deux termes le terme correspondant l hypoth se d ind pendance axe 0 et le premier axe c3 Ala place de l analyse des correspondances on peut choisir la m thode de Singular Value Decomposition D composition aux Valeurs Singuli res et refaire les op rations c1 et c2 cf Figure V1 9 Figure VI 9 Cas de la d composition aux valeurs singuli res Images reconstitu es successivement avec un axe principal quatre axes et 16 axes Dans ce cas pour un axe la formule de reconstitution ne contient qu un seul terme d o un retard par rap
17. des variables actives suppl mentaires etc pour une valuation rapide des r sultats Pr sentation g n rale 13 EM planeview plans factoriels Description des plans factoriels pour tous les types d l ments impliqu s dans les analyses Bl Bootstrap Bootstrap BootstrapView Zones de confiance ellipses ou enveloppes convexes dans les plans factoriels pour les l ments s lectionn s LA Seriation s riation Les lignes et les colonnes de la table de contingence sont r ordonn es selon le premier axe de l analyse des correspondances de la table Les techniques de S riation sont fond es sur des permutations simples de lignes et de colonnes de la table tudi e elles ont l avantage pratique et cognitif de montrer les donn es brutes l utilisateur et donc de lui viter l utilisation de r gles de lecture complexes Ces permutations peuvent montrer les blocs homog nes de valeurs lev es ou au contraire de valeurs petites ou nulles Elles peuvent galement indiquer exactement une volution continue et progressive des profils Une propri t optimale de l analyse de correspondance est la suivante le premier axe d une analyse de correspondance fournit un ordre optimal des points ligne et des points colonne Pd clusterView projection des classes sur les plans factoriels Repr sentation des positions des centres de classes clusters dans le plan factoriel Description des l ments caract r
18. effet al atoire mod les de variables latentes 202 VII Annexe statistique complexes Une cascade d hypoth ses a priori suppl mentaires permet cette identification VII 7 Classification hi rarchique arbre de longueur minimale Les techniques de classification automatique sont destin es produire des groupements d objets ou d individus d crits par un certain nombre de variables ou de caract res Les circonstances d utilisation sont sensiblement les m mes que celles des m thodes d analyse factorielle descriptive pr sent es aux sections pr c dentes Dans la plupart des encha nements propos s dans le menu Create a command file de Dm Vic la classification est un compl ment syst matique des analyses en axes principaux Il existe plusieurs familles d algorithmes de classification les algorithmes hi rarchiques qui fournissent une hi rarchie de partitions des objets et les algorithmes conduisant directement des partitions comme les m thodes d agr gation autour de centres mobiles section VII 8 ci apr s Les mod les mixtes syst matiquement mis en uvre dans Dtm Vic combinent les deux approches section VIL9 ci apr s VII 7 1 algorithme de base de la classification hi rarchique CAH Les principes communs aux diverses techniques de classification ascendante hi rarchique sont simples Il s agit de cr er chaque tape de l algorithme une partition obtenue en agr geant deux
19. iv Concat nation de deux bases de donn es variables diff rentes v S lection d un sous ensemble de variables ayant un poids maximum Les sections i et v ne seront pas trait es de fa on d taill es ici Elles comportent des rubriques HELP qui devraient faciliter la t che des utilisateurs La section i permet de diviser par 2 ou 4 la taille de l chantillon de d part form de la r union des 2 ou 4 groupes Ceci permet de tester des analyses de fa on plus conomique mais aussi de valider des structures observ es La section v est tr s particuli re et r pond la situation pratique suivante Si les donn es comportent un grand ensemble homog ne de n variables num riques dont la somme sur les individus a un sens alors on peut s lectionner les p variables p lt n de plus fortes sommes Exemple on a pour 10 000 individus 1200 variables nombre de visites pour 1200 sites webs On peut s lectionner les 400 sites les plus visit s pour travailler sur ce seul sous ensemble V 2 Interventions sur une base 129 V 2 1 S lection d un sous ensemble d individus par filtrage Il est fr quent d avoir travailler de fa on approfondie sur une sous population par exemple les femmes les personnes ayant acc s internet leur domicile etc Il est alors commode de s lectionner un sous fichier Dtm Vic sans avoir re importer les donn es partir de la base initiale gt Cliquer sur Selecting a
20. l analyse des correspondances le tableau de contingence pj p2 croisant les deux variables ou d analyser le tableau binaire n lignes et p7 p2 colonnes d crivant les r ponses L analyse de ce dernier tableau se g n ralise imm diatement au cas de plus deux variables nominales VII 5 1 Tableau disjonctif complet tableau de Burt On d signe par p le nombre total des modalit s de s questions la question q ayant p modalit s On a PEL Be g 1 M thodes factorielles Classification 197 On construit partir du tableau de donn es R n lignes et s colonnes donnant les num ros des modalit s choisies par n individus le tableau Z n lignes et p colonnes d crivant les s r ponses des n individus par un codage binaire Le tableau Z est la juxtaposition de s sous tableaux Z 1 2Z 2 Zo a Zs s 3 lt gt lt J 1 212194 0 1 0 0001 23 1153 0 1 0 0010 Be a 0 01 0 100 D 82 4 100 0001 L 42 3 100 0010 2 2 3 010 0010 s 3 1 1 001 1000 Ti Ei Bat 100 1000 g 112 1 0 0 100 212 53 010 0010 32 2 0 01 0 100 n Li SCI ga 100 0001 Figure AS Construction du tableau disjonctif complet Z n individus s questions p modalit s en tout Tableau de contingence de Burt L ensemble des pg modalit s de r ponse une question permet de partitionner l chantillon en pg classes La donn e de deux questions mises sous forme disjonctive compl te permet de r ali
21. le fichier ngus_ind txt Les principales coordonn es des individus lignes sont s lectionn es Une sous fen tre donne les caract ristiques du fichier VI 1 Donn es num riques S miom trie 141 gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant S lectionner la partition obtenue pr c demment l tape de calcul Choisir alors Load partition File et ouvrir le fichier part_cla_ind txt classes de la partition pour les individus gt Cliquer sur Graphics puis dans la fen tre S lection des axes choisir les axes 2 et 3 qui constituent le premier plan s mio m trique car laxe 1 est un axe de notation voir l ouvrage La S miom trie pr cit gt Cliquer ensuite sur Continue puis sur DISPLAY Le Plan factoriel 2 3 s affiche Dans le bandeau vertical de gauche de la fen tre Graphics figure une s rie de boutons On appuie sur un bouton pour l activer couleur rouge et on appuie de nouveau pour le d sactiver couleur noire Le bouton C Hull Convex Hull Enveloppe convexe trace l enveloppe convexe de chaque classe Presser ce bouton La figure ci dessous repr sente les 300 individus dans le plan 2 3 avec une couleur par classe et une enveloppe convexe par classe Enveloppes convexes Convex Hulls des 7 classes dans le plan 2 3 apr s activation du bouton C Hull puis du bouton Colours b Visualisat
22. placem_V29 12 Repas_rest_V12 Jardinag_V21 A_pied_V30 13 Travail_V13 Loisirs_ext_V22 En_Voitu_V31 14 TravailR_V14 Disque_V23 Fr quent_V32 S lection des variables suppl mentaires a transf rer dans la fen tre Supplementary Variables variables continues 38 Radio 42 Quotid_R suppl mentaires V38 a V44 39 TV 43 Magazine 40 Presse 44 Mag_TV 41 Quotid_N variables nominales 1 Sexe 3 Activit suppl mentaires V1 V4 2 Age 4 Education gt cliquer sur Continue gt Une fen tre Selecting observations appara t 11 1 Analyse en composantes principales 27 Etape 4 S lection des observations individus Trois cas de figure sont possibles Consid rer l ensemble des observations S lectionner les observations sur une liste S lectionner les observations par un filtre F Selecting observations individuals rows Saloc on of cae tens All the observations will be active individuals or rows of the data file If h se to sel t sub t of ARE EEE e a E The observations will be selected from a list g other variables of the data file The nine nai bea ak DE Nous prenons en compte ici l ensemble des observations Cliquer sur All the observations will be active Une fen tre Create a starting parameter file appara t Etape 5 Cr ation du fichier de commande fichier param tre FA Create a starting parameter file stom im deer i nu
23. rer directement la m me analyse plus tard il faudra le renommer apr s l analyse Create a starting parameter file RSS ES El F DTM BASIC PARAMETER FILE FOR SIMPLE CORRESPONDENCE ANALYSIS Data Name d the xt parameter file param_sca tit 4 Continuation symbol gt Dummy line e g title mandatory immediately after each line STEP LISTF NO LISTP yes Global Parameters hia Dtm_SCA_dic_Fr txt acon file DONZ SCA_dat Fr tat dita omments about step ARD umber of questions or variables in both the dictionary the data file number of individuals or rows in the data file indicate the presence of an identifier recommended reading dictionary and data builds the Archive Dictionary 19 NXMOD 1 gt NEDI e AEA 1 TEST 999 gt Cliquer sur 3 Execute 46 Il Donn es num riques Les proc dures s affichent en bloc la fin de l ex cution ArDat Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Afcor Analyse des correspondances et Defac Description des axes factoriels Execution completed Note Lors d une utilisation ult rieure de Dtm Vic il est possible d ouvrir le fichier param tre param_SCA txt dans le menu principal Ju Eue ALG avec la proc dure Open an existing command file puis d ex cuter ce fichier Execute 11 2 3 Fichier de r sultats Les r sultats peuvent tre consult s da
24. secting_Check qui pr sente les d tails de l op ration Cliquer sur Return pour revenir au menu principal V 1 4 Archiver des facteurs ou des partitions On peut vouloir enrichir le fichier de donn es initial par les r sultats d une analyse factorielle ou d une classification Les facteurs ou partitions sont alors consid r s comme de nouvelles variables Attention On ne peut pas archiver des facteurs ou des partitions si l analyse qui les a produits a utilis un filtre interne sur les individus lors de la cr ation du fichier de commande En revanche on peut utiliser un filtre externe avant toute analyse tel que d fini en section V 2 1 gt Cliquer sur Archiving principal axes and partitions Une fen tre appara t gt Ouvrir le fichier dictionnaire MCA dic txt puis celui de donn es MCA_dat txt et s lectionner l archivage d un facteur Select coordinate file ou d une partition Select partition file a Archiver un facteur axe factoriel gt Cliquer sur Select coordinate file Une fen tre appara t affichant le dossier EX_A03 MultCorAnalysis o figure le fi chier ngus_ind txt des coordonn es factorielles cr lors de la proc dure MCA Multiple Correspondence Analysis gt ouvrir le fichier ngus_ind txt puis S lectionner l axe archiver Les coordonn es factorielles apparaissent dans la 3 fen tre gt Cliquer sur Add coordinates Une boite de message Coordinate adde
25. suivi de la date et l heure de l analyse imp_08 07 11_14 45 txt signifie le 8 juillet 2011 a 14h 45 Ce fichier de sauvegarde conserve les r sultats num riques principaux tandis que le fichier imp txt est cras pour chaque nouvelle analyse ex cut e dans le m me r pertoire Revenir au menu principal Ces r sultats seront visualis s alors dans l tape VIC de Dtm Vic qui facilite consid rablement l interpr tation l histogramme des valeurs propres celui des indices de niveau et le dendrogramme doivent cependant tre consult s dans l un des fichiers imp txt ou imp html 11 1 4 Visualisation des r sultats Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires l interpr tation et la validation des r sultats lt EPiaraen BlBooseerven jouir Axes Clusters F4 Clusterview FA Kohonen Map ER Contiguity 11 1 Analyse en composantes principales 31 1 Axes factoriels Cet outil fournit et classe les coordonn es sur les axes factoriels des variables actives suppl mentaires ou des observations gt Cliquer sur Zl axesview 5 Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes ces r sultats sont aussi ceux de l tape DEFAC du fichier r sultat Coordonn es des variables continues Coordonn es des variables actives et suppl mentaires nominales suppl men
26. visualisation n cessaires la validation et l interpr tation des r sultats lt Perver CE Axes Clusters E Keronen Man 1 Axes factoriels Cet outil fournit les coordonn es sur les axes factoriels des variables actives suppl mentaires ou des observations gt Cliquer sur H axesview Dans le contexte de cette analyse textuelle seulement deux options sont envisageables active variables qui correspondent ici aux po mes et les observations qui correspondent ici aux mots Lez Description of principal axes Active variables Suppl Categories Individuals observations Suppl lexical units Suppl cont var M IILT Simples textes Po mes 71 gt Cliquer sur l onglet des l ments examiner Active variables ou Individuals observations puis sur View Il est possible d ordonner les coordonn es d un axe donn en cliquant sur cet axe gt Cliquer Exit pour sortir de cet outil Active variables Suppl Categories Individuals observation Active variables Suppl Categories Individuals observations Identifier axis 1 avis 2 anis 3 avis avis axis ais Identifier axis 1 axis 2 axis 3 237 4 360 273 158 246 744 331 799 50 535 442 337 25 236 247 98 172 370 20 354 686 59 28 1304 A 10 m 7 d a E Coordonn es des sonnets Coordonn es des mots variables actives observations 2 Plans factoriels Cette option fou
27. 8 CHANGE YOUR _LAST_YRS 6 N 10 9 CHANGE _YOUR_NEXT YRS 6 N 10 PEOLE_BE HAPPIER 4 N 12 11 PEOLE_PEACE_OF MIND 4 N DISCARD gt 9 CHAR 12 Mone_OR_LESS FREEDOM 4 N 13 Culture 1719 A Clear Select 73 distinct values freq value 25 18 19 Pr cisions sur la nature de l importation Le proc d d importation consiste en la construction d un dictionnaire et d un fichier de donn es de DtmVic partir du fichier original de donn es Les noms des variables seront extraits a partir des identificateurs des variables dans le fichier de d part Le nombre de cat gories pour chaque variable nominale et les noms de ces cat gories seront tablis a partir de ce fichier Pour chaque variable toutes les diff rentes s quences des caract res observ es dans le fichier de donn es sont d tect es et compt es Les cat gories des variables nominales sont rang es selon l ordre alphab tique de leurs identifiants 110 IV Importation Cr ation Exportation Les lignes du fichier de donn es de DtmVic commenceront par l identifiant figurant dans la premi re colonne identifiant du fichier Excel Les modalit s des variables nominales seront des nombres entiers cons cutifs commen ant par la valeur 1 au lieu d un symbole alphanum rique l ordre des modalit s sera l ordre alphab tique de leurs symboles dans le fichier d origine Les valeurs manquantes cases vi
28. Axes Clusters FF ClusterView E Kohonen Map MJ Visualization R Contiguity 1 Axes factoriels gt Cliquer sur Flaxesview Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes Dans le contexte de l analyse textuelle seulement deux options sont envisageables actives variables cat gories et les observations qui correspondent aux mots gt Cliquer sur l onglet des l ments examiner Active variables ou Individuals observations puis sur View Il est possible d ordonner les coordonn es sur un axe donn en cliquant sur cet axe 88 Ill Donn es textuelles et mixtes Active variables Suppl Categories Individuals ol Active variables Suppl Categories Individuels observations 5 View _ Exit Ide axis 1 axis 2 axis 3 axis 4 4 55 high 86 279 279 462 i D E 3 5 S 5i 7 al 55 low 305 111 70 14 a 33 43 4 3 39 19 59 55 medium 114 217 8 a anything 405 4136 197 4128 26 232 8 30 high 337 377 219 35 are a7 15 26 115 224 171 14 30 low 101 209 71 783 as 423 181 64 4 79 Ad 45 30 medium 208 149 199 29 a z A 10 18 af a calf j x E e 30 55 high 296 104 268 148 bone 38 A 7 A a ui 4 30 55 low 39 15 450 412 can 456 259 28 83 23 18 13 30 55 medium 131 177 73 23 cat 182 524 2 104 142 162 518 children 64 0204156 F140 church 50 409 492 470 614 405 292
29. Dans le premier bloc intitul ncoord Input coordinate file cocher 1 File ngus_ind coordinates of individuals observations L analyse de contigu t utilisera les coordonn es des individus ou observations comme donn es d entr e Dans le deuxi me bloc intitul npart partition file cocher 0 no partition Dans le troisi me bloc intitul meth method cocher 2 Contiguity graph defined by k nearest neighbours VI 2 Donn es num riques et Contig it 155 Ensuite nous aurons entrer les valeurs num riques suivantes npas 2 incr mentation du nombre de plus proches voisins Min 4 nombre minimal de plus proches voisins Max 8 nombre maximum de plus proches voisins Trois analyses de contiguit seront alors effectu es pour les trois graphes correspondant respectivement 4 6 8 plus proches voisins de Min 4 jusqu Max 8 avec un incr ment de npas 2 gt Cliquer sur VALIDATE gt Dans la barre sup rieure de la fen tre cliquer sur Execute Les calculs sont effectu s La rubrique Results permet de consulter les d tails techniques des calculs impliqu s dans l analyse de contiguit gt Cliquer ensuite sur Contigu ty View La fen tre Visualization loading files selecting axes qui correspondait au bouton M Visualization appara t gt Dans le menu Load coordinates de la nouvelle fen tre ouvrir le fichier ngus_contig txt Au lieu d utiliser les coordonn e
30. La premi re colonne correspond l identifiant de l individu les 14 autres sont les valeurs des r ponses aux questions ferm es repr sent es par des variables nominales ou num riques continues 2 Fichier dictionnaire des questions ferm es TDA dic txt extraits 2 GENDER EDUM MEDIUM MALE MALE EDUH HIGH FEMA FEMALE 3 WILL PEOLE BE HAPPIER 12 AGE CODE HAP1 Happier AGEL 18 19 HAP2 LESS_ happy AGE2 20 24 HAP3 About_the same AGE3 2529 4 PEOLE PEACE OF MIND AGE4 30_34 PEA1 INCREASES AGES 35_39 PEA2 DECREASES AGE6 40_44 PEA3 NOT_CHANGES AGE7 45_49 PEA4 OTHER AGE8 50_54 3 MORE_OR_LESS_FREEDOM AGE9 55_59 FRE1 MORE_FREEDOM AG10 60_65 FRE2 LESS FREEDOM AG11 65_70 FRE3 THE_SAME AG12 71 _et_ 3 Age_3_ classes 0 AGE 30 less_than_30 3 EDUCATION 3055 from_30_to_55 EDUL LOW 55 over_55 Le fichier dictionnaire contient les identifiants des 14 variables Rappel 1 L identifiant d une variable nominale est pr c d par le nombre N de ses cat gories en colonne 5 Les N lignes suivantes identifient les N cat gories des r ponses un identifiant court en 4 caract res occupe les colonnes 1 5 et un identifiant long 20 caract res maximum commence la colonne 6 Une variable num rique telle que l ge ou le nombre d enfants a 0 cat gorie Rappel 2 les espaces vides dans les identifiants ne sont pas permis 80 Ill Donn es textuelles et mixtes 3 Fichier des textes des questions ouve
31. MOCAR for each cluster A systematic description of the clusters step DECLA provides Click on the button Execute the files likely to feed the menu ClusterView of DTM Comments symbol Continuation symbol gt Dummy line e g title mandatory immediately after each line STEP The parameter file entitled param_VISURECA bd STE f will provide a numerical coding of the first open questic a list of words with their frequencies or if you wish to study or edit the created parameter file Return to the main menu of DTM Selectthe file param_resp_ca te from the menu Use_Parameters LISTF NO LISTP yes Global Parameters NDICZ TDA_dic te dictionary file Click on Execute NDONZ TDA_datbd data file INTEXZ TDA textd name of textfile Un fichier param tre vient d tre cr sous le nom param _VISURECA txt et stock dans le r pertoire EX_A06 Text Responses 2 du r pertoire DtmVic Examples_A_Start Pour ce type d analyse la validation bootstrap est r alis e par d faut La classification est automatique et le nombre de classes est choisi par d faut en fonction du nombre de r ponses ici 30 classes Ce nombre de classe peut tre modifi en ditant le fichier de commande param VISURECA txt ou fichier param tre avant l ex cution param tres des tapes STEP PARTI et DECLA gt C
32. On verra ci dessous que la longueur des lignes peut tre modifi e dans certaines limites Une variable nominale est cr e pour conserver l information rattachant les unit s aux textes initiaux voir le Help in situ v Changement de longueur des lignes de texte Le bouton Changing the size of the lines in a DtmVic text file permet une importation ou un reformatage des fichiers textes Au d part on dispose de textes en format DtmVic 1 ou 2 sans limitation pour la longueur des lignes A la fin textes ayant des lignes d une longueur choisie par l utilisateur mais lt 200 caract res Cette proc dure permet d importer des textes aux lignes tr s longues mais aussi de 134 V Recodage Archivage Outils divers formater les unit s de contexte cf point iv ci dessus vi Enfin le dernier bouton d clenche une proc dure limit e et sp cialis e qui permet de faire respecter la contrainte une ligne vide par r ponse ouverte vide pour des fichiers qui utiliseraient deux s parateurs cons cutifs Elle est parfois utile apr s la r importation apr s TreeTagger d un fichier de type 2 135 VI Autres analyses avec Dtm Vic Visualisations labor es Contiguit Graphes Images L orientation principale de Dtm Vic est l analyse exploratoire multi dimensionnelle des donn es num riques et textuelles avec validation syst matique des r sultats par la compl mentarit d approches diff rentes et pa
33. axe u est alors le vecteur propre de la matrice X X correspondant la plus grande valeur propre A cf SEM 2006 Plus g n ralement le sous espace q dimensions qui ajuste au mieux au sens des moindres carr s le nuage est engendr par les g premiers vecteurs propres de la matrice X X correspondant aux q plus grandes valeurs propres La proc dure d ajustement est exactement la m me pour les deux nuages On d montre alors qu il existe des relations simples liant les axes calcul s dans les deux espaces celui des individus et celui des variables relations dites de transition Cette relation s exprime de la fa on suivante 1 u X v q A o Uq V4 sont respectivement les g mes vecteurs propres de X X et XX et la valeur propre associ e Le vecteur des coordonn es des points sur chacun des axes appel facteur est une combinaison lin aire des variables initiales On d note par w et pe les facteurs correspondant laxe respectivement dans l espace not IR espace dont les n points ont pour coordonn es sont les m mots et dans l espace not R espace dont les m points ont pour coordonn es sont les n individus Les deux nuages de points celui des mots et celui des r pondants sont intrins que ment li s et r v lent exactement les m mes structures dans un cas les facteurs d criront les corr lations entre les mots dans l autre les associations
34. ce fichier Execute Les utilisateurs exp riment s peuvent modifier les param tres directement sous l diteur propos par Open an existing command file ou avec un autre diteur de texte hors de Dtm Vic voir le bouton Help about parameters menu principal 111 3 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files du menu principal MP gt Cliquer sur Basic numerical results pour naviguer dans le fichier en format html puis sur Return pour en sortir et revenir au MP DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Artex building archive textual data Selox selecting an open question Numer numerical coding of texts ip Recip hierarchical clustering reciprocal neighbours Parti partitioning by cutting a dendrogram Motex table categories x texts Mocar characteristic words Selec selecting active and illustrative elements Decla description of clusters Posit positionning categories in textual analysis List of commands Rappel Le fichier r sultat imp txt comme son homologue imp html est galement sauv sous le nom imp suivi de la date et l heure de l analyse Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que le dossier imp txt resp imp html est cras chaque nouvelle analyse ex cut e dan
35. classes d un ensemble de n objets mais une hi rarchie de partitions se pr sentant sous la forme d arbres appel s galement dendrogrammes et contenant n partitions cf figure A 8 L int r t de ces arbres est qu ils peuvent donner une id e du nombre de classes existant effectivement dans la population Chaque coupure d un dendrogramme fournit une partition a _ Distances entre l ments et entre groupes On suppose au d part que l ensemble des individus classer est muni d une distance Ceci ne suppose donc pas que les distances soient toutes calcul es au d part il faut pouvoir les calculer ou les recalculer partir des coordonn es des points individus celles ci devant tre accessibles rapidement Dans Dtm Vic Etape RECIP les distances sont calcul es la vol e a partir des coordonn es factorielles Une fois constitu un groupe d individus il convient de se demander ensuite sur quelle base on peut calculer une distance entre un individu et un groupe et par la suite une distance entre deux groupes Ceci revient d finir une strat gie de regroupements des l ments c est dire se fixer des r gles de calcul des distances entre groupements disjoints d individus appel es crit res d agr gation Cette distance entre groupements pourra en g n ral se calculer directement partir des distances des diff rents l ments impliqu s dans le regroupement AT s agira parfois simplement d une
36. colonnes de la table lexicale sont imprim es en rouge alors que les mots actifs lignes sont imprim s en bleu Les r les des diff rents boutons sont d crits pr c demment notamment dans les exemples A 1 et A 2 Ill 2 Analyse textuelle de questions ouvertes 89 On peut galement choisir ce menu par l interm diaire de PLANEVIEW with moveable tags qui reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique 3 Validation Bootstrap gt Cliquer sur B Bootstrap pour valider la position des variables sur le plan fac toriel Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi S lectionner le fichier ngus_par_boot1 txt pour un bootstrap textuel partiel R pondre OK la bo te Set of principal coordinates loaded qui s affiche gt Puis cliquer sur Confidence Ellipse Une fen tre Bootstrap confidence areas s affiche gt S lectionner dans la rubrique Click to select les variables dont on veut visuali ser les ellipses Les transf rer avec Select dans la fen tre selected list Choi sir ensuite le plan factoriel puis cliquer sur Confidence ellipses ou sur convex Hulls cf 11 1 4 pour obtenir l affichage des variables actives 7 think wore muc
37. data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic_newG7 txt et dtm_dat_newG7 txt toujours dans le m me dossier EX_A03 MultCorAnalysis V 1 Recodage et archivage 123 Groupings some categories of a selected categorical vaiable 1 region 8 categories A 2 taile_d agglomeration_ nor sexe 2 categories 4 age numerical situation 7 categories 5 _A1 statut_matrimonial 5 cz 8 la_famile_est_le_seul_endr 3 opinion_sur_le_mariage 10 travaun menage enfants 11 satisfaction logement 4 i a cade de vig statut_d occupation_loger 14 depenses_de_logement raven tebe E 15 disposez vous_d un_magr entr 43 18 disposez vous_d un_pianc Peau NA 3 17 residence_secondaie 2 u 18 activite_professionnelle 2 19 confits_travail vie_person 20 chomage_douze_demiers 21 maux de tete 2 categoi Grouping completed You can update the data fie now 22 mal_au_dos 2 categories i 23 nervosite 2 categories 24 etat depressif 2 categori Update data file and dictionary Une fen tre s affiche pour pr senter ces nouveaux fichiers pour lesquels l utilisa teur pourra choisir de nouveaux noms s il le juge utile gt Cliquer sur Return L op ration de regroupement des modalit s est termi n e V 1 2 Croisement de deux variables nominales On souhaite dans ce cas augmenter les possibilit s d analyse et d interpr tation en cr ant une nouvell
38. daughter all mind wife we people see keeping very tt so long going them trom can atter are on bb high our here well me way Ike you ve grandchildre would food should a much church our anything they help 55 medium 1 55 low day Carete auto organis e de Kohonen Il est possible de changer de taille de police Font et de dilater la carte de Kohonen obtenue Dilat pour rendre la graphique plus lisible 92 Ill Donn es textuelles et mixtes gt Cliquer sur Rows columns Une fen tre Kohonen map or SOM map appara t gt Choisir la carte map 5x5 puis continue et r pondre OK la boite de mes sage SOM map completed Une nouvelle fen tre Kohonen map s affiche gt Actionner Draw La Carte de Kohonen appara t Les variables actives sont les mots en noir et les observations repr sentent les cat gories de la variable en rouge 6 S riation Voir l encadr du paragraphe 1 3 du chapitre 1 La s riation est appliqu e ici la table lexicale croisant les 9 cat gories de r pondants et les mots choisis mots apparaissant au moins 16 fois dans le corpus Dans cette version de Dtm Vic la s riation peut tre obtenue seulement apr s les deux types d analyse VISUTEX et ANALEX Ces deux approches impliquent l analyse de correspondance des tables lexicales gt Cliquer sur LA Seriation La fen tre reordering appara t gt Cliquer sur Reordering the rows and the co
39. des Correspondances Multiples 53 Etape 3 S lection des variables actives et suppl mentaires A l int rieur de la fen tre Selection of active and supplementary elements s affichent trois autres fen tres Variables to be selected o figurent l ensemble des variables Active Variables qui re oit les variables actives s lectionn es Supplementary Variables pour les variables suppl mentaires s lectionn es Dans le cadre de l analyse des correspondances multiples les variables actives doivent tre nominales cat gorielles Les variables suppl mentaires peuvent tre continues ou nominales Selection of Active and Supplementary Elements disposez vous_d un_magnetoscop 2 categories disposez vous_d un_piano 2 categories residence_secondaire 2 categories activite_professionnelle 4 categories conflits_travail vie_personnel 2 categories age_douze_demiers_mois 2 categories maux_de_tete 2 categories mal_au_dos 2 categories nervosite 2 categories etat_depressif 2 categories satisfaction_sante 4 categories nombre_de_personnes_logement numerical enfants 2 categories nombre_d enfants numerical restrictions 2 categories i ie_personnel 6 categories 2 Francais 6 categories vie_avenir 6 categories besoin_de_se_transfo 3 categories formatique 4 categories quietude_maladie_grave 4 categories inquietude_agression_dans_la_r 4 categories inquietude_accident
40. e des deux autres esp ces co ncide avec une des classes cluster de la partition Retour vers MIEL ALICE VI 2 5 Analyse de contigu t Deux analyses de contiguit vont tre ex cut es La premi re non supervis e utilise le graphe des plus proches voisins C est l analyse de contiguit intrins que La seconde supervis e utilise le graphe form de trois cliques disjointes correspondant aux trois esp ces d iris tous les couples d individus appartenant une m me esp ce sont voisins deux couples appartenant deux esp ces diff rentes ne sont jamais voisins Dans ce cas pour lequel l appartenance une 154 VI Autres analyses avec Dtm Vic esp ce est connue a priori l analyse de contiguit coincide avec l analyse discriminante lin aire a Graphes des plus proches voisins Nous allons effectuer une analyse de contiguit utilisant un graphe des plus proches voisins provenant des mesures La partition en trois esp ces n est pas prise en compte II s agit donc d une approche non supervis e gt Cliquer sur le bouton ES contiguity gt Cliquer sur Parameter Edit Choisir l l ment Create La fen tre suivante apparait RE npas incrementfrom min to mex Min first value for starting min number of edges if nn Ca Max Maximum value max number of edges if nn VALIDATE Nous allons tablir les param tres n cessaires une analyse de contigu t
41. entre elles appel es composantes principales qui synth tisent les corr lations de l ensemble des variables initiales Sur la figure A 4 b comme sur la matrice de corr lations correspondante Politesse et Morale sont tr s corr l s et dans une moindre mesure Orage et Sensuel On retrouve bien les comportements des r pondants o RO1 et R02 vont dans la direction des bons noteurs d Arbre et de Sensuel et des mauvais noteurs de Morale et Politesse l inverse des r pondants R04 et ROS 192 VII Annexe statistique Les variables fortement corr l es avec un axe vont contribuer la d finition de cet axe Cette corr lation se lit directement sur le graphique puisqu il s agit de la coordonn e du point variable j sur l axe On s int resse surtout aux variables pr sentant les plus fortes coordonn es et l on interpr tera les composantes principales en fonction des regroupements de certaines de ces variables et de l opposition avec les autres On notera alors que tous les points variables sont sur une sph re de rayon 1 centr e l origine des axes Les plans d ajustement couperont la sph re suivant de grands cercles de rayon 1 les cercles de corr lations l int rieur desquels sont positionn s les points variables Dans ce manuel les cercles ne sont pas trac s dans les plans factoriels repr sentant les mots pour une meilleure lisibilit des libell s le cadrage des plans factori
42. entre les r pon dants 188 VII Annexe statistique Les plans factoriels de visualisation utilis s tout au long de cet ouvrage corres pondent chacun un couple de facteurs Le plan le plus utilis est le plan 2 Les l ments mots ou individus qui participent au calcul des axes sont les ments actifs On introduit aussi dans l analyse des l ments suppl mentaires ou illustratifs qui ne participent pas la formation des axes mais qui sont projet s a posteriori dans les plans factoriels et peuvent aider leur interpr tation cf section VII 10 3 VII 2 2 Techniques de base m thodes d riv es La nature des informations leur codage dans le tableau de donn es les sp cificit s du domaine d application vont introduire des variantes au sein des m thodes factorielles Celles qui sont utilis es ici ne sont en fait que des d riv es de deux techniques fondamentales l analyse en composantes principales et l analyse factorielle des correspondances L analyse en composantes principales s applique un tableau de mesures num riques Elle est utilis e dans le cadre de l exemple I 1 du chapitre II de ce manuel pour analyser des dur es en minutes enqu te budget temps et dans le cadre de la s miom trie section VI 1 pour traiter un tableau de notes La plupart des exemples d analyse de donn es textuelles pr sent s au chapitre III de ce manuel reposent sur l analyse factorielle
43. et les m thodes de classification La premi re famille se propose de rechercher les directions principales selon lesquelles les points s cartent le plus du point moyen La seconde famille va rechercher des groupes ou classes d individus qui soient les plus homog nes possibles figure A 3 186 VII Annexe statistique morale sensuel sensuel M thode factorielle M thode de classification recherche des directions principales recherche de groupes homog nes Figure A 3 Deux grandes familles de m thodes Ces m thodes impliquent souvent de la m me mani re les individus lignes et les variables colonnes La confrontation des espaces d individus et de variables enrichit les interpr tations VII2 Les m thodes factorielles aspects techniques Les m thodes factorielles permettent de g rer simultan ment des quantit s importantes de donn es et leur syst me de corr lations et par une technique r alisant une sorte de compression d en d gager la structure interne notamment sous forme de graphique plans VII 2 1 Recherche des sous espaces factoriels L objectif est de rechercher des sous espaces de dimensions r duites entre trois et dix par exemple qui ajustent au mieux le nuage de points individus et celui des points variables de fa on ce que les proximit s mesur es dans ces sous espaces refl tent autant que possible les proximit s r elles On obtient ainsi un espace de repr sentat
44. expos e plus haut proc de par paquet batch 30 Introduites en 1981 par Teuvo Kohonen elles font partie des m thodes dites neuronales cf Kohonen 1989 Elles donnent lieu plusieurs applications relevant par exemple de l analyse de textes les diagnostics m dicaux et industriels les contr les de processus la robotique M thodes factorielles Classification 209 Le principe est de consid rer une carte comme une grille rectangulaire parfois hexagonale aux mailles d formables laquelle une fois d pli e pouse au mieux les formes du nuage de points Les n uds de la grille sont les neurones de la carte Chaque point du nuage est projet sur le n ud dont il est le plus proche De fait chaque point d crit initialement dans un espace multidimensionnel est repr sent la fin par deux coordonn es donnant la position du neurone sur la carte l espace est r duit L ensemble des points affect s un m me neurone sont proches dans l espace initial Ils d crivent et regroupent des individus semblables On d finit a priori une notion de voisinage entre classes et les observations voisines dans l espace des variables de dimension q appartiennent apr s classement la m me classe ou des classes voisines Ces voisinages peuvent tre choisis de diverses mani res mais en g n ral on les suppose directement contigus sur la grille rectangulaire ce qui repr sente alors 8 voisins pour un neurone VII 8 2 2 L al
45. graphes 169 Les fichiers homologues des fichiers Chessboard_7x7_dat txt Chessboard_7x7_dic txt Chessboard_Extern_7x7 txt et Chessboard_ CA_Param txt sont maintenant respectivement Cycle_49 dat txt Cycle_49_dic txt Cycle_Extern_49 txt et Cycle_CA_Param txt Ils peuvent tre trouv s dans le r pertoire Cycle VI 3 6 Ex cution de l exemple France_map Dossier Geography Cette section est identique la section VI 3 3 Ex cution de l exemple Chessboard_Textual Le graphique est maintenant une sch matisation d une carte de France pr sent e comme une suite de textes Les titres des textes sont les d partements Le contenu des textes tant la liste des d partements contigus II s agit d un fichier interne Dtm Vic de type 1 les s parateurs sont des s quences de quatre ast risques Voici un extrait du fichier de textes KkKKK Ain Ain lesre dira Rhone Hte Saone Savoie Hte Savoie D Aisne Aisne Ardennes Marne Nord Oise Seine Marne Somme RUE Allier Allier Cher Creuse Loire Nievre Puy de Dome Hte Saone Extrait du fichier de donn es textuelles France_Text txt trois premiers d partements L homologue du dossier Chessboard_Textual est France_map tandis que les homologues des trois fichiers Chessboard_textual_7x7 txt Chessboard_Extern_7x7 txt et Chessboard_textual_Param txt sont les trois fichiers France_Text txt France_extern txt et France_Param txt 170 VI Autres analyses avec Dtm V
46. heure de l analyse Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que les dossiers imp txt et imp html sont cras s a chaque nouvelle analyse ex cut e dans le m me r pertoire DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Artex building archive textual data Selox selecting an open question Numer numerical coding of texts Motex table categories x texts Mocar characteristic words Aplum CA of lexical tables Selec selecting active and illustrative elements Decat description of categories of a nominal var List of commands La lecture de ce fichier est n cessaire pour prendre connaissance de certains r sultats qui ne peuvent tre visualis s Ainsi la proc dure NUMER nous dit que nous avons 1043 individus et 13 919 mots dont 1365 mots distincts Avec un seuil de fr quence de 16 on conserve les mots de fr quence sup rieure 16 le nombre de mots conserv s se r duit 10738 tandis que le nombre de mots distincts est ramen a 136 Le livre Exploring Textual Data op cit traite les d tails de ce pr traitement et tous les r sultats qui suivent 111 2 4 Visualisation des r sultats et interpr tation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires la validation et l interpr tation des r sultats
47. le cas d un v ritable tirage au hasard le centre de gravit du sous nuage repr sentant le groupe i e la modalit s loigne peu du centre de gravit du nuage global correspondant tout l chantillon On convertit alors la coordonn e de cette modalit sur l axe en une valeur test qui est sous cette hypoth se la r alisation d une variable normale centr e r duite Autrement dit dans l hypoth se selon laquelle une modalit a une composition al atoire la valeur test correspondante a 95 de chances d tre comprise dans l intervalle 1 96 1 96 Supposons qu une modalit j concerne nj individus Si ces n individus sont tir s au hasard c est ce qu on appelle l hypoth se nulle Ho parmi les n individus analys s tirage suppos sans remise la moyenne de n coordonn es tir es au hasard dans l ensemble fini des n valeurs Wa coordonn e du r pondant i sur laxe est une variable al atoire X a M thodes factorielles Classification 215 1 X Por L V ai avec pour esp rance E X 0 et pour variance n ie I j n n J Var X e 1 n l n Dans la formule donnant X j 10 est le sous ensemble des r pondants caract ris s par la modalit j de la variable nominale La coordonn e 9 de la modalit j est proportionnelle la variable al atoire xX j et s crit ainsi Pau g a On a donc EQ 0 et Vary 9 4 n Nn n La
48. le cas ici ce bouton convertit les deux coordonn es de l affichage courant en rangs Par exemple les n valeurs de l abscisse sont converties en nombres entiers de 1 n ayant le m me ordre que les valeurs originales Ainsi les deux distributions sont uniformes et les identifiants s av rent tre beaucoup plus lisibles au prix d une distortion substantielle de l affichage gt Pour fermer le graphique cliquer sur la croix en haut droite puis sur Return ou directement sur la rubrique du bandeau Main menu gt Retourner ensuite sur PlaneView pour s lectionner une autre repr sentation 34 Il Donn es num riques Autres graphiques a Rubrique PLANEVIEW with moveable tags Elle permet de d placer les tiquettes des points du graphique gt Cliquer sur PLANEVIEW with moveable tags puis sur Continue Une fen tre appara t Choisir par exemple actives columns variables with continuous supplementary variables cliquer sur Continue et s lectionner le plan factoriel pied Relationnel Disque_casse me Viste amis D placements EE Magazine Restaurant Mag_TV Es Repas_chez_s Promenade En_Voiture rav_r mun i elevisioi Petit D jeui Repos Quot reg Plan factoriel 1 2 rubrique PLANEVIEW with moveable tags puis bouton actives columns variables with continuous supplementary variables 11 1 Analyse en composantes principales b Rubrique
49. libell axis x en haut de l axe x gt Cliquer sur Exit pour sortir de cet outil 2 Plans factoriels Cet outil fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations 32 Il Donn es num riques gt Cliquer sur H PlaneView Une fen tre propose diff rentes visualisations de plans factoriels Selecting the types of coordinates Dans cet exemple d analyse six rubriques du menu sont possibles les colonnes actives des variables ou des cat gories des cat gories suppl mentaires des lignes actives individus observations colonnes actives lignes actives individus actifs densit et colonnes actives cat gories suppl mentaires PlaneView with moveable tags reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique S lectionner la rubrique Actives columns variables or categories Appara t une fen tre pour s lectionner le plan factoriel suivant le couple d axes souhait Selection of axes and points Manual Selection of Points g 4 9 2 s y LA s d Ld Cs Ld 4 s 2 2 2 s s 2 bd 2 2 gt Choisir les axes 1 et 2 puis cliquer sur Display Il est possible de ne faire figurer sur les plans que certaines variables gt Cliquer alors sur Manual Selection of points S lectionner les variab
50. ligne deux lignes des textes initiaux approximativement fragmentation en unit s de contexte Une variable nominale est cr e pour conserver l information rattachant les unit s aux textes initiaux v Changement de longueur des lignes de texte Au d part format DtmVic sans limitation pour la longueur des lignes format 1 ou 2 A la fin textes ayant des lignes d une longueur choisie par l utilisateur mais lt 200 caract res Cette proc dure permet d importer des textes aux lignes tr s longues mais aussi de formater les unit s de contexte cf point iv ci dessus vi Cette derni re proc dure limit e et sp cialis e permet de faire respecter la contrainte une ligne vide par r ponse ouverte vide pour des fichiers qui utiliseraient deux s parateurs cons cutifs La rubrique DEMI surtout p dagogique montre les possibilit s de compression d images offertes par l analyse de correspondances ou simplement par la d composition aux valeurs singuli res section VI 4 du chapitre VI 1 5 Format interne des donn es Dtm Vic Version anglaise de cette section affich e par le bouton Data Format du menu principal A ce stade il est utile de conna tre le format interne des fichiers d entr e de Dtm Vic Ces formats seront g n r s par les proc dures d importation Trois fichiers en format texte constituent le format de Dtm Vic Les noms des fichiers sont libres mais l extension txt est commode pour une con
51. mais on s en approche vraisemblablement dans beaucoup de situations courantes VII 9 2 Description statistique des classes La description automatique des classes constitue en pratique une indispensable tape de toute proc dure de classification Les aides l interpr tation des classes sont g n ralement fond es sur des comparaisons de moyennes ou de pourcentages l int rieur des classes avec les moyennes ou les pourcentages obtenus sur l ensemble des l ments classer Pour s lectionner les variables continues ou les modalit s des variables nominales les plus caract ristiques de chaque classe on mesure l cart entre les valeurs relatives la classe et les valeurs globales Ces statistiques peuvent tre converties en un crit re appel valeur test permettant d op rer un tri sur les variables et de d signer ainsi les variables les plus caract ristiques cf Morineau 1984 Parmi les variables figurent galement celles qui n ont pas contribu la construction des classes mais qui peuvent participer leur description sur le m me principe que les variables suppl mentaires dans une analyse factorielle Ces variables permettent a posteriori d identifier et de caract riser les regroupements tablis partir des variables actives Voir la section VII 10 ci dessous 214 VII Annexe statistique VII 10 Outils de validation Les notions de valeur test et de variable suppl mentaire jouent un r le import
52. partir de deux mots Morale et Sensuel c est dire dans un espace de deux dimensions cf figure A 2 Pour chacun des nuages est repr sent le point moyen appel aussi centre de gravite Il s agit de G pour le centre de gravit des notes attribu es par les r pondants cf figure A 1 et de G pour celui des r pondants ayant not s les deux mots retenus M thodes factorielles Classification 185 sensuel 7 RO2e e R08 eR11 6 e eRO7 eR10 ge ROI RO9e ROG G 3 RO3 Jd R12 e R05 14 R04 0 morale Di 1 23o 4 be 6 7 Figure A 2 Repr sentation du nuages des r pondants dans l espace engendr par les deux mots Sensuel et Morale VII 1 2 Principe et m thodes d analyse S il est toujours possible de calculer des distances entre les lignes et des distances entre les colonnes d un tableau X il n est pas possible de les visualiser de fa on imm diate les repr sentations g om triques associ es impliquant en g n ral des espaces plus de deux ou trois dimensions il est n cessaire de proc der des transformations et des approximations pour en obtenir une repr sentation plane Les tableaux de distances associ s ces repr sentations g om triques simples dans leur principe mais complexes en raison du grand nombre de dimensions des espaces concern s peuvent tre d crits par les deux grandes familles de m thodes que sont les m thodes factorielles
53. q de facteurs les corr lations existant entre m variables observ es On pose un mod le a priori x T Nae Gn 1 mq qt p1 Dans cette criture x repr sente le i me vecteur observ des m variables T est un tableau m q de coefficients inconnus avec q lt m fj est la i me valeur du vecteur al atoire et non observable de q facteurs communs et e la i me valeur du vecteur non observable de r sidus lesquels repr sentent l effet combin de facteurs sp cifiques et d une perturbation al atoire On d signe par X le tableau n p dont la i me ligne repr sente l observation i De m me F d signe le tableau n q non observable dont la i me ligne est f et E le tableau n p non observable dont la i me ligne est e Le mod le liant l ensemble des observations aux facteurs hypoth tiques s crit X FTrT E n m n q q m n m Dans cette criture seul X est observable et le mod le est par cons quent ind termin L identification de ce mod le et l estimation des param tres posent des probl mes 7 A l origine des principes de la m thode se trouvent Spearman 1904 analyse monofactorielle puis Garnett 1919 et Thurstone 1947 analyse multifactorielle 7 En conom trie on distingue habituellement les mod les fonctionnels ou effet fixes comme la r gression multiple et le mod le lin aire dans son ensemble et les mod les structurels ou
54. quantit f je mesure en nombre d cart types la distance entre la N J modalit j c est dire le quasi barycentre des nj individus et l origine sur l axe factoriel a On appelle cette quantit valeur test D apr s le th or me de la limite centrale central limit theorem sa distribution tend vers une loi de Laplace Gauss centr e r duite On consid re alors comme occupant une position significative les modalit s dont les valeurs test sont sup rieures 2 pour 1 96 en valeur absolue ce qui correspond approximativement au seuil usuel de probabilit de 5 Souvent les valeurs test sont largement sup rieures ce seuil On les utilise alors pour trier les modalit s des plus significatives au moins significatives La valeur test syst matise la notion de t value souvent utilis e dans la litt rature statistique On doit noter que les valeurs test n ont de sens que pour les modalit s suppl mentaires cf section suivante ou des modalit s actives ayant des contributions absolues faibles c est dire se comportant en fait comme des modalit s suppl mentaires Lorsque l on dispose d un nombre important de modalit s suppl mentaires les valeurs test permettent de rep rer rapidement les modalit s utiles l interpr tation d un axe ou d un plan factoriel 33 4 a Il s agit de la formule classique donnant la variance d une moyenne lors d un tirage sans rem
55. r affectation Figure A 10 Sch matisation de la classification mixte 212 VII Annexe statistique b Choix du nombre de classes par coupure de l arbre Le choix du niveau de la coupure et ainsi du nombre de classes de la partition peut tre facilit par une inspection visuelle de l arbre cf figures A 11 et A 12 la coupure doit tre faite apr s les agr gations correspondant des valeurs peu lev es de l indice qui regroupent les l ments les plus proches les uns des autres et avant les agr gations correspondant des valeurs lev es de l indice qui dissocient les groupes bien distincts dans la population En coupant l arbre au niveau d un saut important de cet indice on peut esp rer obtenir une partition de bonne qualit car les individus regroup s auparavant taient proches et ceux regroup s apr s la coupure sont n cessairement loign s ce qui est la d finition d une bonne partition En pratique la situation n est pas aussi clairement d finie que le montre la figure A 11 L utilisateur pourra choisir entre deux ou trois niveaux de coupure possibles et donc entre deux ou trois partitions finales Fa ere Car i Maa Figure A 11 Coupure visuelle de l arbre La coupure de l arbre peut tre facilit e par l examen de l histogramme des indices croissants de niveau et l on coupera au niveau pour lequel cet histogramme marque un palier imp
56. r pertoire 4_Extra_pgm_ppm VI 4 Reconstitutions d images 181 puis ouvrir le fichier broom pgm Une bo te de message rappelle les dimensions du fichier image D 21 Figure V1 13 Enfant balayant une cour Cas de l analyse des correspondances Images en niveaux de gris pgm reconstitu es successivement avec 2 axes principaux 10 axes et 100 axes D _ 2 Figure V1 14 Enfant balayant une cour Cas de l analyse des correspondances Images couleur ppm reconstitu es successivement avec deux axes principaux 10 axes et 100 axes Que ce soit en noir ou en couleur en actionnant le d filement automatique permis par les boutons Series from first term to total on constate que l image du manche du balai que tient l enfant n appara t pas avant le 20 axe les traits structuraux diagonaux sont d favoris s par la formule de reconstitution des donn es 182 VII Annexe statistique VII Annexe statistique Quelques notions de statistique multidimensionnelle Les m thodes d analyse statistique exploratoire utilis es par le logiciel Dtm Vic visent mettre en forme de vastes ensembles de donn es en d gager des structures et aussi valider ces structures Elles rel vent de la statistique exploratoire multidimensionnelle de l analyse des donn es ou encore du Data Mining ces trois d signations tant actuellement peu pr s quivalen
57. un diteur de texte ou un bloc notes dossier 3_Cardinal_ppm Ce format est assez voisin de pgm mais avec trois entiers 3 niveaux de RGB Red Green Blue sur une m me ligne par pixel Ce format est galement celui de l exemple 4 Les fichiers pgm et ppm peuvent tre obtenus par une exportation a partir du logiciel libre Open Office pr ciser pgm format texte en utilisant un fichier JPEG en entr e Attention pour ce module essentiellement p dagogique limitation a 1000 pour le nombre de pixels en ligne ou en colonne 11 12 Cette image est adapt e du livre La compression de donn es Mark Nelson M amp T Publishing Inc 1992 Pour plus d informations sur un tel format veuillez consulter par exemple http netpbm sourceforge net doc pgm html 174 VI Autres analyses avec Dtm Vic VI 4 2 Analyse pour la compression d images gt Cliquer sur le bouton SVD and CA of images dans la rubrique DtmVic Images du menu principal SVD and CA of images Une fen tre appara t dont la partie sup rieure figure ci dessous Description de la fen tre Reconstitution of some small images Sur la gauche figurent en colonne trois boutons rouge fonc correspondant aux trois formats de fichiers images d crits au paragraphe pr c dent format simple de niveaux de gris format pgm de niveaux de gris format ppm couleur Plus bas dans la m me colonne cinq boutons b
58. un ensemble de variables num riques Les donn es Iris de Anderson et Fisher jeu de donn es classique pour les statisticiens par l analyse en composantes principales et la classification avec une description automatique des classes obtenues Elle ajoute ces approches de base l analyse de contiguit et l analyse discriminante La premi re partie de cet exemple est tr s semblable l exemple VI 1 de la section pr c dente analyse en composantes principales et classification clustering d un ensemble de donn es num riques avec divers outils de visualisation impliquant galement la pr sence de donn es nominales Les paragraphes qui suivent pr sentent les am liorations apport es par l analyse de contiguit VI 2 1 Rappel sur l Analyse de Contiguit Dans l analyse de la contiguit nous consid rons le cas d un ensemble d observations multidimensionnelles n objets d crits par p variables conduisant a une matrice X n p Les observations ont a priori une structure de graphe Les n observations sont ainsi les n sommets d un graphe sym trique G dont la matrice associ e sym trique n n est la matrice M mj 1 si les sommets i et i sont reli s par une ar te mj 0 sinon Une telle situation se produit lorsque les sommets repr sentent les points d une s rie chronologique ou des zones g ographiques L Analyse de contiguit confronte les variances locales et globales et g n ralise ainsi l an
59. une constante en cas de donn es n gatives puis apr s les avoir centr es la fois en ligne et en colonne les soumettre une analyse en composantes principales non norm e qui co ncide ici avec une d composition aux valeurs singuli res SEM 2006 M thodes factorielles Classification 201 Ainsi si R est un tableau de donn es n m et si A et B sont deux matrices diagonales respectivement de dimensions n n et p p l ments diagonaux positifs la matrice ARB donne lieu la m me analyse logarithmique que la matrice R Une m thode voisine mais non identique Spectral mapping a t propos e par Greenacre et Lewi 2009 VII 6 2 L analyse en facteurs communs et sp cifiques L analyse factorielle en facteurs communs et sp cifiques factor analysis est probablement le mod le lin aire de variables latentes le plus ancien Ces mod les ont t essentiellement d velopp s principalement par les psychologues et psychom triciens Les d veloppements auxquels ils donnent lieu sont complexes et diversifi s On pourra consulter sur ce point les ouvrages classiques de Harman 1967 Mulaik 1972 Mentionnons galement les travaux d Anderson et Rubin 1956 et de Lawley et Maxwell 1963 qui ont plac l analyse factorielle en facteurs communs et sp cifiques dans un cadre inf rentiel classique Le mod le de l analyse factorielle Ce mod le se propose de reconstituer partir d un petit nombre
60. vocabulaire banal mais des traitements pr liminaires peuvent s imposer pour traiter par exemple homonymie entre certains noms propres noms de lieu par exemple et noms communs Tour Paris Pierre Constant L tape CORTEX apr s le bouton Create du menu principal doit en g n ral intervenir avant ce type de transformation ii Suppression des balises XML ouvertes et ferm es lt et gt et du texte qu elles peuvent contenir Le second bouton Suppress in a text the chains such as lt gt est utile si le texte transmis contient des balises dont on ne veut pas tenir compte textes format s pour le logiciel Lexico3 par exemple Toutefois ce type de transformation doit intervenir apr s que le texte ait t segment partir de certaines balises iii R importation dans DtmVic d un fichier de type Dtmic type 1 ou 2 ayant t soumis au logiciel gratuit TreeTagger Le bouton Re importing a Dtm text file after WinTreeTagger permet de V 3 Outils sp cifiques de pr traitement 133 lemmatiser un texte remplacer les formes graphiques par le lemme correspondant Il permet galement de supprimer certaines cat gories grammaticales pr positions articles etc Quatre options sont disponibles respectivement pour les textes anglais fran ais espagnols italiens Ceci suppose l installation du logiciel gratuit WinTreeTagger TreeTagger Auteur Helmut Schmid IMS University of Stutt
61. 00 VII Annexe statistique q 4 2 q d2 d2 00100 010 t al q O Zi 22 tableau disjonctif tableau de tableau de complet Z Burt Z Z contingence ZZ Figure A 7 Equivalence des 3 analyses des correspondances dans le cas de 2 questions VII 6 Autres m thodes On pr sente ici deux m thodes qui utilisent une r duction par axes principaux l analyse logarithmique qui fournit des r sultats tr s proches de l analyse des correspondances propos e dans Dtm Vic comme une des m thodes de compression d images et l analyse factorielle classique ou analyse en facteur comuns et sp cifiques pour son r le historique et son cadre conceptuel VII 6 1 L analyse logarithmique L analyse logarithmique propos e par J B Kazmierczak 1985 r alise la propri t de l quivalence distributionnelle de l analyse des correspondances sur des tableaux qui ne sont pas obligatoirement des tables de contingence J B Kazmierczak reprend et g n ralise le principe de Yule qui stipule que l on ne change pas la distance entre deux lignes ni la distance entre deux colonnes d un tableau en rempla ant les lignes et les colonnes de ce tableau par d autres lignes et colonnes qui leur sont proportionnelles il s agit en fait d une g n ralisation du principe d quivalence distributionnelle L analyse logarithmique consiste prendre les logarithmes des donn es apr s addition ventuelle d
62. 120 V Recodage archivage outils divers L exploitation des donn es statistiques est un processus interactif n cessitant souvent plusieurs it rations Parmi les op rations les plus courantes le regroupement des modalit s d une variable nominale le croisement de deux variables nominales la division en classes d une variable continue sont fr quemment suscit s par les r sultats d une analyse ant rieure L archivage des partitions ou des axes factoriels est galement utile pour avancer dans la compr hension des donn es en permettant de r aliser des analyses qui les prennent en compte Ces tapes de recodage sont en fait assez fondamentales Bien que Dtm Vic ne soit pas un logiciel de gestion de donn es il a paru n cessaire de rendre ces op rations accessibles a partir de la bo te outils Toolbox V 1 Recodage gt Cliquer sur Toolbox Data Recoding Le menu qui appara t concerne le recodage des donn es et l archivage de certains r sultats Grouping some categories of a categorical variable Cross tabulating two categorical variables Breaking down a numerical variable into categories Archiving principal axes and partitions Cr ation ou recodage de variables nominales i Regroupement de modalit s ii Cr ation d une variable nominale par croisement de deux variables nominales iii Transformation d une variable continue en variable nominale iv Archivage des axes factori
63. 1967 Hierarchical clustering schemes Psychometrika 32 p 241 254 Jolliffe 1986 Principal Component Analysis Springer Verlag New York Kaufman L Rousseeuw P J 1990 Finding Groups in Data J Wiley New York Kazmierczak J B 1985 Analyse logarithmique deux exemples d application Revue de Statist Appl 33 1 p 13 24 Kohonen T 1989 Self Organization and Associative Memory Springer Verlag Berlin Kruskal J B 1956 On the shortest spanning subtree of a graph and the traveling salesman problem Proc Amer Math Soc 7 p 48 50 Lambert T 1986 R alisation d un Logiciel d Analyse de Donn es Th se Universit de Paris Sud D p Statistique Orsay Lawley D N Maxwell A E 1963 Factor Analysis as a Statistical Method Methuen London Le Roux B Rouanet H 2004 Geometric Data Analysis Kluwer Ac Publ Dordrecht Le Roux B Rouanet M 2009 Multiple Correspondence Analysis Vol 163 Sage Publication Inc Lebart L Morineau A 1982 SPAD Syst me Portable pour l Analyse des Donn es CESIA 82 rue de S vres 75007 Paris Lebart L Morineau A B cue M 1989 SPAD T Syst me Portable pour l Analyse des Donn es Textuelles Manuel de R f rence CISIA Paris Lebart L Morineau A Pleuvret P Brian E Aluja T 1983 SPAD Syst me Portable pour l Analyse des Donn es Tome II CESIA Lebart L Morineau A Lambert T Pleuvret P 1991 SPAD N version 2 Syst me Portable pour l Ana
64. 2 V Recodage Archivage Outils divers Groupings some categories of a selected categorical vaiable T aucun_diplome 2 cep_seul 3 cep_et_cap tee irm 15 disposez vous_d un_magr 16 disposezv pian 17 residence_secondaie 2 18 activite_professionnelle 19 confits_travailvie_person 20 chomage_douze_demiers 24 etat depressif 2 categori Update data file and dictionary gt S lectionner la variable recoder Ici nous choisissons dans la 1 fen tre la variable 7 niveau d tude en 9 cat gories Les cat gories modalit s de cette variable s affichent dans une 2 fen tre S lectionner l ensemble des modali t s regrouper qui apparaissent dans une 3 fen tre Entrer le nom de la nou velle modalit dans la 4 fen tre puis confirmer La nouvelle modalit appara t dans la 5 fen tre gt Recommencer la proc dure pour toutes les modalit s de la variable Si une modalit n est pas a regrouper la s lectionner et lui attribuer une tiquette Dans l exemple nous avons regroup les 4 premi res modalit s en niveau_faible les 3 autres en niveau_moyen la 8 modalit en niveau_ lev et la 9 en niveau_NR Non r ponse Les modalit s de la nouvelle variable apparaissent dans la 5 fen tre Cette variable est positionn e la fin du fichier et se nomme var7 4cat gt Une fois les regroupements termin s r pondre OK puis cliquer sur Update
65. 25 900 15 500 24 400 lt 3 Continue select active and supplementary elements Cliquer sur le bouton Open a Data File Dans le r pertoire DtmVic_Examples_A_ Start EX_A01 PrinCompAnalysis ouvrir le fichier PCA_dat txt qui s affiche dans une troisi me fen tre gt Cliquer sur 3 Continue Une fen tre Selection of active et supplementary elements apparait alors Etape 3 S lection des variables actives et suppl mentaires A l int rieur de la fen tre Selection of active et supplementary elements s affichent trois autres fen tres 1 Variables to be selected o figure l ensemble des variables 2 Active Variables qui re oit les variables actives s lectionn es 3 Supplementary Variables qui re oit les variables suppl mentaires s lectionn es 26 Il Donn es num riques F1 Selection of Active and Supplementary Elements 8 Toilette numerical 9 Repas numerical 10 Petit D jeuner numerical 11 Repas_chez_soi numerical ical 12 Restaurant numerical 10 Peti_ D jeuner numerical 13 Trav_Dom numerical Repas_chez_soi numerical 14 Trav_r mun r numerical Restaurant numerical 15 Enfants numerical Trav_Dom numerical 16 M nage numerical Trav_r mun r numerical 17 Relationnel numerical Enfants numerical 18 Visite_amis numerical M nage numerical 19 Loisirs numerical Relationnel numerical 20 Jeux Jardinage numerical Visite_amis numerical Clear 21 Ja
66. 93 Pr paration des tableaux pour l analyse des donn es le codage des va riables In Traitement statistique des enqu tes Grang D Lebart L eds Dunod Paris Guttman L 1941 The quantification of a class of attributes a theory and method of a scale construction In The prediction of personal adjustment Horst P ed p 251 264 SSCR New York Habert B Nazarenko A Salem A 1997 Les linguistiques de Corpus Armand Colin Paris Harman H H 1967 Modern Factor Analysis Chicago University Press Chicago Hartigan J A 1975 Clustering Algorithms J Wiley New York Hayashi C Suzuki T Sasaki M 1992 Data Analysis for Social Comparative research International Perspective North Holland Amsterdam 224 R f rences Hochberg Y 1988 A sharper Bonferroni procedure for multiple tests of significance Biometrika 75 p 800 803 Holmes S 1989 Using the bootstrap and the RV coefficient in the multivariate context in Data Analysis Learning Symbolic and Numeric Knowledge E Diday ed Nova Science New York p 119 132 Hotelling H 1933 Analysis of a complex of statistical variables into principal components J Educ Psy 24 p 417 441 p 498 520 Hsu J C 1996 Multiple Comparisons Theory and Methods Chapman amp Hall London Jambu M Lebeaux M O 1978 Classification Automatique pour l Analyse des Donn es Tome 1 M thodes et Algorithmes Tome 2 Logiciels Dunod Paris Johnson S C
67. 957 Shortest connection matrix network and some generalizations Bell System Techn J 36 p 1389 1401 Rao C R 1964 The use and interpretation of principal component analysis in applied research Sankhya serie A 26 p 329 357 Rouanet H Le Roux B 1993 Analyse des donn es Multidimensionnelles Dunod Paris Roux M 1985 Algorithmes de Classification Masson Paris Salem A 1987 Pratique des segments r p t s Essai de satistique textuelle Klincksieck Paris Saporta G 1990 2010 Probabilit s Analyse des Donn es et Statistique Technip Paris Saville D J 1990 Multiple comparison procedures The practical solution American Statistician 44 p 174 180 226 R f rences Sokal R R Sneath P H A 1963 Principles of Numerical Taxonomy Freeman and co San Francisco Spearman C 1904 General intelligence objectively determined and measured Amer Journal of Psychology 15 p 201 293 Tenenhaus M 2007 Statistique Dunod Paris Thiria S Lechevallier Y Gascuel O Canu S 1997 Statistique et m thodes neuronales Dunod Paris Thorndike R L 1953 Who belongs in the family Psychometrika 18 p 267 276 Thurstone L L 1947 Multiple Factor Analysis The Univ of Chicago Press Chicago Tuffery S 2006 Data Mining et Statistique D cisionnelle Technip Paris Volle M 1980 Analyse des Donn es Economica Paris Westfall P H Young S S 1993 Resampling Based Multiple Testing
68. Individus actifs densit 35 Sme Moregachs Manman Sonofeses zoom Font Raris Amsco HEP PlaneView 1 2 Rubrique individus actifs densit Remarque Les identifiants des individus sont remplac s par un caract re simple cas de nombreux individus plusieurs milliers par exemple Cet affichage montre la forme du nuage des individus et d ventuels individus aberrants Les identifiants d origine peuvent s afficher en cliquant sur le bouton droit de la souris c Rubrique individus actifs fave Moregaphe Nan menu EE 4284 es ee 4124 Lu 4184 423 1284 41824221 aam a 1134 KASEI cee 5182 at i 16235 ee 1224 ma 514 5125115 1124 ie 6123 8111 1235 3135 sus 5122 5222 6283 1221 His ei os 6223 cr 118806 05 24 03 az a1 6135 ig a2 03 ae ss te 6224 oa 33 219433 1128 5112 6115 gs 6214 6222 1115 e212 2182 FE mi 1122 1121 ses 3224 3233 6221 2131 anis a 3121121243 22 Bi ee 3115 2121 Ses 3113 S22 3213 3196 3214 ani a 3221 3212 3286 3211 PlaneView 1 2 rubrique individus actifs Remarque Les individus sont repr sent s par leur identifiants Cet affichage est surtout int ressant lorsque les individus sont peu nombreux lt 2000 36 Il Donn es num riques d Rubrique colonnes actives cat gories suppl mentaires Save Moeg hs Manmeu Senofaxs zom Font Fans Axescoby HEP Age_Jeun_8 T 15 Sex_Fem_1 w Educ_s
69. Japon et de France o les num ros des sommets sont remplac s par les noms des r gions et des d partements en clair Voir par exemple Exploring Textual Data 1998 par L Lebart A Salem L Berry Kluwer Academic Publisher Cette comparaison avait d j t faite dans l article Introduction l analyse des donn es L Lebart Consommation n 4 1969 p 65 87 Dunod VI 3 Description de graphes 161 Ce dossier contient galement le m me fichier Chessboard_Extern 7x7 txt que le dossier pr c dent b Le dossier Cycle Ce sous r pertoire Cycle est voisin de celui relatif au graphe Chessboard On y trouve de la m me fa on que pour le dossier Chessboard un codage num rique et externe Seule la forme du graphique est diff rente Le codage textuel et le fichier de commandes de l Analyse en composantes principales ont t omis dans ce cas c Le dossier Geography Les deux sous r pertoires du r pertoire Geography sont les homologues de l exemple textuel du dossier Chessboard Les r pertoires Japan map et France_map illustrent le codage textuel dans le cas des graphes d crivant les diff rentes r gions du Japon et des d partements de France Dans le cas du Japon par exemple les deux premi res lignes du fichier Japan _map_textual tex txt indiquent que les provinces d Akita et d Iwate sont contig es la province d Aomori etc Le fichier de commande correspondant est le fichier Japan map _textual
70. La fen tre du plan factoriel s affiche Cliquer sur View La localisation des 9 classes apparaissent sur le plan factoriel gt Actionner dans un premier temps le bouton Words du bandeau Puis en cli quant clic droit de la souris sur une cat gorie les mots descriptifs de la cat gorie apparaissent CR TUE ee on D 0 He a Actionner ensuite le bouton Texts du bandeau Puis en cliquant droit sur une cat gorie les textes descriptifs r ponses caract ristiques ou r ponses modales de la Ill 2 Analyse textuelle de questions ouvertes cat gorie apparaissent 91 o3 25 a 5 Carte auto organis e Kohonen map gt Cliquer sur E Kohonen Map Une premi re fen tre Selection of elements appara t what want think things _ suppose satistaction secunty nice others having work music tuture money love tnends kids leisure do really house i general being nothing happy time freedom about else happiness job education 30fhigh 30 medium a important 30 55 high with i the their Ing that is out to home Just tt In holidays go healthy tamily getting Comfortable comtortably everything enjoy standard car be at children ot able and 30 55 low 30 bb medium contentment not world 2 more worries son which make up no lve m t le husband welfare keep s health tor peace have myself good enough own employment get dog content other 3Uflow don
71. M file to R or to Excel r La fen tre Data Capture Importation Preprocessing IV 1 Importation XL 105 IV 1 Importation de fichiers Excel IV 1 1 Pr sentation du fichier Excel Nous consid rons le tableau de donn es de l enqu te Life pr sent e dans les deux derniers exemples du chapitre IIl pr c dent Le fichier correspondant dispose en ligne de 1043 individus et en colonnes de 17 variables 9 variables nominales le genre l ge recod le niveau d ducation et 6 variables d opinion une variable continue l ge 3 variables textuelles correspondant aux 3 questions ouvertes enfin 4 autres variables nominales qui correspondent des variables signal tiques recod es l ge en 3 classes les croisements du genre avec l ge en 3 classes le niveau d ducation le croisement de l ge en 3 classes avec le niveau d ducation yrg _y happier peole_peace_of_mind r_last r_next _last_years _you portant_life portant_probe e_be change_you happiness in peog contented with life a happiness money f 2 healthy have enoug my wife music holidays lik 2 happiness 1 to be health just to live long enou keeping going family new baby grand daug companionship friends pets my family reall health walking 2 my own time not dq my friends plants fe 2 freedom of choice sport work parents health family Of 3 Pp A A A A _ gender
72. Paris 2de d 1976 Blasius J Greenacre M 1998 Visualization of Categorical Data Academic Press San Diego Bouroche J M Saporta G 1980 L analyse des donn es coll Que sais je n 1854 PUF Paris Bry X 1995 Analyses Factorielles Simples Economica Paris Burt C 1950 The factorial analysis of qualitative data British J of Statist psychol 3 3 p 166 185 Cazes P 1982 Note sur les l ments suppl mentaires en analyse des correspondances Les Cahiers de l Analyse des Donn es 1 p 9 23 2 p 133 154 Celeux G Nakache J P eds 1994 Analyse discriminante sur variables qualitatives Polytechnica Paris Chateau F Lebart L 1996 Assessing sample variability in the visualization techniques related to principal component analysis bootstrap and alternative simulation methods in COMPSTAT96 A Prats ed Physica Verlag Heidelberg p 205 210 Cottrell M Ibbou S Letr my P Rousset P 2003 Cartes auto organis es pour l analyse R f rences 223 exploratoire de donn es et la visualisation Journal de la Soc Fran aise de Stat vol 144 4 p 67 106 Diaconis P Efron B 1983 Computer intensive methods in statistics Scientific American 248 p 116 130 Diday E Lemaire J L Pouget J Testu F 1982 El ments d Analyse des Donn es Dunod Paris Efron B 1979 Bootstraps methods another look at the Jackknife Ann Statist 7 p 1 26 Escofier B Pag s J 1988 Analy
73. Pratique de l analyse des donn es num riques et textuelles avec Dtm Vic Seconde dition Avril 2013 Ludovic Lebart Marie Piron L2C Avril 2013 ISBN 978 2 9537772 0 8 Sommaire Introduction ss scseceessseeccesssessee 5 I Pr sentation g n rale de Dtm Vic 8 Mise en place des fichiers de donn es Techniques d analyse de donn es Visualisation des r sultats La boite outils Format interne des fichiers de donn es U AUNE Il Donn es num riques Prise en main de Dtm Vic partir de trois exemples 21 gt Analyse en Composantes Principales budget temps gt Analyse des Correspondances enqu te m dias gt Analyse des Correspondances Multiples aspirations Ill Donn es textuelles et mixtes Prise en main de Dtm Vic partir de trois exemples 63 1 Analyse Textuelle de textes po mes 2 Analyse Textuelle de questions ouvertes enqu te Life 3 Analyse directe de r ponses libres avec classification IV Importation cr ation et exportation des fichiers 103 1 Fichiers num riques et textuels partir d Excel r 2 Saisie manuelle de donn es num riques V Recodage archivage outils divers 120 1 Recodage archivage 2 Intervention l mentaire sur une base de donn es 3 Outils sp cifiques de pr traitements VI Autres analyses a
74. Preprocessing oftexts C AEE A EEU VISUTEX Visualization of Texts b VISURESP Visualization of respon Numerical and Textual Data POLERA ANECIA Fa Clusterview Kohonen Map M v ANALEX Analysing through Sa gt VISURECA Visualization and clus gt S lectionner l analyse ANALEX Analysing through SCA of a lexical table built from a specific categorical variable dans la rubrique eel Tne Mee eee Une fen tre Opening a text file apparait 7 De plus amples explications propos de cet exemple particulier et de la m thodologie correspondante peuvent tre trouv es dans le livre Exploring Textual Data L Lebart A Salem L Berry Kluwer AcademicPublisher 1998 82 Ill Donn es textuelles et mixtes Etape 2 S lection du fichier texte gt Cliquer sur le bouton Open a text File Dans le r pertoire EX_A05 Text Res ponses ouvrir le fichier TDA _tex txt Une boite de message r capitule les informations de ce fichier 7329 lignes corres pondant a l ensemble des r ponses aux trois questions 1043 observations les r pondants et 3 questions ouvertes gt cliquer sur OK le fichier texte en format Dtm Vic de type 2 s affiche dans une premi re fen tre Opening a text file me ms happiness 444 I 0010621 happiness in people around me contented family would make me happy I contented with life as a whole I education 0010931
75. S lection des questions mots et vocabulaire La fen tre suivante permet de s lectionner soit les questions ouvertes ce qui n est pas le cas ici soit de compl ter la liste des s parateurs des mots IILT Simples textes Po mes 67 Fy Selecting 1 the open questions 2 the list of separators CS gt cliquer directement sur vocabulary and counts La fen tre suivante pr sente le vocabulaire ordre alphab tique gauche et ordre de fr quence droite F Vocabulary frequency threshold Separators of units Number of pecurrences tokens Number of words types 2 Continue create the parameter file lao la lon lan a le Ina In Hs a te SE eae ONES fje is ei til el Pa el Pen ur ae eo at ee a LA On Un LA Lo En Un Lo un Lo tnt Lo ua Lo tn Lo Lo to 8 i La ligne 113 correspond la fr quence 4 un petit corpus Il s agit ici simplement x c est une a petite fr quence adapt e d explorer l ventail des commandes sans interpr tation linguistique pertinente gt S lectionner cette ligne 113 puis cliquer sur CONFIRM La fr quence appara t R pondre OK la boite de message gt Cliquer sur 2 continue create a parameter file Etape 4 Cr ation du fichier param tre C est cette tape de constitution du fichier param tre qu est propos e l option bootstrap cf les trois exemples pr c dents 68 Ill Donn es textuelles et mixtes Create
76. Une fois la saisie achev e gt sauvegarder le fichier en cliquant sur SAVE DATA et enregistrer le nom du fi chier de donn es Database dat txt par exemple relatif au fichier diction naire cr pr c demment puis gt Cliquer sur Creating a first parameter file Une fen tre pour la cr ation du fichier param tre appara t gt Cliquer sur le nouveau bouton Create a first parameter file Le fichier para m tre appara t dans la fen tre du bas DTM BASIC PARAMETER FILE param_start ttt BB Comments symbol Continuation symbol gt Dummy line e g title mandatory immediately after each line STEP LISTF NO LISTP yes Global Parameters NDICZ dico ttt dictionary file Click on gt Cliquer sur Execute La fen tre d ex cution appara t comme celle de la proc dure d importation simples statistiques de base pour les donn es saisies Les fichiers saisis dictionnaire donn es sont pr ts pour les analyses IV 4 Exportation en format Excel 118 IV 4 Exportation de fichiers de donn es en format Excel ou XL La proc dure d exportation pr sente principalement l int r t d exporter des variables recod es et surtout des coordonn es factorielles archiv es ou une partition calcul e et archiv e les proc dures d archivage sont trait es au chapitre V On propose ici d exporter le fichier de donn es issu de l exemple de l analyse des corresponda
77. W with moveable tags qui reprend certaines de des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique 111 3 Analyse directe de r ponses libres 101 Vertical axis axis 2 Active numerical variables S t Ranks Axes color Save as bitmap HELP Return Main Menu Mih n art free d usi Prens arden po walking 7a sportoyfriend 9 isure rally reading parents covers suppose naa anythin th siet yth A cartdaughter als time travel dogs eu else nothing nee comfort full husband sas mother holidays mou religion sons _ basically faith rane ae helping ete wellbeing 100 E grandchildre t Riana o home child comes looking future baby friendship their n girlfriend way all children voluntary pes ee weather contact success 4 50 that in relationship safety wel nuclear gar pension great i country justice neighbours for i sie means P sate 3 something etter 4 A kids sb 100 i iscfriends 200 ajoy everything families use ee family honesty which us tue Ici compte tenu de la pr sence de 398 mots nous avons choisi l option RANK pour transformer les coordonn es en rangs sans modifier leur ordre sur les axes Nous avons galement demand un Zoom de fa on d tacher un peu plus les mots Nous n avons sur la copie d cran ci dessus que le quadrant sup rieur droit du plan La police FONT a galement t augment e Background Color
78. World Scientific Singapore 117 128 Gnanadesikan R Kettenring J R Landwehr J M 1982 Projection Plots for Displaying Clusters in Statistics and Probability Essays in Honor of C R Rao G Kallianpur P R Krishnaiah J K Ghosh eds North Holland Lebart L 1969 Analyse statistique de la contiguit Publications de I ISUP XVIII 81 112 Lebart L 2000 Contiguity Analysis and Classification In W Gaul O Opitz and M Schader Eds Data Analysis Springer Berlin 233 244 Lebart L 2006 Assessing Self Organizing Maps via Contiguity Analysis Neural Nerworks 19 847 854 VI 2 2 Les donn es Iris de Fisher Anderson Pour les donn es num riques en format texte de Dtm Vic chercher le r pertoire DtmVic_Examples Dans ce r pertoire ouvrir le dossier DtmVic_Examples_C_NumData Puis ouvrir le dossier de l exemple C 2 nomm EX_CO2 PCA _Contiguity Comme d habitude il est recommand d utiliser un r pertoire pour chaque application car Dtm Vic produit beaucoup de fichiers textes interm diaires li s l application Au d part le r pertoire doit contenir 3 fichiers a le fichier de donn es b le fichier dictionnaire c le fichier de commandes a Fichier de donn es iris_dat txt L exemple comporte 150 observations et 5 variables 4 mesures ces mesures sont les longueurs des diff rents constituants des fleurs Longueur et largeur des s pales longueur et largeur des p ta
79. _Param txt Il est similaire au fichier Chessboard_Textual Param txt Dans le cas de la France par exemple les deux premi res lignes du fichier France _Text txt indiquent que le d partement de l Ain est contigu aux d partements Is re Jura Rh ne Hte Sa ne Savoie Hte Savoie Le fichier France_Param txt est le fichier de commande correspondant Le fichier France_extern txt repr sente la carte de France dans le format externe d fini dans la section a 2 ci dessus Il permettra de tracer le graphe initial dans les plans factoriels VI 3 2 Ex cution de l exemple Chessboard_numerical R pertoire Chessboard_numerical dans EX_C03 Graphs Chessboard Dans ce dossier figurent les fichiers de base Fichier de donn es Chessboard_7x7_dat txt Fichier Dictionnaire Chessboard_7x7_dic txt Fichiers de commandes 162 VI Autres analyses avec Dtm Vic Chessboard_CA Param txt Analyse des Correspondances et Chessboard_PCA Param txt analyse en composantes principales Il est possible de r aliser soit une analyse des correspondances classique ou une analyse en composantes principales a Ouverture et Ex cution du fichier param tre de l AC Nous commencerons par ex cuter l analyse des correspondances gt Cliquer sur le bouton Open an existing command file de menu principal Puis rechercher le dossier Chessboard_numerical dans Dtm Vic examples DtmVic Examples_C_NumData puis le fichier de commande Chessboard_CA P
80. _de_la_rout 4 categories inquietude_chomage 4 categories inquietude_accident_nucleaire 4 categories importance_famille numerical importance_travail numerical importance_temps_libre numerical importance_amis numerical importance_parents numerical importance_religion numerical importance_politique numerical fonctionnement_justice 6 categories i sentent 5 a 8 la famille_est_le_seul_ endroit 3 categories 3 opinion_sur_le_matiage 4 categories 1 travau nage enfants 4 categories satisfaction_logement 4 categories satisfaction_cadre_de_vie 4 categories maux_de_tete 2 categories mal_au_dos 2 categories nervosite 2 categories etat_depressif 2 categories satisfaction_sante 4 categories societe_a_besoin_de_se_transfo 3 categories fonctionnement_justice 6 categories les_gens_comme_moi_se_sentent_ 5 categories 3 sexe 2 categories 50 Age_categ 4 categories 51 Niv_Educ_3_categ 3 categories Nous sugg rons de s lectionner les variables suivantes comme variables actives et suppl mentaires gt Variables actives transf rer dans la fen tre Active Variables la_famille_est_le_seul_endroit_o opinion_sur_le_mariage travaux menage enfants satisfaction_logement satisfaction_cadre_de_vie maux de_tete mal_au_dos nervosite etat_depressif satisfaction_sante societe_a_besoin_de_se_transf fonctionnement_justice les_gens_comme_moi_se
81. _sentent_seuls gt S lection des variables suppl mentaires transf rer dans la fen tre Supplementary Variables 1 54 I Donn es num riques i 3 sexe variables nominales suppl mentaires 50 Age categ 51 Niv_Educ_3_categ gt Cliquer sur Continue gt Une fen tre Selecting observations apparait Etape 4 S lection des observations individus Trois cas de figure sont possibles 1 Prendre en compte l ensemble des observations 2 S lectionner les observations sur une liste 3 S lectionner les observations par un filtre Nous prenons en consid ration ici l ensemble des observations gt Cliquer sur All the observations will be active Une fen tre Create a starting parameter file apparait Etape 5 Cr ation du fichier param tre F Create a starting parameter file Return to Main Menu 1 a Return 1 Select some options 2 Create a parameter file for MCA 3 Execute A cette tape il est possible de s lectionner comme option les proc dures de bootstrap et ou de classification Rappelons que dans Dtm Vic les analyses factorielles sont syst matiquement compl t es par un bootstrap qui permet de valider les positions des variables une classification avec une description automatique des classes gt Cliquer sur 1 Select some options Une fen tre Options Bootstrap and or Clustering of observations appara t Pour un ra
82. a Capture Exportation puis Building the dictionary dans ECIN EEE SAVE DICTIONARY La premi re sous fen tre en haut gauche permet de saisir le num ro le nom et le type de chacune des variables gt La 1 fen tre jaune affiche 1 le num ro de la 1 variable saisir Dans la IV 2 Saisie manuelle 115 deuxi me fen tre taper le nom de la variable puis dans la 3 fen tre donner le Type de la variable c est dire le nombre de modalit s si la variable est nominale ou taper 0 si la variable est continue gt Un bouton ENTER s affiche l issu de la saisie du type de la variable Si celle ci est continue continuer la saisie Si elle est nominale une fen tre appara t pour saisir les num ros et les modalit s de la variable nominale gt Une fois les modalit s enregistr es cliquer sur ENTER ou appuyer sur la touche entr e Continuer de saisir l ensemble des variables Le r sultat de la capture du dictionnaire des variables appara t dans la fen tre inf rieure ainsi que dans celle de droite dans laquelle elle appara t dans le format interne de DtmVic Par exemple une premi re variable Age a t saisie Etant une variable continue le type est 0 Une seconde variable Sexe est saisie Ayant deux modalit s le type 2 est saisi Il fait alors appara tre une fen tre contig e dans laquelle sont saisis les libell s des deux modalit s Cliquer sur ENTER ou pres
83. a parameter file for the sequence of processing Vitex Se Se mr gt Cliquer sur 1 Select some options Une fen tre Options Bootstrap and or Clustering of observations appara t F2 Options bootstrap and or clustering of observations g E Ene 1 gt Cliquer sur yes pour la proc dure bootstrap indiquer le nombre de r pli cations par d faut 25 puis Enter Si le bootstrap n est pas adopt cliquer sur no gt Cliquer sur Continue La fen tre Create a parameter file appara t de nouveau gt Cliquer sur 2 Create a first parameter file F Create a parameter file for the sequence of processing Vitex are Ps MS RERO ES Default Name of the created command file param_VISUTEX txt Comments symbol Continuation symbol gt Dummy line e g title mandatory immediately after each line STEP LISTF NO LISTP yes Global Parameters jp INTEXZ Sonnet_LowerCase txt name of text file free name Pas STEP ARTEX Archive Texts or responses to open ended questions ITYP 1 LIREP 1 NCOL 80 STEP SELOX Ferra Selection of open questions irrevelant here but necessary munin Ill 1 Simples textes Po mes 69 Un fichier de commande parameter file est cr sous le nom param _VISUTEX txt et stock dans le dossier EX_A04 Text Poems du r pertoire DtmVic Examples_A_ Start Pour le conserver en vue d a
84. a structure mise en vidence est alors significative Les m thodes de re chantillonnage se proposent de syst matiser cette d marche Celle du bootstrap non param trique dans sa forme classique est bien adapt e au probl me de la validit des structures observ es dans un plan factoriel elle calcule partir de simulations des zones de confiance pour les positions des points lignes et des points colonnes Principe du bootstrap La technique du bootstrap introduite par Efron 1979 consiste simuler s chantillons de m me taille n que l chantillon initial Le nombre de simulations s varie selon les situations dans le cas multidimensionnel qui nous int resse une valeur relativement faible 10 lt s lt 30 appara t suffisante Ces chantillons sont obtenus par tirage au hasard avec remise parmi les n individus observ s au d part ceux ci ayant tous la m me probabilit n d tre choisis Certains individus appara tront plusieurs fois et auront de ce fait un poids lev 2 3 alors que d autres seront absents poids nul Cette m thode est employ e pour analyser la variabilit de param tres statistiques simples en produisant des intervalles de confiance de ces param tres Elle peut aussi tre appliqu e de nombreux probl mes pour lesquels on ne peut pas estimer analytiquement la variabilit d un param tre Ceci est le cas pour les caract ristiques des m thodes multidimensionnelles
85. alyse discriminante qui confronte les variances internes et globales ou de fa on quivalente les variances internes et externes Elle permet de mettre en vidence les niveaux responsables des patterns observ s locaux ou globaux Le graphe constitue donc une information externe G cod par M sur les donn es X Dans cet exemple nous allons traiter la situation dans laquelle la structure du graphe G et la matrice M et ne sont pas externes mais proviennent de la matrice des donn es X elle m me G tant par exemple le graphe sym tris des k plus proches voisins provenant d une distance entre les observations Le cas d un graphe externe fait partie des fonctionnalit s du logiciel Dtm Vic mais n est pas pr sent dans ce manuel de prise en main Il s agit donc ici d une analyse de contigu t intrins que ouvrant des possibilit s int ressantes d exploration de donn es 148 VI Autres analyses avec Dtm Vic L id e de d duire des donn es une m trique susceptible de mettre en vidence l existence de classes a t sugg r e par Art et al 1982 et Gnanadesikan et al 1982 Quelques r f rences pour la section VI 2 1 Art D Gnanadesikan R Kettenring J R 1982 Data Based Metrics for Cluster Analysis Utilitas Mathematica 21 A 75 99 Burtschy B Lebart L 1991 Contiguity analysis and projection pursuit In Applied Stochastic Models and Data Analysis R Gutierrez and M J M Valderrama Eds
86. alyse de contiguit est abord e dans la section V1 2 chapitre VI de ce manuel 1 4 La bo te a outils La bo te outils DAME propose diff rents types de recodage de stockage et de transformation des donn es cf chapitre V Dtm Vic Tools Toolbox Data Recoding Toolbox File Processing Toolbox Preprocessing numerical Toolbox Preprocessing Texts gt Cliquer sur Toolbox Data Recoding Le premier menu qui appara t concerne le recodage des donn es et l archivage de certains r sultats Grouping some categories of a categorical variable Cross tabulating two categorical variables Breaking down a numerical variable into categories Archiving principal axes and partitions Cr ation ou recodage de variables nominales i Regroupement de modalit s ii Cr ation d une variable nominale par croisement de 2 variables nominales iii Transformation d une variable continue en variable nominale iv Archivage des axes factoriels et des partitions Le second groupe d actions concerne le menu Toolbox File Processing Il propose des modifications de la base de donn es par Voir Chapitre V i S lection d un sous ensemble al atoire d individus lignes ii S lection d un sous ensemble d individus lignes a partir d un filtre Pr sentation g n rale 15 ii S lection d un sous ensemble de variables colonnes iii Concat nation de deux bases de donn es v
87. ances a priori sur ces donn es sont limit es L analyse multidimensionnelle elle s attache au cas o les dimensions le plus souvent les variables sont nombreuses ce qui est un facteur de complexit et par cons quent une incitation commencer par une d marche exploratoire Une autre incitation plus technique utiliser cette d marche concerne le caract re peu r aliste des hypoth ses statistiques distributionnelles dans le cas multidimensionnel qui rend malais e l utilisation codifi e des tests d hypoth ses L analyse exploratoire multidimensionnelle des donn es num riques sera un volet important du logiciel Dtm Vic Les outils de base en sont d une part les m thodes factorielles ou analyses en axes principaux telles que l analyse en composantes principales les analyses des correspondances simples et multiples d autre part les m thodes de classification classification hi rarchique m thodes de partitionnement cartes auto organis es Ces techniques ne s excluent pas mutuellement elles sont au contraire syst matiquement utilis es comme des techniques compl mentaires apportant chacune des points de vue indispensables sur la r alit statistique L ouvrage de base qui accompagne les m thodes mises en oeuvre dans Dtm Vic s intitule Statistique Exploratoire Multidimensionnelle Les donn es textuelles sont en particulier des donn es la fois multidimensionnelles et complexes Elles sont donc des candidat
88. and rank order type Educational Psychology Measurements 26 p 253 265 Meulman J 1982 Homogeneity Analysis of Incomplete Data DSWO Press Leiden Milan L Whittaker J 1995 Application of the parametric bootstrap to models that incorporate a singular value decomposition Appl Statist 44 1 p 31 49 Morineau A 1984 Note sur la caract risation statistique d une classe et les valeurs tests Bull Techn du Centre de Statist et d Infor Appl 2 p 20 27 Morineau A Lebart L 1986 Specific clustering algorithms for large data sets and implementation in SPAD Software In Classification as a tool of research Gaul W Schader M Eds North Holland Amsterdam p 321 330 Mulaik S A 1972 The Foundation of Factor Analysis McGraw Hill New York Murtagh F 2005 Correspondence Analysis and Data Coding with R Chapman and Hall Boca Raton USA Nakache J P Confais J 2005 Approche pragmatique de la classification Editions Technip Paris Ohsumi N 1988 Role of computer graphics in interpretation of clustering results In Recent Developments in Clustering and Data Analysis Diday E et al eds Academic Press Boston O Neill R and G B Wetherill 1971 The present state of multiple comparison methods with discussion Journal of the Royal Statistical Society Series B 33 p 218 250 Perneger T V 1998 What is wrong with Bonferroni adjustments British Medical Journal 136 p 1236 1238 Prim R C 1
89. ant en analyse descriptive de donn es Les valeurs test section VII 10 1 sont un outil d inf rence statistique l mentaire mais polyvalent et tr s utile surtout si l utilisateur est averti des probl mes de comparaisons multiples qui ne manquent pas d intervenir section VII 10 2 La technique des variables suppl mentaires section VII 10 3 est un outil fondamental de valorisation des m thodes factorielles qui permet une validation externe des r sultats la fois preuve de coh rence et enrichissement des interpr tations Les deux autres outils de validation utilis s dans cet ouvrage sont les intervalles de confiance d Anderson et les proc dures de re chantillonnage bootstrap Les proc dures de re chantillonnage bootstrap section VIL 10 5 sont utilis es dans pratiquement tous les exemples pr sent s dans ce manuel VII 10 1 Qu est ce qu une valeur test La valeur test est un crit re qui permet d appr cier rapidement si une modalit d une variable nominale i e une cat gorie de r pondants a une position significative sur un axe Pour cela on teste l hypoth se selon laquelle un groupe d individus correspondant une modalit donn e d une variable nominale suppl mentaire comme la modalit profession lib rale cadre sup rieur pour la variable nominale cat gorie socio professionnelle par exemple peut tre consid r comme tir au hasard sans remise dans la population Dans
90. aract ristiques des classes Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt II est par cons quent recommand de cr er un r pertoire par application 63 lil Donn es textuelles et mixtes Prise en main de Dtm Vic partir de trois exemples Ce chapitre pr sente un exemple d analyse textuelle simple et deux exemples d analyses labor es utilisant la fois des donn es num riques et textuelles Dossier DtmVic_Examples_A_Start de DtmVic_Examples L Exemple 4 contenu dans le sous dossier EX_A04 Text Poems r alise une analyse lexicale a partir d une s rie de textes po mes codage num rique des r ponses application de l analyse des correspondances au tableau lexical croisant les mots et les po mes validation Bootstrap description des po mes par leurs mots et vers caract ristiques carte de Kohonen des mots et po mes s riation L Exemple 5 contenu dans le sous dossier EX_A05 Text Responses_1 porte sur l analyse d un jeu de donn es num riques et textuelles correspondant a des questions ferm es et ouvertes d une enqu te traitement des r ponses a une question ouverte utilisant une variable nominale sp cifique pour regrouper les r ponses codage num rique des r ponses analyse des correspondances de la table lexicale croisant les mots et les cat gories d individus validation Bootstrap description d
91. aram txt Noter encore que ces fichiers de commande peuvent tre facilement g n r s en cliquant sur le bouton Create du menu principal Basic Steps Une fen tre Select a basic analysis appara t Cliquer ensuite sur le bouton SCA Simple Correspondence Analysis ou sur le bouton PCA Principal Components Analysis les deux situ s dans la rubrique Numerical Data et suivre les instructions comme indiqu dans le chapitre II Apr s avoir identifi et v rifi les fichiers de donn es et du dictionnaire trois tapes vont tre effectu es ARDAT Archivage des donn es SELEC s lection des l ments actifs et suppl mentaires AFCOR analyse des correspondances gt Cliquer sur Return to execute dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton Execute de un ral gt Cliquer sur le bouton Basic numerical results de Le bouton ouvre le fichier HTML nomm imp html qui contient les principaux r sultats des tapes pr c dentes de calcul de base Apr s lecture de ces r sultats num riques retourner au menu principal b Visualisation et lecture des r sultats Nous allons maintenant visualiser directement le graphique dans l tape Visualization Inference Classification stepsk gt Cliquer sur M Visualization on n utilisera pas ici les boutons AxeView PlaneView etc Une fen tre intitul e DTM visualization loading files selecting axes appara t
92. ariables diff rentes iv S lection d un sous ensemble de variables ayant un poids maximum Selecting a subset of numerical v Le menu suivant propose quelques outils l mentaires de prise de contact avec les donn es et de pr traitements en vue de l importation ou de l utilisation de donn es num riques et textuelles Le dernier menu propose quelques proc dures en vue de l importation ou de l utilisation directe des textes i Conversion en minuscules des textes ii Suppression des balises lt et gt et du texte qu elles peuvent contenir ili R importation dans DtmVic d un fichier de type Dtmic type 1 ou 2 ayant t soumis au logiciel gratuit TreeTagger Ceci permet de lemmatiser un texte en supprimant certaines cat gories grammaticales pr positions articles Valable pour les textes anglais francais espagnols italiens 16 Pr sentation g n rale Conversion of all the characters of a text into lowercase Suppress in a text the chains such as lt gt Re importing a Dtm text file after WinTreeT agger Fragmentation of a Dtm text format 1 into a Dtm text format 2 Changing the sizes of the lines in a DtmVic text file Add empty lines for empty responses only in the case of Dtm Texts format 2 iv Fragmentation d une s rie de textes en format 1 textes s par s par en textes de format 2 form s de une
93. ation particuli re il suffit d ins rer les s parateurs entre des textes aux formats usuels gt Cliquer sur le bouton Data Importation Preprocessing Data Capture Exporta tion Une fen tre s affiche et offre diff rentes possibilit s pour constituer un jeu de don n es num riques ou textuelles en format Dtm Marre EE ER EN EESAN importer des donn es nu m riques ou textuelles en format Excel libre ou fixe des donn es textuelles en 104 IV Importation Cr ation Exportation format libre ou encore des fichiers XML contenant des donn es num riques ou textuelles MCE UE a Ets MOM E ELEC EE RE cr er les fi chiers dictionnaires et les fichiers de donn es num riques ou textuelles ma nuellement partir d un mode de saisie d importation int gr Dtm Vic La proc dure BTE RTE Wem cee ca 1ia concerne l exportation alors que dans le menu principal Bu permet les recodages et l archi vage des donn es About DtmVic Help about command parameters Help about created files Dtm Data and text mining Dtm Vic Tools Data File Data Importation Preprocessing Data Capture Exportation Toolbox Data Recoding Toolbox File Processing Importation of variables obser ns and texts Importing Dictionary Data and Texts Specific preprocessing and importation tools Building the dictionary of variables and creating the data file Creating the data file manually Exporting a DT
94. aut si ceux ci ne conviennent pas V 1 3 Transformation d une variable continue en variable nominale Cette proc dure permet de transformer une variable continue en une variable nominale en regroupant les valeurs num riques en classes Ce regroupement en k classes se fait partir d un d coupage pr alable en n quantiles n classes d effectifs gaux n tant beaucoup plus grand que k Ce d coupage est utile car il d lin arise le r le de la variable dans les calculs des liaisons non lin aires peuvent alors tre prises en compte Cliquer sur Breaking down a numerical variable into categories La fen tre de s lection des dictionnaires et des donn es appara t gt Ouvrir dans le dossier EX_A03 MultCorAnalysis les fichiers dictionnaire et de donn es MCA Fr _dic txt et MCA dat txt Une fen tre appara t gt S lectionner la variable continue V4_age et transf rer la dans la 2 fen tre Sorted Values Choisir le nombre de quantiles 5 par exemple on peut aussi choisir 20 ou 100 quantiles pour mieux ma triser les limites de classes gt Transf rer en cliquant sur Confirmer et r pondre OK lors de l affichage du V 1 Recodage et archivage 125 nombre de modalit s gt Une fois les regroupements termin s r pondre OK puis cliquer sur Update data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic_newD4 txt et dtm_dat_newD4 txt ainsi qu un fichier Dis
95. bles LSELI TOT IMASS UNIF LZERO NOREC LEDIT short CONT ACT 1 70 NOMI ILL 71 76 END STEP STATS Basic descriptions LHIST no STEP PRICO Principal component analysis LCORR 2 V rifier que les fichiers de donn es et dictionnaires du fichier param tre coh rents avec ceux du r pertoire Neuf tapes sont effectu es 139 sont ARDAT Archivage des donn es SELEC S lection des l ments actifs et suppl mentaires PRICO analyse en composantes principales DEFAC br ve description des axes factoriels RECIP Classification ascendante hi rarchique m thode des voisins r ciproques partition obtenue DECLA Description automatique des classes de la partition SELEC S lection d une variable sp cifique c de pour tre utilis e dans la suite PARTI Coupure du dendrogramme produit par l tape pr c dente et optimisation de la EXCAT Extraction de la variable sp cifique s lectionn s par l tape SELEC qui pr de classification Dans ce fichier de commandes l tape SELEC joue comme toujours un r le fondamental pour d cider quelles variables sont actives ou suppl mentaires L tape RECIP effectue une classification hi rarchique des observations en utilisant l algorithme de la recherche en cha ne de voisins r ciproques et l tape PARTI coupe l arbre obtenu selon le nombre de classes fix a
96. cas des affichages tr s complexes ce bouton convertit les deux coordonn es de l affichage courant en rangs Par exemple les n valeurs de l abscisse sont converties en nombres entiers de 1 n ayant le m me ordre que les valeurs originales Ainsi les deux distributions sont uniformes et les identifiants se recouvrent moins au prix d une d formation substantielle de l affichage TT his he from S7 I see on each S_12 youth can eye when day look shall s_14 29 7 sweets time die world her a eyes the aow no S 127 every nor LwS_19d old doth S_1 sammer nwn oyy et thy or ar with i eee more M obut s15 this their MEN most my 10 15 A st beauty 20 25 S gofeshs 2055 life thout90 S_8 may to e87S_20 am a e another thine SS_11will that make one she lives ce soye s_16 thee ns 10 n nature at a nes thyself for muen were live ee then ue should your shouldst you sweet than 13 Use what those treasure dost s6 times winter yourself Positionnement des sonnets et des mots dans le plan factoriel principal Choisir une option puis cliquer sur View gt Pour revenir au menu principal de Dtm Vic cliquer sur return IIl 1 Simples textes Po mes 73 3 Validation Bootstrap Voir l encadr technique sur le bootstrap chap Il section II 1 2 Etape 5 et la section VII 10 de l annexe statistique gt Cliquer sur Bla
97. ce of processing analex EEr 2 Coat fet amet fa rm A cette tape il est possible de s lectionner comme option les proc dures de bootstrap Rappelons que dans Dtm Vic les analyses factorielles peuvent tre compl t es par un bootstrap qui permet de valider la position des variables dans les plans factoriels gt Cliquer sur 1 Select some options Une fen tre Options Bootstrap and or Clustering of observations appara t r Options bootstrap and or clustering of observations Partial default omne gt Cliquer sur yes pour la proc dure bootstrap indiquer le nombre de r pli cations par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas souhait cliquer sur no et continuer gt Cliquer sur Continue 86 Ill Donn es textuelles et mixtes La fen tre Create a starting parameter file r appara t gt Cliquer sur 2 Create a first parameter file Un fichier param tre vient d tre cr sous le nom param _ANALEX txt et stock dans le r pertoire EX_A05 Text Responses du r pertoire DtmVic Examples_A_ Start gt Cliquer sur 3 Execute La liste des proc dures s affiche en bloc la fin de l ex cution Execution completed Ardat Archivage des donn es Artex Archivage des textes Selox s lection des questions ouvertes S lection des l ments actifs et suppl mentaires
98. cet espace Cela peut vouloir dire que ces variables mesurent une m me chose ou encore qu elles sont li es par une relation particuli re Mais les unit s de mesure des variables peuvent tre tr s diff rentes et rendre alors n cessaire des transformations du tableau de donn es VII 3 2 Probl me d chelles de mesure et transformation des donn es On veut que la distance entre deux individus soit ind pendante des unit s des variables pour que chaque variable joue un r le identique Pour cela on attribue chaque variable j la m me dispersion en divisant chacune de ses valeurs par leur cart type s avec 2 1 4 2 Si LG Par ailleurs on s int resse la mani re dont les individus s cartent de la moyenne On place alors le point moyen au centre de gravit du nuage des individus Les coordonn es du point moyen sont les valeurs moyennes des variables not es 1 n pei ni Prendre ce point comme origine revient centrer les variables c est dire soustraire chaque variable j sa moyenne 7 On corrige ainsi les chelles en transformant le tableau de donn es R en un nouveau tableau X de la fa on suivante CRE s n Les variables ainsi r duites et centr es ont toutes une variance s x gale 1 et x une moyenne X nulle et deviennent comparables D autres transformations J pr alables sont possibles 190 VII Annexe statistique VII 3 3 Analyse du nuage des n r
99. chier est un dossier de texte brut txt Si le dossier des textes vient d une phase de traitement de textes il doit tre sauv en txt Apr s archivage des fichiers dictionnaire des donn es et des textes le codage num rique du texte nous permet de construire une table lexicale croisant les mots avec une variable nominale s lectionn e 111 2 Analyse textuelle de questions ouvertes 81 Une analyse de correspondance est alors ex cut e sur cette table lexicale Des zones de confiance bootstrap pourront tre dessin es autour des mots et des cat gories d individus 111 2 2 Mise en uvre de l analyse textuelle sur tableau lexical agr g ANALEX Le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Dans le menu principal cliquer sur Create de ein tte malts Une fen tre Choosing among some basic analysis appara t IAB Crossi abulatng a series ot cate Dtm Data and text mining DECAT Automatic description of a s Data File Data Importation Preprocessing Data Ce L Cete a commande Create a command file Numerical Data principal axe Open an existing command file PCA Principal Components Analysis SCA Simple Correspondence Analysi R It Fil Basic numerical results MEET IPFIT Pe Weighting the observations MCA Multiple Correspondence Analy Basic numerical results txt forma Textual Data CORTEX
100. chiers dictionnaires et donn es appara t Selecting dictionary and data 1 Open a dictionary Dtm format P FEMALE 2 categories 12 categories numerical 3 categories S1_CHANGE_IN_THE_STANDARD OF L 5 categories S2_CHANGE_IN_YOUR_STANDARD OF_ 5 categories List of variables check M eP2uvyg 3 Continue select active and supplementary elements gt 84 Ill Donn es textuelles et mixtes Etape 4 S lection des fichiers dictionnaire et de donn es gt Cliquer sur le bouton Open a dictionary Dans le r pertoire EX_A05 Text Res ponses ouvrir le fichier TDA_dic txt Il s affiche dans une fen tre Le statut no minal ou num rique des variables est indiqu dans une deuxi me fen tre gt Cliquer sur le bouton Open a Data File Dans le r pertoire EX_A05 Text Res ponses ouvrir le fichier TDA_dat txt troisi me fen tre gt Cliquer sur 3 Continue gt D feran 1 GENDER IZ categories M edog IE catagories 2 A DOE 2 cotegaes 3 TESI amp EDUCATION 3 wa S 1 OANGE IM TNE SAMOA OFL IS casguiee 6 S2 CHANGE IN YOUR STANDAARD CF Gemegc n 5 DANDE AL YOUR STANOARD Or Bcategeess 8 WIL PEOLE SE HAPPER IN VERS 3 coteguiea la S FECAL PEAS OF MAND copel i 10 NORE 13 cagi ei x 11 Age_ crga 12 wapo il 13 bin a pr Cow Continues gt Etape 5 S lection des variables actives et suppl mentaires A l int rieur de la fen tr
101. contentment happiness money family 1 gt cliquer sur 2 Select Open questions and separators Une nouvelle fen tre ayant pour titre Selecting 1 the open questions 2 the list of separators apparait Etape 3 S lection des questions ouvertes gt S lectionner les questions ouvertes 1 et 2 et les transf rer dans Result of the selection Puis choisir les s parateurs Ici nous adoptons ceux propos s par d faut Cliquer alors sur Vocabulary and counts Q uestion Open queston x pen qaeition 2 ailit p OK Vocabulay and counts 111 2 Analyse textuelle de questions ouvertes 83 La fen tre suivante pr sente le vocabulaire alphab tique et par ordre de fr quence Nous devons choisir un seuil de la fr quence en choisissant une ligne dans la rubrique Vocabulary frequency order La ligne 135 correspond la fr quence 16 gt S lectionner cette ligne puis CONFIRM La fr quence appara t R pondre OK Vocabulary frequency threshold Separators of units Number of occurrences tokens Number of words types Choose a frequency threshold personal latii h eee CONFIRM social am marriage or sufficient together without animals got ability able abled about above abroad know making now old one order absence parents abuse religion gt Cliquer sur 2 Continue create the parameter file Une fen tre d ouverture fi
102. cotstrap pour valider la position des variables sur les plans factoriels Une fen tre DtmVic Bootstrap Validation Stability Inf rence appa rait gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi S lectionner le fichier ngus_par_boot1 txt pour un bootstrap partiel dans le cas textuel gt R pondre OK la fen tre Set of principal coordinates loaded qui s affiche P DtmVic Bootstrap Validation Stability Inference J o LJ LIST OF BOOTSTRAP REPLICATES FILES THAT COULD BE OPENED ngus_var_boot txt usual partial bootstrap replicated data projected as supplementary elements CA PCA MCA ngus_var_boot_td Ouvrir Regarder dans C2 EX_A04 Text Poems cf Be ngus_sup_cat_bo a E ncharword tet E ngusko txt E Sonnet_LowerCase txt ngus sup cont bj E nous txt E par88dtm trt E word_text txt me A B ngus_da txt B param_VISUTEXT txt 5 word_text_new txt ngus_boot_on ngus_ind txt part_som txt i ngus_par_boot1 txt E pca_control txt E ngus_var_act txt E ReadMe txt ngus_contig_boot lt Nom du fichier ngus_par_boot 1 txt Fichiers de type gt Puis cliquer sur Confidence Ellipse Une fen tre Bootstrap confidence areas s affiche gt S lectionner dans la rubrique Click to select les variables dont on veut visua liser les ellipse
103. d ou TotalEdit etc Pour les images en niveaux de gris deux formats d entr e sont disponibles VI 4 Reconstitutions d images 173 1 Le format de texte simple Voir exemple 1 c est dire l image chee tah txt du dossier 1_cheetah txt Le tableau de donn es contient des en tiers positifs inf rieurs ou gaux 255 qui sont les valeurs du niveau de gris pour chaque pixel pas d identificateur Ce format qui ne contient pas explici tement la taille de l image est le plus simple En raison de sa rusticit il n est ni utilis ni fourni par les logiciels de traitement d images usuels 2 le format pgm Portable grey map voir l exemple 2 avec l image Baal beck pgm du dossier 2_Baalbeck_pgm en utilisant un diteur de texte ou un bloc notes Le format pgm est un format simple et transparent en niveaux de gris La premi re ligne contient l identificateur de format P2 Les deuxi me et troisi me lignes contiennent trois entiers nombre de colonnes nombre de lignes et la valeur maximale 255 Ensuite le tableau est affich par ligne Chaque pixel de la table est repr sent comme un nombre d cimal d crivant le niveau de gris lt 255 Chaque pixel de la table a au moins un espace blanc avant et apr s Aucune ligne ne d passe 72 caract res 3 le format ppm Pour les petites images couleur le format d entr e est le format texte ppm portable pixel map Consulter l exemple 3 Cardinal ppm via
104. d Please update the dictionary appar a t R pondre OK L archivage des coordonn es s affiche dans la fen tre du bas gt Cliquer sur Update dictionary et r pondre OK dans la boite de message Dic tionary updated qui s affiche 126 V Recodage Archivage Outils divers A Adding one or several principal coordinates to the data file Ouvrir Regarder dans C3 EX_A03 MuttCorAnalysis le amp Ee imp 24 03 10_09 02 txt El ncharcat txt E ngus_var_boot xt Jimp htmi E ngus_da txt E ngusout txt E imp txt E param_MCA txt E McA_dat txt E ngus_sup_cat txt E part_da_ind txt E McA_Eng_dic txt E ngus_sup_cat_boot txt E McA_Fr_dic txt E ngus_var_act txt gt Les fichiers dictionnaire et des donn es sont cr s dans le dossier EX_A03 MultCorAnalysis et sont nomm s dtm_dico_newA1 txt et dtm_data_newA1 txt gt Pour archiver un deuxi me facteur recommencer la proc dure en s lectionnant les nouveaux fichiers dictionnaire et donn es dtm_dico newAl txt et dtm_ data newAltxt M me proc dure pour archiver une partition la suite b Archiver une partition gt Cliquer sur Select partition file Une fen tre du dossier EX_A03 MultCorAnalysis s affiche o figure le fichier part_cla_ind txt du stockage de la partition cr e lors de la proc dure MCA Multiple Correspondances Analysis et dont le nombre de classes a t sp cifi lors du param trage de l anal
105. de l analyse des correspondances simples ou multiples Dans le cas de l analyse en composantes principales Diaconis et Efron 1983 Holmes 1989 Stauffer et al 1985 Daudin et al 1988 ont pos le probl me du choix du nombre d axes pertinent et ont propos des intervalles de confiance pour les points du sous espace d fini par les principaux axes Les param tres correspondant sont calcul s partir des chantillons r pliqu s et supposent des contraintes qui d pendent de ces chantillons Pour pallier ces difficult s il faut se r f rer un espace factoriel commun Plusieurs variantes sont possibles On pr sentera bri vement deux techniques le bootstrap total et le bootstrap partiel 1 On trouvera des compl ments sur l int r t et les limites de cette m thode dans les travaux de Diaconis et Efron 1983 et de Young 1994 220 VII Annexe statistique Pour des d veloppements plus tendus on se reportera l ouvrage SEM 2006 ou aux boutons Validation et Bootstrap de la barre verticale Statistical tools some reminders du menu d accueil de Dtm Vic Le bootstrap total consiste r aliser autant d analyses en composantes principales qu il y a de r plications moyennant une s rie de transformations afin de retrouver des axes homologues au cours des diagonalisations successives des s matrices de corr lation r pliqu es C C correspond la k me r plication Ces tran
106. de texte un seul fichier Dtm Vic contenant l ensemble des textes suffit Celui de notre exemple est nomm Sonnet_LowerCase txt et est contenu dans le r pertoire DtmVic Examples_A_Start EX_A04 Text Poems kK K S 1 from fairest creatures we desire increase that thereby beauty s rose might never die but as the riper should by time decease his tender heir might bear his memory but thou contracted to thine own bright eyes feed st thy light st flame with self substantial fuel making a famine where abundance lies thyself thy foe to thy sweet self too cruel thou that art now the world s fresh ornament and only herald to the gaudy spring within thine own bud buriest thy content and tender churl makest waste in niggarding pity the world or else this glutton be to eat the world s due by the grave and thee KKK S 2 when forty winters shall beseige thy brow and dig deep trenches in thy beauty s field thy youth s proud livery so gazed on now will be a tatter d weed of small worth held then being ask d where all thy beauty lies where all the treasure of thy lusty days to say within thine own deep sunken eyes were an all eating shame and thriftless praise how much more praise deserved thy beauty s use if thou couldst answer this fair child of mine kkkk S 20 a woman s face with nature s own hand painted hast thou the master mistress of my passion a woman s gentle heart but not acquainted with shift
107. des correspondances appliqu e aux tableaux de contingence lexicaux VII 3 L Analyse en Composantes Principales aspects techniques L Analyse en Composantes Principales Hotelling 1933 s applique des variables valeurs num riques des mensurations des taux des notes de dur es etc repr sent es sous forme d un tableau rectangulaire de mesures R de terme g n ral rj dont les colonnes sont les variables et les lignes repr sentent les individus sur lesquels ces variables sont mesur es En s miom trie par exemple les variables sont donc les mots les lignes les r pondants et les valeurs num riques les notes VII 3 1 Interpr tations g om triques Les repr sentations g om triques entre les lignes d une part et entre les colonnes d autre part du tableau de donn es permettent de visualiser les proximit s respectivement entre les individus et entre les variables cf figures A 1 et A 2 ci dessus M thodes factorielles Classification 189 Dans R deux points individus sont tr s voisins si dans l ensemble leurs m coordonn es sont tr s proches Les deux r pondants concern s sont alors caract ris s par des valeurs presque gales pour chaque variable La distance utilis e est la distance euclidienne usuelle Dans R si les valeurs prises par deux variables particuli res sont tr s voisines pour tous les r pondants ces variables seront repr sent es par deux points tr s proches dans
108. des dans le fichier de d part donnent lieu une modalit particuli re identifi e dans le dictionnaire Dtm Vic par la lettre b comme blanc Les valeurs des variables num riques seront identiques celles du fichier de donn es original les valeurs manquantes cases vides dans le fichier de d part sont remplac es dans cette version de DtmVic par la valeur conventionnelle LL LL 999 Les variables textuelles r ponses aux questions ouvertes donnent lieu a un fichier textuel s par format textuel de type 2 cf chapitre section 1 5 Une seconde fen tre Format type XL Finding the states of each categorical vari able basic frequencies appara t gt Cliquer sur Values and counts Le nom des variables s affiche dans la fen tre de gauche La fen tre de droite pr sente les statistiques l mentaires de ces variables Il s agit seulement de permettre l utilisateur de v rifier que les statuts qu il a choisis pour les variables sont corrects a DtmVic Format type XL r Finding the states of each categorical variable basic frequencies 1 Values and Counts as a global check of the whole file content 2 Create dictionary and data total number of variables 17 Var 1 2 distinct values GENDER Num freq value 0 IDENT Char 30 1 1 496 1 1 GENDER Char 6 1 2 547 2 2 AGE CODE Char 6 1 2 2 Inno 2 2 2 2 22 2 2 3 AGE Nu
109. des r sultats en utilisant les possibilit s offertes par la seconde phase Visualization Inference Classification stepsk L analyse r alis e permet d examiner les axes et les plans factoriels boutons Zi AxesView et H PlaneView la validation des positions des points sur les graphiques par Bootstrap avec B BootstrapView la classification avec le bouton ClusterView et les cartes auto organis es avec EH kohonen Map Les fonctionnalit s de ces quatre premiers boutons ont t d crites propos des exemples des chapitres II et III Nous allons dans cette section nous focaliser sur les fonctionnalit s du bouton M Visualization Cette option propose des outils de visualisations compl mentaires des plans factoriels et de la classification ellipse de densit ou enveloppes convexes des classes trac de l arbre de longueur minimale trac des plus proches voisins dans les plans factoriels visualisation p dagogique de la construction progressive des classes cas de la proc dure k means nu es dynamiques visualisation dans les plans factoriels des cartes de Kohonen et de certains graphes a Visualisation utilisant la partition demand e dans le fichier de commande tapes RECIP et PARTI gt Cliquer sur le bouton W Visualization Une fen tre intitul e DTM visualization loading files selecting axes appara t gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir dans un premier temps
110. des techniques d agr gation autour de centres mobiles et des cartes auto organis es Self Organising Maps appel es encore cartes de Kohonen Ces m thodes sont particuli rement int ressantes dans le cas des grands tableaux car elles sont peu co teuses en temps calcul et peu gourmandes en espace m moire VII 8 1 M thodes de partitionnement Agr gation autour de centres mobiles ou m thode k means Bien qu elle ne fasse appel qu un formalisme limit et que son efficacit soit dans une large mesure attest e par les seuls r sultats exp rimentaux la m thode d agr gation autour de centres mobiles est probablement la technique de partitionnement la mieux adapt e actuellement aux vastes recueils de donn es ainsi que la plus utilis e pour ce type d application Produisant des partitions des ensembles tudi s elle est utile aussi bien comme technique de description et d analyse que comme technique de r duction g n ralement en association avec des analyses factorielles et d autres m thodes de classification L algorithme peut tre imput principalement Forgy 1965 bien que de nombreux travaux parfois ant rieurs Thorndike 1953 le plus souvent post rieurs MacQueen 1967 Ball and Hall 1967 aient t men s parall lement et ind pendamment pour introduire des variantes ou des g n ralisations Cette m thode peut tre consid r e comme un cas particulier de techniques connues sous le nom de nu es dynami
111. droite d clenchent un balayage automatique pour tous les axes propos s Toutes les figures interm diaires sont sauvegard es en format Windows bitmap bmp Avant d examiner les exemples sch matisons la suite des op rations faire dans le cas des analyses en axes principaux m thodes factorielles gt Cliquer selon l extension du fichier image sur un des boutons Read txt for mat ou pgm format ou ppm _format R pondre OK aux boites de message number of columns et number of rows qui s affichent gt S lectionner une des m thodes par exemple l analyse des correspondances Correspondence Analysis ou la d composition aux valeurs singuli res Singular Va lues Decomposition R pondre OK lorsque s affiche la boite de message End of computation gt S lectionner le nombre d axes R pondre OK au m mo number of axes gt Cliquer sur un des boutons Image selon l image choisie noir et blanc ou cou leur En fait le bouton Help permet d obtenir les informations n cessaires en Anglais Les fichiers images cr es image originale et images reconstitu es partir d un nombre variable d axes principaux sont sauvegard s en format bmp Le logiciel Paint du volet Accessoire des programmes sous Windows ou le logiciel gratuit IrfanView par exemple permet de visualiser ces images et de les sauvegarder en format JPEG plus conomique en espace gt Cliquer sur Exit gt VI 4 3 Ex c
112. du bootstrap total Nous supposons ainsi implicitement que l ensemble des variables par exemple l ensemble des mots du questionnaire dans le cas de la s miom trie voqu en section VI 1 constitue un chantillon de m variables extrait al atoirement d un ensemble potentiel de variables ensemble des mots dans le cas de a s miom trie Nous cherchons perturber cet chantillon de mots selon les m mes principes que le bootstrap op r sur les individus Pour cela on appelle Bx la matrice diagonale m m dont les l ments diagonaux sont les poids des mots de la k me r plication Bootstrap 0 2 0 La matrice X d ordre n n initiale tant suppos e centr e la matrice diagonaliser est la matrice Ty qui vaut T XB X XB B X On obtient donc XB X v k Av en multipliant chaque terme par B X ona BAX XB B X v k 1 B X v k et en posant u k B X v k alors B X XB u k 2 u k T XB B X a les m mes valeurs propres non nulles que la matrice T B X XB On diagonalisera la matrice T de dimension m m En pratique on remplace les poids bootstrap nuls par des poids infinit simaux de fa on ce que les variables absentes d une r plication apparaissent quand m me avec le statut de variable suppl mentaire Cette derni re preuve de validation est videmment tr s s v re On montre en e
113. e gt Puis cliquer sur Confidence Ellipse 60 1 Donn es num riques Bootstrap Validation Stability Inference Ouvrir E imp 24 03 10_09 02 txt imp html E imp txt E Mca_dat txt F MCA _Eng_dic txt E MCA Fr _dic txt maux_de_tete_non C cdvipeu Vi cdv pas_du tout eeveveeeveveveeeeeeeeeeeeeeeer eeeeeeeeeeeeeveveeeeeeeeeeercve gt S lectionner dans la rubrique CLick to select les variables dont on veut visualiser les ellipses gt Les transf rer avec Select dans la fen tre Selected list gt Choisir ensuite le plan factoriel puis cliquer sur Confidence ellipses ou sur Convex Hulls pour obtenir l affichage graphique des variables actives si le fichier ngus_var_boot txt a t charg ou de la cat gorie suppl mentaire si le fichier ngus_sup_cat_boot txt a t charg 11 3 Analyse des Correspondances Multiples 61 Les ellipses de confiance prennent en compte la densit du nuage de points r plications mais peuvent laisser quelques points l ext rieur Chaque ellipse de confiance est calcul e partir d une analyse en composantes principales sp cifique de l ensemble des r plications Les enveloppes convexes Convex hulls enveloppent toutes les r plications mais donnent du poids aux points p riph riques sans aucune consid ration de densit Cf par exemple le chapitre 7 de Multiple Correspondence Analys
114. e Selection of active et supplementary elements n s affichent trois autres fen tres Une fen tre Selection of active et supplementary elements appara t Ele comprend trois sous fen tres Variables to be selected o figure l ensemble des variables Active Variables qui re oit les variables actives s lectionn es Supplementary Variables qui re oit les variables sup pl mentaires Pour ce type d analyse la variable active unique est celle dont les modalit s vont servir regrouper les r ponses aux questions ouvertes Nous sugg rons de s lectionner la variable nominale num ro 14 Educ age comme variable active et nous les variables suppl mentaires Dans ce cas les variables suppl mentaires pourraient servir d crire la variable active pour compl ter l tape ClusterView 111 2 Analyse textuelle de questions ouvertes 85 gt Cliquer sur Continue gt Une fen tre Selecting observations appara t Etape 6 S lection des observations individus Trois cas de figure sont possibles 1 Consid rer l ensemble des observations 2 S lectionner les observations sur une liste 3 S lectionner les observations par un filtre Nous consid rons ici l ensemble des observations gt Cliquer sur All the observations will be active Une fen tre Create a starting parameter file appara t Etape 7 Cr ation du fichier param tre F1 Create a parameter file for the sequen
115. e Fourier discr tes option ligne par ligne Images reconstitu es successivement avec deux termes 9 termes et 19 termes L analyse colonne par colonne donne des r sultats diff rents mais avec un pouvoir de compression quivalent dans le cas de cette image d4 La comparaison de la reconstitution obtenue en fonction du nombre de termes conserv s dans la d composition de Fourier avec la reconstitution pr c dente l aide de CA ou de SVD est int ressante Note 1 Un affichage graphique des niveaux de gris pour chaque ligne peut tre obtenu partir du bouton Curves of grey levels appuyer plusieurs fois pour balayer VI 4 Reconstitutions d images 179 toute l image Note 2 Toutes les images cr es sont enregistr es au format bitmap extension bmp dans le r pertoire du fichier de l image analys e Note 3 La compression par SVD ou CA ne d pend pas de l ordre des lignes et des colonnes de la table contrairement la compression de Fourier N anmoins cette compression par axes principaux que l on peut qualifier de compression structurelle parce qu elle ignore les positions relatives des l ments donne des r sultats satisfaisants VI 4 4 Ex cution des autres exemples gt Cliquer sur le bouton SVD and CA of images dans la rubrique MES UOTE du menu principal de Dtm Vic gt La fen tre Reconstitution of some small images appara t cf ci dessus VI 4 4 1 Exem
116. e de la variabilit imputable aux r plications pour chaque point modalit pris isol ment b _ Bootstrap partiel pour les variables suppl mentaires Pour les variables suppl mentaires le bootstrap ne peut tre que partiel Il s agit d une validation externe et donc d un test statistique parfaitement l gitime ces variables n ayant pas particip la construction du sous espace de r f rence c _ Bootstrap total pour les variables actives Rappelons que dans ce cas chaque r plication donne lieu une analyse en composantes principales sp cifique Il existe trois impl mentations du bootstrap total dans Dtm Vic Le bootstrap de type 1 simples corrections du signe des axes pour les analyses des r pli cations Le bootstrap de type 2 corrections des interversions d axes est plus labor Le bootstrap de type 3 Rotations procrust ennes des axes r pliqu s de fa on a les amener en correspondance avec les axes initiaux On rejoint ainsi souvent les r sultats du bootstrap partiel Les options de bootstrap total peuvent tre mises en oeuvre par les uti lisateurs avanc s mais ne sont pas utilis es dans ce manuel gt S lectionner le nombre de classes souhait nous sugg rons 7 classes puis cliquer sur enter 11 1 Analyse en composantes principales 29 gt Cliquer sur Continue La fen tre Create a starting parameter file r appara t F Create a starting parameter file D
117. e graphique 58 1 Donn es num riques Selecting the types of coordinates gt S lectionner colonnes actives cat gories suppl mentaires Apparait une fen tre pour s lectionner le couple d axes souhait s gt Laisser les axes 1 er 2 option par d faut puis cliquer sur display Il est possible de ne faire figurer sur les plans que certaines variables gt Cliquer alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select La fen tre du plan factoriel appara t 15 fa fans enna ranst soc nsp mariage nsp justice nr justice nsp s Age_super_50 plutot satist_sante peu mal_dos_oui satisf_sante non tem maux_tnervosite_oui ad depressif_oui solitude assez satisf log peu solitude tres satist log justice tres_bien a cad vie tresp nr satist log tres os olitude peu mariage indissol Ja_tem i _famille oui Niv_Edmaric lustice asse7_bi bien r Solitude nsp Tanst Soc non yilustice assez_mal justice tres mal assez Aae inf 30 a Marlage diss_si_acco famillo non cad vie peu cad vienon satist duc hawt mal_dos_non trfem nsp solitude nomtisf_sante tre etenn satist loc PlaneView 1 2 rubrique colonnes actives cat gories suppl mentaires 11 3 Analyse des Correspondances Multiples 59 Seve More graphs Namnmenu signofawes Zoom Fon
118. e l analyse gt Cliquer sur le bouton Create a command file ligne Une fen tre Choosing among some basic analyses appara t gt S lectionner l analyse MCA Multiple Correspondances Analysis dans la rubrique Nue RE ER TE EN CRT elec Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t F Selecting dictionary and data E region JAAO1 region paris 1 Open a dictionary Dtm format AA02 bassin_parisien AAO3 nord AAO4 est AROS ouest AA06 sud ouest Sexe 2 categories AGE 3 categories List of variables check Activit 2 categories Education 3 categories agglomeration 5 categories Sommeil numerical 2 Open a Data File Dtm format lt 3 Continue select active and supplementary elements Etape 2 S lection des fichiers dictionnaires et de donn es gt Cliquer sur le bouton Open a dictionary Dans le r pertoire DtmVic Examples_A_Start EX_A03 MultCorAnalysis ouvrir MCA_dic txt Ce fichier s affiche dans une premi re fen tre Le statut categorical ou numerical des variables est indiqu dans une deuxi me fen tre gt Cliquer sur le bouton Open a Data File Dans le r pertoire DtmVic Examples_A_Start EX_A03 MultCorAnalysis ouvrir le fichier MCA_dat txt qui s affiche dans une troisi me fen tre gt Cliquer sur 3 Continue gt Une fen tre Selection of active and supplementary elements appara t 11 3 Analyse
119. e la m thode dite des k means k moyennes introduite par MacQueen 1967 commence effectivement par un tirage pseudo al atoire de centres ponctuels Cependant la r gle de calcul des nouveaux centres n est pas exactement la m me que celle qui vient d tre expos e On n attend pas d avoir proc d la r affectation de tous les individus pour modifier la position des centres chaque r affectation d individus entra ne une petite modification de la position du centre correspondant En une seule it ration cette proc dure peut ainsi donner une partition de bonne qualit Mais celle ci d pendra de l ordre des individus sur le fichier VII 8 2 Les cartes auto organis es de Kohonen L objectif des cartes auto organis es de Kohonen est de classer un ensemble d observations de fa on conserver la topologie initiale de l espace dans lesquelles ces observations sont d crites VII 8 2 1 Le principe Les cartes de Kohonen cherchent repr senter dans un espace deux parfois trois dimensions les lignes ou les colonnes d un tableau en respectant la notion de voisinage dans l espace des l ments classer Tout comme dans le cas de l analyse en composantes principales il est utile d imaginer au d part l ensemble des donn es comme un nuage de points dans un espace de grande dimension On parle parfois d algorithme en ligne on line pour ce type de modification en cours de lecture alors que la m thode
120. e la valeur propre vis vis des fluctuations dues l chantillonnage suppos laplacien normal L empi tement des intervalles de deux valeurs propres cons cutives sugg rera donc l galit de ces valeurs propres Les axes correspondants sont alors d finis une rotation pr s Ainsi l utilisateur pourra viter d interpr ter un axe instable Si les valeurs propres th oriques de la matrice des covariances th orique Z sont distinctes les valeurs propres e la matrice des covariances empirique S suivent asymptotiquement des Il de 1 t d S t tot td lois normales d esp rance et de variance 2 gt n 1 o n est la taille de l chantillon On en d duit les intervalles de confiance approch s au seuil 95 a h i 1 1 9 G D 1 1 96 2 D Les intervalles de confiance d Anderson concernent en fait aussi bien les valeurs propres des matrices des covariances que des matrices de corr lations Les simulations entreprises montrent que les intervalles de confiance obtenus sont en g n ral prudent le pourcentage de couverture de la vraie valeur est le plus souvent sup rieur au seuil de confiance annonc 7 On peut citer trois raisons qui peuvent susciter la mise en suppl mentaire d un point 1 enrichir l interpr tation des axes par des variables de nature ou de th matique diff rente de celle des l ments actifs n ayant pas particip leur construction 2
121. e le coefficient de corr lation d un chantillon soit compris dans diff rentes fourchettes de valeurs d finissant ainsi les intervalles de confiance On obtient une estimation de la pr cision de la valeur de 7 obtenue sur l chantillon de base sans faire l hypoth se d une distribution normale des donn es Les bornes de l intervalle de confiance peuvent tre estim es directement par les quantiles de la distribution simul e Pour estimer les coordonn es factorielles issus d une analyse en composantes principales le principe est le m me que pour le coefficient de corr lation on effectue sur chaque chantillon simul une analyse en composantes principales puis on tablit une distribution de fr quences pour chacune des composantes La m thode de bootstrap donne dans la plupart des cas une bonne image de la pr cision statistique de l estimation sur un chantillon Les recherches th oriques men es par Efron en particulier montrent que pour de nombreux param tres statistiques l intervalle de confiance correspondant la distribution simul e par bootstrap et celui correspondant la distribution r elle sont g n ralement de m me amplitude Mise en uvre et calcul des zones de confiance Il existe plusieurs proc dures pour tester par la m thode de bootstrap la stabilit des coordonn es factorielles Gifi 1981 Meulman 1982 Greenacre 1984 ont r alis des premiers travaux dans le contexte
122. e nominale 3 esp ces d iris s lectionn e par SELEC b Ex cution du fichier de commande fichier param tre Revenir au menu principal et ex cuter les tapes de calcul de base gt Cliquer sur Return to execute dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton Execute de eygaaelalelails Cette op ration ex cute les tapes de calcul du fichier de commandes c Lecture des r sultats gt Cliquer sur le bouton Basic numerical results de RSMAS Le browser ouvre le fichier HTML nomm imp html qui contient les principaux r sultats des tapes pr c dentes de calcul de base Retour au menu principal VI 2 4 Visualisation et lecture des r sultats Comme pour l exemple C 1 pr c dent portant sur la s miom trie nous allons maintenant utiliser les fonctionnalit s du bouton V Visualization Nous allons visualiser les diff rentes esp ces de fleurs variable n 5 dans le plan engendr par les premiers axes principaux de l ACP a Visualisation partir d une partition induite par une variable nominale esp ce d iris gt cliquer sur M Visualization Une fen tre intitul e DTM visualization appara t VI 2 Donn es num riques et Contig it 151 gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir dans un premier temps le fichier ngus_ind txt Les principales coordonn es des individus lignes sont s lectionn es gt Cli
123. e par sondage comportant des r ponses aux questions ferm es et des r ponses aux questions ouvertes Les questions ferm es peuvent donner lieu des variables continues ou encore quantitatives ou des variables nominales ou qualitatives 2 GENDER nombre de cat gories 2 en col 1 4 blanc intitul MALE MALE identif courts col 1 4 blanc identificateur FEMA FEMALE identif courts col 1 4 blanc identificateur 0 AGE nombre de cat g 0 en col 1 4 blanc var num r 4 AGE _ CODE nombre de cat gories 2 en col 1 4 blanc intitul AGE1 18_24 identif courts col 1 4 blanc identif lt 20 car AGE2 25_39 identif courts col 1 4 blanc identif lt 20 car AGE3 40_59 identif courts col 1 4 blanc identif lt 20 car AGE4 gt 60 identif courts col 1 4 blanc identif lt 20 car 3 EDUCATION nbre de cat gories 3 en col 1 4 blanc intitul EDUL LOW identif courts col 1 4 blanc identificateur EDUM MEDIUM identif courts col 1 4 blanc identificateur EDUH HIGH identif courts col 1 4 blanc identificateur Les identificateurs ont moins de 20 caract res Jamais de blanc l int rieur d un identificateur Tableau 1 Fichier dictionnaire en format interne Dtm Vic pour quatre variables Sexe 2 modalit s ge 0 modalit variable continue classe d ge 4 modalit s niveau d ducation 3 modalit s Les commentaires en italique don
124. e plombe le soleil dort Du fond Des tangs remplis d eau monte un brouillard qui Fond Collines champs hameaux dans une m me teinte BER VERLAINE Les sanglots longs Des violons De l automne Blessent mon coeur D une langueur Monotone Tableau 3 Fichier texte en format interne type 1 Dtm Vic Les trois textes sont en format libre sur moins de 200 colonnes les s parateurs des textes sont s par s par suivis de 4 espaces puis de l identifiant du texte comportant moins de 20 caract res la fin du fichier est mentionn par Tous les s parateurs occupent les 4 premi res colonnes Pour certaines ditions de tableaux il est utile et important que les 4 premiers caract res de l identifiant de texte caract risent le texte Si les lignes ont plus de 200 ccaract res une proc dure de Dtm Vic Tools permet de les reformater Le tableau 4 pr sente un fichier de textes concernant trois questions ouvertes pour trois r pondants cf l exemple III 2 Pr sentation g n rale 19 1006 my sons my kids are very important to me being on my own I am responsible for their education education and moral standard of the youngsters law and order basically British culture is traditional people tend to keep themselves to themselves 1007 job being a teacher I love my job for the well being of the children law and order drug abuse child abuse accommodat
125. e quelques param tres d crits bri vement dans le menu principal de DtmVic bouton Help about command parameters Notons qu un fichier de commande similaire au fichier de commande EX _CO1 Param txt peut galement tre g n r en cliquant sur le bouton Create du menu principal tapes de base comme indiqu au chapitre 2 de ce manuel Une fen tre Select a basic analysis s affiche Cliquer ensuite sur Principal Components analysis situ dans la rubrique Numerical Data et suivre les instructions VI 1 2 Calculs de base PCA et classification Ex cution de l exemple C 01 s miom trie et lecture des r sultats a Ouverture du fichier param tre gt Cliquer sur le bouton Open an existing command file de la rubrique menu principal Ensuite rechercher le dossier DtmVic Examples_C_NumData dans DtmVic examples Dans ce r pertoire ou dossier ouvrir le r pertoire EX_CO1 PCA_Semio Ouvrir le fichier de param tres EX CO1_ Param txt Le fichier param tre s affiche dans la fen tre de l diteur de texte Rss Extraits du fichier de commande LISTP yes LISTF no LERFA yes global parameters NDICZ PCA_semio dic txt Dictionary file NDONZ PCA_semio dat txt Data file STEP ARDAT Reading data and dictionary NIDI 1 NIEXA 300 NOEXA 76 VI 1 Donn es num riques S miom trie STEP SELEC Selecting active and supplementary varia
126. e soit leur nature le tableau Excel dispose donc de n 1 lignes et de p 1 colonnes Le fichier est sauvegard en format csv dont les s parateurs sont des points virgules version fran aise d Excel Ce fichier qui va nous servir d exemple a pour nom datbase_global csv il se trouve dans le r pertoire dossier DtmVic_Examples_D_Import EX_D01 Importation Num_Text lui m me dans le dossier DtmVic Examples t l chargeable avec Dtm Vic Dans certaines versions d Excel notamment les versions anglophones le s parateur pour le format csv n est pas le point virgule mais la virgule La proc dure d importation de DtmVic pr voit une possibilit de changement des s parateurs De fait tout comme les espaces vides les points virgules et les apostrophes dans l expression des valeurs alphanum riques ne sont pas autoris s et doivent tre remplac s par un autre symbole De m me les valeurs num riques notamment les nombres a plus de 3 chiffres ne doivent pas contenir de blancs criture des francophones laissant un demi espace pour s parer les milliers Enfin dans la version fran aise et dans quelques versions europ ennes d Excel les virgules d cimales doivent tre remplac es par les points d cimaux habituels dans les notations anglo saxonnes et dans les langages de programmation IV 1 2 Proc dure d importation ee gt S lectionner dans le menu principal Data Importation Preprocessing Da
127. e variable nominale partir du croisement de deux variables nominales Exemple sexe X ge gt Cliquer sur Cross tabulating two categorical variables La fen tre de s lection des fichiers dictionnaires et des donn es appara t gt Ouvrir les fichiers dictionnaire et de donn es concern s pour l exercice on pourra ouvrir les fichiers pr c demment cr s dans le dossier EX_A03 MultCo rAnalysis dtm dic newG7 txt et dtm_dat_newG7 txt lister les variables puis Continuer Une fen tre appara t cf ci dessous gt S lectionner les modalit s regrouper ou valider qui apparaissent dans une 3 fen tre gt Entrer l tiquette de la nouvelle modalit dans la 4 fen tre puis confir mer La nouvelle modalit appara t dans la 5 fen tre 124 V Recodage Archivage Outils divers gt Recommencer la proc dure d tiquetage pour toutes les nouvelles modalit s Si une modalit n est pas regrouper la s lectionner et lui attribuer une ti quette gt Une fois les regroupements termin s r pondre OK la bo te de message puis cliquer sur Update data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic_newCr3x52 txt et dtm_dat_newCr3x52 txt dans le dossier EX_A03 MultCorAnalysis Une fen tre s affiche pour pr senter ces nouveaux fichiers gt Cliquer sur Return Une fois l op ration termin e modifier les noms des fi chiers par d f
128. ectionnant plus haut les r ponses aux questions ouvertes 1 et 2 Supplementary Variables re oit les variables suppl mentaires s lection n es Nous pouvons toutes les s lectionner Elles nous serviront d crire nos axes et nos classes gt cliquer sur Continue gt Une fen tre Selecting observations appara t Etape 6 S lection des observations individus Nous consid rons ici l ensemble des observations gt Cliquer sur All the observations will be active Une fen tre Create a starting parameter file apparait Etape 7 Cr ation du fichier param tre gt Cliquer sur 2 Create a first parameter file 98 Ill Donn es textuelles et mixtes Create a first parameter file param_VISURECA bet DTM BASIC PARAMETER FILE FOR THE ANALYSIS OF A SET OF A correspondence analysis of the lexical table words RESPONSES THE OBTAINED CLUSTERS WILL BE DESCRIBED is performed BY THEIR CHARACTERISTIC WORDS AND RESPONSES AND A clustering of the responses is then carried out BY THE SELECTED CATEGORICAL VARIABLES The obtained clusters are described by their characte words and responses and also by the categorical var Default Name of the created parameter file param_resp_catt ithe respondents or the responses The correspondence analysis of the lexical table step ASPAR is followed by a clustering the characteristics words and responses To obtain these results step
129. ellement chaque question ouverte De plus les r ponses modales r ponses caract ristiques de chaque texte seront les r ponses originales et non les r ponses avec des mots corrig s Mais la s lection statistique des r ponses caract ristiques se fait bien elle sur les textes corrig s Une fois le fichier de commande cr lors de la proc dure Create il est possible toujours dans la rubrique Command File d ouvrir directement ce fichier bouton Open an existing command file pour en modifier directement certains param tres puis de l ex cuter bouton Execute Les proc dures d analyses exploratoires de donn es num riques ou textuelles impliquent l enchainement de plusieurs techniques Analyse factorielle Classification Cartes de Kohonen Validation Bootstrap Les r sultats des analyses de base peuvent tre soit consult s dans la rubrique Result Files Basic numerical results en navigant sur un fichier Html ou en format texte text format soit visualis s par les diff rents outils de la rubrique VIC Visualization Inference Classification k I 3 Visualisation des r sultats Dans l tape SRI Cee Lenina une s rie d outils de visualisation permettent de valider les r sultats et de faciliter leur interpr tation cf chapitres II et Ill Pour utiliser un de ces outils Cliquer sur le menu correspondant Mie axes factoriels Classements pour chaque axe des coordonn es des individus
130. els et des partitions V 1 Recodage et archivage 121 Que ce soit pour le regroupement de modalit s d une variable nominale pour la cr ation d une variable par croisement de deux variables nominales ou pour la transformation d une variable continue en une variable nominale la premi re tape consiste ouvrir le fichier dictionnaire 1 Open a dictionary puis celui des donn es 2 Open a data file alister les variables 3 List of variables puis cliquer sur 4 Continue Les op rations suivantes sont effectu es a partir du jeu de donn es de l exemple EX_A03 MultCorAnalysis dans le dossier DtmVic_A_ Start V 1 1 Regroupement de modalit s d une variable nominale Lors du d pouillement de donn es d enqu te et l occasion de tris plat effectu s sur les variables nominales on doit parfois regrouper certaines modalit s d une variable nominale pour satisfaire dans la mesure du possible certaines r gles de recodage viter des modalit s faible effectif quilibrer le nombre de modalit s des variables nominales regrouper des cat gories similaires ou trop fines gt Cliquer sur Grouping some categories of a categorical variable La fen tre de s lection des fichiers dictionnaire et des donn es appara t gt Ouvrir les fichiers MCA dic txt et MCA dat txt dans le dossier EX_A03 MultCorAnalysis lister les variables et cliquer sur 4 Continue Une nouvelle fen tre appara t 12
131. els peut en effet entra ner une forte r duction d chelle Pour des d veloppements plus techniques on se reportera l ouvrage SEM 2006 ou au bouton PCA Principal Component Analysis de la barre verticale Statistical tools some reminders du menu d accueil de Dtm Vic VII 4 L Analyse des correspondances L analyse des correspondances s applique en premier lieu une table de contingence K appel aussi tableau crois n lignes et m colonnes qui ventile une population selon deux variables qualitatives n et m modalit s Les lignes et les colonnes jouent donc des r les similaires Dans la section II 2 de ce manuel l analyse est appliqu e un tableau croisant 8 statuts d activit en ligne avec 6 types de medias en colonne Dans la section IIL 1 elle est appliqu e au tableau lexical croisant en ligne les 114 mots les plus fr quents dans les 20 premiers sonnets de Shakespeare avec en colonne ces 20 sonnets Dans la section III 2 l analyse des correspondances porte sur la table de contingence lexicale croisant les 136 mots apparaissant plus de 16 fois dans les r ponses de 1043 individus une question ouverte avec 9 cat gories de r pondants ge 17 L exemple n est bien videmment pas suffisamment repr sentatif pour que le plan puisse tre interpr t Il a juste vocation rapprocher le tableau de donn es des r sultats IS L analyse en composantes principales ne trad
132. em blance par construction les modalit s d une m me variable s excluent Si elles sont proches cette proximit s interpr te en termes de ressemblance entre les groupes d individus qui les ont choisies vis vis d autres variables actives de l analyse Les r gles d interpr tation des r sultats coordonn es contributions cosinus carr s concernant les l ments actifs d une analyse des correspondances multiples sont sensiblement les m mes que celles d une analyse des correspondances simple On calcule la contribution et la qualit de repr sentation de chaque modalit et de chaque individu si ceux ci ne sont pas anonymes pour l analyse En revanche les r gles d interpr tation des valeurs propres et des taux d inertie sont diff rentes VII 5 3 Cas de 2 questions Dans le cas de deux questions q1 et q2 le tableau disjonctif complet s crit Z Z Z2 et nous ram ne directement l analyse du tableau de contingence Il est alors quivalent au point de vue de la description des associations entre modalit s d effectuer 1 l analyse des correspondances du tableau Z d ordre n p 2 l analyse des correspondances du tableau B d ordre p p 3 l analyse des correspondances du tableau K ZZ d ordre pj p2 L quivalence entre l analyse des correspondances du tableau disjonctif complet Z et celle du tableau des correspondances multiples B a t donn e dans le cas g n ral de plusieurs questions 2
133. er de donn es extraits MCA_dat txt 0005 8 1 2 27 3 2 7 1 2 3 1 1 2 2 2 2 2 3 0 0 1 1 4 7 7 6 6 6 3 3 2 4 1 3 0011 8 1 2 32 3 2 2 1 3 3 1 2 3 3 2 2 2 4 0 0 2 1 1 7 5 4 7 7 1 5 3 4 2 1 0018 8 8 1 21 2 1 8 2 1 3 2 3 1 4 2 2 1 4 0 O 2 1 4 7 7 7 5 7 3 7 2 4 1 3 0024 5 1 2 42 1 2 3 1 2 3 1 2 1 3 2 2 2 2 1 2 2 1 1 7 6 7 5 5 7 5 2 4 3 1 0030 5 1 1 29 1 2 2 1 2 3 1 2 1 2 2 2 2 2 2 1 1 2 3 7 7 4 4 7 4 3 4 4 1 1 0036 2 4 2 35 1 2 7 1 2 2 1 1 2 2 1 1 2 1 1 2 1 1 4 7 7 5 6 7 5 5 2 4 2 3 0042 2 4 1 71 5 2 8 1 3 3 4 2 3 2 2 2 1 3 0 0 2 2 2 5 7 7 5 5 1 3 4 4 4 3 0054 5 5 1 24 1 3 3 1 3 2 2 2 3 2 2 2 2 1 2 2 2 2 4 7 4 7 5 7 4 3 3 3 1 1 Le fichier de donn es comporte 315 lignes correspondant aux individus enqu t s et 50 valeurs Pour une ligne i la premi re valeur entre quotes correspond l identifiant de l individu i et les 49 autres valeurs correspondent aux r ponses des 49 variables num riques ou aux valeurs codant les items de r ponse aux variables nominales s par es par des espaces blancs 52 1 Donn es num riques 11 3 2 Mise en uvre de l ACM Selon le m me principe de mise en uvre de l analyse en composantes principales cf 8 11 1 2 le fichier param tre est cr en 5 tapes Etape 1 S lection d
134. er_qualif 385 457 42 174 104 220 Ouvrier_non_qual 156 185 8 69 42 85 Inactif 1474 931 81 852 642 782 Homme 1630 900 285 854 62 776 Femme 1667 2069 52 815 683 938 15 24 ans 660 713 69 216 234 360 25 34_ans 640 719 84 230 212 380 35 49_ans 888 000 30 429 345 466 50 64_ans 617 774 84 391 262 263 65_ans_ou_ 491 761 70 402 25 245 Primaire 908 307 73 642 360 435 Secondaire 869 008 07 408 336 494 Techn _prof 901 035 80 140 31 504 Superieur 619 612 77 209 298 281 Ce fichier de donn es comporte 20 lignes dont 8 seront actives et 7 colonnes Chaque ligne contient l identifiant des cat gories socio conomiques entour du symbole quote suivi des 6 valeurs correspondant aux fr quences absolues de 6 m dias s par es par au moins un espace vide fichier dictionnaire SCA_dic txt Radio Television Quot_Nat Quot_Reg Magazine Mag_TV Rappel Dans ce format interne de Dtm Vic les libell s des cat gories commencent la colonne 6 une police intervalle fixe telle que le courier peut tre employ e pour faciliter l utilisation de ce genre de format Attention Pas d espaces vides dans les identifiants individus et variables 11 2 2 Mise en uvre de l analyse SCA Comme dans l exemple 1 le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse Dans la fen tre du menu principal cliquer sur Create TuE AGI Une fen tre Choos
135. es 159 VI 3 Description de graphes Contrairement aux r pertoires des exemples pr c dents le r pertoire EX_C03 Graphs contient plusieurs sous r pertoires et plusieurs exemples Ces exemples visent d crire quelques graphes planaires sym triques simples partir de leurs matrices associ es principalement par analyse des correspondances VI 3 1 Vue d ensemble des dossiers et fichiers Les fichiers relatifs aux exemples de graphes sont situ s dans le dossier DtmVic Examples DtmVic Examples_C_NumData EX_C03 Graphs Ce dossier se compose de trois sous r pertoires a Chessboard damier ou chiquier se rapporte a la description d un graphe en forme de damier 49 sommets correspondant a un damier carr avec 7 lignes et 7 colonnes la matrice associ e est une matrice binaire 49 x 49 b Cycle concerne la description analogue d un cycle 49 sommets c Geography concerne la description de graphes associ s aux cartes g ogra phiques graphe de r gions contigu s du Japon enregistr sous forme textuelle et externe graphe des d partements contigus de France enregistr galement sous forme textuelle et externe a Le dossier Chessboard La description d un graphe sous forme de damier peut tre obtenue partir de plusieurs fichiers de donn es et dictionnaires diff rents a1 Un fichier de donn es num riques Chessboard_numerical Dans le sous r pertoire Chessboard ouvrir le sous sous r pertoire Che
136. es cat gories par leurs mots et r ponses carte de Kohonen simultan e des mots et des cat gories L Exemple 6 utilise les m mes donn es et dictionnaire que l exemple 5 Il est contenu dans EX_A06 Text Responses_2 toujours dans le dossier DtmVic_Examples_A Start I proc de une analyse directe des r ponses a une question ouverte sans regroupement pr alable avec classification des r ponses et description des classes partir des mots des r ponses caract ristiques et des caract ristiques des r pondants Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt Il est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire ou texte au format Dtm Vic 64 Ill Donn es textuelles et mixtes 111 1 Simples textes S rie de po mes Cet exemple l mentaire traite la forme la plus simple d analyse des textes Les donn es correspondent une s rie de textes compos e ici des 20 premiers sonnets de Shakespeare Dans ce format simple Dtm Vic peut traiter jusqu 1000 textes sans limitation de taille pour chaque texte Cette portion de corpus prise comme exemple est ainsi un mod le r duit soulignant seulement les fonctionnalit s mais pas la puissance de Dtm Vic 11 1 1 Le fichier DtmVic S rie de po mes Dans le cadre d une analyse
137. es partiels ceux qui ont une structure d arbre sont particuli rement int ressants car ils peuvent faire l objet d une repr sentation plane Un arbre est un graphe connexe il existe un chemin reliant tout couple de sommets sans cycle un cycle est un chemin partant et aboutissant au m me point sans emprunter deux fois la m me ar te On peut d finir de fa on quivalente un arbre n sommets soit comme un graphe sans cycle ayant n ar tes soit comme un graphe connexe ayant n 1 ar tes La longueur d un arbre sera la somme des longueurs valeurs de l indice de ses ar tes Parmi tous les graphes partiels qui sont des arbres l arbre de longueur minimale a retenu depuis longtemps l attention des statisticiens en raison de ses bonnes qualit s descriptives qui ne sont pas trang res sa parent avec les classifications hi rarchiques Si l on d sire par exemple d celer rapidement sans ordinateur les traits de structure que peut cacher une matrice de corr lations relative une trentaine de variables c est probablement la plus ais e des proc dures mettre en uvre Arbre de longueur minimale algorithme de Kruskal 1956 On range les n n 1 2 ar tes dans l ordre des valeurs croissantes de l indice On part des deux premi res ar tes puis on s lectionne successivement toutes les ar tes qui ne font pas de cycle avec les ar tes d j choisies On interrompt la proc dure d s que l on a n 1 ar
138. es principales de la matrice C La variabilit bootstrap s observe donc mieux sur le rep re fixe initial qui est d ailleurs le moins mauvais rep re tant le seul utiliser des donn es originales non La projection des r plications Bootstrap dans le contexte de l analyse en composantes principales consiste utiliser le fait que la coordonn e d une variable sur un axe factoriel n est autre que son coefficient de corr lation avec la variable coordonn es des individus sur l axe On calcule donc les r plications de ce coefficient ce qui revient repond rer pour chaque r plication les individus avec les poids Bootstrap qui caract risent un tirage sans remise On obtient comme sous produit des r plications de la variance sur l axe qui sont videmment distinctes de ce que seraient des r plications des valeurs propres Cf Chateau et Lebart 1996 M thodes factorielles Classification 221 perturb es Cette technique prouv e empiriquement r pond parfaitement aux pr occupations des utilisateurs dans le cas de l analyse en composantes principales Bootstrap sur l ensemble des variables cas de l ACP Classiquement les r plications sont obtenues par des tirages avec remises dans l ensemble des n individus Dans certains cas assez exceptionnels on se propose de tester la stabilit des structures vis vis de l ensemble des variables On peut alors r pliquer cet ensemble par la m thode
139. est ici limit 1200 Le format de type 2 S parateurs pour les observations puis pour les questions ouvertes dont le nombre est limit 12 correspond au fichier d enqu te le nombre de textes doit tre alors inf rieur 30000 limite du nombre d observations de Dtm Vic dans la version actuelle Le texte total d un individu est alors limit 100000 caract res Notons que dans l importation d un fichier Excel contenant la fois des variables num riques et textuelles chaque r ponse une question ouverte est limit e 8000 caract res 20 Pr sentation g n rale Dans les exemples fournis dans Dtm Vic les fichiers sont d j en format interne Dtm Vic sauf bien s r les exemples d importation La mise en forme dans le format de Dtm Vic est alors inutile pour l utilisateur Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt Il est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire ou texte au format Dtm Vic 21 ll Donn es num riques Prise en main de Dtm Vic partir de trois exemples Les trois exemples visent pr senter Dtm Vic l utilisateur d une fa on pragmatique Ils correspondent un dossier inclus dans le dossier DtmVic Examples_A_Start qui a t t l charg avec le logiciel Dtm Vic Chaque e
140. ffet que le tirage sans remise suscite approximativement en moyenne l abandon d un tiers des l ments ici des variables chaque r plication 222 R f rences R f rences bibliographiques sommaires Documents cit s ou conseill s Alvarez R B cue M Valencia O 2004 Etude de la stabilit des valeurs propres de l AFC d un tableau lexical au moyen de proc dures de r chantillonnage In Le poids des mots Purnelle G Fairon C Dister A editors PUL Louvain 42 51 Anderberg M R 1973 Cluster Analysis for Applications Academic Press New York Anderson T W 1963 Asymptotic theory for principal component analysis Ann Math Statist 34 p 22 148 Anderson T W Rubin H 1956 Statistical inference in factor analysis Proc of the 3rd Berkeley Symp on Math Statist 5 p 111 150 Balbi S 1994 L Analisi Multidimensionale dei dati negli anni 90 Dipartimento di Matematica e Statistica Univ Federico Il Rocco Curto Editore Napoli Ball G H Hall D J 1967 A clustering technique for summarizing multivariate data Behavioral Sciences 12 p 153 155 Becue M 1991 Analisis de Datos Textuales CISIA Saint Mand Benz cri J P Jambu M 1976 Agr gation suivant le saut minimum et arbre de longueur minimum Les Cahiers de l Analyse des Donn es 1 p 441 452 Benz cri J P 1973 L Analyse des Donn es Tome 1 La Taxinomie Tome 2 L Analyse des Correspondances Dunod
141. ficiels Le tableau de donn es de cet exemple dispose en ligne les 96 cat gories de r pondants et en colonne les 5 caract ristiques de base le genre l ge l ducation et l agglom ration de r sidence soit 5 variables nominales les 38 activit s quotidiennes et 5 fr quentation m dia soit 43 variables continues A la crois e de la ligne i et de la colonne j est mentionn apr s l identificateur de l individu le cumul du temps pass en minutes par jour pour l activit j par les individus de la cat gorie i L objectif est de d finir les associations entre les diff rentes activit s consid r es comme variables actives et d tudier le lien entre ces associations et la fr quentation des m dias et aussi les caract ristiques socio conomiques consid r es comme variables suppl mentaires A partir d un fichier de type Excel deux fichiers en format Dtm Vic sont import s Ils sont contenus dans le dossier EX _AO1 PrinCompAnalysis Ils peuvent tre ouverts avec un diteur de texte bloc note notepad Ultraedit TotalEdit Notepad ou l diteur de texte interne de Dtm Vic 11 1 Analyse en composantes principales 23 o St a 2 H 1123 nath Patria Moy tr 453 2123 H Moy Actif Sec 433 1 49 8 299 7 22 6 22 4 51 4 98 9 49 41 4 1 Tableau de donn es Budget temps premi res lignes 1 Le fichier dictionnaire PCA_dic txt Ce fichier est accessible da
142. g a series of ci DECAT Automatic description of IPFIT 9 Re Weighting the observatic Numerical Data principal a PCA Principal Components Analys SCA Simple Correspondence Anal MCA Multiple Correspondence Ane Textual Data CORTEX Preprocessing of texts VISUTEX Visualization of Texts VISURESP Visualization of resp Numerical and Textual Data ANALEX Analysing through SCA VISURECA visualization and cl MCA TEXT MCA Clustering Analyse descriptive univari e BAS Demande de tableaux crois s TAB des variables continues ou nominales Description automatique d une variable par une s rie de variables nominales DECAT Redressement de l chantillon IPFIT Iterative Proportional Fitting Analyse statistique exploratoire de donn es num riques Enchainement d une analyse factorielle Analyse en Composantes Principales PCA Analyse des Correspondances Simples SCA Analyse des Correspondances Multiples MCA et d une classification k means et classification ascendante hi rarchique Voir chapitre II Analyse statistique exploratoire d un corpus de textes CORTEXT supprime ou regroupe des mots lemmatisation sommaire empirique VISUTEXT r alise une analyse des correspondances simples d une table lexicale voir chapitre III VISURESP r alise une analyse directe de r ponses ouvertes Analyse statistique exploratoire de questions ouvertes voir chapitre IlI ANALEX r alise une analyse des correspondances sim
143. gart TreeTagger est un analyseur morpho syntaxique ind pendant des langues dans son principe Les informations et le t l chargement se font partir du site web http www ims uni stuttgart de projekte corplex TreeTagger On notera que TreeTagger n a pas d interface graphique Il fonctionne avec ligne de commande Comme sugg r par Helmut Schmid on peut utiliser l interface Windows plus conviviale WinTreeTagger r alis e par Ciarn O Duibhin http www smo uhi ac uk oduibhin oideasra interfaces winttinterface htm Noter que le fichier alimentant WinTreetagger doit imp rativement tre un fichier texte au format Dtm Vic Le nouveau fichier a importer issu de WinTreetagger contient trois colonnes s par es par des tabulations Premi re colonne occurrence Deuxi me colonne Etiquette grammaticale Troisi me colonne Lemme Un tel fichier contient autant de lignes qu il y a d occurrences et de signes de ponctuation voir le Help de Dtm Vic C est ce fichier que la proc dure remet en format Dtm Vic iv Fragmentation d un texte en format 1 textes s par s par en textes de format 2 Le bouton Fragmentation of a Dtm text format 1 into a Dtm Text format 2 permet de fragmenter les textes importants en petites unit s de longueurs variables Ces unit s sont form s de une ligne deux lignes des textes initiaux il s agit approximativement d une fragmentation en unit s de contexte
144. gation autour des centres mobiles ou cartes auto organis es offrent des avantages 31 On se r f re dans la pr sentation de l algorithme au cours de P Letremy et M Cottrell SAMOS MATISSE Universit Paris I Voir aussi Thiria et al 1997 210 VII Annexe statistique incontestables puisqu elles permettent d obtenir une partition sur un ensemble volumineux de donn es un faible co t mais elles pr sentent l inconv nient de fixer a priori le nombre de classes et de produire des partitions d pendant des premiers centres choisis Au contraire la classification hi rarchique est une famille d algorithmes que l on peut qualifier de d terministes i e qui donnent toujours les m mes r sultats partir des m mes donn es Par contre si ces algorithmes donnent des indications sur le nombre de classes retenir ils sont mal adapt s aux vastes recueils de donn es Aussi on proc de souvent une classification mixte qui cumule les avantages des deux types de classification VII 9 1 Strat gie de classification mixte La classification autour des centres mobiles peut en fait tre utilis e comme auxiliaire d autres m thodes de classification En fournissant des partitions de vastes ensembles de donn es elle permet de r duire la dimension de l ensemble des l ments classer en op rant des regroupements pr alables De ce fait un algorithme de classification qui para t actuellement bien adapt au partitionnement d u
145. git encore de Enqu te Life volet britannique de l enqu te internationale sur les attitudes et valeurs voir section pr c dente III 2 1 Nous nous int ressons ici aux deux premi res questions que nous voulons analyser directement sans regroupement pr alable Qu est ce qui est le plus important pour vous dans la vie Quelles sont les autres choses tr s importantes pour vous Nous voulons d tecter quelles sont les variables nominales les plus li es aux r ponses pour ventuellement les utiliser pour proc der aux regroupements de r ponses comme proc dure ANALEX de la section pr c dente La section III 2 a donn toutes les informations n cessaires sur les trois fichiers Dtm Vic de base qui vont tre utilis s Fichier de donn es pour les questions ferm es TDA_dat txt Fichier dictionnaire des questions ferm es TDA_dic txt Fichier des textes des questions ouvertes TDA_tex txt 111 3 2 Mise en uvre de l analyse textuelle directe des r ponses VISURECA Le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Dans le menu principal cliquer sur Create de Juliette Rat Une fen tre Choosing among some basic analysis appara t gt S lectionner l analyse VISURECA Visualization and Clustering of responses with categorical data as suplementary elements dans la rubrique Textual Data 111 3 Analyse directe de r ponses libres 95 IAB Cros
146. gorithme L algorithme d apprentissage pour classer m points est it ratif L initialisation consiste associer chaque classe k un centre provisoire C q composantes choisi de mani re al atoire dans l espace q dimensions contenant les m mots classer A chaque tape on choisit un mot 7 au hasard que l on compare tous les centres provisoires et l on affecte le mot au centre C le plus proche au sens d une distance donn e a priori On rapproche alors du mot le centre C et les centres voisins sur la carte ce qui s exprime l tape t par C t 1 C t e i t 1 C t o i t 1 est le mot pr sent a l tape t 1 un param tre d adaptation positif et inf rieur 1 Cette expression n intervient que pour le centre C ky et Ses voisins Cet algorithme est analogue a celui des centres mobiles mais dans ce dernier cas il n existe pas de notion de voisinage entre classes et on ne modifie 4 chaque tape que la position du centre C L auto organisation de la carte de Kohonen est la cons quence de la notion de voisinage Comme l algorithme des centres mobiles cet algorithme est tr s adapt aux applications o les donn es sont importantes et o il n est pas utile de les stocker VII 9 Classification mixte ou hybride Les algorithmes de classification sont plus ou moins bien adapt s la gestion d un nombre important d objets classer Les m thodes de partitionnement agr
147. h comfgrtable your m tep keep hae somtort bhi a cing 50 t satisfaction k not den le education grandckidre well ie g after a75 600 08 would Ps gt t A as 076 eng o mn be ae a es ree Sdog iryo Ma mamproumass nou standard an he site tu CR a general SGEN cee should avery bleh j ee ae way NE amg j ae other ne securiy 27 nan ae Zones de confiance pour quelques mots et quelques cat gories 90 Ill Donn es textuelles et mixtes Commentaires Nous pouvons voir que individuellement quelques mots n ont aucune position significative everything et anything par exemple Dans cet affichage nous apprenons par exemple que presque tous les groupes d ge ducation points colonne ont des profils lexicaux distincts si l on excepte les cat gories 30 low moins de 30 ans de bas niveau de l ducation et 30 medium moins de 30 ans niveau moyen d ducation dont les zones de confiance se recouvrent en grande partie 4 ClusterView Dans le cas particulier d ANALEX ClusterView le d crit pas les classes d une classification mais les cat gories de la variable active Cette option positionne les 9 cat gories de la variable 14 educ age sur le plan factoriel et fournit les mots et textes caract ristiques pour chacune de ces cat gories gt Cliquer sur Fa ClusterView Choisir les axes 1 et 2 pour commencer et Continue
148. h rence globales ne sont pas des retomb es accidentelles des explorations mais bien un de leurs objectifs fondamentaux explicitement ins r dans une d marche critique qui voit le recueil comme une construction et m me dans une certaine mesure une fabrication de l information OK Dans la version 5 de Dtm Vic a laquelle ce manuel d utilisation se r f re principalement l interface du logiciel est en Anglais mots cl s rubriques d aide noms des analyses option qui tient compte du fait que les deux tiers des utilisateurs du logiciel sont non francophones Le public francophone de chercheurs et de charg s d tude n aura cependant pas de mal piloter le logiciel dans ces conditions Il est difficile pour une petite quipe et pour un logiciel dont l acc s est libre non subventionn de maintenir plusieurs versions dans des langues diff rentes Une version fran aise est toutefois projet e moyen terme Les limites actuelles du logiciel r visables en ce qui concerne la taille des donn es d entr e sont les suivantes 30 000 lignes ces lignes sont des individus ou observations 1200 colonnes variables num riques continues variables num riques codant des variables nominales une variable nominale une colonne 100000 caract res pour les r ponses textuelles d un individu observation mais pas de limite pour un texte non associ un fichier num rique Ce format correspond la grande majorit des appl
149. i appartient la classe I s il est plus proche de C que de tous les autres centres Etape 1 On d termine q nouveaux centres de classes Core q en prenant les centres de gravit des classes qui viennent d tre obtenues 0 0 0 Hs poke nee Ces nouveaux centres induisent une nouvelle partition P de I construite selon la m me r gle que pour Po La partition P est form e des classes not es A Etape m On d termine q nouveaux centres de classes m m m NAT A fli E Gia yer Les classes sont alors d limit es dans l espace par les cloisons poly drales convexes form es par les plans m diateurs des segments joignant tous les couples de centres 208 VII Annexe statistique en prenant les centres de gravit des classes qui ont t obtenues lors de l tape pr c dente m 1 m 1 m 1 Ii roe mis yee hy ys m 7 Ces nouveaux centres induisent une nouvelle partition P de l ensemble I form e des classes m m m TES FARES ia Le processus se stabilise n cessairement et l algorithme s arr te soit lorsque deux it rations successives conduisent la m me partition soit lorsqu un crit re convenablement choisi par exemple la mesure de la variance intra classes cesse de d cro tre de fa on sensible soit encore parce qu un nombre maximal d it rations a t fix a priori G n ralement la partition obtenue finalement d pend du choix initial des centres Pr cisons qu
150. ic Figure VI 5 Plan factoriel principal pour le graphe France avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour Le signe des axes arbitraire peut tre chang pour retrouver l orientation initiale VI 3 7 Ex cution de l exemple Japan_map Dossier Geography Cette section est identique la pr c dente ainsi qu la section V1 3 3 Ex cution de l exemple Chessboard_Textual Le graphique est maintenant une esquisse d une carte du Japon cod e comme les r ponses la question ouverte Quelles sont vos r gions voisines les r pondants fictifs tant les m mes r gions du Japon Le dossier Japan_map contient les trois fichiers homologues des pr c dents texte externe et param tre Japan_map_Textual tex txt Japan_map_Extern txt et Japan_map_Textual Param txt VI 3 Description de graphes 171 Se ace akita iwate AeA aomori iwate yamagata miyagi shen aomori akita miyagi yamagata akita miyagi niigata fukushima Extrait du fichier de donn es textuelles Japan_map_Textual tex txt trois premi res r gions Ici les r gions sont consid r es comme des individus s parateur alors que les d partements ont t consid r s comme des textes s parateur Les deux codages sont possibles dans cette configuration simple La m me s quence d op ration conduit au graphique suivant dont la fo
151. ications aux enqu tes socio conomiques aux fichiers issus des enqu tes de gestion ou de satisfaction aux relev s cologiques aux analyses sensorielles etc On a choisi dans ce manuel apr s une br ve pr sentation du logiciel chapitre 1 de pr senter six exemples de traitement sur des donn es d j pr par es c est dire pr sent e dans un format convenable et fournies avec le logiciel chapitre II et lll Ces exemples correspondent des utilisations fr quentes de Dtm Vic L utilisateur apprendra cr er lui m me un fichier de commande partir de l interface propos e On trouvera successivement une analyse en composantes principales encha n e avec une classification et pour les classes un 2 Statistique textuelle Ludovic Lebart Andr Salem 1994 Dunod Paris La version anglaise Exploring Textual Data L Lebart A Salem E Berry 1998 Kluwer Dordrecht inclut des exemples utilis s dans ce manuel Pr sentation g n rale 7 positionnement factoriel et une description automatique une analyse des correspondances une analyse des correspondances multiples galement compl t e par une classification une analyse factorielle lexicale d une s rie de texte puis dans le cadre d une enqu te une analyse des correspondances d une table lexicale construite partir d une question ouverte et d une question ferm e enfin une analyse et une classification directe des r ponses une question ouverte
152. ie que l on a observ des valeurs non num riques la lettre N indique que ce sont uniquement des valeurs num riques Il est alors plus facile de choisir le statut des variables correspondant la deuxi me tape de cette proc dure Pour cela gt 2 Select types S lectionner une ou plusieurs variables dans la liste de la fe n tre centrale puis sp cifier leur statut en cliquant sur IV 1 Importation XL 109 CHAR gt pour une variable nominale ou cat gorielle ici les variables signal tiques 1 2 4 et d opinion 7 12 J NUM gt gt pour variable num rique ou continue ici la variable 3 Age TEXT gt pour les variables textuelles les r ponses aux questions ouvertes variables 5 6 13 DISCARD gt pour abandonner des variables gt Une fois l attribution du statut accompli cliquer sur le bouton 3 Updating and continue puis r pondre OK sur le number of observations Cette proc dure cr e un nouveau fichier d importation nomm automatiquement New_typevar_datbase_global csv dont la deuxi me ligne contient les types des variables Mais l utilisateur n a pas se pr occuper de ce fichier DimVic Format type XL 1 Finding the states of each variable basic frequencies Select Input Data file 2 distinct values req value 3 AGE 73 N 4 EDUCATION 3 N e 5 Important_Life 602 A AGE_CODE 6 Important probe 1293 A 7 CHANGE_LAST_ YEARS 6 N 1
153. ien not tous les mots 16 Le plan 2 3 a t consid r comme le plan s miom trique principal compte tenu du caract re particulier du premier axe axe dit de taille cf La s miom trie chapitre 5 M thodes factorielles Classification 191 Matrice des corr lations l arbr cade dang mora orag poli sens ee Ss OEE E eee arbr 1 00 cade 55 1 00 dang i29 14 1 00 mora 16 62 36 1 00 orag AL 09 54 0 1 00 poli 00 63 23 91 05 1 00 sens 556 08 45 30 68 37 1 00 morale politesse one sensuel cadeau Fig A 4 a Repr sentation des r pondants Fig A 4 b Repr sentation des dans le plan factoriel 2 3 mots dans le plan factoriel 2 3 Figure A 4 Analyse en composantes principales sur le tableau des notes de 7 mots par 12 r pondants VII 3 4 Analyse du nuage des variables Les coordonn es factorielles 9 j des points variables sur laxe sont les composantes de u y4 etl ona 9 cor j w La coordonn e 9 j d un point variable j sur un axe n est autre que le coefficient de corr lation de cette variable avec le facteur yw combinaison lin aire des variables initiales consid r lui m me comme une variable artificielle dont les coordonn es sont constitu es par les n projections des individus sur cet axe Les axes factoriels tant orthogonaux deux deux on obtient ainsi une s rie de variables artificielles non corr l es
154. imum du graphe borne sup rieure du nombre d ar tes adjacentes un seul sommet 10 Noter que chaque ligne de nombres se termine avec la valeur conventionnelle O indicateur de fin de ligne pour ce format Ce format sp cifique tr s compact peut conduire directement une description du graphe dans le sous menu contiguit de DtmVic a 3 Un fichier de donn es textuelles Chessboard_textual_7x7 txt Le fichier Chessboard_textual_7x7 txt dans le sous sous r pertoire Chessboard_textual contient les m mes informations de base sous une forme tout fait distincte le format est celui des r ponses une question ouverte Chaque sommet du graphe est consid r comme une personne interrog e r pondant la question ouverte fictive Quels sont vos voisins Au lieu d une matrice binaire M nous avons affaire ici un tableau beaucoup plus petit contenant l adresse num ro de colonne des 1 dans la matrice M Les commandes de Chessboard_Textual Param txt conduisent aux m mes r sultats que l analyse des correspondances de l alin a pr c dent en utilisant toutefois une s quence d tapes bien distinctes de Dtm Vic C est un exemple p dagogique de pont entre les mesures num riques et textuelles du DtmVic Attention Avec ce type de donn es les chiffres ne sont pas consid r s comme des nombres au sens math matique du terme mais comme de simples s quences de caract res Voir ci dessous l exemple des cartes du
155. ing of course people from different races and culture have settled in here i e Irish Jewish Asians and the British culture is working alright 1008 job sometimes it is very hard to find a job Tableau 4 Fichier texte de questions ouvertes en format interne Dtm Vic type 2 Commentaires Trois individus ont r pondu trois questions ouvertes Le format est libre sur 200 colonnes Le s parateur entre les individus est suivi par l identifiant de l individu moins de 20 caract res les questions sont s par es par la fin du fichier est mentionn par Tous les s parateurs occupent les 4 premi res colonnes Note les lignes vides correspondent des non r ponses le dernier r pondant n a pas donn de r ponse aux deux derni res questions ouvertes au moins une ligne vierge est n cessaire dans ce cas Attention l ordre des individus doit tre celui du fichier de donn es num riques Noter que la limitation est de 12 questions ouvertes par fichier texte mais il peut y avoir plusieurs fichiers Pourquoi deux formats pour les donn es textuelles Contrairement aux donn es num riques les textes peuvent poser des probl mes d chelle de dimensions et donc de limites Le format type 1 s parateurs permet d accueillir des textes fort longs par exemple les romans de la Com die humaine de Balzac Chaque texte peut tre long mais le nombre de texte
156. ing among some basic analyses 42 Il Donn es num riques gt S lectionner l analyse SCA Simple Correspondence Analysis dans la i rubrique NUM IR EL ER EECA e E Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t Etape 2 S lection des fichiers dictionnaires et de donn es gt Cliquer sur le bouton Open a dictionary Dans le dossier EX_A02 SimpleCorAnalysis du jeu d exemples de Dtm Vic ouvrir le fichier SCA_dic txt Il s affiche dans une premi re fen tre La liste et le statut num rique par d faut dans cet exemple des variables sont indiqu s dans une deuxi me fen tre F Selecting dictionary and data Radio Television Quot_Nat 1 Open a dictionary Dtm format ru Magazine Mag TV Radio numerical Television numerical List of variables check Quot_Net numerical Quot_Reg numerical numerical Magazine Mag_IV numerical 96 F ns 2 71 50 171 t mater 122 138 11 7649 1 format M sup 163 184 74 63 1 1 More Data 20 PE Os FAC Din Km DE 380 365 63 145 141 1841 t S11 593 57 217 172 3061 Ouvier quali 385 457 42 174 104 201 Duviienon_quat 156 185 8 42 851 3 Continue select active and supplementary elements a gt Les colonnes de fr quences pour une variable nominale donn e sont consid r es ici comme des variables num riques Nous verrons que pour l analyse des correspondances multiples section II 3 ci apr s
157. ing change as is false women s fashion an eye more bright than theirs less false in rolling gilding the object whereupon it gazeth a man in hue all hues in his controlling much steals men s eyes and women s souls amazeth and for a woman wert thou first created gt Pour un ensemble plus important de sonnets et les commentaires attenants se reporter au site http www shakespeare online com sonnets IIl 1 Simples textes Po mes 65 till nature as she wrought thee fell a doting and by addition me of thee defeated by adding one thing to my purpose nothing but since she prick d thee out for women s pleasure mine be thy love and thy love s use their treasure Les textes pouvant avoir des longueurs tr s diff rentes une ligne sp cifique s pare un sonnet d un autre Elle est caract ris e par des s parateurs suivis de 4 espaces blancs et du nom du texte Le symbole indique la fin du fichier Comme tous les fichiers de donn es en format Dtm Vic celui ci est en format txt La conversion en minuscules permet ici de ne pas traiter diff remment le premier mot de chaque vers x L objectif est de d crire les textes a partir de la table de contingence lexicale croisant les textes avec les mots les plus fr quents La m thodologie g n rale la base du traitement est pr sent e dans les livres Statistique textuelle L Lebart A Salem Dunod 1994 et Explo
158. inition des axes mais dont 35 Les valeurs test permettent surtout de classer les modalit s suppl mentaires par ordre d int r t d croissant ce qui constitue une aide pr cieuse l interpr tation des facteurs 38 Cf par exemple Hochberg 1988 Perneger 1998 M thodes factorielles Classification 217 on veut conna tre les positions dans les espaces factoriels On projette alors ces points apr s la construction des axes factoriels dans ce nouveau rep re Cette projection se fait de fa on tr s simple en utilisant les formules dites de transition que ce soit en analyse en composantes principales ou en analyse des correspondances C est le cas lorsque l on souhaite caract riser les axes s miom triques par les crit res socio d mographiques variables nominales de la population enqu t e cf section VI 1 Ces crit res d finissent en fait des groupes d individus et sont consid r s comme des modalit s de variables nominales Ce sont les centres de gravit de ces groupes qui sont positionn s dans l espace des variables La valeur test permet d en appr cier la significativit sur l axe VII 10 4 Intervalles de confiance d Anderson Anderson 1963 a calcul les lois limites des valeurs propres d une analyse en composantes principales sans n cessairement supposer que les valeurs th oriques correspondantes sont distinctes L ampleur de l intervalle donne une indication sur la stabilit d
159. ion l espace factoriel d fini par les axes principaux d inertie et l on repr sente les points du nuage dans ce syst me d axes cf figure A 4 Ces axes r alisent les meilleurs ajustements de l ensemble des points selon le crit re classique des moindres carr s qui consiste rendre minimale la somme des carr s des carts entre les points et les axes S Elles comprennent dans la litt rature statistique fran aise des trente derni res ann es toutes les techniques de repr sentation utilisant des axes principaux analyse en composantes principales analyse des correspondances simples et multiples analyse factorielle dite classique en anglais factor analysis ou analyse en facteurs communs et sp cifiques M thodes factorielles Classification 187 mot 2 r pondant axe principal mot 1 Figure A 4 Ajustement du nuage des points individus dans l espace des mots Le premier de ces axes correspond a la droite d allongement maximum du nuage le second axe maximise le m me crit re en tant assujetti tre orthogonal au premier et ainsi de suite pour les axes suivants qui sont tous orthogonaux entre eux Cette orthogonalit traduit l ind pendance en fait la non corr lation des axes X d signe le tableau de donn es ayant subi des transformations pr liminaires variables centr es r duites par exemple X son transpos Soit u le vecteur unitaire qui caract rise le premier
160. ion a partir d une variable nominale La visualisation pr c dente va tre reprise mais au lieu d utiliser une partition fournie par un algorithme de classification nous allons utiliser la partition induite par les cat gories d une variable nominale sp cifique II s agit de la variable num ro 142 VI Autres analyses avec Dtm Vic 76 sexe s lectionn e et extraite travers les deux tapes SELEC et EXCAT ces tapes se situent la fin du fichier de commande Noter que EXCAT n est pas pr vu dans les g n rations par menu des fichiers de commandes et s obtient directement partir d une dition fichier de commande gt Cliquer nouveau sur M Visualization gt Dans la fen tre intitul e DTM visualization Loading files Selecting axes cliquer sur Load coordinates Dans le sous menu correspondant choisir a nouveau le fichier ngus_ind txt Les coordonn es des individus lignes sont s lectionn es gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant choisir le fichier part_cat txt La partition induite par les cat gories de la variable 76 sexe est charg e gt Cliquer sur Graphics puis choisir encore les axes 2 et cliquer sur Continue puis sur DISPLAY Le Plan factoriel 2 3 s affiche gt Cliquer sur le bouton C Hull Convex Hull Enveloppe convexe La figure ci dessous repr sente alors les 300 individus dans le plan 2 3 avec une couleur par classe e
161. iquer sur le bouton Create a DTM Parameter file pour obtenir des statis tiques l mentaires sur les variables num riques et noiminales Une fen tre create a first parameter file appara t sur l cran gt Cliquer alors sur Create a first parameter file Un fichier de commande de DtmVic est affich dans la fen tre inf rieure dans DtmVic les expressions fi chier de param tre et fichier de commande sont quivalentes Les op ra tions et les commentaires restent identiques ceux de l introduction Le fichier param tre n inclut aucune commande d analyse statistique labor e Il se limite au calcul des statistiques de base des variables Il sert simplement de contr le l importation des donn es num riques Il est automatiquement sauvegard sous le nom de param_start txt dans le dossier de travail gt Cliquer enfin sur Execute La fen tre d ex cution identique toutes proc dures d analyse appara t dans la fen tre du menu principal IV 1 Importation XL 113 DtmVic Create a starting parameter file basic statistics for the new data file Create a first parameter file E Return to Main Menu Ba DTM BASIC PARAMETER FILE param_starttt The parameter file entitled AA OOOO param_start txt Comments symbol Continuation symbol gt will provide a list of the variables Dummy line e g title mandatory immediately after each line STEP together wth Iher basic LISTF NO
162. ires l analyse au format Dtm Vic d crits dans le paragraphe 1 5 22 Il Donn es num riques 11 1 Analyse en Composantes Principales ACP ou PCA Ce premier exemple voir r pertoire DtmVic Examples_A_Start EX_A01 PrinCompAnalysis vise a d crire un ensemble de variables continues par l Analyse en Composantes Principales sur la m thodologie de l ACP voir aussi la section VII 3 de ce manuel 11 1 1 Les donn es et fichiers Dtm Vic Exemple Enqu te budget temps Les donn es sont extraites d une Enqu te Budget temps Multim dia effectu e par le Centre d tude des Supports de Publicit www cesp org en 1992 aupr s de 18000 personnes Ont t relev s le temps pass diverses activit s quotidiennes travail loisirs d placements repas repos soit 39 activit s de V6 V44 ainsi que le temps de fr quentation de divers m dias radio t l vision presse soit 5 m dias de V45 V49 Le temps est exprim en minutes par jour Il est mesur le jour pr c dant l entrevue Ont galement t relev es les caract ristiques socio conomiques du r pondant telles que l ge le sexe l activit le niveau d ducation et le lieu de r sidence correspondant 5 variables nominales de V1 V5 Les 18 000 r pondants originaux sont group s selon les combinaisons de cinq caract ristiques socio conomiques produisant 96 groupes qui constituent en quelque sorte des r pondants arti
163. is and Related Techniques M Greenacre and J Blasius eds Validation Techniques in Multiple Correspondence Analysis L Lebart Chapman and Hall 2006 gt Pour revenir au menu principal VIC cliquer selon la fen tre soit sur la croix en haut droite soit sur Return telemrsp jusicestes_bien sait sarte non soltude tres Exemples de zones de confiance bootstrap 4 Classification Cette option positionne les classes obtenues sur le plan factoriel gt Cliquer sur F4 ClusterView Choisir les axes 1 et 2 pour commencer et Continue La fen tre DTM Display of clusters appara t gt Cliquer sur View Les centro des des 5 classes apparaissent sur le plan factoriel gt Actionner le bouton Categorical du bandeau Puis en cliquant droit sur une classe les variables descriptives de la classe apparaissent L ensemble des r sultats figure dans la proc dure DECLA du fichier de r sultats 62 1 Donn es num riques Un clic droit sur l tiquette d une classe provoque l affichage des l ments les plus caract ristiques de la classe L activation des l ments numerical categorical se fait sur le bandeau sup rieur du graphique On verra propos des analyses textuelles que la m me proc dure ClusterView permet d afficher aussi les mots caract ristiques des classes pour la r ponse des individus a une question ouverte et les r ponses c
164. is ex cution du fichier de commande I La seconde tape MAAS T fournit les outils de visualisation de validation et d interpr tation des r sultats On peut galement voir sur l cran d accueil deux rubriques optionnelles la bo te outils qui propose diff rents types de recodage de stockage des donn es et la rubrique consacr e certaines analyses d images Ce manuel doit permettre de proc der une mise en oeuvre de ces tapes de calcul et de visualisation Certaines d entre elles les plus sp cifiques du logiciel mentionn es dans la pr sentation ci dessous seront d taill es dans les diff rentes parties du manuel Toutes les analyses rel vent d un m me enchainement d tapes Pr sentation g n rale 9 Lu S lection d une analyse 2 Ouverture des diff rents fichiers de donn es dans le format Dtm Vic Choix des variables Choix des diff rents param tres sp cifiques l analyse 3 Cr ation d un fichier de commande 4 Ex cution du fichier de commande 5 Visualisation des r sultats Pour obtenir des aides sur les param tres ou les fichiers cliquer sur les boutons Help dans la barre du haut qui s affichent alors en rouge Pour supprimer l affichage d une rubrique d aide cliquer nouveau sur le bouton Le tutoriel en anglais est alors accessible 1 1 Mise en place des fichiers de donn es gt Cliquer sur Data Importation Preprocessing Data Capture Expo
165. ise de nj objets parmi n en fonction de la variance totale A qui est aussi dans le cas des coordonn es factorielles la valeur propre correspondant l axe a Les coordonn es sur un axe des individus correspondant une modalit active ne peuvent tre consid r es comme tir es au hasard puisque la modalit a contribu construire l axe 216 VII Annexe statistique VII 10 2 Probl mes de comparaisons multiples Le calcul simultan de plusieurs valeurs test ou de plusieurs seuils de probabilit s se heurte l cueil des comparaisons multiples bien connu des statisticiens cf O Neill et Wetherill 1971 Saville 1990 Westfall et Young 1993 Westfall et al 1999 Hsu 1996 Supposons que l on projette 100 modalit s suppl mentaires cf section suivante VIL 10 3 qui soient vraiment tir es au hasard Les valeurs test attach es a ces modalit s sont alors toutes des r alisations de variables al atoires normales centr es r duites ind pendantes Dans ces conditions en moyenne sur 100 valeurs test calcul es cinq seront en dehors de l intervalle 1 96 1 96 et seront en apparence seulement significatives Le seuil de 5 n a de sens en fait que pour un seul test et non pour des tests multiples On r sout en pratique cette difficult en choisissant un seuil plus s v re Le seuil le plus s v re et pessimiste que l on puisse imaginer est le seuil de Bonferroni on divise le
166. istiques de la classe correspondante variables num riques cat gories et galement mots ou r ponses dans le cas des questions ouvertes El kohonen Map cartes de Kohonen Cartes auto organis es des individus des variables et simultan es des individus et des variables a partir des coordonn es factorielles Grilles carr es de dimensions 3 x 3 a 20 x 20 M Visualization Outils compl mentaires de visualisation Visualisations compl mentaires des plans factoriels et de la classification Ellipse de densit ou enveloppes convexes des classes Trac de l arbre de longueur minimal des plus proches voisins dans les plans factoriels Visualisation p dagogique de la construction progressive des classes cas de la proc dure k means nu es dynamiques Visualisation dans les plans factoriels des grilles de Kohonen et de certains graphes E ES Contiguity analyse de contig it Analyse locale structure de graphe L analyse de Contig it rel ve des techniques d analyse locale qui sont pr sent es au chapitre 8 de l ouvrage pr cit Statistique exploratoire multidimensionnelle Elle consid re le cas o les observations ont une structure de graphe a priori mais aussi lorsque le graphe est intrins que graphe des plus proches voisins par exemple Elle g n ralise l analyse discriminante de Fisher qui correspond au cas particulier du graphe associ une partition 14 Pr sentation g n rale L an
167. lasses 11 1 Analyse en composantes principales 39 Commentaire En actionnant ce bouton num rique nous observons le lien entre les variables num riques variables actives et suppl mentaires du fichier de donn es et les 7 classes En raison du petit nombre d individus de l exemple certaines classes ne produisent pas des r sultats significatifs Dans le cadre de cet exemple les autres rubriques du menu principal ne sont pas appropri es 40 Il Donn es num riques 11 2 Analyse des correspondances AC ou SCA Ce deuxi me exemple vise d crire un petit tableau de contingence par l analyse des correspondances les donn es sont dans le r pertoire DtmVic Examples_A_Start EX_A02 SimpleCorAnalysis 11 2 1 Les donn es et fichiers Dtm Vic Exemple Fr quentation multim dia Les donn es proviennent d une enqu te multim dia par chantillonnage effectu e par le CESP en 1992 pour laquelle on retient ici deux variables nominales une variable m dia 6 modalit s radio t l vision presses nationales et r gionales magazines magazines de TV et une variable statut d activit 8 modalit s agriculteur petit patron cadre sup rieur profession interm diaire employ ouvrier qualifi ouvrier non qualifi inactif Le tableau de contingence consid r est obtenu par croisement de ces deux variables Les 6 modalit s m dias sont repr sent es en colonne et les 8 modalit s
168. lcul Choisir alors No partition gt 1 cliquer sur Min Span Tree Minimum Spanning Tree Choisir le nombre d axes qui serviront calculer l arbre de longueur minimale par exemple ici les 3 premiers axes Confirmer en cliquant OK sur le nombre d axes conserv s gt 2 Cliquer sur N N recherche de plus proches voisins Nearest Neighbours limit 20 NN R pondre OK la recherche des plus proches voisins gt 3 Cliquer sur Graphics puis choisir encore les axes 2 et 3 qui constituent le premier plan s miom trique car l axe 1 est une axe de notation dans la fen tre S lection des axes et cliquer sur Continue puis sur DISPLAY Le Plan factoriel 2 3 s affiche Dans le bandeau de gauche de la fen tre Graphics figurent quatre familles de boutons e Le bouton MST Minimum Spanning Tree trace l arbre de longueur mini male e Le bouton N N Nearest Neighbours plus proches voisins joint chaque point a ses voisins les plus proches Le bouton N N up permet d incr men ter le nombre de plus proches voisins lt 20 e Sur la barre d outils verticale gauche on appuie sur un bouton pour l activer couleur rouge et on appuie de nouveau pour le d sactiver couleur noire 144 VI Autres analyses avec Dtm Vic La figure ci dessous montre l espace des mots plan 2 3 avec le trac de l arbre de longueur minimum Cet arbre tant calcul dans l espace des trois premiers axes il a
169. le fichier Excel sauvegard avec des tabulations o des virgules et le convertir Un nouveau nom est donn au fichier cr Le proc d d importation continuera d employer ce nouveau fichier Dans tous les cas gt Cliquer sur le bouton Start the importation process Une nouvelle fen tre Format type XL Finding the states of each categorical vari able basic frequencies appara t gt Cliquer sur 1 Select Input Data file et ouvrir le fichier XL en format csv Pour l exemple on choisit le fichier datbase global csv dans le r pertoire DtmVic_Examples_D_Import EX_D01 Importation Num_Text gt R pondre OK la bo te de message amp DtmVic Format type XL r Finding the states of each variable basic frequencies 1 Select Input Data file gt 2 Select types 3 Update and continue our Regarder dans EX_DO1 Importation XL y ao Br Nom v Date demo v v Taille Fa New_typevar dathase_global csv 30 09 2012 18 32 0Ko CLEAN_dtm ffles_5LBAT 04 01 2011 19 47 2Ko readme l4 tkt 21 12 2010 18 01 1Ko eS datbase global csv 18 06 2010 17 37 a datbase_global xls 18 06 2010 17 37 359 Ko Le descriptif des variables s affiche dans la fen tre de gauche Dans la fen tre centrale nous pouvons lire entre crochets le nombre de valeurs distinctes observ es dans le fichier et entre parenth ses une lettre A ou N La lettre A signif
170. les et une variable nominale d crivant l appartenance aux esp ces trois esp ces d iris setosa versicolor virginica R f rence Anderson E 1935 The irises of the Gaspe Peninsula Bulletin of the American Iris Society 59 2 5 VI 2 Donn es num riques et Contig it 149 Le fichier de donn es iris dat txt comprend donc 150 lignes et 6 colonnes l identificateur de lignes entre quotes suivi de 5 valeurs correspondant 4 variables num riques et une variable nominale s par es par au moins un espace b Dictionnaire iris_dic txt Le fichier dictionnaire iris_dic txt contient les identificateurs de ces 5 variables Dans cette version du dictionnaire interne Dtm Vic les identifiants des cat gories doivent commencer en colonne 6 une police a intervalles fixe courrier par exemple repr sente clairement ce genre de format c Fichier de commandes EX_C02_Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessite quelques param tres d crits bri vement dans le menu principal de Dtm Vic bouton Help about parameters Notons qu un autre fichier de commande similaire mais pas forc ment identique au fichier de commande EX C02 Param txt peut galement tre g n r en cliquant sur le bouton Create rubrique CHERE du menu principal Basic Steps Proc der alors comme le montre le premier exemple de la section II 1 d volu l analyse en composantes pri
171. les mots et les po mes gt Cliquer sur Rows columns Une fen tre Kohonen map apparait F1 Kohonen Map or SOM map Press the Contiguity matrices button if you contiguity matrix associated with the SOM map for further investigation Press the Random Start button for starting a new SOM map from random initial conditions Map 10x10 C Mapi111 Map 1212 Map 13x13 C Map14x14 Map 15 15 C Map 16x16 C Map 17817 C Map18x18 C Map19x19 C Map 20 x 20 gt Choisir la carte map 5x5 puis Continue et r pondre OK la boite de mes sage SOM map completed Une nouvelle fen tre s affiche gt Actionner Draw La Carte de Kohonen appara t Nous avons obtenu une repr sentation simultan e des lignes et des colonnes due l utilisation comme fichier d entr e des coordonn es de l analyse de 76 Ill Donn es textuelles et mixtes correspondance de la table lexicale Dans le cadre de cet exemple les autres articles du menu principal ne sont pas appropri s Notons que pour toute l analyse pr sent e aucune transformation pr alable n a t op r e sur le vocabulaire La proc dure CORTEX aurait pu pr c der la proc dure VISUTEXT pour fusionner des mots formes graphiques relatives un m me lemme ou pour supprimer certains mots mots outils par exemple Toutefois une analyse pr alable des mat riaux bruts est toujours conseill e thou she more s3 S_11 t
172. les ou des observations ou individus travers une m thode de type k means peut tre obtenue et visualis e it ration apr s it ration partir du sous menu Visualization VI 1 1 Les donn es s miom triques Dans la plupart des enqu tes en marketing il est courant d inclure des informations sur les modes de vie et des valeurs des personnes interrog es Ces informations sont g n ralement obtenues par une s rie de questions d crivant les attitudes et les opinions La S miom trie est une technique introduite par Jean Fran ois Steiner L id e de base consiste ins rer dans le questionnaire une s rie de questions compos es uniquement de mots une liste de 210 mots est actuellement utilis e mais il va tre question ici d une liste abr g e contenant un sous ensemble de 70 mots Les personnes interrog es doivent noter ces mots selon une chelle comportant sept niveaux le niveau le plus bas 1 est relatif un sentiment plus d sagr able ou d plaisant vis vis du mot pr sent le plus haut niveau 7 relatif une sensation plus agr able ou plaisante au sujet de ce mot Le traitement des questionnaires par l Analyse en Composantes Principales met en vidence une structure stable la stabilit concerne l espace des 8 premiers axes principaux Des propri t s tr s similaires sont observ es dans dix pays diff rents malgr les probl mes pos s par la traduction de la liste des mots C
173. les et les transf rer dans la seconde fen tre en cliquant sur Select 11 1 Analyse en composantes principales 33 La fen tre du plan factoriel appara t Seve More graphs Mainmenu Sign ofexes Zoom Font Rens Axescolor HEP Enfants os M nage A_pied Relationnel Disque_casse 0 i Visite _amis Sommeil Hres SHE amp Loisirs_exte oilette D placements A cl Restaurant Magazines Mag_TV OURES 275 95 025 Radio a 025 o5 RejRepas T D Promenade rav_Dom En_Voiture Quot_nat Trav_remuner ie Television Fett_Dejeu i Presse Fr quentatio Repos ue Quot_reg Loisirs Jardinage_Br Jeux_Jardina 7 Plan factoriel 1 2 rubrique colonnes actives des variables ou des cat gories Variables continues Activit s en actives en noir et variables continues M dia en suppl mentaires en rouge Dans le cas de cet exemple la premi re rubrique de menu colonnes actives variables ou cat gories contient en fait les variables num riques actives en noir et des variables num riques suppl mentaires en rouge Note Pour chaque graphique le bandeau du haut contient des options Save sauvegarde le graphique en format bmp Font offre la possibilit de modifier la police et la couleur des caract res More graph permet de changer de plan factoriel Sign of axes permet d inverser les axes Rank est utile seulement dans le cas des affichages tr s complexes ce qui n est pas
174. les variables nominales ont le statut de categorical variable comme nous l avons vu a propos de certaines variables suppl mentaires en ACP gt Cliquer sur le bouton Open a Data File Dans le m me dossier EX_A02 SimpleCorAnalysis ouvrir le fichier SCA_dat txt qui s affiche dans une troisi me fen tre Note il est possible qu une bo te de message annonce l existence d une derni re ligne vide Cliquer alors sur OK deux fois gt Cliquer sur 3 Continue gt Une fen tre Selection of active et supplementary elements appara t 11 2 Analyse des Correspondances 43 Etape 3 S lection des variables actives et suppl mentaires Dans le cas d une table de contingence les variables sont en fait les modalit s de la variable consid r e en colonne c est dire ici les m dias Le jeu de donn es pr sente ici peu de variables types de m dias qui sont toutes consid r es comme actives gt S lection des variables continues actives V1 V6 transf rer dans la fen tre Active Variables 1 Selection of Active and Supplementary Elements Radio numerical Television numerical Quot_Nat numerical Quot_Reg numerical Magazine numerical Mag TY numerical Clear selection upplementary Variable gt cliquer sur Continue gt Une fen tre Selecting observations appara t Selecting observations individuals rows Selection of observations individua
175. leus correspondant aux cinq m thodes de compressions choisies 1 2 3 4 5 Correspondence Analysis Analyse des correspondances simple du tableau de niveaux de gris consid r comme une table de contingence Singular Values Decomposition ou SVD D composition aux valeurs singuli res SVD after partition Analyse apr s partition pr alable de l image Cette variante consiste centrer pr alablement les niveaux de gris l int rieur de p zones rectangulaires avant SVD puis ajouter les p moyennes apr s SVD on peut choisir p 2 x 2 3 x 3 4 x 4 5 x 5 etc SVD on Log Analyse logarithmique Cette variante consiste faire une transformation logarithmique pr alable puis proc der une SVD du tableau doublement centr en ligne et en colonne cf VII 6 Discrete Fourier Transform S ries de Fourier discr tes D veloppements en s ries de Fourier simples des profils de niveaux de gris des lignes ou des colonnes du tableau d crivant l image Pour les quatre premi res m thodes le nombre d axes retenus de 1 100 est cocher dans la seconde colonne Si le nombre d axes retenu est 8 par exemple ce VI 4 Reconstitutions d images 175 sont les 8 premiers termes de la formule de reconstitution des donn es qui sont utilis s pour reconstituer l image Les deux boutons centraux d clenchent un affichage des images gris ou couleur Les deux boutons du panel gris sur la
176. liquer sur Execute La liste des proc dures s affiche en bloc a la fin de l ex cution Affichage des tapes de calcul apr s l ex cution Commentaires sur les tapes de calcul Ardat Archivage des donn es Artex Archivage des textes Selox s lection des questions ouvertes Numer Num risation du texte Aspar analyse des correspondances directe de la table clairsem e sparse individus x mots Recip classification hi rarchique des r ponses 111 3 Analyse directe de r ponses libres 99 par la m thode des voisins r ciproques Parti coupure de l arbre et optimisation de la partition obtenue Motex table de contingence Mots textes les textes tant ici les regroupement de r ponses selon les classes de la partition Mocar mots et r ponses caract ristiques pour chacune des classes Selec Selection des variables en vue de la description des classes de la partition des individus Decla description automatique des classes partir des variables suppl mentaires nominales et continues enfin Posit positionnement des variables nominales suppl mentaires dans les plans factoriels construits rappelons le avec les mots des r ponses aux questions ouvertes actives Note Une fois cr il est possible apr s avoir quitt Dtm Vic d ouvrir nouveau le fichier param tre param_VISURECA txt dans le menu principal avec la proc dure Open an existing command file puis d ex cuter
177. ls or rows of the data file If you choose to select a subset of active observations you can either select them manually from a list of observations identifiers or define a logical filter involving other variables of the data file Etape 4 S lection des observations individus Les lignes ne repr sentent pas ici des observations ou individus comme pour l ACP ou l Analyse des Correspondances Multiples plus loin mais des modalit s de variables Aussi de la m me mani re que l on consid re des variables actives et ou suppl mentaires on proc de la s lection des modalit s actives et ou suppl mentaires repr sent es en ligne Nous retenons ici l ensemble des 8 statuts 44 Il Donn es num riques d activit comme variables actives et le sexe l ge et le niveau d tude comme variables suppl mentaires gt Cliquer sur The observations will be selected from a list La fen tre selection of Active and Supplementary observations appara t gt S lectionner les modalit s de la variable statut d activit comme l ments actifs Puis S lectionner les modalit s des variables sexe age niveau d tude comme l ments suppl mentaires F1 Direct or manual selection of Active and Supplementary observations oy i 1 Agriculteur 1 Agriculteur 2 Petit_patron Petit_patron 3 Aff_Cadre_sup Aff_Cadre_sup 4 Prof _interm Prof _interm 5 Employl mployl 6 Ouvrier_qualif Ouvrier_qualif i Ouvtie
178. lumns of a word text table Et r pondre OK Seriation of rows and columns of the lexical table completed La table lexicale r ordonn e croisant les 9 cat gories des r pondants et les mots choisis est alors constitu e 111 2 Analyse textuelle de questions ouvertes 93 4 Reordering Reordering the rows and columns of a word text table on Original table Tableau r ordonn la fois en ligne et en colonne On peut lire sur ce tableau r ordonn que les premiers mots de la liste r ordonn e caract risent les cat gories plut t jeunes et instruites Les derniers mots de la m me liste r ordonn e sont absents ou rarement observ s parmi ces cat gories Cependant ils sont fr quents parmi les derni res cat gories partie droite de la table Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt II est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire et ou texte au format Dtm Vic 94 Ill Donn es textuelles et mixtes 111 3 Analyse directe de r ponses libres Cet exemple reprend l exemple pr c dent et proc de une analyse directe des r ponses une question ouverte sans aucun regroupement pr alable 111 3 1 Les donn es et fichiers Dtm Vic Enqu te internationale sur les attitudes et valeurs Il s a
179. lyse des Donn es CISIA Saint Mand Lebart L Morineau A Tabard N 1977 Techniques de la Description Statistique M thodes et Logiciels pour l Analyse des Grands Tableaux Dunod Paris Lebart L Morineau A Warwick K W 1984 Multivariate Descriptive Statistical Analysis Correspondence Analysis and Related Techniques for Large Matrices Wiley New York Lebart L Piron M Morineau A 2006 Statistique Exploratoire Multidimensionnelle Visualisation et Inf rence en Fouille de Donn es Dunod Paris 4 dition refondue consulter pour une bibliographie plus compl te Lebart L Piron M Steiner J F 2003 La S miom trie Dunod Paris Lebart L Salem A 1994 Statistique Textuelle Dunod Paris R f rences 225 Lebart L Salem A Berry L 1998 Exploring Textual Data Kluwer Boston Lerman I C 1981 Classification et analyse ordinale des donn es Dunod Paris MacQueen J B 1967 Some methods for classification and analysis of multivariate observations Proc Symp Math Statist and Probability 5th Berkeley 1 p 281 297 Univ of Calif Press Berkeley Marano P 1972 Applications de l analyse factorielle des correspondances la compression de signaux d images Annals of Telecommunications vol 27 n 5 6 p 163 172 Marchand P 1998 L Analyse de Discours Assist par Ordinateur Armand Colin Paris McQuitty L L 1966 Single and multiple classification by reciprocal pairs
180. lysis Ils sont galement sauvegard s sous le nom imp suivi de la date et l heure de l analyse Ces fichiers de sauvegarde archivent les r sultats num riques principaux tandis que les fichiers imp txt html sont cras s pour chaque nouvelle analyse ex cut e dans le m me r pertoire Apr s avoir parcouru les r sultats num riques revenir au menu principal Ces r sultats sont visualis s alors dans l tape VIC de Dtm Vic Cette visualisation va faciliter les interpr tations 11 3 4 Visualisation des r sultats Cette deuxi me phase de Dtm Vic fournit les outils de visualisation n cessaires l interpr tation et la validation des r sultats Axes E Perevien FE Ares Clusters E even E Kohoran Man 11 3 Analyse des Correspondances Multiples 57 1 Axes factoriels gt Cliquer sur A axesview Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes cf aussi l tape DEFAC du fichier r sultats Dans le cadre d une ACM trois l ments peuvent tre examin s les variables nominales actives et suppl mentaires les variables continues suppl mentaires et les observations gt Cliquer sur l onglet des l ments examiner Active variables par exemple puis sur View Il est possible d ordonner les coordonn es d un axe donn par exemple l axe 2 en cliquant sur Axis 2 Active variables Suppl Categories
181. m 6 1 Var 2 12 distinct values AGE CODE 4 EDUCATION Char 6 1 Num freq value 5 Important_Life Text 8000 1 1 44 1 6 Important probe Text 8000 1 2 77 10 7 CHANGE LAST VEARS Char 6 1 3 60 11 8 CHANGE YOUR LAST YRS Char 6 1 4 138 12 9 CHANGE YOUR NEXT YRS Char 6 1 5 102 2 10 PEOLE BE HAPPIER Char 6 1 6 9 3 11 PEOLE PEACE OF MIND Char 6 1 7 104 4 12 MORE_OR_LESS_FREEDOM Char 6 1 8 93 5 13 Culture Text 6000 1 9 93 6 14 Age 3 CATEGORIES Char 6 1 10 90 7 15 sex age Char 6 1 11 78 8 16 sex education Char 6 1 12 66 9 17 eductage Char 6 1 M Var 3 numerical AGE mean sd min max 45 868 18 383 18 000 50 0 ON i a ne ee 4 A gt Cliquer sur Create dictionary and data Une fen tre creating a dictionary and a data file appara t sur l cran IV 1 Importation XL 111 DtmVic Creating a dictionary and a data file Create a DTM Parameter fie for numerical and categ data gt Cliquer sur Name for the new dictionary Entrer le nom du fichier dictionnaire Datbase_global_dic txt par exemple et enregistrer F DtmVic Creating a dictionary and a data file xL adapted E fleinter txt E New_typevar_datbase _global csv E vtrace txt Bans _global xis Jatbase_olobal_dic ixt gt rt gt Cliquer ensuite sur Name for the new data file Entrer le nom du fichier de donn es Datbase_global_dat
182. magazines TV et les autres supports de presse gt Retourner ensuite sur PlaneView pour s lectionner une autre repr sentation factorielle Pour fermer le graphique cliquer sur Return ou sur la croix en haut droite puis sur return dans la fen tre de s lection des axes gt Pour revenir au menu principal de VIC cliquer soit sur la croix en haut droite soit sur Main menu soit sur return 11 2 Analyse des Correspondances 49 3 Validation Bootstrap gt Cliquer sur B Bootstrap pour valider la position des variables dans les plans factoriels Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquer ensuite sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi On s lectionne ici le fichier ngus_var_boot txt pour un bootstrap partiel R pondre OK la bo te de message Set of principal coordinates loaded qui s affiche gt S lectionner Tick to select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list gt Choisir ensuite le plan factoriel puis cliquer sur Confidence ellipses pour l affichage graphique des variables actives fichier ngus_var_boot txt NOTES Toon Font Zone on Tye EE LE CEE Commentaire Les zones de confiance des points m dias en rouge montrent que ceux ci ont des po sitions distinctes donc des profil
183. mesure de dissimilarit Dans ce cas l in galit triangulaire d x y lt d x z d y z n est pas exig e 204 VII Annexe statistique Par exemple si x y z sont trois objets et si les objets x et y sont regroup s en un seul l ment not h on peut d finir la distance de ce groupement z par la plus petite distance des divers l ments de h az d h z Min d x z d y z Cette distance s appelle le saut minimal single linkage Sneath 1957 Johnson 1967 et constitue un crit re d agr gation Une autre r gle simple et fr quemment employ e est celle de la distance moyenne pour deux objets x et y regroup s en A d h z d x z d y z Plus g n ralement si x et y d signent des sous ensembles disjoints de l ensemble des objets ayant respectivement n et n l ments h est alors un sous ensemble form den n l ments et on d finit n d x z n d y z ny Nn d h z b_ Algorithme de classification L algorithme fondamental de classification ascendante hi rarchique se d roule de la fa on suivante gt tape 1 il y an l ments classer qui sont les n individus gt tape 2 on construit la matrice de distances entre les n l ments et l on cherche les deux plus proches que l on agr ge en un nouvel l ment On ob tient une premi re partition n 1 classes gt tape 3 on construit une nouvelle matrice des distances qui r sultent de l agr ga
184. n directe de l exemple Chessboard_Extern Il n y a ni fichier de commandes ni fichier de dictionnaire pour ce type d analyse utilisant directement le format Externe Pour ce type de codage du graphe codage externe il est pr vu une entr e directe dans le menu Contiguity gt Cliquer sur Contiguity dans l tape WORE OI EL Classification steps gt Cliquer sur Parameter Edit Choisir l l ment Create Nous allons tablir les param tres n cessaires une description graphique Dans le premier bloc intitul ncoord Input coordinate file cocher 0 File ngus_ind coordinates of individuals observations Aucun fichier de coordonn es simple description d un graphe externe Dans le deuxi me bloc intitul npart partition file cocher 0 no partition Dans le troisi me bloc intitul meth method cocher 4 graphe de contiguit externe gt Cliquer sur VALIDATE gt Dans la barre sup rieure de la fen tre cliquer sur Execute Une nouvelle fen tre appara t et vous tes invit s choisir le fichier du graphe externe Chessboard_Extern_7x7 txt du r pertoire EX_C04 Graphs Chessboard Chessboard Extern Une autre fen tre Reading an external graph apparait gt cliquer sur CONTINUE Une s rie de fen tres apparait indiquant les d tails techniques des calculs impliqu s dans l analyse des correspondances de la matrice M associ e au graphe Ces r sultats sont enregistr s da
185. n ensemble comprenant des milliers ou des dizaines de milliers d individus est un algorithme mixte L id e repose sur la combinaison des deux techniques de classification pr sent es pr c demment Cette id e a t mise en uvre spontan ment par de nombreux praticiens elle se trouve par exemple sous le nom de hybrid clustering dans Wong 1982 a Les tapes de l algorithme L algorithme de classification mixte proc de en trois phases l ensemble des l ments classer subit un partitionnement initial centres mobiles de fa on obtenir quelques dizaines voire quelques centaines de groupes homog nes on proc de ensuite une agr gation hi rarchique de ces groupes dont le dendrogramme sugg rera ventuellement le nombre de classes finales retenir et enfin on optimise encore par la technique des centres mobiles appliqu e partir des centres de classe d j trouv s la ou les partitions correspondant aux coupures choisies de l arbre La figure 6 3 1 sch matise les diff rentes tapes de l algorithme de classification mixte 1 Partitionnement initial Cette premi re tape vise obtenir rapidement et un faible co t une partition des n objets en k classes homog nes o k est largement plus lev que le nombre s de classes d sir dans la population et largement plus petit que n Nous utilisons pour ce partitionnement initial en quelques dizaines de classes un algorithme de partitionnement Ce
186. nalyses ult rieures il faudra le renommer gt Cliquer sur 3 Execute Les proc dures s affichent en bloc apr s l ex cution Artex Archivage des textes Selox S lection des questions ouvertes Numer Num risation du texte Motex table de contingence Mots textes Aplum analyse des correspondances pour ce type de tables Clair br ve description des axes factoriels Mocar mots et lignes caract ristiques Note Une fois le fichier de commande cr fichier param tre param_VISUTEXT txt il est possible de l ouvrir lors d une utilisation ult rieure de DtmVic dans le menu principal avec le bouton Open an existing command file puis d ex cuter ce fichier Execute Les utilisateurs exp riment s peuvent aussi modifier les param tres directement sous l diteur propos par Open avec l aide du bouton Help about parameters disponible dans l diteur ou avec un autre diteur de texte hors de Dtm Vic 111 1 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files Cliquer sur Basic numerical results pour naviguer dans le fichier de r sultats en format html puis sur Return pour en sortir et revenir au menu principal ou cliquer sur Basic numerical results text format pour ouvrir le fichier de r sultats en format texte Les fichiers de r sultats sont dans le r pertoire EX_A04 Text Poems Rappel Le fichier r sultat imp txt comme son homolog
187. nces multiples du chapitre II L exportation peut se faire vers un format Excel csv ou vers un format tr s voisin acceptable par la proc dure read table du langage R fichier dont le format est identique au format Excel l exception de la premi re ligne IV 4 1 Proc dure d exportation gt Cliquer sur Exportation dtm data dans Une fen tre appara t Al Selecting dictionary and data 2 1 Open a dictionary Dtm format 2 Open a Data File Dim format 3 List of variables check Create new data file for Excel r gt Cliquer sur Open a dictionary Ouvrir alors a titre d exemple le fichier MCA _dic txt dans EX_A03 MultCorAnalysis IV 3 Exportation XL 119 Une premi re fen tre affiche le libell des variables et des modalit s gt Cliquer ensuite sur Open a Data file et ouvrir le fichier MCA_dat txt dans EX_A03 MultCorAnalysis Puis cliquer sur List of variables Il est possible d exporter soit en format Excel soit en format R Ici nous faisons le choix d un fichier Excel gt S lectionner Create new data file for Excel et r pondre OK la boite de message New data file created Un nouveau fichier MCA d dtm_XL csv est cr dans le r pertoire EX_A03 MultCorAnalysis Un extrait de ce fichier Excel 14 individus 4 variables figure ci dessous 20001 50000 24 000000 est lt 2000 52 000000 60 est 66 est 10001 20000 female 42 000000
188. ncipales VI 2 3 Calculs de base ACP et classification Ex cution de l exemple C 2 Iris et lecture des r sultats a Ouverture du fichier param tre gt Cliquer sur le bouton Open an existing command file de la rubrique menu principal gt Rechercher dans DtmVic_Examples DtmVic_Examples_C_NumData Dans ce r pertoire ouvrir le r pertoire de l exemple C 2 nomm EX_C02 PCA_Contigui ty gt Ouvrir alors le fichier de commande EX_CO2_Param txt Le fichier param tre s affiche dans une fen tre qui est aussi un diteur de texte Noter que le bouton Help about parameters est accessible partir de cet diteur de texte pour expliciter en Anglais les param tres de chaque tape Dans ce fichier de commandes on peut lire apr s avoir identifi les deux fichiers donn es NDONZ et dictionnaire NDICZ que 9 tapes sont effectu es 150 VI Autres analyses avec Dtm Vic ARDAT Archivage des donn es SELEC s lection des l ments actifs et suppl mentaires PRICO analyse en composantes principales DEFAC Br ve description des axes factoriels RECIP classification hi rarchique PARTI coupure du dendrogramme produit par l tape pr c dente et l optimisation de la partition obtenue DECLA description automatique des classes de la partition SELEC s lection d une variable nominale dans ce cas EXCAT extraction d une variabl
189. ndividuals observations dans le premier bloc ncoord Input coordinate file 2 part_cat txt nominales dans le deuxi me bloc npart partition file parti tion utilis e pour construire le graphe 3 Analyse Discriminante Classique dans le troisi me bloc meth method Dans ce cas particulier d analyse discriminante les param tres suivants n ont pas de sens Dtm Vic vous demande de les ignorer Remettre 0 les compteurs si n cessaire L analyse de contiguit sera effectu e en utilisant le graphique associ la partition VI 2 Donn es num riques et Contig it 157 en 3 esp ces de fleurs Toutes les paires d individus appartenant la m me esp ce sont reli es par une ar te il y a aucune ar te entre individus appartenant des esp ces diff rentes gt Cliquer sur VALIDATE gt Dans la barre sup rieure de la fen tre cliquer sur Execute Les calculs sont effectu s La rubrique Results de cette barre sup rieure contient des d tails techniques sur les calculs impliqu s dans l analyse de contigu t La matrice associ e au graphe avec ses trois blocs diagonaux de 1 et avec la valeur 0 est d ailleurs visible dans cette pr sentation des r sultats gt Cliquer ensuite sur Contigu ty View La fen tre Visualization loading files selecting axes correspondant au bouton M Visualization appara t gt Dans le menu Load coordinates de la nouvelle fen tre ouvrir le fichie
190. nent les explications du format fixe du fichier dictionnaire Le tableau 1 donne un exemple d un fichier dictionnaire au format Dtm Vic pr sentant quatre variables trois nominales et une continue 18 Pr sentation g n rale Le tableau 2 donne l exemple d un fichier de donn es de Dtm Vic correspondant aux 4 variables du fichier dictionnaire pr c dent pour 5 individus sujets observations ou r pondants n1006 1 76 4 1 Identificateur de l observation entre n1007 2 20 12 quotes sans blanc lt 20 caract res n1008 2 29 2 3 Separateurs entre valeurs au moins un n950 i 57 3 J espace blanc n2007 1 21 I 2 Tableau 2 Fichier de donn es en format interne Dtm Vic Pour 5 individus sujets ou observations correspondant aux 4 variables du dictionnaire pr c dent Sexe Age Age clat en 4 modalit s niveau d ducation cf tableau 1 Longueur maximale d une ligne 5000 caract res commentaire du format en italique Le tableau 3 donne l exemple d un fichier texte en format interne Dtm Vic pour une s rie de trois textes cf exemple Ill 1 autres po mes KE LAMARTINE Voil les feuilles sans s ve Qui tombent sur le gazon Voil le vent qui s l ve Et g mit dans le vallon Voil l errante hirondelle Qui rase du bout de l aile L eau dormante des marais wR KK GAUTIER L automne va finir au milieu du ciel terne Dans un cercle blafard et livide que cerne Un nuag
191. non supervis e contrairement l analyse discriminante qui elle tente de s parer au mieux les esp ces connues a priori et utilis es par la m thode L analyse de contiguit r ussit s parer assez correctement les trois vari t s d lris La matrice des covariances locale calcul e partir des plus proches voisins fournit ici l estimation d une matrice des covariances interne Les excellents r sultats sont dus au fait que les plus proches voisins sont calcul s dans un espace ayant plus de 2 dimensions et pour cet exemple au fait que les 3 classes sont assez bien s par es dans cet espace b Analyse discriminante Nous allons maintenant effectuer une analyse de contiguit qui coincide exactement avec une analyse discriminante lin aire classique L Analyse discriminante lin aire en k classes est en effet un cas particulier de l analyse de contiguit Dans un tel cas le graphe impliqu dans l analyse de contiguit est fait de k cliques graphes complets correspondant aux k classes de l analyse discriminante Dans notre cas particulier k 3 Tous les couples d observations appartenant une m me esp ce sont reli s par une ar te Aucune ar te ne relie deux observations appartenant deux esp ces diff rentes gt Revenir au menu principal et cliquer sur w Contiguity gt Cliquer sur Parameter Edit Choisir l l ment Create gt Cocher 1 File ngus_ind coordinates of i
192. non_qual Inactif Clear selection Clear selection 19 Superieur cu gt Cliquer sur Continue Une fen tre Create a starting parameter file appara t Etape 5 Cr ation du fichier param tre Nous faisons ici le choix d une proc dure bootstrap Sinon cliquer directement sur 2 Create a parameter file for SCA gt Cliquer sur 1 Select some options Une fen tre Options Bootstrap and or Clustering of observations appara t Compte tenu du petit nombre d individus aucune classification n est n cessaire nous ne consid rons ici que la proc dure du bootstrap gt Cliquer sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut cf encadr technique section 11 1 2 Etape 5 propos de ACP 11 2 Analyse des Correspondances 45 gt Choisir 0 ou 1 classe puis cliquer sur Enter Nous ne voulons pas effectuer de classification gt Cliquer sur Continue r Options bootstrap and or clustering of observations es Partial cia tos come La fen tre Create a starting parameter file r appara t gt Cliquer sur 2 Create a parameter file for SCA Un fichier param tre vient d tre cr sous le nom param_SCA txt et stock dans le dossier EX_A02 SimpleCorAnalysis du r pertoire DtmVic_Examples_A Start Pour le conserver en vue de r it
193. ns l tape Sui gS gt Cliquer sur Basic numerical results pour ouvrir le fichier en format html ou sur Basic numerical results text format pour ouvrir le fichier r sultat en format texte puis cliquer sur Return pour en sortir et revenir au menu principal Le nom du fichier r sultat est construit avec date et heure selon les m mes principes que pour l analyse en composantes principales 11 2 4 Visualisation des r sultats Nous renvoyons le lecteur au paragraphe II 1 4 pour la pr sentation de la deuxi me phase de Dtm Vic et le d tail des diff rents outils de visualisation Nous consid rons ici comme outils AxesView PlaneView et Bootstrap 1 Axes factoriels gt Cliquer sur A axesview Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes r sultats correspondant l tape DEFAC du fichier r sultat gt Cliquer sur Active variables puis sur View pour obtenir les coordonn es des modalit s m dia Cliquer ensuite sur Individuals observations puis sur View 11 2 Analyse des Correspondances 47 pour obtenir les coordonn es des modalit s actives statut d activit et des modalit s suppl mentaires Active variables Suppl Categories Individuals observations Supp Coordonn es des modalit s Identifier axis 1 axis 2 axis 3 axis 4 axis 5 axis de la variable m dia Mag TY 162 Magazine 131 Quot_Nat 4 Quo
194. ns l espace des lignes sont construits de mani re analogue Nous r capitulons ici les l ments de base de l analyse qui vont permettre la construction des facteurs Les l ments de base de l analyse r capitulation Nuage de n points lignes e El ments _ Nuage de m points colonnes dans l espace R de base dans l espace R m coordonn es n coordonn es point colonne j fy i pour i 2 n point ligne i Analyse du pour j 2 m tableau f J fi Deane i So eas 2n E Lh fy Pid ml Ji n masses des npointsi fi et les masses m masses des m pointsj f j Remarques Il existe une diff rence fondamentale avec l analyse en composantes principales les transformations faites sur les donn es brutes dans les deux espaces sont identiques car les ensembles mis en correspondance jouent des r les analogues Les coordonn es factorielles sont centr es n m Lune Tie i l jal et de variance gale a Aa y fy i Y fi 2 i 1 j 1 M thodes factorielles Classification 195 Relations de transition ou quasi barycentriques Notons les relations fondamentales existant entre les coordonn es des points lignes et des points colonnes sur l axe amp les relations quasi barycentriques m Wai St Aa er Sr i l Ainsi au coefficient de dilatation Tc pr s les projections des points a repr sentatifs d un nuage sont sur un axe les barycentres des projec
195. ns le dossier en fran ais PCA dic_Fr txt et en anglais PCA_dic_Eng txt Il contient les identifiants des 44 variables et des cat gories ou modalit s des variables nominales Genre_V1 Sex_Fem_1 Sex_Hom_2 Age_V2 Age_Moy_1 Age_Ages_2 Age_Jeun_3 Activit _v3 i Act_acti_1 Act_inac_2 Education_V4 Educ_prim_1 Educ_sec_2 Educ_sup_3 agglome_V5 aggl_Imp_1 aggl_Moy_2 aggl_Rur_3 aggl_Mixte_4 aggl_Paris_5 D ma_Cours_V26 Promenad_V27 Courses_V28 D placem_V29 A_pied_V30 En_Voitu_V31 Fr quent_V32 Autres_a_V33 Total_Do_V34 Total_D _V35 Total_ho_V36 Total_Me_V37 Radio_V38 TV_V39 Presse_V40 Quotid_N_V41 Quotid_R_V42 Magazine_V43 Mag_TV_V44 Sommeil_V6 Repos_V7 Toilette_v8 Repas_V9 Petit_D j_V10 Repas_home_V11 Repas_rest_V12 Travail_V13 TravailR_V14 Enfants_V15 M nage_V16 Relation_V17 Visite_amis_V18 Loisirs_V19 Jeux_Jar_V20 Jardinag_V21 Loisirs_ext_V22 Disque_V23 Lecture_V24 Lect_livr_V25 aos ooo oer oo oO Oo ooo ss Ces Soo oa oa coo ocr aoa ooo oo fo oS L identifiant d une variable nominale est pr c d par le nombre N de ses modalit s colonne 5 Les N lignes suivantes sont les N modalit s de r ponses un identifiant court en 4 caract res occupe les colonnes 1 5 et un identifiant long lt 20 caract res commence colonne 6 Conventionnellement une variable num rique a z ro cat gorie Rappelons que les espaces vides sont interdits dans les identifiants 24 Il Donn es
196. ns le fichier imp_contig txt sauvegard dans le r pertoire de travail 168 VI Autres analyses avec Dtm Vic gt Cliquer sur M Visualization La fen tre intitul e DTM visualization apparait gt cliquer sur Load coordinates Dans le sous menu correspondant choisir le fichier anagraf txt qui contient les coordonn es factorielles pour les analyses directes de graphes gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant S lectionner No partition Puis proc der comme pour l exemple Chessboard gt cliquer sur Graphics puis choisir les axes 1 et 2 par d faut dans la fen tre S lection des axes et cliquer sur Continue puis sur DISPLAY Dans une nouvelle fen tre intitul e Vizualisation Graphics le plan factoriel principal s affiche Une fois de plus toutes les tapes de la section pr c dente pourront tre r alis es Les graphiques obtenus sont encore identiques ceux de la section VI 3 2 b Ils ne sont donc pas reproduits VI 3 5 Ex cution des exemples Cycle Cette section est en tout point identique la section V1 3 2 ex cution de l exemple Chessboard_ Numerical et VI 3 4 Le graphique a la forme d un cycle avec le m me nombre de sommets Figure VI 4 Plan factoriel principal pour le graphe Cycle avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour VI 3 Description de
197. num riques 2 Extraits du fichier de donn es PCA_dat txt w WW WS NH ND NN KY H WoO A UU N FP UP Ce fichier de donn es comprend 96 lignes et 45 valeurs Pour une ligne i la premi re valeur entre quotes correspond l identifiant de l individu i c est dire ici le groupe i de r pondants et les 44 autres valeurs correspondent aux r ponses des 44 variables s par es par des espaces blancs les 5 premi res valeurs sont les items des 5 variables nominales genre ge activit ducation agglom ration de r sidence qui sont la base de la formation des groupes les 32 autres valeurs correspondent aux cumuls du temps pass minutes par jour dans les activit s par tous les individus constituant le groupe i et les 7 derni res valeurs correspondent aux cumuls du temps pass au contact d un m dia 11 1 2 Mise en uvre de l analyse PCA Le fichier param tre est cr en 5 tapes About DtmVic Help about command parameters Help about created files Dtm Data and text mining Data File Data Importation Preprocessing C Numerical Data basi Create a command file BAS Basic Statistics about numerical and categorical variables means sta a Open an existing commend file TAB CrossTabulating a series of categorical variables including means of DECAT Automatic description of a series of categorical variables l m Result Files IPFIT Re Weighting the observations individuals
198. o les hypoth ses de multinormalit sont rarement v rifi es L analyse en composantes principales est un domaine Muirhead 1982 a montr que l hypoth se d existence des quatre premiers moments pour la loi th orique de l chantillon suffisait pour valider ces intervalles Ce sont des m thodes de calculs intensifs qui reposent sur des techniques de simulations d chantillons partir d un seul chantillon Rendues possibles par la puissance de calcul des ordinateurs ces techniques se substituent dans certains cas aux proc dures plus classiques qui reposent sur des hypoth ses contraignantes Elles sont les seules proc dures possibles lorsque la complexit analytique du probl me ne permet pas d inf rence classique M thodes factorielles Classification 219 d application qui a donn un grand nombre de travaux utilisant les m thodes de re chantillonnage de bootstrap Prenons l exemple de l estimation du coefficient de corr lation r entre deux variables ou entre une variable et un facteur Le principe consiste calculer le coefficient de corr lation pour chaque chantillon r pliqu pour lequel on effectue un tirage avec remise des couples d observations On tablit alors la distribution des fr quences du coefficient de corr lation repr sent e par l histogramme des s valeurs du coefficient r correspondant aux s r plications Puis on calcule a partir de l histogramme la probabilit pour qu
199. of a sample survey throuc Basic numerical results tt format Vic Visualization Inferenceli z mes zE 7 SCA Simple Correspondence Analysis to be applied to a contingency tabli MCA Multiple Correspondence Analysis complemented with a clustering ot Bar View HPronsview _ Etape 1 S lection de l analyse gt Cliquer sur le bouton Create a Command file de June tte G 11 1 Analyse en composantes principales 25 Une fen tre Choosing among some basic analyses appara t gt S lectionner l analyse PCA Principal Components Analysis dans la rubrique ue REED lait E Une fen tre Selecting dictionary and data appara t Etape 2 S lection des fichiers dictionnaire et donn es gt Cliquer sur le bouton Open a dictionary Dans le r pertoire EX_A01 PrinCompAnalysis ouvrir le fichier PCA_dic txt II s affiche dans une premi re fen tre Le statut nominal categorical ou num rique des variables est indiqu dans une deuxi me fen tre FA Selecting dictionary and data 1 Open a dictionary Dtm format A 35 Jeunes Sexe 2 categories AGE 3 categories List of variables check Activit 2 categories Education 3 categories agglomeration 5 categories Sommeil numerical 16 000 27 900 21 299 11 300 3 3 26 299 13 115 5 13500 1021 J 2 Open a Data File Dtm format 1121 30 16200 84 Say saan Bt More Data J f 40 154 i 217 89 23 600 1124 4 41599 30
200. oires multidimensionnelles recouvrent un grand nombre de techniques qui ont pour objectif de d crire et synth tiser l information contenue dans de vastes tableaux de donn es a Statistique Exploratoire Multidimensionnelle Visualisation et inf rence en fouille de donn es 4 ed L Lebart M Piron A Morineau Dunod 2006 M thodes factorielles Classification 183 Au d part les donn es se pr sentent sous forme de grands tableaux rectangulaires not s X Les lignes i n du tableau repr sentent les n individus les sujets enqu t s par exemple et les colonnes j m les m variables qui peuvent tre des mesures des caract ristiques ou encore des notes relev es sur les individus VII 1 1 Repr sentation g om trique et nuages de points Afin de comprendre le principe des m thodes de statistique exploratoire multidimensionnelle il est utile de repr senter de fa on g om trique l ensemble des n individus n lignes et l ensemble des m variables m colonnes comme deux nuages de points chacun des deux ensembles tant d crit par l autre On d finit alors pour les deux nuages des distances entre les points lignes et entre points colonnes qui traduisent les associations statistiques entre les individus lignes et entre les variables colonnes Tableau A 1 Exemple de tableau X de notes de 1 7 attribu es m 7 mots par n 12 r pondants mots arbre cadeau danger orage polite
201. omme pour les tudes styles de vie les espaces obtenus permettent de positionner des produits des marques ou des services dans le cadre d tudes de recherche marketing Les trois fichiers qui composent cet exemple se trouvent dans le r pertoire DtmVic examples DtmVic Examples_C_NumData EX_C01 PCA_Semio 8 Pour de plus amples informations se r f rer l ouvrage La s miom trie par L Lebart M Piron J F Steiner Editeur Dunod Paris 2003 Ce livre peut tre t l charg partir du site www dtmvic com rubrique Publications 138 VI Autres analyses avec Dtm Vic 1 le fichier de donn es PCA_semio dat txt Cet exemple est de taille r duite et comprend 300 r pondants au lieu de 1000 ou 2000 qui sont les tailles usuelles des chantillons d enqu te s miom trique et 76 variables 70 mots les notes attribu es ces mots sont consid r es ici comme des variables num riques et 6 variables nominales d crivant les caract ristiques des r pondants 2 le fichier de dictionnaire PCA_semio dic txt Le fichier dictionnaire contient les identifiants des 76 variables Dans le dictionnaire interne de DtmVic les identificateurs de cat gories doivent commencer colonne 6 une police intervalle fixe telle que courrier peut tre utile pour faciliter ce genre de format 3 le fichier de commandes EX CO1_ Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessit
202. on of responses il est alors n cessaire d effectuer l analyse VISUTEX Visualization of texts gt Cliquer sur Return to execute dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton Execute de Etme ae kaS Cette phase ex cute les tapes de calcul pr sentes dans le fichier de commande Num risation du texte et analyse des correspondances du tableau lexical gt Cliquer sur le bouton Basic numerical results de RETAS Le bouton ouvre le fichier HTML nomm imp html qui contient les principaux r sultats des tapes pr c dentes de calcul de base L tape NUMER nous apprend par exemple que nous avons 49 r ponses avec un nombre total de mots occurrences ici ar tes du graphe de 217 impliquant 49 mots distincts ici les sommets voisins sur le damier Noter que chaque sommet a aussi t consid r comme son propre voisin Apr s lecture de ces r sultats num riques retour au menu principal VI 3 Description de graphes 167 b Visualisation et lecture des r sultats Nous allons maintenant visualiser les r sultats avec les outils de l tape Visualization Inference Classification stepsk Pour tracer le graphe Cliquer sur V Visualization Toutes les tapes de la section pr c dente peuvent tre r alis es de la m me fa on Les graphiques obtenus sont identiques ceux de la section VI 3 2 b Il n y a pas lieu de les reproduire VI 3 4 Ex cutio
203. onn es textuelles et mixtes gt Cliquer sur OK le fichier s affiche dans une premi re fen tre Un deuxi me bouton 2 Select Open questions and separators apparait gt Cliquer sur ce bouton Une nouvelle fen tre Selecting 1 the open questions 2 the list of separators se pr sente Q uestion 1 Open question 3 Etape 3 S lection des questions ouvertes gt S lectionner les questions ouvertes 1 et 2 et les transf rer dans Result of the selection Puis choisir les s parateurs Ici nous adoptons ceux propos s par d faut Cliquer alors sur Vocabulary and counts La fen tre suivante pr sente le vocabulaire alphab tique et ordre de fr quence Vocabulary frequency threshold Separators of units Pre Number of occurrences tokens 13919 Number of words types 1365 Number of hapaxes 699 standards successful taking though through 385 386 387 388 389 390 391 392 393 1 Choose a frequency threshold trouble trying voluntary walk weather wellbeing worrying worship a 2 Continue create the parame Nous devons choisir un seuil de la fr quence en choisissant une ligne dans la rubrique Vocabulary frequency order La ligne 397 correspond a la fr quence 4 nous avions pris un seuil de 16 pr c demment pour des r ponses individuelles tr s pauvres lexicalement il faut plus de mots pour ne pas g n rer
204. ortant Toute barre de cet histogramme indique la valeur de l indice d une agr gation c est dire la perte d inertie obtenue en passant d une partition en s classes la partition en s classes La situation id ale est montr e par la figure A 12 a o l on observe un palier vident entre le 497 et le 5 indice sugg rant ainsi une bonne partition en cing classes La figure A 12 b est typique de la situation o il est difficile de d cider d un nombre r el de groupes dans la population Mais une telle partition en s classes par exemple n est pas la meilleure possible car l algorithme de classification hi rarchique n a pas la propri t de donner chaque tape une partition optimale C est pourquoi une proc dure de consolidation est n cessaire M thodes factorielles Classification 213 nette ooe booter bete Pre ee ste Figure A 12 Histogrammes des indices de niveau c Proc dure de consolidation Pour am liorer la partition obtenue on utilise de nouveau une proc dure d agr gation autour des centres mobiles dont on sait qu elle ne peut qu augmenter l inertie entre les classes chaque it ration Cette proc dure de consolidation a pour effet d optimiser par r affectation la partition obtenue par coupure de l arbre hi rarchique Malgr la relative complexit de la proc dure on ne peut toujours pas tre assur d avoir trouv la meilleure partition en k classes
205. os X LT k Ne 075 oe N MS A A S Bii Tasinege or Jeux_Jardina 1 LL OT Commentaires Les ellipses sont assez grandes en raison du faible nombre de groupes d individus L utilisation du bootstrap dans ce cas donne des zones de confiance pessimistes pour les points Dans une application r elle le fichier individuel comportant des milliers d individus donnerait lieu des ellipses de confiance beaucoup plus petites 4 Classification Cette option permet de visualiser les centres des classes qui sont projet s sur le plan factoriel gt Cliquer sur in ClusterView Choisir les axes 1 et 2 pour commencer et Continue La fen tre DTM Display of clusters appara t gt Cliquer sur View Les centres des 7 classes apparaissent sur le plan factoriel Cliquer ensuite sur la rubrique Numerical du bandeau Cette rubrique est d sormais activ e Puis en cliquant bouton droit de la souris sur une classe les variables les plus descriptives de la classe apparaissent L ensemble des r sultats figure dans la proc dure DECLA du fichier sortie Basic numerical results ClusterView nous permet d appr cier la forme du nuage des centres de classes et d interroger interactivement leurs caract ristiques Nous pouvons facilement imaginer l int r t de l outil pour une visualisation relative des centaines de variables des milliers d individus regroup s par exemple en une vingtaine de c
206. par 40 noms distincts avec les m mes calculs et le m me r sultat final pour le trac du graphe 2 Fichier de commandes Chessboard_Textual Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessite quelques param tres d crits bri vement dans le menu principal de DtmVic bouton Help about parameters a Ouverture et Ex cution du fichier de commande gt Cliquer sur le bouton Open an existing command file de MERE AE menu principal et ouvrir le fichier param tre Chessboard_Textual Par txt Quatre tapes sont effectu es ARTEX textes d archivage SELOX s lection de la question ouverte NUMER codage num rique du texte ASPAR analyse des correspondances du tableau de contingence r pondants x mots Noter que ce fichier de commande peut galement tre g n r en cliquant sur le bouton Create de la rubrique Command file du menu principal Basic Steps Une fen tre Select a Basic Analysis appara t Cliquer ensuite sur le bouton VISURESP situ dans la rubrique Textual Data et suivre les instructions comme indiqu dans les chapitres II et III Noter galement que dans ce cas de donn es simples une seule question ouverte il est possible de consid rer chaque r ponse comme un texte Dans un tel cas le s parateur doit tre remplac par le s parateur comme dans l exemple Ill 1 du chapitre III Au lieu de l analyse VISURESP Visualizati
207. parmi ces sonnets Cependant ils sont fr quents parmi les derniers sonnets c t droit de la table Le bouton Original table permet d inspecter la table lexicale pour laquelle les lignes et les colonnes ont leur disposition initiale 78 Ill Donn es textuelles et mixtes 111 2 Analyse textuelle de questions ouvertes Cet exemple vise d crire les r ponses une question ouverte dans une enqu te par sondage en relation avec des r ponses des questions ferm es II s agit de confronter les profils lexicaux des r ponses de certaines cat gories de r pondants choisies a priori 111 2 1 Les donn es et fichiers Dtm Vic Enqu te internationale sur les attitudes et valeurs L enqu te qui va nous servir d exemple a t men e dans sept pays Japon France Allemagne Royaume Uni Etats Unis Pays Bas Italie vers la fin des ann es 80 Nous pr sentons ici le volet britannique de cette enqu te que nous d signerons par Enqu te Life qui traite les r ponses de 1043 individus a 14 questions ferm es et a 3 questions ouvertes Les questions ferm es concernent a la fois les caract ristiques objectives du r pondant ou de son m nage age statut genre quipements et des questions sur les attitudes et les valeurs des personnes interrog es dont la plupart furent extraites du questionnaire de l enqu te Aspiration exemple de la section 11 3 ACM Trois questions ouvertes ont t pos es
208. plan principal 152 VI Autres analyses avec Dtm Vic Le bouton Density par souci de clart permet de remplacer les identifiants des individus par un seul caract re rappelant sa classe l identifiant et le num ro de la classe s obtiennent en cliquant sur le bouton gauche de la souris au voisinage des points Presser le bouton C Hull Convex Hull enveloppe convexe qui trace l enveloppe convexe de chaque classe Le trac appara t ci dessous cette tape nous avons obtenu un affichage des 150 individus avec les enveloppes convexes correspondant aux trois esp ces C est l affichage classique dans le plan principal de l ACP montrant que sur la droite la premi re esp ce setosa nombre 50 est bien s par e des esp ces deux et trois qui elles se chevauchent b Visualisation d une partition en trois classes non supervis e Nous allons maintenant revenir au menu principal et refaire la visualisation pr c dente mais au lieu de charger la partition induite par les 4 cat gories de la variable 5 4 esp ces d iris nous allons charger une partition en trois classes produite par l algorithme de classification contenu dans les tapes de base cette partition correspond aux tapes RECIP et PARTI voir le fichier de commande Elle ne suppose pas connue la division en esp ces d o la d nomination de partition non supervis e gt Cliquer sur M Visualization La fen tre intitul e DTM visualization
209. ple Baalbeck a Cliquer sur le premier bouton Read pgm format dans la rubrique U Greyscale image Dans le r pertoire EX_CO4_Image ouvrir le sous r pertoire 2_Baalbeck_pgm Dans 2_Baalbeck_pgm ouvrir le fichier Baalbeck pgm Une bo te de message rappelle les dimensions du fichier image b Pour visualiser l image d origine dans la rubrique MEMAJ cliquer sur Image Greyscale c Puis dans la partie inf rieure gauche de la fen tre dans la rubrique CESSE cliquer sur le bouton Correspondence Analysis pour commencer L analyse s effectue Ensuite refaire toutes les op rations de c 1 c 3 puis de d 1 d 4 Cet exemple est int ressant car il met en vidence le fait qu une forte structure g om trique de l image ici les colonnes du temple de Baalbeck peut contaminer la reconstitution dans le cas des axes principaux cf Figure VI 11 Ce n est pas le cas de la reconstitution de Fourier ligne par ligne en reconstituant une ligne de la partie sup rieure de l image le ciel on ignore qu il y a des colonnes plus bas dans l image En revanche c est le cas pour la reconstitution de Fourier colonne par colonne 180 VI Autres analyses avec Dtm Vic TA Figure VI 11 Temple de Baalbeck Cas de l analyse des correspondances Images reconstitu es successivement avec deux axes principaux neuf axes et 50 axes Les traits structuraux capt s par les premiers axes se r pe
210. ples d une table lexicale agr g e VISURECA r alise une analyse analogue VISURESP mais l illustre avec des variables nominales MCA TEXT Analyse des correspondances nominales classification variables lexicales multiples variables illustr es par les D autres techniques d analyse textuelle sont propos es dans les menus Other analyses gt Si l on clique sur ce bouton une nouvelle fen tre appara t Les analyses CORDA et SEGME fournissent des concordances et des segments r p t s alors que les analyses suivantes incluent directement la phase CORTEX corrections de textes au sein des analyses VISUTEX VISURESP VISURECA ANALEX 12 Pr sentation g n rale CORDA Concordances ofa CORDA fournit les concordances d une liste de mots SEGME Lists of repeated se SEGME donne les listes de segments r p t s VISUTEXT CORTEXT r alise l analyse VISUTEX pr c dente apr s correction de textes similaire CORTEX VISUTEX CORTEX v VISURESP CORTEX VISURESP CORTEXT r alise l analyse VISURESP apr s CORTEX ANALEX CORTEXT r alise simultan ment les proc dures ANALEX CORTEX 4 CORTEXT et ANALEX VISURECA CORTEXT r alise simultan ment les proc dures VISURECA CORTEX cortext et VISURECA On pourrait r aliser dans un premier temps la phase CORTEX puis les analyses pr cit es Mais CORTEX porte sur l ensemble du fichier texte alors que l on peut souhaiter corriger individu
211. pondants La transformation des donn es nous conduit effectuer une translation de l origine au centre de gravit de ce nuage et changer dans le cas de l analyse dite norm e les chelles sur les diff rents axes Pour r aliser l analyse du nuage des points r pondants dans R la matrice X X a diagonaliser dans cet espace est la matrice des corr lations dont la figure A 4 fournit un exemple qui a pour terme g n ral af Id 7 a DIU F T Ge L XXi L il n S S cj est le coefficient de corr lation entre les variables j et j Les coordonn es des n points individus sur l axe factoriel u sont les n composantes du vecteur Ya Xug Tableau de notes 1 7 donn es 7 mots par 12 r pondants arbre fradeau danger morale orage politesse sensuel La figure A 4 a illustre la repr sentation du nuage des r pondants pour le tableau de 12 r pondants ayant not 7 mots tableau d j pr sent en section A 1 dans le plan principal 2 3 Les r pondants R01 et R02 ont donn de la m me fa on des notes tr s contrast es et ont donn des notes lev es Arbre et Sensuel et des notes faibles Morale et Politesse ils sont par cons quent proches dans le plan et se diff rencient des r pondants R05 et R04 qui se sont exprim s de fa on inverse sur les mots Le r pondant R08 se distingue en ayant tr s bien not Danger sans pour autant bien noter les autres mots alors que R11 a b
212. port a l analyse des correspondances retard qui s estompe au fil de l accumulation des axes Note Toutes les images cr es sont syst matiquement enregistr es au format bitmap extension bmp dans le r pertoire du fichier de l image analys e d Le cas des s ries de Fourier discr tes Dans la partie inf rieure gauche de la fen tre dans la rubrique CSI EME cliquer sur le bouton Discrete Fourier Transform Une fen tre s affiche 178 VI Autres analyses avec Dtm Vic se of row wise or column wise Fourier transform __Ciose Series from firstterm t Portion de la fen tre de commande des compressions par s ries de Fourier discr tes d1 Ensuite s lectionner le mode de calcul de la s rie de Fourier en ligne ou en colonne Row wise ou columnwise S lectionner Row wise par exemple d2 Puis comme pr c demment pour obtenir un apercu de la reconstitution des donn es lorsque le nombre de termes augmente cliquer directement sur le bouton Series from first term to total greyscale dans le panel FFE ECM On peut alors observer la reconstitution progressive de l image d3 Pour un nombre de termes particulier parmi les termes de la s lection sugg r e s lectionner le nombre requis dans la liste verticale correspondante et visualiser chaque image avec l analogue du bouton utilis en b Figure VI 10 Cas des s ries d
213. ppel sur les diff rents types de bootstrap dans Dtm Vic voir l encadr tech nique propos de l ACP section II 1 2 Etape 5 et la section VII 10 de l annexe gt Cliquer sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas adopt cliquer sur no et passer directement l option de classification 11 3 Analyse des Correspondances Multiples 55 g of observations 9 js Ene Er gt S lectionner le nombre de classes souhait nous sugg rons 5 classes puis cliquer sur Enter gt Cliquer sur Continue gt La fen tre Create a starting parameter file r appara t gt Cliquer sur 2 Create a parameter file for MCA Un fichier param tre vient d tre cr sous le nom param_MCA txt et stock dans le dossier EX_A03 MultCorAnalysis du r pertoire DtmVic Examples A Start Pour le conserver en vue de r p ter l analyse ult rieurement il faudra le renommer gt Cliquer sur 3 Execute Execution completed Les proc dures s affichent en bloc la fin de l ex cution Commentaires sur les proc dures ArDaT Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Multm Analyse des correspondances multiples Recip Classification mixte utilisant la classification ascendante hi rarchiq
214. pporte un compl ment par rapport au plan Les figures obtenues partir des plus proches voisins sont analogues Trac de l Arbre de longueur minimale dans le plan s miom trique 2 3 apr s avoir actionn le bouton Colours d Calcul direct d une partition dans le menu Visualisation Dtm Vic permet de construire a la vol e c est dire en dehors du fichier de commande une partition k means de variables ou des individus gt Cliquer sur N Visualization Une fen tre intitul e DTM visualization Loading files Selecting axes appara t gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir le fichier ngus_var_act txt pour une classification des variables actives Pour un regroupement d individus S lectionner le fichier ngus_ind txt gt Cliquer ensuite sur Load or create a partition Dans le sous menu correspondant S lectionner l option Create a new k means partition Ensuite s lectionner figure ci apr s le nombre de classes d sir es le nombre de coordonn es principales pour les calculs de distances le nombre maximum d it rations g n ralement lt 12 et cocher yes pour visualiser les it rations VI 1 Donn es num riques S miom trie 145 Fcreating a new partition through k means algorithm Type the requested numbers and press the key ENTER after each number Exemple du choix de 5 classes calcul es avec 6 axes en 12 it
215. priori puis optimise la partition par des it rations de type k means RECIP et PARTI ex cutent un algorithme hybride L diteur de texte interne de Dtm Vic contient aussi un bouton Help about command parameters qui donne bri vement en Anglais la signification de chacun des param tres Nous ne modifierons pas le fichier de commande propos avec l exemple gt Cliquer sur Return to execute dans le bandeau pour revenir au menu cipal b Ex cution du fichier de commande fichier param tre gt Cliquer sur Execute de KME tar iG prin 140 VI Autres analyses avec Dtm Vic Les tapes de calcul de base pr sentes dans le fichier de commande sont ex cut es archivage de donn es et le dictionnaire choix des l ments actifs et suppl mentaires statistiques l mentaires analyse en composantes principales de la table s lectionn e r plications bootstrap de la table br ve description des axes classification description approfondie des classes Les 9 tapes d crites ci dessus s affichent la fin de l ex cution Pour examiner les r sultats num riques comme pr c demment gt cliquer sur Basic numerical results de REMES Les r sultats num riques sont du m me type que ceux pr sent s en section II 1 3 Analyse en composantes principales chapitre II VI 1 3 Visualisation et lecture des r sultats Nous proc dons tout d abord comme dans le chapitre II propos de la visualisation
216. propri t s de compression num riques des m thodes en axes principaux et des s ries de Fourier discr tes titre de comparaison Les images n cessitant un format sp cifique cette application ne s ins re pas dans les cha nes de traitement les plus usuelles de Dtm Vic Une interface sp cialis e est obtenue par le bouton SVD and CA of Images de la rubrique Dtm Vic Images du menu principal Les analyses de base auxquelles les exemples 1 3 ont recours sont celles pr sent es au chapitre Il Nous ne revenons donc pas sur la mise en place interactive du fichier de commande ou fichier param tre et des analyses Nous pr sentons ici directement ces analyses partir du fichier de commande d j pr par et fourni avec chaque exemple VI 1 Donn es num riques S miom trie 137 1 um riques S mi tri VI 1 Donn es num riques S miom trie L exemple 1 dans le dossier EX_C01 PCA_Semio analyse un ensemble de variables num riques donn es s miom triques par analyse en composantes principales Les principaux axes sont compl t s par une classification avec description automatique des classes La proc dure Visualization propose diff rents outils de visualisation enveloppes convexes ou ellipses de densit pour les classes trac de l arbre de longueur minimale Minimum Spanning Tree et visualisation des graphes des plus proches voisins Une nouvelle classification des variab
217. quer ensuite sur Load or create a partition Dans le sous menu correspondant choisir alors Load partition File et ouvrir le fichier part_cat txt la partition induite par les 4 cat gories de la variable 5 les 4 esp ces d iris Cette partition a t choisie et extraite travers les 2 derni res tapes SELEC et EXCAT du fichier de commande ci dessus gt Cliquer sur Graphics puis choisir les axes 1 et 2 par d faut dans la petite fen tre S lection des axes et cliquer sur Continue puis sur DISPLAY Dans la nouvelle fen tre intitul e Visualization Graphics sont affich s les individus dans le plan des axes s lectionn s Une couleur al atoire est attribu e chaque cat gorie Le bouton Colour permet d essayer un nouveau jeu de couleurs Sur la barre d outils verticale gauche on appuie sur un bouton pour l activer couleur rouge et on appuie de nouveau pour le d sactiver couleur noire Horiz axis 1 Vertic axis 2 Visualization Graphics E 3 x SAVE 1 Axis ZOOM COLOUR FONT Density HELP Return ee gt r Pp ae A Aan i LE Plan principal de l ACP des 4 variables continues mesures avec trac des enveloppes convexes correspondant aux trois esp ces d iris L identification des trois esp ces par des couleurs diff rentes est r alis e a posteriori apr s l analyse en composantes principales On voit que deux esp ces se chevauchent sur ce
218. ques tudi es dans un cadre formel par Diday 1971 Elle est particuli rement int ressante pour les gros fichiers num riques car les donn es sont trait es en lecture directe le tableau des donn es conserv sur une m moire auxiliaire disque est lu plusieurs fois de fa on s quentielle sans jamais encombrer de zones importantes dans la m moire vive de l ordinateur La lecture directe permet galement d utiliser au mieux les particularit s du codage des donn es ce qui r duit le temps de calcul dans le cas des codages disjonctifs M thodes factorielles Classification 207 Bases th oriques de l algorithme Soit un ensemble I de n individus partitionner caract ris s par p caract res ou variables On suppose que l espace R supportant les n points individus est muni d une distance appropri e not e d souvent distance euclidienne usuelle ou distance du x7 On d sire constituer au maximum g classes Les tapes de l algorithme sont illustr es par l exemple VI 1 du chapitre VI section d du paragraphe VI 1 3 intitul e Calcul direct d une partition dans le menu Visualisation tape 0 On d termine q centres provisoires de classes par exemple par tirage pseudo al atoire sans remise de q individus dans la population classifier Les q centres 0 0 0 C r skr Te induisent une premi re partition P de l ensemble des individus I en q classes ain Ainsi l individu
219. r ngus_contig txt gt Dans le menu Load or create a partition et dans le sous menu Load partition File choisir le fichier part_cat txt nous allons identifier les trois esp ces d iris Nous ne pouvons pas calculer l arbre de longueur minimale ni les plus proches voisins partir du fichier de coordonn es issu de l analyse de contiguit ngus_contig txt mais nous pourrions charger des r sultats obtenus ant rieurement partir du fichier ngus_ind txt issu de I ACP r sultats qui sont sauvegard s gt Cliquer sur Graphics Choisir ensuite les axes 1 et 2 valeurs par d faut gt Cliquer sur DISPLAY Changer les couleurs de l cran si n cessaire pour obtenir un bon contraste entre les classes puis verrouiller les couleurs Comme pr vu pour ce jeu de donn es classique l analyse discriminante permet une bonne s paration des classes Elle utilise la connaissance a priori des classes pour les s parer gt Cliquer sur C Hull Les trois esp ces sont encore bien s par es Mais c est moins une surprise puisque l analyse discriminante lin aire vise pr cis ment la s paration des classes Nous sommes ici dans un cas supervis La m thode utilise la connaissance a priori de l esp ce de l iris pour construire de nouvelles coordonn es fonctions discriminantes qui induisent la meilleure s paration des 158 VI Autres analyses avec Dtm Vic classes VI 3 Description de graph
220. r d faut puis cliquer sur display Il est possible de ne faire figurer sur les plans que certaines variables Cliquer alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select Rappel Pour chaque graphique le bandeau du haut contient des options Save sauvegarde le graphique en format bmp Font offre la possibilit de modifier la police et la couleur des caract res More graph permet de changer de plan factoriel Sign of axes permet d inverser les axes Rank est utile seulement dans le cas des affichages tr s complexes ce qui n est pas le cas ici ce bouton convertit les deux coordonn es de l affichage courant en rangs voir note de la section pr c dente La fen tre du plan factoriel appara t Choisir une option puis cliquer sur View Se ee eee ere RSS Techn _prot E uMag TV 25 34_ans 18 24_ansypjQuvier_aual Ouvrier non_ y Secondaire Prof _interm k dio Femme Ra 05 os o3 02 ot 85 49 ans 01 m Television Quot Nat Superieur Homme Inactif Af _Cadre_s Primaire 50 64_ans Quot_Reg Magazine 65_ans_ou_ Paane ou Agriculte Commentaire On rel ve galement sur le plan factoriel principal l opposition entre Presse quotidienne Nationale et R gionale et aussi entre Cadres et les autres cat gories Puis sur le second axe l opposition entre les
221. r les m thodes de Bootstrap D autres applications et d autres outils qui permettent d envisager des analyses plus labor es sont pr sent s dans ce chapitre Dans le dossier DtmVic Examples DtmVic Examples_C_NumData une s rie d exemples reprend les techniques d analyses de base sur donn es num riques Cette s rie va nous donner l occasion d approfondir les outils Visualization et Contiguity du volet VIC de Dtm Vic VETA Nous tudierons ensuite l application des analyses en axes principaux aux visualisations de graphes et aux compressions d images 1 L exemple 1 dans le dossier EX_C01 PCA_Semio vise d crire un ensemble de variables num riques un extrait de donn es semiom triques par analyse en composantes principales Les axes principaux sont compl t s par une clas sification et une description automatique des classes un fichier de commande tout pr par nous permet d acc der directement la phase VIC On ne pr sentera ici que le sous menu Visualisation de la phase VIC visualisation des classes ou cat gories en utilisant des symboles ou des couleurs des en veloppes convexes ou ellipses de densit pour les classes le trac de l arbre de longueur minimale Minimum Spanning Tree les visualisations des graphes des plus proches voisins classifications de type k means la vol e etc 2 L exemple 2 dans le dossier EX_CO2 PCA_Contiguity analyse un ensemble classique de variables num
222. rations au maximum Exemple de visualisation de la premi re it ration de la construction de la partition en 5 classes Les variables ici les mots sont reli es par des segments de droites aux centres provisoires de classes auxquels elles sont affect es les 5 mots qui servent de centres provisoires de classes sont rep rables par un carr rouge 146 VI Autres analyses avec Dtm Vic A titre p dagogique on peut visualiser les diff rentes tapes de construction de la partition dans la fen tre apr s avoir cliqu sur Graphics Il faut ensuite s lectionner les axes 2 et 3 puis cliquer sur Continue puis enfin cliquer sur DISPLAY Dans la barre verticale gauche il faut alors cliquer sur IterKM puis cliquer alternativement sur Means calcul des centres des classes et sur Clust affectation des l ments aux nouveaux centres de classes jusqu ce que la convergence soit atteinte Noter que la partition obtenue par cet algorithme classique des k moyennes ne coincidera pas en g n ral avec la partition induite par les param tres du fichier de commande cf section VII 8 de l annexe statistique VII Voir l encadr de la section VI 1 2 pr c dente propos des calculs r alis s par les instructions du fichier de commande tapes RECIP et PARTI VI 2 Donn es num riques et Contig it 147 VI 2 Donn es num riques et contiguit Iris Cette section concerne l analyse exploratoire d
223. rcutent sur les axes suivants et il faut atteindre pr s de 50 axes pour obtenir un ciel conforme celui de l image initiale VI 4 4 2 Exemple Cardinal Pour ouvrir le fichier couleur du Cardinal de l le Maurice cliquer sur le troisi me bouton Read ppm format dans la rubrique CNET Dans le r pertoire EX_CO4_Image ouvrir le sous r pertoire 3_Cardinal_ppm_color puis ouvrir le fichier Cardinal ppm Une boite de message rappelle les dimensions du fichier image Note Rappelons que dans le format ppm les trois couleurs de base Rouge Vert Bleu correspondant a chaque pixel ont des emplacements cons cutifs sur la m me ligne dont la longueur est donc trois fois le nombre de pixels de la ligne La compression par SVD ou CA ne d pend pas de l ordre des colonnes ce qui signifie que nous n utilisons m me pas le fait que les trois couleurs sont relatives un m me pixel N anmoins la compression structurelle fonctionne Dans ce cas la s rie de Fourier ligne par ligne n est videmment pas adapt e la couleur n appara t qu avec les derniers termes des s ries Figure VI 12 Cardinal de l le Maurice Cas de l analyse des correspondances Images reconstitu es successivement avec deux axes principaux 10 axes et 100 axes VI 4 4 3 Exemple Extra_pgm_ppm Ce dernier exemple contient les deux formats d image pgm et ppm Dans le r pertoire EX_CO4_Image ouvrir le sous
224. rdinage_Bricolage numerical Loisirs numerical 22 Loisirs_exterieur numerical Jeux_Jardinage numerical 23 Disque_cassette numerical Jardinage_Bricolage numerical 24 Lecture numerical Loisirs_exterieur nume il 25 Livres numerical Za n 26 D marches numerical 27 Promenade numerical 28 Courses numerical 29 D placements numerical 80 A pied numerical T Sexe 2 categories 31 En_Voiture numerical 2 AGE 3 categories 32 Fr quentation_Media numerical 3 Activit 2 categories 33 Autres_activies numerical 4 Education 3 categories Tot_Domicile numerical 38 Radio numerical Tot D placement numerical 39 Television numerical Tot_hors_Domicile numerical 40 Presse numerical Tot Media numerical 41 Quot_nat numerical numerical Quot_reg numerical Magazines numerical Mag_T numerical Clear selection Pour l ACP les variables actives doivent tre continues numerical Les variables suppl mentaires peuvent tre continues ou nominales Nous proposons de s lectionner les variables suivantes S lection des variables continues actives V6 V32 transf rer dans la fen tre intitul e Active Variables 6 Sommeil_V6 Enfants_V15 Lecture_V24 7 Repos_V7 M nage_V16 Lect_livr_V25 8 Toilette_V8 Relation_V17 D marche_Course_V26 9 Repas_V9 Visite_amis_V18 Promenad_V27 10 Petit_D j_V10 Loisirs_V19 Courses_V28 11 Repas_home_V11 Jeux_Jar_V20 D
225. re V1 2 Cette repr sentation permet aussi d observer les d formations du graphe planaire dans les espaces engendr s par les paires d axes de rangs 3 12 On observe un effet Guttman multidimensionnel gt Retourner au menu principal en quittant la fen tre du plan factoriel puis en cliquant sur Return puis quitter Dtm Vic Figure VI 2 M me plan factoriel principal pour le graphe Damier avec trac du graphe initial apr s changement de police bouton Font et de couleur bouton Colour c Ouverture et Ex cution du fichier param tre de l ACP Reprendre les op rations des sections a et b en ouvrant cette fois ci le fichier de commande Chessboard_PCA Param txt PCA analyse en composantes principales R p ter toutes les op rations pr c dentes On voit a travers le graphique produit par cet exemple que l Analyse en Composantes Principales d crit de fa on moins fid le la structure du graphe que l Analyse des Correspondances Figure VI 3 1 Voir Benz cri 1973 L analyse des donn es Tome II B chapitre 10 Sur l analyse de la correspondance d finie par un graphe pp 244 261 VI 3 Description de graphes 165 Figure VI 3 Cas de l analyse en composantes principales Plan factoriel principal pour le graphe Damier avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour Le traitement dissym trique des lignes et des colonnes et la normalisa
226. re et des donn es en format Dtm Vic 1 le fichier dictionnaire MCA dic txt region region_paris bassin_parisien nord est ouest sud ouest centre est mediterranee taille _ d agglomeration lt 2000 2001 5000 5001 10000 10001 20000 20001 50000 50001 100000 100001 200000 gt 200000 paris agglo paris sexe masculin feminin age satisf log tres satisf log assez satisf log peu satisf log pas_du_tout satisfaction_cadre_de_vie cdv tres cdv assez cdv peu cdv pas_du_tout statut_d occupat_logement accedant proprietaire locataire loge_gratuit autre depenses_de_logement negligeable sans_gros_probleme une_lourde_charge tres_lourde_charge ne_fait_pas_face ne_sait_pas 4 Cf Lebart L 1987 Conditions de vie et aspirations des Francais Evolution et structure des opinions de 1978 a 1984 Futuribles 1 p 25 56 Cf aussi Lebart L 1986 Qui pense quoi Evolution et structure des opinions en France de 1978 a 1984 Consommation Revue de Socio Economie Dunod 4 p 3 22 11 3 Analyse des Correspondances Multiples 7 ADO1 ADO2 ADO3 AD04 AD05 AD06 AD07 5 AGO AG02 AG03 AG04 AG05 AIO AI02 AI03 4 AJO AJ02 AJ03 AJ04 4 AKO AK02 AK03 AK04 4 situation actif etudiant menagere_s prof malade_invalide retraite militaire chomeur Al statut_ matrimonial celibataire marie e concubinage separe e _divorce veuf ve 3 la_famille_est_le_seul_end famille oui famille non
227. re limit d axes principaux provenant d une d composition aux valeurs singuli res ou d une analyse des correspondances Une comparaison est faite avec les s ries de Fourier discr tes en gardant un nombre limit de termes de l expansion qui elles prennent en compte les positions relatives des pixels VI 4 1 Format des fichiers image Ce type de traitement ne fait pas usage des donn es en format texte interne Dtm Vic car il traite d images num ris es Un simple tableau rectangulaire de nombres entiers suffit il n est pas n cessaire d avoir des identificateurs de lignes ou colonnes dictionnaire En fait trois formats particuliers seront utilis s tableaux rectangulaires de niveaux de gris format texte simple txt format pgm acronyme de Portable Gray Map ou Portable Grey Map en Anglais britannique et pour les images couleur format ppm acronyme de Portable Pixel Map On trouvera les fichiers d exemple dans le dossier EX_CO5 Images du dossier DtmVic_Examples_C_NumData Dans ce r pertoire ouvrir le r pertoire dossier de l exemple C 5 EX_CO5 Images Quatre sous r pertoires correspondent aux quatre exemples 1 Cheetah txt 2 Baalbeck_pgm 3 Cardinal_ppm_color 4 Extra_pgm_ppm Tous les fichiers contenus dans ces sous r pertoires peuvent tre examin s avec un diteur de texte tel que Notepad inclus dans Windows UltraEdit ou un logiciel libre tel que Notepa
228. reasure times ten some shouldst not let Extraits de la carte de Kohonen repr sentant simultan ment les sonnets et les mots Remarque II est possible de changer de taille de police Font et de dilater la carte de Kohonen obtenue Dilat pour rendre le graphique plus lisible Les mots apparaissant dans la m me cellule sont souvent associ s aux m mes r ponses sonnets Cette propri t tient a un moindre degr pour les cellules contigu s 5 S riation Voir l encadr du paragraphe 1 3 du chapitre 1 La s riation est appliqu e ici la table lexicale croisant les 20 sonnets et les mots choisis mots apparaissant au moins 4 fois dans le corpus gt Cliquer sur LA Seriation La fen tre Reordering appara t gt Cliquer sur Reordering the rows and the columns of a word text table R pondre OK la bo te de message Seriation of rows and columns of the lex ical table completed IIl 1 Simples textes Po mes 77 La table r ordonn e en lignes et en colonnes croisant les 20 sonnets et les mots retenus est alors constitu e FF Reordering Sas Commentaire On peut voir ou deviner si les caract res sont trop petits que les premiers mots de la liste des mots r ordonn e caract risent parfois exclusivement les premiers sonnets dans la liste elle m me r ordonn e de sonnets Les derniers mots de la m me liste ordonn e sont absents ou rarement observ s
229. ring Textual Data L Lebart A Salem L Berry Kluwer 1998 Dordrecht L ouvrage Statistique textuelle peut tre librement t l charg a partir du site www dtmvic com 11 1 2 Mise en uvre de l analyse textuelle VISUTEXT Le fichier de commande ou fichier param tre est cr en 4 tapes IAB Cross abulating a seres ot cate Dtm Data and text mining DECAT Automatic description of as f Data File Data Importation Preprocessing Data Ce IPFIT Reweigning fe observations Le Create a command file f Numerica a principal axe Command File Exec Open an existing command file 2 Basic numerical results Result Files Basic numerical results tt format PCA Principal Components Analysis SCA Simple Correspondence Analysi MCA Multiple Correspondence Analy Textual Data CORTEX Preprocessing of texts C ile ACI Fuel Me liiicie lite mes VISUTEX Visualization of Texts b VISURESP Visualization of respon Axes Be Numerical and Textual Data a E Custe View E Kohonen Map Md ANALEX Analysing through SCA a VISURECA Visualization and clus 66 Ill Donn es textuelles et mixtes Etape 1 S lection de l analyse gt Dans la fen tre du menu principal cliquer sur le bouton Create a command file de la rubrique elute kal GA gt Une fen tre Choosing among some basic analyses appara t gt Choisir l analyse VISUTEX Visualiza
230. riques Numerical 3 DECAT Automatic description of a series of categorical variables IPFIT Re Weighting the observations individuals of a sample survey through Iterative Proportional Fitting PCA Principal Components Analysis complemented with a clustering of the observations and a description of the clusters SCA Simple Correspondence Analysis to be applied to a contingency table or a binary table MCA Multiple Correspondence Analysis complemented with a clustering of the observations and a description of the clusters La partie inf rieure de la m me fen tre traite des donn es textuelles Textual Data Other analyses CORTEX Preprocessing of texts Deleting or merging words p VISUTEX Visualization of Texts building a lexical table and analyzing it through SCA See input format in example 4 4 VISURESP Visualization of responses SCA of the lexical table responses X words and clustering of the responses Numerical and Te Data ANALEX Analysing through SCA a lexical table built from a specific categorical variable characterizing the respondents VISURECA Visualization and clustering of responses with categorical data as supplementary elements MCA TEXT MCA Clustering description of clusters from numerical categorical textual variables Pr sentation g n rale 11 Explicitations sommaires des traitements Numerical Data basics BAS Basic Statistics about numeric TAB CrossTabulatin
231. riques les donn es IRIS d Anderson et Fisher bien connues des statisticiens par l analyse en composantes principales la classifi cation l analyse de contiguit et l analyse discriminante Cet exemple reprend les proc dures de base de l exemple 1 pr c dent Analyse en composantes principales et classification clustering d un ensemble de donn es num riques avec diff rents outils de visualisation impliquant aussi une variable nominale sp cifique la variable identifiant les 3 esp ces d iris L exemple pr sente ensuite les am liorations apport es par l analyse de contiguit dont l analyse lin aire discriminante est un cas particulier 136 VI Autres analyses avec Dtm Vic 3 L exemple 3 dans le dossier EX_C03 Graphs vise d crire trois types simples de graphes planaires sym triques principalement au moyen de l analyse des correspondances Contrairement aux exemples pr c dents le r pertoire contient plusieurs jeux de donn es un graphe en forme de damier un cycle et des graphes empiriques repr sentant des r gions du Japon et de France Ces exemples veulent jeter un pont entre les diff rentes possibilit s du logi ciel Dtm Vic un m me graphe peut provenir de donn es d entr e diff rentes donn es num riques donn es textuelles et aussi dans ce cas un format externe sp cifique pour les graphes 4 L exemple 4 dans le dossier EX_C04 Images a une vocation plut t p dago gique montrer les
232. rme parabolique est en partie imputable la forme de l archipel mais aussi un effet Guttman marqu d j voqu en section V1 3 2 b propos des axes 3 et suivants et accentu ici par une diff rence d chelle entre les axes Figue VI 6 Plan factoriel principal pour le graphe Japon avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour Le signe des axes est arbitraire Il peut aussi tre chang pour retrouver l orientation g ographique initiale Cet effet Guttman d s le second axe appara t videmment pour les graphes en forme de cha nes ou de tresses premier axe dominant les axes suivants tant des fonctions polynomiales du premier Un tel effet est en effet d crit par Guttman 1941 dans un article s minal tr s ant rieur l apparition des ordinateurs article qui contient un v ritable formulaire de l analyse des correspondances multiples sans toutefois entrevoir toutes les possibilit s exploratoires de la m thode 172 VI Autres analyses avec Dtm Vic VI 4 Reconstitution d images M thodologie p dagogie Les exemples cette section VI 4 sont principalement des exemples p dagogiques qui servent illustrer les propri t s de compression des analyses en axes principaux dans le domaine de l analyse d images domaine peu familier pour certains utilisateurs actuels de Dtm Vic Cette compression se r alise en gardant un nomb
233. rnit les plans factoriels s par s ou superpos s des sonnets variables actives et des mots observations gt Cliquer sur El planeview Une fen tre s affiche proposant diff rents plans factoriels Parmi les configura tions de plans factoriels propos es l option active columns actives rows est adapt e cette analyse F Selecting the types of coordinates gt S lectionner la rubrique Actives columns variables rows observations Une fen tre destin e a s lectionner le plan factoriel suivant la paire d axes souhai t e apparait 72 Ill Donn es textuelles et mixtes Choisir les axes 1 er 2 puis cliquer sur display Il est possible de ne faire figu rer sur les plans que certaines variables Cliquer alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select La fen tre du plan factoriel appara t On peut galement choisir ce menu par l interm diaire de PLANEVIEW with moveable tags qui reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique Rappel Pour chaque graphique le bandeau du haut contient des options Font offre la possibilit de modifier la police et la couleur des caract res Sign of axes permet d inverser l orientation des axes Save sauvegarde le graphique en format bmp Rank est utile seulement dans le
234. rra galement t l charger sur ce site l ouvrage pr cit Statistique textuelle L Lebart et A Salem et l ouvrage La s miom trie Essai de Statistique structurale L Lebart M Piron J F Steiner 2003 Dunod Paris d o sont extraits certains jeux de donn es utilis s ici Les autres ouvrages cit s ne sont pas libres de droit cette date et doivent tre consult s en biblioth que ou acquis dans le r seau des librairies 8 Pr sentation g n rale I Pr sentation g n rale de Dtm Vic Dtm Pour lancer l ex cution de Dtm Vic il suffit de cliquer sur l ic ne du raccourci plac sur le bureau de Windows par le programme d installation ou par l utilisateur On obtient l cran d accueil suivant Main Menu last update September Sth 2012 www dtmyic com Vic Help about command parameters Help about created files Exit Dim Data and text mining Dtm Vic Tools Data File Data Importation Preprocessing Data Capture Exportation Toolbox Data Recoding as Command File Execute a command file Toolbox Preprocessing numerical Result Files Basic numerical results txt format Dtm Vic Images SVD and CA of images alization Inference Cla cation ee RENEE LEEFH Dtm Vic est structur en deux tapes I La premi re tape DUDA comprend les proc dures de mise en place des donn es importation saisie exportation et les proc dures d analyses des donn es cr ation pu
235. rtation dans Data File Une fen tre sugg rant diff rentes proc dures apparait Voici les composants de cette fen tre Importation of variables observations and texts Importing Dictionary Data and Texts Specific preprocessing and importation tools Importation de fichiers de donn es num riques ou textuelles et constitution des fichiers dictionnaire donn es et textes dans le format Dtm Vic Voir chapitre IV Quelques outils de pr traitement Building the dictionary of variables and creating the data file Creating the data file manually Modules de saisie de donn es construction du dictionnaire des variables et cr ation du fichier de donn es Voir chapitre IV 10 Pr sentation g n rale Exporting a DTM file to R or to Excel r Exporting dtm data and dictionary to R or Excel r Exporting dtm data dictionary and texts into a unique XML file Exportation de fichiers de donn es en format Excel R ou XML Voir chapitre IV Dtm_tools Amending or updating data and dictionary Cr ation de nouvelles variables s lection d un sous chantillon ou concat nation de plusieurs fichiers Voir l acc s direct la bo te a outils CALE et chapitre V 1 2 Techniques d analyse des donn es gt Cliquer sur Create a command file dans la rubrique COMMENTE de CTE Une fen tre affichant diff rentes techniques d analyse possibles appara t La partie sup rieure de cette fen tre traite des donn es num
236. rtes TDA_tex txt extraits 1 good health happiness mnm PA happiness in people around me contented family would make me happy contented with life as a whole education PR 31 contentment family arts 1042 to see my daughter settled in a job health healthy enough to keep them secure that I get on well with my neighbours a life outside my family circle folk music architecture particularly religious architecture 1043 contentment my children s health and happiness Ce fichier contient les r ponses libres de 1043 individus aux trois questions ouvertes cit es pr c demment Le format du fichier des textes est assez sp cifique mais transparent pour l utilisateur format txt Rappel sur le format interne Dtm Vic Puisque les r ponses peuvent avoir des longueurs tr s diff rentes des s parateurs sont utilis s pour distinguer les questions des individus ou r pondants Les individus qui doivent imp rativement tre dans le m me ordre que dans le fichier de donn es num riques sont s par s par la cha ne de caract res commen ant la colonne 1 suivie ventuellement de l identifiant de l individu Puis a la ligne suivante viennent les r ponses aux questions ouvertes s par es par commen ant la colonne 1 Le symbole indique la fin du fichier Comme tous les fichiers de donn es Dtm Vic ce fi
237. s Les transf rer avec Select dans la fen tre selected list gt Choisir ensuite le plan factoriel puis cliquer sur Confidence ellipses ou sur sur Convex Hulls cf 11 1 4 3 Bootstrap pour obtenir l affichage graphique des l ments actifs si le dossier ngus_par_boot1 txt a t charg 74 Ill Donn es textuelles et mixtes F1 Bootstap confidence areas Bootstrap confidence Zone Confidence ellipses eeeceveceveveeeeeveervevece Seve sonofakes zoom pont Zenesoriy Type erly TixezonW Noresicate Lines color yourself why ite Commentaires Les ellipses correspondant aux points change et beauty contiennent l origine des axes on ne peut rejeter l hypoth se selon laquelle la distribution des ces points est indiff renci e dans les 20 textes En revanche le mot another ellipse allong e sur la droite a une position typ e sur le premier axe et neutre sur le second Le mot eye seule ellipse sous l axe horizontal a une position significative sur le second axe 4 Cartes auto organis es de Kohonen gt Cliquer sur EH Kohonen Map Une fen tre Selection of elements appara t IIl 1 Simples textes Po mes 75 Selection of elements rows columns Les colonnes c est dire les variables actives sont les mots et les lignes c est dire les observations sont les po mes On souhaite repr senter sur une m me carte
238. s abulating a series ot cate DECAT Automatic description of a s Data F ile Data Importation Preprocessing Data Ce Create a command file A pr pal ax Command Fi Exec z RENE Een PCA Principal Components Analysis SCA Simple Correspondence Analysi Basic numerical results a Basic numerical results txt tormi IPFIT Re Weighting the observations Result Files MCA Multiple Correspondence Analy CORTEX Preprocessing of texts C VISUTEX Visualization of Texts b VISURESP Visualization of respon Axes Bs LCA ties Fy Clusterview E Kohonen Map W ANALEX Analysing through SCA a D VISURECA Visualization and lus Une fen tre Opening a text file appara t F Opening a text file mm a E D 0 0010311 good health I sett happiness I 4444 I 0010621 happiness in people around me contented family would make me happy I contented with life as a whole I sete education 0010931 contentment Etape 2 S lection du fichier texte gt Cliquer sur le bouton Open a text File Dans le r pertoire EX_A06 Text Res ponses_2 lui m me inclus dans le dossier DtmVic_Examples_A_Start ouvrir le fichier TDA _tex txt gt Une boite de message r capitule les informations de ce fichier 7329 lignes correspondant a l ensemble des r ponses aux trois questions 1043 observa tions les r pondants et 3 questions ouvertes 96 Ill D
239. s au paragraphe 1 3 Ils sont n cessaires pour proc der une analyse de donn es num riques ou une analyse de donn es textuelles Le cas le plus complet qui met en oeuvre ces trois types de fichiers est celui d une enqu te comportant des r ponses la fois des questions ferm es fichiers dictionnaire et donn es et des questions ouvertes fichier texte Les fichiers internes Dtm Vic sont des fichiers en format txt et s obtiennent soit de fa on manuelle partir d un mode de saisie d importation int gr Dtm Vic soit le plus souvent a partir de fichiers pr existants en format doc pour certaines donn es textuelles qu il faudra sauvegarder en fichiers textes ou en format csv issu d Excel pour les donn es num riques et textuelles ou encore simplement en format texte codes ASCII La proc dure d importation ne s op re qu une fois au d but du processus de l analyse Nous approfondirons ici l importation standard en format Excel de donn es num riques et textuelles telles que les donn es d enqu tes compos es de questions ferm es et ouvertes puis dans une seconde partie nous pr senterons la proc dure de saisie directe des donn es D autres proc dures sont pr sent es dans le Tutoriel en Anglais int gr Dtm Vic Les textes simples format interne type 1 d crit en section 1 5 et illustr par l exemple III 1 du chapitre III ne donnent pas lieu a une proc dure d import
240. s d activit s typ s En revanche certains points activit en noir ont des zones de confiance qui empi tent Ainsi on ne peut conclure que les Ouvriers non qualifi s les Ouvriers qualifi s et les Employ s occupent des positions distinctes et donc que ces cat gories ont des profils de fr quentation m dia distincts gt Pour fermer le graphique cliquer sur return 50 Il Donn es num riques 11 3 Analyse des Correspondances Multiples ACM ou MCA Le troisi me exemple voir r pertoire DtmVic Examples_A Start EX_A03 MultCorAnalysis d crit un ensemble de variables nominales par l Analyse des Correspondances Multiples 11 3 1 Les donn es Extraits de l enqu te Conditions de vie et Aspirations des Fran ais Les donn es sont extraites d une enqu te par sondage effectu e par le CREDOC en 1986 sur les conditions et aspirations des Fran ais Elles traitent des r ponses d un petit sous chantillon de 315 individus et 49 questions Une premi re s rie de questions concerne les caract ristiques objectives du r pondant ou de son m nage ge statut genre quipements D autres s ries de questions se rapportent a l attitude ou aux opinions des enqu t s sur la perception du niveau de vie la famille l environnement physique et technologique la sant la justice la soci t Dans le dossier EX_AO3 MultCorAnalysis du r pertoire DtmVic Examples_A_ Start sont contenus les fichiers dictionnai
241. s du tableau de donn es en profils lignes et en profils colonnes m me crit re d ajustement avec pond ration des points par leurs profils marginaux m me distance celle du X L analyse des correspondances multiples pr sente cependant des propri t s particuli res dues la nature m me du tableau disjonctif complet Figure A 6 Construction du tableau de Burt B partir du tableau disjonctif complet Z M thodes factorielles Classification 199 R gles d interpr tation Dire qu il existe des affinit s entre r ponses c est dire aussi qu il existe des individus qui ont choisi simultan ment toutes ou presque toutes ces r ponses L analyse des correspondances multiples met alors en vidence des types d individus ayant des profils semblables quant aux attributs choisis pour les d crire Compte tenu des distances entre les l ments du tableau disjonctif complet et des relations barycentriques particuli res on exprime la proximit entre individus en termes de ressemblances Deux individus se ressemblent s ils ont choisi globalement les m mes modalit s la proximit entre modalit s de variables diff rentes en termes d association Ces modalit s correspondent aux points moyens des individus qui les ont choi sies et sont proches parce qu elles concernent globalement les m mes individus ou des individus semblables la proximit entre deux modalit s d une m me variable en termes de ress
242. s jouer un r le de s parateur d enregistrement Le passage par la sauvegarde avec les tabulations comme s parateurs est alors plus pratique Il faut ensuite utiliser ce bouton Attention Si un tel fichier contient d j des points virgules la transformation ne pourra avoir lieu Le troisi me bouton Replacing commas with semicolons est utile lorsque le fichier fourni a d j t sauvegard avec des virgules comme s parateur Comme pr c demment si le fichier contient d j des points virgules la transformation ne pourra avoir lieu Il convient donc de les remplacer par un autre symbole avant d actionner le bouton 132 V Recodage Archivage Outils divers V 3 2 Donn es textuelles uniquement Le dernier bouton ToolBox Preprocessing texts propose quelques proc dures en vue de l importation ou de l utilisation directe des textes Conversion of all the characters of a text into lowercase Suppress in a text the chains such as lt gt Re importing a Dtm text file after WinTreeT agger Fragmentation of a Dtm text format 1 into a Dtm text format 2 Changing the sizes of the lines in a DtmVic text file Add empty lines for empty responses only in the case of Dtm Texts format 2 i Conversion des textes en minuscules Le bouton Conversion of the characters of a text into lowercase transforme tous les caract res en minuscules Ceci fait gagner de l information en termes de fr quences pour le
243. s le m me r pertoire 100 Ill Donn es textuelles et mixtes 111 3 4 Visualisation des r sultats et interpr tation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires la validation et l interpr tation des r sultats Axes Clusters F4 Clusterview E Kohonen Map MJ Visualization ER Contiguity 1 Axes factoriels gt Cliquer sur Zl axesview L utilisation de AxesView est parfaitement similaire celle des analyses pr c dentes Les consulter pour naviguer dans cet outil 2 Plans factoriels gt Cliquer sur El planeview Une fen tre s affiche proposant diff rentes visualisations de plans factoriels gt Choisir alors la rubrique Actives columns variables adapt e cette analyse En effet cette rubrique concerne les mots utilis s Les proximit s entre mots signi fient que ces mots sont utilis s dans les m mes r ponses donc souvent dans les m mes phrases Il y a une composante syntaxique plus prononc e dans les associations que lors de l analyse pr c dente qui rapprochait les mots utilis s par les m mes cat gories de r pondant et donc l int rieur de textes beaucoup plus importants Appara t une fen tre pour s lectionner le plan factoriel suivant la paire d axes sou hait e gt Choisir les axes 1 er 2 puis cliquer sur display Le plan factoriel appara t On peut galement choisir l option PLANEVIE
244. s possibles aux traitements propos s par les analyses exploratoires Elles sont souvent associ es des donn es num riques C est le cas embl matique des enqu tes par sondage comportant la fois des questions ferm es donn es num riques continues et variables nominales et des questions ouvertes donn es textuelles Ces donn es d enqu tes constituent l exemple type autour duquel s est d velopp Dtm Vic Une partie importante des m thodes mises en oeuvre dans le volet textuel du logiciel Statistique Exploratoire Multidimensionnelle Visualisation et Inf rence en Fouille de Donn es Ludovic Lebart Marie Piron Alain Morineau 2006 4 me ed Dunod Paris 6 Pr sentation g n rale Dtm Vic sont pr sent es et comment es dans l ouvrage Statistique textuelle L analyse exploratoire multidimensionnelle des donn es num riques et textuelles appara t comme une phase incontournable du traitement de ces recueils complexes On sait et les exemples sont c l bres que les explorateurs d couvrent souvent autre chose que ce qu ils cherchent Les utilisateurs de Dtm Vic ont souvent l occasion de le v rifier les analyses r alis es constituent de redoutables tests de coh rence et de qualit de l information de base que n appr cient pas toujours ceux qui ont recueilli cette information ni ceux qui l ont utilis e trop vite Mais pour les utilisateurs chevronn s notamment en sciences sociales ces preuves de co
245. s principales de l ACP ngus_ind txt comme pr c demment nous utilisons maintenant le r sultat de l analyse de contiguit ngus_contig txt gt Cliquer ensuite sur Load or create a partition Dans le sous menu Load partition File S lectionner le fichier part_cat txt Avec ce fichier nous allons identifier les esp ces Nous ne pouvons pas calculer l arbre de longueur minimale minimum Spanning Tree ni les plus proches voisins partir du fichier ngus_contig txt gt Cliquer sur Graphics Choisir ensuite les axes 1 et 2 qui sont d ailleurs les valeurs par d faut gt Choisir cocher le num ro du niveau de contiguit par exemple 2 qui correspond 6 plus proches voisins Le niveau 1 correspond 4 plus proches voisins et le niveau 3 8 plus proches voisins gt Cliquer sur DISPLAY Changer les couleurs si n cessaire gt Cliquer sur C Hull Les trois esp ces sont maintenant mieux s par es Cela signifie que le graphe sym tris des 6 plus proches voisins permet de calculer une matrice des covariances locale qui peut jouer le r le d une matrice des covariances interne Dans cet exemple le plan principal d une analyse de la 156 VI Autres analyses avec Dtm Vic contiguit est similaire au plan principal d une analyse lin aire discriminante de Fisher Nous devons garder l esprit que l analyse de contiguit n utilise pas la connaissance a priori des esp ces C est une m thode
246. sation ult rieure de Dtm Vic il est possible d ouvrir le fichier param tre param_PCA txt dans le menu principal Juu Eue AG avec la proc dure Open an existing command file puis d ex cuter directement ce fichier Execute Les utilisateurs exp riment s peuvent modifier des param tres directement sous l diteur interne ou hors de Dtm Vic avec un diteur de texte voir le Help about parameters disponible a partir de l diteur 11 1 3 Fichier de r sultats Les r sultats peuvent tre consult s a partir de la rubrique Result Files gt Cliquer sur Basic numerical results pour naviguer dans le fichier de r sultats puis sur Return pour revenir au menu principal DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Selec selecting active and illustrative elements Stats basic statistics for numerical and nominal variables Prico principal components analysis PCA Recip hierarchical clustering reciprocal neighbours Parti partitioning by cutting a dendrogram Decla description of clusters List of commands DenVie Assignments gt listf no listp yes gt ou cliquer sur Basic numerical results text format pour ouvrir le fichier r sultat en format texte Le fichier r sultat nomm imp txt est contenu dans le r pertoire EX_A01 PrinCompAnalysis Il est galement sauvegard sous le nom imp
247. ser deux partitions de l ensemble des individus et l on obtient un tableau de contingence L analyse du tableau croisant les deux partitions peut tre g n ralis e au cas de s partitions s tant un entier sup rieur 2 On construit partir du tableau disjonctif complet Z le tableau sym trique B d ordre p p qui rassemble les croisements deux deux de toutes les variables B Z Z B est appel tableau de contingence de Burt associ au tableau disjonctif complet Z n Le terme g n ral de B s crit Di ZijZij i 1 B est une juxtaposition de tableaux de contingence Les marges sont pour tout j lt p 198 VII Annexe statistique P bj bj szj J et l effectif total b vaut b s n Le tableau B est form de s blocs o l on distingue le bloc Z gZq indice par q q d ordre pg pq qui n est autre que la table de contingence croisant les r ponses aux questions q et q dle gi me bloc carr Z 4Zq obtenu par le croisement d une variable avec elle m me C est une matrice d ordre pg Pg diagonale puisque deux modalit s d une m me question ne peuvent tre choisies simultan ment Les termes diagonaux sont les effectifs des modalit s de la question q VII 5 2 Principes de I ACM L analyse des correspondances multiples est l analyse des correspondances d un tableau disjonctif complet Ses principes sont donc ceux de l analyse des correspondances savoir m mes transformation
248. ser la touche Entr e apr s chaque saisie gt Une fois l ensemble des variables captur es cliquer sur SAVE DICTIONARY et enregistrer un nom pour le fichier du dictionnaire On peut le nommer Database _dic txt Cliquer ensuite sur RETURN IV 2 2 Le fichier des donn es Une fois le fichier dictionnaire cr gt S lectionner Creating the data file dans ENCEINTE AEE ES and creating the data filek Une fen tre pour la construction du fichier de donn es appara t gt Cliquer sur LOAD DICTIONARY et ouvrir le fichier dictionnaire cr pr c dem ment Database _dic txt 116 IV Importation Cr ation Exportation Une fen tre pour la capture de donn es appara t Le dictionnaire des variables s af fiche dans la fen tre de droite SAVE DATA gt Saisir l identifiant de l individu et cliquer sur Enter ou appuyer sur Entr e sur le clavier La 1 variable s affiche dans la fen tre SAVE DATA gt S lectionner la modalit correspondant l individu avec le menu d roulant puis cliquer sur Enter ou appuyer sur Entr e sur le clavier La 2 variable s affiche Il s agit de la saisir de la m me fa on Une fois les variables captur es pour l individu 1 l individu suivant appara t Le dictionnaire IV 2 Saisie manuelle 117 s affiche dans la fen tre en haut et droite et le fichier des donn es dans la fen tre en bas IV 2 3 Cr ation des fichiers DtmVic
249. sera par exemple l algorithme de l agr gation autour des centres mobiles M thodes factorielles Classification 211 2 Agr gation hi rarchique des classes obtenues La seconde tape consiste effectuer une classification ascendante hi rarchique o les l ments terminaux de l arbre sont les k classes de la partition initiale Quelques uns de ces groupements peuvent tre proches les uns des autres Ils correspondent un groupe r el qui aurait t coup artificiellement par l tape pr c dente D autre part la proc dure cr e en g n ral plusieurs petits groupes ne contenant parfois qu un seul l ment Le but de l tape d agr gation hi rarchique est de reconstituer les classes qui ont t fragment es et d agr ger des l ments apparemment dispers s autour de leurs centres d origine L arbre correspondant est construit selon le crit re de Ward qui tient compte des masses au moment des choix des l ments a agr ger 3 Partitions finales La partition finale de la population est d finie par coupure de l arbre de la classification ascendante hi rarchique L homog n it des classes obtenues peut tre optimis e par r affectations Donn es avant la classification 1 Partition pr liminaire centres mobiles groupements stables 2 Classification ascendante hi rarchique sur les centres 3 a Partition finale en 3 classes par coupure de l arbre 3 b Consolidation par
250. ses factorielle simple et multiple Dunod Paris Florek K 1951 Sur la liaison et la division des points d un ensemble fini Colloq Math 2 p 282 285 Forgy E W 1965 Cluster analysis of multivariate data efficiency versus interpretability of classifications Biometric Society Meetings Riverside California Abstract in Biometrics 21 3 p 768 Garnett J C 1919 General ability cleverness and purpose British J of Psych 9 p 345 366 Gifi A 1990 Nonlinear Multivariate Analysis Wiley Chichester Gordon A D 1987 A review of hierarchical classification J R Statist Soc A 150 Part2 p 119 137 Govaert G 2003 Analyse des donn es Herm s Lavoisier Paris Gower J C 1968 Adding a point to vector diagram in multivariate analysis Biometrika 55 p 582 585 Gower J C Ross G 1969 Minimum spanning trees and single linkage cluster analysis Appl Statistics 18 p 54 64 Gower J C Hand D J 1996 Biplots Chapman and Hall London Greenacre M 1984 Theory and Application of Correspondence Analysis Academic Press London Greenacre M Blasius J editors 2006 Multiple Correspondence Analysis and Related Methods Chapman and Hall CRC London Greenacre M Lewi P 2009 Distributional Equivalence and Subcompositional Coherence in the Analysis of Compositional Data Contingency Tables and Ratio Scale Measurements Journal of Classification Springer vol 26 1 p 29 54 Grelet Y 19
251. seuil initial par le nombre de tests dans le cas de 210 tests 0 05 210 2 4 10 La valeur test unilat rale correspondante est de 3 49 Cette valeur nous fournit un garde fou prudent a l exc s Une solution pragmatique cas multidimensionnel le bootstrap La technique de validation par bootstrap dont il sera question plus loin dans cette annexe apporte une contribution int ressante au difficile probl me des comparaisons multiples car les r plications d chantillons permettent de prendre en compte toutes les variables simultan ment et donc de prendre en compte l interd pendance des variables Il s agit d un test global et non plus de tests s par s pour chaque variable Une illustration en est donn e par exemple par la figure des sections III 1 4 et III 2 4 du chapitre III qui repr sentent les zones de confiance simultan es des mots dont certains apparaissent comme significativement distincts Dans ce cas les tests ne sont pas r alis s isol ment ni en s rie mais simultan ment VII 10 3 Utilit des l ments suppl mentaires L analyse factorielle permet de trouver des sous espaces de repr sentation des proximit s entre points individus ou entre points variables Elle s appuie pour cela sur des l ments individus ou variables dits actifs Il est possible d introduire en suppl mentaire d autres points ou l ments que l on ne souhaite pas faire intervenir dans la composition et d f
252. sformations sont des changements de signe des axes rotations ou permutations d axes Cette m thode propos e par Milan et Whittaker 1995 est en d faut s il existe des valeurs propres tr s voisines Dans le bootstrap partiel propos par Greenacre 1984 dans le cas de l analyse des correspondances il n est pas n cessaire de calculer les valeurs et vecteurs propres pour l ensemble des simulations les axes principaux calcul s sur les donn es originales non perturb es jouent un r le privil gi la matrice des corr lations initiale C est en effet l esp rance math matique des matrices perturb es C Le bootstrap partiel se fonde sur la projection en tant qu l ments suppl mentaires des points r pliqu s sur les sous espaces de r f rence fournis par les axes principaux de la matrice de corr lation C X X provenant de l chantillon initial donn s par 1 u X y q o Uy V4 sont respectivement les g mes vecteurs propres de X X et XX et la valeur propre associ e La projection de la k me r plication des m variables mots est donn e par le vecteur u k de R tel que u k L xD T q et Dx d signe la matrice diagonale n n des poids bootstrap associ e la k me r plication Dans le cas du bootstrap partiel les analyses des matrices Cx ne sont en aucun cas n cessaires puisque les vecteurs propres sont obtenus partir de l analyse en composant
253. ssboard_numerical Y figurent les fichiers de donn es dictionnaire et param tres format num rique classique de Dtm Vic Le fichier de donn es Chessboard_7x7_dat txt contient la matrice d incidence du graphe avec 49 lignes et 49 colonnes Comme toutes les donn es classiques dans le format interne de DtmVic chaque ligne commence par son identifiant La cellule m i j d une telle matrice M vaut 1 sii et j sont des sommets reli s par une ar te O sinon 160 VI Autres analyses avec Dtm Vic Les identificateurs de colonnes se trouvent dans le fichier dictionnaire associ Chessboard_7x7_dic txt Ces fichiers seront analys s par l analyse des correspondances fichier de com mande Chessboard_CA Param txt puis par l analyse en composantes principales le fichier de commande s appelle maintenant Chessboard_PCA Param txt afin de proc der une comparaison La comparaison n est pas favorable l analyse en composantes principales dans ce cas particulier a 2 Un fichier de donn es externes Chessboard_Extern 7x7 txt Toujours dans le r pertoire Chessboard_numerical le fichier Chessboard_Extern_7x7 txt est un autre codage possible du graphe Chessboard qualifi d externe car il est diff rent du format interne g n ral de Dtm Vic Il donne pour chaque sommet ligne les num ros des sommets contigus La premi re ligne contient le nombre de sommets 49 puis la longueur des identificateurs 4 et le degr max
254. sse R pondants R01 R02 R03 H A gt nr cs S i N z z m S Dans le cas de la s miom trie une variable un mot est un point dont les coordonn es sont les notes donn es par les n individus r pondants le nuage des m mots se situe dans un espace n dimensions De m me un individu est un point dont les coordonn es sont les notes attribu es aux m mots le nuage des n individus se trouve dans un espace m dimensions l4 Cf l ouvrage t l chargeable pr cit La s miom trie et le jeu de donn es de l exemple de la section VI 1 Donn s num riques S miom trie du chapitre VI de ce manuel 184 VII Annexe statistique Les figures A 1 et A 2 illustrent partir du tableau A 1 contenant les notes attribu es 7 mots par 12 r pondants la repr sentation de ces deux nuages de points intrins quement li s Le nuage des points mots est construit dans l espace des individus ici partir seulement de deux individus R04 et R08 car deux dimensions rendent possible un graphique dans un plan cf figure A 1 RO8 7 F A sensuel ca politesse 5 L a 42129 i danger AG 4 L i A arbre morale 3 L 2 L 1 A cadeau tt HRO 123 4 5 6 7 Figure A 1 Repr sentation du nuage des mots dans l espace des deux r pondants R04 et R08 De la m me fa on le nuage des 12 r pondants est construit dans l espace des variables ici
255. statuts d activit sont les lignes de la table de contingence La cellule i j de la table contient le nombre de contacts le jour pr c dent l enqu te entre les r pondants appartenant au statut i avec le m dia j Rappelons que les lignes et les colonnes repr sentent deux variables et jouent un r le identique contrairement au cas de l analyse en composantes principales qui distingue variables et observations woa EN EC 1 0 1 eros me a Dur auat CODEN DRE DEC e ES EEE Tableau de contingence croisant les m dias et les statuts d activit L objectif est de d crire les relations entre les diff rents m dias et les statuts d activit pour la population consid r e Nous consid rons galement en ligne trois autres caract ristiques socio conomiques le sexe l ge et le niveau d tude comme variables suppl mentaires Les tableaux de contingence croisant ces variables avec la variable m dia sont ainsi juxtapos s au tableau pr c dent 11 2 Analyse des Correspondances 41 Le dossier EX_A02 SimpleCorAnalysis contient le fichier de donn es et le fichier dictionnaire qui peuvent tre import s partir d un fichier de donn es de type Excel fichier de donn es SCA_dat txt Agriculteur 96 118 2 71 50 17 Petit_patron 122 136 11 76 49 41 Aff _Cadre_sup 193 184 74 63 103 79 Prof _interm 360 365 63 145 14 184 Employ 511 593 57 217 172 306 Ouvri
256. subset of individuals Une fen tre apparait gt Ouvrir les fichiers dictionnaire par exemple MCA_dic txt de donn es par exemple MCA_dat txt lister les variables ouvrir le fichier texte des questions ouvertes s il existe puis continuer une nouvelle fen tre apparait gt S lectionner la variable nominale dans la 1 fen tre par exemple 3 Sexe la transf rer dans la 2 fen tre gt S lectionner la modalit de filtrage par exemple f minin gt Cliquer sur Confirm Le nombre de lignes individus conserv es s affichent dans la fen tre Number of kept lines et correspond au nombre d individus de la cat gorie affich dans la fen tre Corresponding Categories cat gorie qui ne s affiche plus apr s la proc dure de confirmation gt Cliquer sur Update data file and text file Un fichier dont le nom par d faut est dtm_data_Subset txt est cr e dans le dossier EX_A03 MultCorAnalysis Le fichier dictionnaire MCA_dic txt reste inchang L op ration est termin e V 2 2 S lection d un sous ensemble de variables gt Cliquer sur Selecting a subset of variables Une fen tre appara t gt Ouvrir les fichiers dictionnaire et de donn es de la base concern e lister les variables puis continuer Une nouvelle fen tre appara t gt S lectionner dans la 1 fen tre l ensemble des variables conserver dans la nouvelle base les transf rer dans la 2 fen tre gt Cliquer sur Update da
257. sultation rapide du contenu des fichiers Ces fichiers en format texte extension txt sont lisibles par le bloc notes ou un diteur de texte TotalEdit notepad notepad UltraEdit etc ou par l diteur de texte de Dtm Vic actionn par le bouton Open du menu principal Pr sentation g n rale 17 Note les identifiants des variables et les libell s des cat gories ne doivent pas contenir d espaces vides blancs Ils sont par ailleurs parfois tronqu s 8 caract res dans les repr sentations visuelles Exemple dic txt le fichier dictionnaire fournit les noms des variables num riques et nominales II inclut les libell s des cat gories correspondant chaque variable nominale cf tableau 1 Exemple dat txt le fichier de donn es contient les valeurs de ces variables pour un ensemble d individus ou observations ainsi que les identifiants des individus cf tableau 2 Exemple _tex txt deux types de fichiers textes sont consid r s Un format de fichier des textes simples type 1 peut tre employ lorsqu on traite une s rie de textes cf tableau 3 sans fichier dictionnaire ni fichier de donn es associ s Lorsque les textes sont nombreux et qualifi s cas des r ponses des questions ouvertes on introduit deux niveaux de s parateurs Fichier type 2 cf tableau 4 Un cas d application qui montre toutes les possibilit s du logiciel est un recueil de donn es d enqu t
258. t Ranks Axes color HE PlaneView rubrique individus actifs densit Commentaires Dans les individus actifs densit les identifiants des individus sont remplac s par un caract re simple cas d un ensemble d individus tr s grand Cet affichage montre principalement la forme du nuage des individus mais les identifiants d origine peuvent s afficher en cliquant sur le bouton droit de la souris Rappel Pour chaque graphique le bandeau du haut contient des options Font offre la possibilit de modifier la police et la couleur des caract res Sign of axes permet d inverser les axes Save sauvegarde le graphique en format bmp Rank est utile seulement dans le cas des affichages tr s complexes ce bouton convertit les deux coordonn es de l affichage courant en rangs gt Pour revenir au menu principal de Dtm Vic cliquer selon la fen tre soit sur la croix en haut a droite soit sur Return 3 Validation Bootstrap Cet outil permet de valider la position des variables sur le plan factoriel gt Cliquer sur BI Bootstrap Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi gt S lectionner le fichier ngus_var_boot txt pour un bootstrap partiel R pondre OK a la fen tre Set of principal coordinates loaded qui s affich
259. t une enveloppe convexe par classe Enveloppes convexes des deux sous nuages hommes femmes dans le plan s miom trique 2 3 apr s usage du bouton Colours de fa on contraster les deux sous populations VI 1 Donn es num riques S miom trie 143 Commentaire Les deux cat gories Homme violet et Femme marron sont en fait troitement li es l axe vertical 3 on peut le v rifier partir des zones de confiance bootstrap Mais ce lien est peine visible quand on regarde directement les enveloppes convexes des deux sous nuages correspondant ces deux cat gories de r pondants Ce r sultat presque paradoxal illustre la diff rence entre statistiquement significatif qui est le cas ici et nettement distinct qui n est pas le cas ici c Arbre de longueur minimum et plus proches voisins dans l espace des variables mots gt Cliquer sur Visualization Une fen tre intitul e DTM visualization loading files selecting axes appara t gt Cliquer sur Load coordinates Dans le sous menu correspondant choisir le fichier ngus_ var _act txt pour une classification de variables les coordonn es principales des variables actives sont s lectionn es Une sous fen tre donne les caract ristiques du fichier gt cliquer ensuite sur Load or create a partition Dans le sous menu correspondant S lectionner la partition obtenue pr c demment l tape de ca
260. t_Reg Radio Television Coordonn es des modalit s de la variable statut d activit Cette variable est SAA nep A Aff_Cadre_s positionn e en ligne et Agicuteur ee ie Employl consid r e ici comme Femme a ty Homme individus Inactif Ouvrier_non_ Ouvrier_qual Petit_patron Primaire Prof _interm Secondaire Superieur Techn _prof L axe 1 oppose la presse quotidienne nationale aux autres m dias et les cadres aux autres cat gories L axe 2 oppose la presse r gionale et magazine la presse TV et les agriculteurs et ind pendants aux employ s et ouvriers gt Cliquer sur exit pour sortir de cet outil 2 Plans factoriels gt Cliquer sur Bl planeview Une fen tre s affiche proposant diff rentes visualisations de plans factoriels Cette option fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations La encore variables et observations repr sentent les modalit s des deux variables de la table de contingence Dans ce cas le sous menu Actives columns Active rows est appropri pour le tableau de contingence gt Cliquer sur la rubrique Actives columns Active rows puis S lectionner les axes principaux d sir s ici les axes 1 et 2 Cliquer ensuite sur display Apparait une fen tre pour choisir le plan factoriel suivant la paire d axes souhait e 48 Il Donn es num riques gt Choisir les axes 1 er 2 choix pa
261. ta Capture Exportation puis Importing Dictionnary Data and Texts dans portation of variables observations and textsk Une fen tre appara t IV 1 Importation XL 107 DtmVic Data importation IMPORTATION OF DATA Please have a look at the examples D 1 to D5 described and commented in Tutorial D to get acquainted with the required original format of the data to be imported Dictionar Numerical Data F xcel r type file saved as csv tile al and XML specific file gt Cliquer ensuite sur Excel r type file saved as csv file Une fen tre Data Importation from an Excel file apparait proposant plu sieurs options F DtmVic Data Importation from an Excel r file 0 Change Tabs into Semicolans 0 Change Commas into Semicolons Start the importation process Si le fichier Excel a t sauvegard en utilisant des tabulations ou des virgules comme s parateurs cliquer sur un des boutons optionnels Change Tabs into Semicolons change les tabulations en points virgules apres avoir v rifi que le fichier original ne contenait pas de points vir gules et remplac ceux ci le cas ch ant 108 IV Importation Cr ation Exportation Change Commas into Semicolons change les virgules en points virgules apr s avoir v rifi que le fichier original ne contenait pas de virgules et remplac celles ci le cas ch ant Dans ce cas S lectionner
262. ta file and dictionary Deux fichiers dtm_dic SELVAR txt et dtm_dat_SELVAR txt sont cr s dans le dossier EX_A03 MultCorAnalysis 130 V Recodage Archivage Outils divers V 2 3 Concat nation d ensembles de variables Cette option permet de concat ner deux bases de donn es de Dtm Vic pour cr er une nouvelle base de donn es r unissant deux ensembles de variables op ration utile lorsque les fichiers livr s sont segment s comme dans le cas des versions d Excel pour lesquelles le nombre de colonnes est limit Attention Les deux bases doivent contenir les m mes individus en lignes tri s dans le m me ordre gt Cliquer sur Concatenating 2 dtm files with 2 distinct sets of variables Une fen tre apparait gt Ouvrir les deux fichiers des donn es puis des dictionnaires a concat ner Ils s affichent dans chacune des quatre fen tres gt Cliquer sur Merge Sorted Files Une s rie de fen tres s affichent successivement Les deux premi res pr cisent l in t gration des deux fichiers de donn es Au message In file 0 individuals have no counterparts r pondre OK Une troisi me fen tre donne le nombre d individus du fichier cr R pondre OK Enfin une quatri me fen tre indique que la proc dure merge des deux fichiers de donn es est effectu e r pondre OK Les identifiants des deux fichiers apparaissent dans la fen tre du bas gt Cliquer sur Merge dictionaries Une fen tre indiq
263. taires ordonn es sur l axe 1 Supplt categories Active variables Suppl Categories Individuals obsen Active variables Suppl Categories Individuals c _View Exit 1667 97 1024 Identifier axis 1 axis2 axis3 axis4 axis 495 166 1434 Repas_chez_s 48 559 4189 116 1g 1 He w D marches B T E 1486 1356 968 inact 1970 115 1212 149 72 48 150 1486 1373 1006 666 268 8 347 104 Le 9 4118 1070 635 231 28 497 17 z 119 68 239 620 541 277 284 23 superieur 555 802 503 570 439 412 254 28 566 541 39 35 164 467 125 52 74 37 Promenade 432 28 492 19 155 Lecture 386 252 446 573 294 Toilette 381 198 an 481 8 Remarque En cliquant sur la partie haute de l axe 1 on identifie rapidement les oppositions visibles sur cet axe opposition entre les activit s ext rieures relation repas au restaurant d placement sur la partie positive et les activit s de la maison jardinage repas chez soi sur la partie n gative sur l axe 2 le travail r mun r partie positive s oppose au repos partie n gative Dans le cadre de l analyse en composantes principales trois l ments peuvent tre examin s les variables continues actives et suppl mentaires les variables nominales suppl mentaires et les observations gt Cliquer sur l onglet des l ments examiner Active variables par exemple puis sur View Il est possible d ordonner les coordonn es sur un axe donn en cliquant sur le
264. tes De cette fa on on est s r d avoir obtenu un arbre graphe sans cycle ayant n 1 ar tes 3 Les objets classer sont alors les n uds du graphe non orient les lignes continues joignant les paires de points sont les ar tes et les indices les valuations de ces ar tes On ne confondra pas un tel arbre entendu au sens de la th orie des graphes et dont les sommets sont les objets classer avec l arbre des parties d un ensemble dendrogramme produit par les techniques de classification hi rarchique dont les sommets sont des parties l exception des l ments terminaux qui sont les objets classer eux m mes On trouvera la d monstration de ces propri t s dans les manuels classiques tels que ceux historiques de Berge 1963 1973 206 VII Annexe statistique Arbre de longueur minimale algorithme de Prim 1957 On part d un objet quelconque sommet du graphe L tape consiste chercher l objet v le plus proche c est dire l ar te la plus courte L tape k consiste ad joindre au recueil d ar tes d j constitu V la plus courte ar te v qui touche un des sommets de V Il y a n 1 tapes Cet algorithme est plus rapide que le pr c dent L arbre obtenu est de longueur minimale car V est tout moment un arbre de longueur minimale sur les k sommets concern s C est l algorithme utilis dans Dtm Vic VII 8 Partitions cartes auto organis es Il s agit pour l essentiel
265. tes On utilise parfois a leur propos l expression statistique structurale pour marquer l importance accord e la phase de validation des structures Ces m thodes g n ralisent la statistique descriptive classique et utilisent des outils math matiques assez intuitifs mais plus complexes que les moyennes variances et coefficients de corr lations empiriques de la statistique descriptive Sont pr sent s dans cette annexe les principes des techniques utilis es en insistant sur l analyse en composantes principales la technique d analyse factorielle de base la plus r pandue Certains d veloppements de l ouvrage not SEM 2006 seront repris ils seront compl t s par des travaux sur les m thodes de validation et en particulier sur les techniques dites de bootstrap sur les cartes de Kohonen ou sur des techniques d analyse moins utilis es comme l analyse logarithmique Les rappels de statistique multidimensionnelle de ce chapitre sont adapt s de l annexe 1 de l ouvrage La s miom trie Ludovic Lebart Marie Piron Jean Fran ois Steiner Dunod 2003 et de l ouvrage Statistique Exploratoire Multidimensionnelle Ludovic Lebart Marie Piron Alain Morineau Dunod 2006 L ouvrage La s miom trie est librement t l chargable sur le site www prmvic com rubrique Publications VII 1 Rappel des principes des m thodes exploratoires multidimensionnelles Les m thodes explorat
266. tion en calculant les distances entre le nouvel l ment et les l ments restants les autres distances sont inchang es On se trouve dans les m mes conditions qu l tape 7 mais avec seulement n l ments classer et en ayant choisi un crit re d agr gation On cherche de nouveau les deux l ments les plus proches que l on agr ge On obtient une deuxi me partition avec n 2 classes et qui en globe la premi re gt tape m on calcule les nouvelles distances et l on r it re le processus jusqu n avoir plus qu un seul l ment regroupant tous les objets et qui consti tue la derni re partition M thodes factorielles Classification 205 VII 7 2 Arbre de longueur minimale d finition et algorithmes L ensemble des n objets classer peut tre consid r comme un ensemble de points d un espace Cette repr sentation est classique si les objets sont d crits par une s rie de p variables on a n points dans l espace R et donc une distance pour chaque paire de points On repr sente ainsi l ensemble des objets et des valeurs de l indice par un graphe complet valu Mais si le nombre d objets d passe quelques unit s ce type de repr sentation devient inextricable On cherchera alors extraire de ce graphe un graphe partiel ayant les m mes sommets mais moins d ar tes plus ais repr senter et permettant n anmoins de bien r sumer les valeurs des indices de distance Parmi tous les graph
267. tion of texts rubrique WS Une fen tre Opening a text file appara t F4 Opening a text file 1 Open a Text File Dtm format 2 Select open questions and separators P a from fairest creatures we desire increase l that thereby beauty s rose might never die but as the riper should by time decease his tender heir might bear his memory but thou contracted to thine own bright eyes 1 feed st thy light st flame with self substantial fuel making a famine where abundance lies 1 thyself thy foe to thy sweet self too cruel thou that art now the world s fresh ornamentl and only herald to the gaudy spring l within thine own bud buriest thy contentl and tender churl makest waste in niggarding l pity the world or else this glutton bel to eat the world s due by the grave and thee I el when forty winters shall beseige thy brow l and dig deep trenches in thy beauty s field thy youth s proud livery so gazed on now will be atatter d weed of small worth held then being ask d where all thy beauty lies Etape 2 S lection du fichier texte gt Cliquer sur le bouton 1 Open a text File Dans le r pertoire EX_A04 Text Poems ouvrir le fichier Sonnet_LowerCase txt Apr s avoir cliqu sur OK sur la boite de message donnant le nombre de lignes et de textes le fichier s affiche dans une premi re fen tre gt Cliquer ensuite sur 2 Select Open questions and separators gt Etape 3
268. tion op r e par l ACP ne permettent pas d obtenir une description satisfaisante de ce type de graphes VI 3 3 Ex cution de l exemple Chessboard_textual Cette section concerne l ex cution de l exemple Chessboard_textual du r pertoire DtmVic Examples_C_NumData EX_C03 Graphs Chessboard et la lecture des r sultats Nous sommes dans le cadre d une analyse textuelle similaire celui de l exemple qui vise a d crire les r ponses a une question ouverte dans une enqu te par sondage Exemple III 2 du chapitre III On trouve dans ce r pertoire le fichier texte et le fichier de commandes Dans ce contexte particulier il n y a ni fichiers de donn es ni fichier dictionnaire le questionnaire comprend une pseudo question ouverte pos e a chaque sommet Quels sont vos sommets voisins 1 Fichier texte Chessboard_textual_7x7 txt Le format est le m me que celui d crit au paragraphe 1 5 Chapitre 1 85 tableau 4 dans le cas d une seule question ouverte tant donn que les r ponses peuvent avoir des longueurs tr s diff rentes les s parateurs sont utilis s pour distinguer les individus ou les personnes interrog es Les individus ici les n uds sont s par s 166 VI Autres analyses avec Dtm Vic par la chaine de caract res a partir de la colonne 1 ventuellement suivi d un identificateur Attention les 49 num ros de sommets sont ici consid r s comme des mots ils pourraient tre remplac s
269. tions des points repr sentatifs de l autre nuage fy La matrice de terme g n ral a permettant de calculer les coordonn es d un fi point i partir de tous les points j n est autre que le tableau des profils lignes Repr sentation simultan e des lignes et colonnes Les relations quasi barycentriques justifient la repr sentation simultan e des lignes et des colonnes Si les m thodes factorielles sont fond es sur le calcul des distances entre points lignes d une art et entre points colonnes d autre part La distance entre un point ligne et un point colonne n a pas de sens puisque ces points sont dans des espaces diff rents L analyse des correspondances offre cependant la possibilit de positionner et d interpr ter un point d un ensemble relatif un espace par rapport l ensemble des autres points d finis dans l autre espace Formule de reconstitution des donn es PERPERA R a 1 qui s crit aussi en faisant intervenir la premi re valeur propre qui vaut et les facteurs correspondants f LS TT lhe ep a 196 VII Annexe statistique A titre d exemple c est cette formule qui est utilis e dans le cas de l analyse des correspondances pour reconstituer les images section VI 4 de ce manuel d volue la reconstitution d images Pour des d veloppements plus tendus on se reportera l ouvrage SEM 2006 ou au bouton CA Correspondence Analysis de la barre verticale Statistical
270. tools some reminders du menu d accueil de Dtm Vic VILS L analyse des correspondances multiples ACM L analyse des correspondances peut se g n raliser de plusieurs fa ons au cas o plus de deux ensembles sont mis en correspondance Une des g n ralisations la plus simple et la plus utilis e est l analyse des correspondances multiples qui permet de d crire de vastes tableaux binaires dont les fichiers d enqu tes socio conomiques constituent un exemple typique les lignes de ces tableaux sont en g n ral des individus ou observations limit s 30000 dans Dtm Vic les colonnes sont des modalit s de variables nominales le plus souvent des modalit s de r ponses des questions limit s 1200 dans Dtm Vic L analyse des correspondances multiples est une analyse des correspondances simple appliqu e non plus une table de contingence mais un tableau disjonctif complet Les propri t s d un tel tableau sont int ressantes les proc dures de calculs et les r gles d interpr tation des repr sentations obtenues sont simples et sp cifiques Les principes de l ACM remontent Guttman 1941 et Burt 1950 L extension du domaine d application de l analyse des correspondances se fonde sur l quivalence suivante si pour n individus on dispose des valeurs r ponses prises par deux variables nominales ayant respectivement p et p modalit s il est alors quivalent des normalisations pr s de soumettre
271. tre l analyse des correspondances et l analyse en composantes principales les transformations op r es sur le tableau dans les deux espaces sont identiques car les ensembles mis en correspondance jouent des r les analogues VII 4 2 Distance du Chi deux et quivalence distributionnelle Les distances entre deux points lignes i et i d une part et entre deux points colonnes d autre part sont donn es par les quations suivantes A ai 1E Fel r Ke Ta ee Ae MEL La distance du y offre l avantage de v rifier le principe d quivalence distributionnelle Ce principe assure la robustesse des r sultats de l analyse des correspondances vis vis de l arbitraire du d coupage en modalit s des variables nominales Il s exprime de la fa on suivante si deux lignes resp colonnes du tableau de contingence ont m me profil sont proportionnelles alors leur agr gation n affecte pas la distance entre les colonnes resp lignes On obtient alors un nouveau point ligne resp point colonne de profil identique et affect de la somme des fr quences des deux points lignes resp points colonnes 194 VII Annexe statistique Cette propri t est importante car elle garantit une certaine invariance des r sultats vis vis de la nomenclature choisie pour la construction des modalit s d une variable qualitative VII 4 3 Formulaire et propri t s Les deux nuages de points dans l espace des colonnes et da
272. trop de r ponses vides apr s le choix du seuil Nous allons donc garder les 397 mots les plus fr quents 111 3 Analyse directe de r ponses libres 97 gt S lectionner cette ligne puis CONFIRM La fr quence appara t R pondre OK gt Cliquer sur 2 Continue create the parameter file Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t Etape 4 S lection des fichiers dictionnaire et donn es gt Cliquer sur le bouton Open a dictionary Dans le r pertoire EX_A06 Text Res ponses_2 ouvrir le fichier TDA dic txt Il s affiche dans une premi re fen tre Le statut nominal ou num rique des variables est indiqu dans une deuxi me fen tre gt Cliquer sur le bouton Open a Data File Dans le r pertoire EX_A06 Text Res ponses_2 ouvrir le fichier TDA_dat txt qui s affiche dans une troisi me fen tre L image de l cran est la m me que pour l exemple 11 2 gt cliquer sur 3 Continue gt Une fen tre Selection of active et supplementary elements appara t Etape 5 S lection des variables actives et suppl mentaires A l int rieur de la fen tre Selection of active et supplementary elements s affichent trois autres fen tres Variables to be selected o figure l ensemble des variables Active Variables Il n y a pas de variable active puisque c est le texte des r ponses qui est actif ici Nous avons en fait choisi les variables actives en s l
273. txt par exemple et enregistrer gt Cliquer sur Name for the new text file Entrer le nom du fichier dictionnaire Datbase_global_text txt par exemple et enregistrer S il n y a pas de donn es textuelles passer l tape suivante 112 IV Importation Cr ation Exportation DtmVic Creating a dictionary and a data file Dictionar Recap for the imported data Number of kept numerical var 1 Number of kept categorical var 9 Number of kept textual var 3 Number of discarded variables 4 Name for the new text file Create new dictionary PEOLE_PEACE_OF MIND _V9 0 PEOLE_PE_cat0_1 PEOLE PE catl_2 PEOLE_PE_cat2_3 PEOLE_PE_cat3_4 4 MORE _OR LESS_ FREEDOM V10 cat0 MORE OR cat0_1 cat MORE OR cat1_2 Create a DTM Parameter file cat2 MORE _OR_cat2_3 cat3 MORE OR cat3_ 4 Create data and text fil for numerical and categ data lt gt Cliquer sur Create new dictionary Le fichier dictionnaire de DtmVic est cr automatiquement et s affiche dans la fen tre R pondre OK a New Dictionary completed De la m me fa on en cliquant sur Create new data file le fichier de donn es de DtmVic est cr e Une bo te de message donne le nombre d indi vidus R pondre OK En cas de pr sence de questions ouvertes cliquer sur Create new text file Un r capitulatif des donn es import es appara t dans une nouvelle fen tre L importation est maintenant termin e La suite est facultative gt Cl
274. ue imp html est galement sauvegard sous le nom imp suivi de la date et l heure de l analyse imp_18 07 11_14 45 txt signifie le 18 juillet 2011 14h 45 Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que les dossiers imp txt et imp html sont cras s a chaque nouvelle analyse ex cut e dans le m me r pertoire 70 Ill Donn es textuelles et mixtes DtmVic Main basic numerical results Table of content Artex building archive textual data Selox selecting an open question Numer numerical coding of texts Motex table categories x texts Aplum CA of lexical tables Clair description of axes in textual analysis Mocar characteristic words List of commands mic La lecture de ce fichier est utile pour prendre connaissance de certains r sultats qui ne peuvent tre visualis s La proc dure NUMER nous apprend par exemple que la table lexicale se pr sente sous la forme de 280 r ponses lignes avec un nombre total de mots occurrences de 2321 impliquant 830 mots distincts Utilisant un seuil de fr quence de 4 ce qui signifie que l on conserve les mots de fr quence sup rieure trois le nombre de mots conserv s se r duit 1384 tandis que le nombre de mots distincts est ramen 114 111 1 4 Visualisation des r sultats et interpr tation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de
275. ue m thode 56 l Donn es num riques des voisins r ciproques Parti Coupure du dendrogramme et optimisation de la partition par la m thode des centres mobiles k means Decla Description automatique des classes Note Une fois cr il est possible lors d une utilisation ult rieure de Dtm Vic d ouvrir le fichier param tre param_MCA txt dans le menu principal avec la proc dure Open an existing command file puis d ex cuter a nouveau ce fichier Execute Les utilisateurs exp riment s peuvent modifier des param tres directement ou avec un autre diteur de textes apr s avoir quitt Dtm Vic 11 3 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files gt Cliquer sur Basic numerical results pour naviguer dans le fichier en format html puis sur Return pour en sortir et revenir au menu principal DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Selec selecting active and illustrative elements Multm multiple correspondence analysis MCA Recip hierarchical clustering reciprocal neighbours Parti partitioning by cutting a dendrogram Decla description of clusters gt ou encore cliquer sur Basic numerical results txt format pour ouvrir le fichier de r sultats en format texte Les deux fichiers imp txt et imp html sont contenus dans le r pertoire EX_A03 MultCorAna
276. ue que la proc dure merge des dictionnaires est effectu e r pondre OK et cliquer sur Exit Deux fichiers dtm_dico_new et dtm_data_new sont alors cr s Ils sont pr ts tre utilis s V 3 Outils sp cifiques de pr traitement 131 V 3 Outils sp cifiques de pr traitement V 3 1 Donn es num riques et textuelles Le bouton ToolBox Preprocessing numerical propose des outils l mentaires de prise de contact et de pr traitements en vue de l importation ou de l utilisation de donn es num riques et textuelles Deciphering the first characters of a new file Replacing tabs with semicolons before importation Replacing commas with semicolons before importation Lorsque l on re oit un fichier de donn es internet cl USB DVD il est utile de v rifier la nature des caract res pr sents num riques alphanum riques s parateurs ponctuation ventuelles tabulations etc Le premier bouton Deciphering the characters of a new file nous donne le code ASCII correspondant aux 6000 premiers caract res d un fichier op ration aussi utile parfois qu l mentaire Le second bouton Replacing Tabs with semicolons est utile lors de l importation d un fichier Excel Dans certaines versions d Excel le s parateur du format csv est une virgule comma cas fr quent des pays pour lesquels la notation d cimale utilise des points a la place des virgules la virgule pouvant alor
277. uit que des liaisons lin aires entre les variables Un coefficient de corr lation faible entre deux variables signifie donc que celles ci sont ind pendantes lin airement alors qu il peut exister une relation non lin aire 4 L analyse du nuage des points variables dans R ne se fait pas par rapport au centre de gravit du nuage contrairement celui des points individus mais par rapport l origine La distance d une variable j l origine O s exprime par d O j y x 1 i l 2 Pr sent e et tudi e de fa on syst matique comme une technique souple d analyse exploratoire de donn es multidimensionnelles par J P Benz cri 1973 l analyse des correspondances s est trouv e depuis d autres pr curseurs en particulier C Hayashi 1956 et a donn lieu des travaux dispers s et ind pendants les uns des autres M thodes factorielles Classification 193 scolarit VII 4 1 Notations Soit k Le la somme de tous les l ments k de la table de contingence K On note if k k Jes fr quences relatives avec L L i 1 Fa On note fe L Ja j L hy les fr quences marginales relatives J L La table de contingence K est transform en un tableau de profils lignes i I et un tableau de profils colonnes di i f R Le point i de R a pour coordonn es Si f pour tout j lt m De m me le point j de R a pour coordonn es i f j pour tout i Sn Notons une diff rence importante en
278. ummy line e g datory immediately after each line STEP LISTF NO LISTP yes Global Parameters tat dictionary file data fle reading dictionary and data _ builds the Archive Dictionary NQEXA 44 NIEXA 96 NXMOD 5 gt INEDIT 0 NIDI 1 TEST 999 ISTEP SELEC Selection for STATS gt elects active supplementary variables and observations IMASS UNIF LZERO REC selections of variables columns b Cr ation du fichier param tre gt Cliquer sur 2 Create a parameter file for PCA Un fichier param tre est cr sous le nom param_PCA txt dans le dossier EX_A01 PrinCompAnalysis dossier DtmVic_Examples_A Start Pour le conserver en vue d analyses ult rieures il faudra apr s avoir quitt Dtm Vic le renommer c Ex cution gt Cliquer sur 3 Execute La s quence des proc dures s affiche en bloc apr s l ex cution Execution completed Commentaires Ardat Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Stats statistiques de base Prico Analyse en Composantes Principales Recip Classification mixte utilisant la classification ascendante hi rarchique m thode des voisins r ciproques Parti Coupure du dendrogramme et optimisation de la partition par la m thode des centres mobiles k means Decla Description automatique des classes de la partition 30 Il Donn es num riques Note Lors d une utili
279. up_3 as Enfants_V15 as M nage_V16 A_pied_V30 Relation_V17 eee amis SommeLect live_V224 D placem_v29 1 Loisirs_ext Magazivag TV vaatses_V2Eou i lagaziMag_Tv_vaatses_ ag i Hepas_rest_V Radio_V38c_2 2 RRepas_home_V 15 Aot inac p Promenad_V27 r 42 D Act_acti_1 Treva en Voitu_va1 Quotid_N_V41 028 THM v1 Le Presse_V40r quent_V32 Repos_V7 97 Quotid_R_V42 Loisirs_V19 Jardinag_V21 Jar_V20 12 Educ_prim_1 Sex Hom_2 a 15 Age_Ages_2 R sultat PlaneView rubrique colonnes actives cat gories suppl mentaires Remarque Sont pr sentes les variables continues et nominales suppl mentaires 3 Validation Bootstrap Cet outil permet de valider la position des variables sur le plan factoriel Cliquer sur B Bootstrap rw OumnVik Bootstrap Validation Slattity inference pca conter ci tat Pca pots tet D Pca gat et rca ge mr E paran saroe Donna Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t 11 1 Analyse en composantes principales 37 gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi S lectionner le fichier ngus_var_boot txt pour un bootstrap partiel R pondre OK la fen tre Set of principal coordinates loaded qui s affiche gt Puis cliquer sur Confidence Areas Une fen tre Bootstrap confidence areas s affiche F1 Bootstap confidence areas
280. ution d un premier exemple format de texte simple Exemple T te de gu pard 1_Cheetah_txt gt Cliquer sur le bouton SVD and CA of images dans la rubrique du menu principal La fen tre Reconstitution of some small images d crite plus haut apparait a Cliquer sur le premier bouton Read formatted txt file dans la rubrique Guan gt Dans le r pertoire EX_CO4_Image ouvrir le sous r pertoire 1_Cheetah_txt 176 VI Autres analyses avec Dtm Vic Dans ce r pertoire ouvrir le fichier Cheetah txt Une boite de message rappelle les dimensions du fichier image E tion ice Analysis Figure VI 7 Portion de fen tre pr sentant l image originale Cheetah txt avant le choix du nombre d axes Pour visualiser l image d origine dans la rubrique MEMEA cliquer sur Image Greyscale L image appara t alors au centre de la fen tre comme indiqu ci dessus La rubrique c ci apr s est consacr e aux m thodes factorielles de compression axes principaux puis la rubrique d qui suivra examinera titre de comparaison la compression obtenue en ne retenant que les premiers termes des s ries de Fourier enti res Il ne s agit pas ici de rechercher une compression optimale mais de comparer deux approches hi rarchiques simples bases de vecteurs propres versus bases de fonctions trigonom triques Le cas des m thodes factorielles Dans la partie inf rieure gauche de la fen tre
281. vec Dtm Vic 135 1 Donn es num riques Semiom trie 2 Donn es num riques Contiguit Iris de Fisher Anderson 3 Description de graphes 4 Reconstitution d images Vil Annexe Notions de statistique multidimensionnelle 182 1 Rappels des principes des m thodes exploratoires 2 Les m thodes factorielles aspects techniques 3 Analyse en composantes principales ACP 4 Analyse des correspondances AC 5 Analyse des correspondances multiples ACM 6 Autres m thodes 7 Classification hi rarchiques Arbre de longueur minimale 8 Partitions cartes auto organis es 9 Classification mixte ou hybride 10 M thodes de validation R f rences bibliographiques sommaires 222 Dtm Vic Data and text Mining Visualization inference Classification Logiciel d analyse exploratoire multidimensionnelle de donn es num riques et textuelles Librement t l chargeable sur www dtm vic com Introduction Dtm Vic est un logiciel consacr l analyse exploratoire multidi mensionnelle des donn es num riques et textuelles L analyse exploratoire comme son nom le sugg re est une d marche pr liminaire de contact avec un recueil de donn es contact suivi d investigations de description sans se limiter un protocole fix l avance L exploration suppose que les donn es sont complexes que les connaiss
282. wl peol NO O W WINIOINININININ O N gt hy NON IN IS ININ 10 IN IN T INT IN education arts the way british peopld 2 5 Q 2 D 1 1 1 1 Nj ERMA N 3 WIN B Go n 2 2 1q A d alr not much it s very img NININ N ojoje culture is good goodwill It s important has exi heritage concerts dr theatre national trust music poetry ballet the beauty of our cou can t think of anything the music of henry p literature the theatre ol alo wo O1 NIo IN gt 0 2 NIAININ gt WID C N No N A O N A o a o po wo o cofco ro ro eo change Ss ESS EN ES ENCORE fnll hehh ESS SNSS ESA ANEETE NIEN EN EN EN ENES Ol O CO N Oyo ala oflnj N La premi re colonne et la premi re ligne contiennent respectivement les identifiants des individus et des variables Toutes les valeurs alphanum riques celles par exemple des identifiants ou encore des cat gories des variables nominales doivent tre compos es de moins de 20 caract res et de pr f rence de moins de 10 et ne doivent pas contenir d espace vide Les r ponses aux questions ouvertes sont des textes de moins de 8000 caract res Par contre les donn es 106 IV Importation Cr ation Exportation manquantes sont exprim es par des espaces vides Pour un tableau de donn es n individus et p variables quelqu
283. xemple rend compte d un jeu de donn es adapt a une des analyses factorielles de base Analyse en Composantes Principales Analyse simple des Correspondances Analyse des Correspondances Multiples enrichie par des outils compl mentaires bootstrap classification cartes de Kohonen s riation 1 L exemple 1 contenu dans le dossier EX_A01 PrinCompAnalysis est une analyse en composantes principales appliqu e a un ensemble de variables continues prise en compte de variables actives et sup pl mentaires validation Bootstrap classification des individus et description des classes 2 L Exemple 2 contenu dans le dossier EX_A02 SimpleCorAnalysis pr sente une analyse des correspondances simples adapt e a l analyse d un tableau de contingence variables actives et suppl mentaires validation Bootstrap 3 L Exemple 3 contenu dans le dossier EX_A03 MultCorAnalysis porte sur l analyse des correspondances multiples appliqu e un ensemble de variables nominales issues de donn es d enqu tes variables nominales actives suppl mentaires variables continues validation Bootstrap classification des individus et description des classes obtenues Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt Il est par cons quent fortement recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es n cessa
284. yse gt Ouvrir dans le dossier EX_A03 MultCorAnalysis le fichier part_cla_ind txt fichier de la partition voir les noms des divers fichiers texte cr s par Dtm Vic dans le Help about files du menu principal V 1 Recodage et archivage 127 gt Cliquer sur Add partition Une fen tre Partition added Please update the dictionary appara t R pondre OK L archivage de la partition s affiche dans la fen tre inf rieure gt Cliquer sur Update dictionary et r pondre OK dans la fen tre Dictionary update qui s affiche Les fichiers dictionnaire et des donn es sont cr s dans le dossier EX_A03 MultCorAnalysis et sont nomm s dtm_dico_newP1 txt et dtm_data_newP1 txt 128 V 2 interventions sur une base V 2 Interventions l mentaires sur la base de donn es Le second groupe d actions est obtenu en cliquant sur ToolBox File Processing Sdiactns rende venules of wnbviduals naw data deu tec ides Selecting a subset of individuals new data and text files Selecting a subset of variables new data and dictionary files Concatenating 2 dtm files with 2 distinct sets of variables Selecting a subset of numerical variables new data and dictionary files i S lection d un sous ensemble al atoire d individus lignes ii S lection d un sous ensemble d individus lignes a partir d un filtre iii S lection d un sous ensemble de variables colonnes
Download Pdf Manuals
Related Search
Related Contents
取扱説明書 - シャープ Philips In-Ear Headphones SHE6000 LPガススタンドマップ開設! Samsung SGH-E630 Инструкция по использованию CHANNEL-IN (ES) Manual SLIDER 120 - 1 anta - porte - leaf - hoja - 120 kg SLIDER 160 Copyright © All rights reserved.
Failed to retrieve file