Home

Pratique de l`analyse des données numériques et textuelles

image

Contents

1. Parti partitioning by cutting a dendrogram Decla description of clusters List of commands gt ou encore cliquez sur Basic numerical results txt format pour ouvrir le fichier de r sultats en format texte Les deux fichiers imp txt et imp html sont contenus dans le r pertoire EX_A03 MultCorAnalysis Ils sont galement sauvegard s sous le nom imp suivi de la date et l heure de l analyse Ces fichiers de sauvegarde archivent les r sultats num riques principaux tandis que les fichiers imp txt html sont cras s pour chaque nouvelle analyse ex cut e dans le m me r pertoire Apr s avoir parcouru les r sultats num riques revenez au menu principal Ces r sultats sont visualis s alors dans l tape VIC de Dtm Vic Cette visualisation va faciliter les interpr tations 11 3 4 Visualisation des r sultats Cette deuxi me phase de Dtm Vic fournit les outils de visualisation n cessaires l interpr tation et la validation des r sultats 64 Il Donn es num riques AXES Axes f Clusters 1 Axes factoriels gt Cliquez sur Fa AxesView Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes cf aussi l tape DEFAC du fichier r sultats Dans le cadre d une ACM trois l ments peuvent tre examin s les variables nominales actives et suppl mentaires les variables continues supp
2. un bootstrap qui permet de valider les positions des variables une classification avec une description automatique des classes gt Cliquez sur 1 Select some options une fen tre Options Bootstrap and or Clustering of observations appara t Pour un rappel sur les diff rents types de bootstrap dans Dtm Vic voir l encadr technique a propos de l ACP section II 1 2 Etape 5 gt Cliquez sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas adopt cliquez sur no et passer directement a l option de classification F Options bootstrap and or clustering of observations CR 1 Do you want a bootstrap validation 5 Etat Oor means no clustering at all 62 Il Donn es num riques gt S lectionnez le nombre de classes souhait nous sugg rons 5 classes puis cliquez sur Enter gt ira la fen tre Create a starting parameter file r appara t gt Cliquez sur 2 Create a parameter file for MCA Un fichier param tre vient d tre cr sous le nom param _MCA txt et stock dans le dossier EX_A03 MultCorAnalysis du r pertoire DtmVic Examples A Start Pour le conserver en vue de r p ter l analyse ult rieurement il faudra le renommer gt Cliquez sur Execution completed Les proc dures s affic
3. gt S lectionnez la variable continue V4_age et transf rez la dans la 2 fen tre Sorted Values Choisir le nombre de quantiles 5 par exemple on peut aussi choisir 20 ou 100 quantiles pour mieux maitriser les limites de classes gt Transf rez en cliquant sur Confirmer et r pondre OK lors de l affichage du nombre de modalit s eeeeeveeeeveeeee StS StS ey abuse ee 144 V Recodage Archivage Outils divers gt Une fois les regroupements termin s r pondre puis cliquez sur Update data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic_newD4 txt et dtm_dat_newD4 txt ainsi qu un fichier Dissecting Check qui pr sente les d tails de l op ration Cliquez sur pour revenir au menu principal V 1 4 Archiver des facteurs ou des partitions On peut vouloir enrichir le fichier de donn es initial par les r sultats d une analyse factorielle ou d une classification Les facteurs ou partitions sont alors consid r s comme de nouvelles variables Attention On ne peut archiver des facteurs ou des partitions si l analyse qui les a produits a utilis un filtre interne sur les individus lors de la cr ation du fichier de commande En revanche on peut utiliser un filtre externe avant toute analyse tel que d fini au paragraphe V 2 1 ci apr s gt Cliquez sur Archiving principal axes and partitions Une fen tre appara t Adding one or s
4. 3 sexe variables nominales suppl mentaires F Selection of Active and Supplementary Elements Variables to be selected disposez vous_d un_magnetoscop 2 categories disposez vous_d un_piano 2 categories residence_secondaire 2 categories activite_professionnelle 4 categories conflits_travail vie_personnel 2 categories chomage _ douze _derniers_mois 2 categories maux_de_ tete 2 categories mal_au_dos 2 categories nervosite 2 categories etat_depressif 2 categories satisfaction_sante 4 categories 50 Age categ 51 Niv Educ 3 categ Active Variable 8 la_famille_est_le_seul_endroit 3 categories 9 opinion_sur le mariage 4 categories 10 travaux menage enfants 4 categories satisfaction_logement 4 categories satisfaction_cadre_de_vie 4 categories maux_de_tete 2 categories mal_au_dos 2 categories nervosite 2 categories etat_depressif 2 categories satisfaction_sante 4 categories societe_a_besoin_de_se_transfo 3 categories Clear selection nombre_de_personnes_logement numerical fonctionnement_justice 6 categories enfants 2 categories les_gens_comme_moi_se_sentent_ 5 categories Clear nombre_d enfants numerical restrictions 2 categories niveau_de_vie_personnel 6 categories niveau_de_vie_Francais 6 categories conditions_de_vie_avenir 6 categories television 4 categories societe_a_besoin_de_se_transfo 3 categories diffusion_informatique 4 categories Sup
5. DtmVic Format type XL r Finding the states of each variable basic frequencies 1 Select Input Data file 2 Select types 3 Update and continue ae ae Ouvrir Regarder dans i EX_D01 Importation xL e Ev Nom Date de mo Y Taille M a New_typevarfdatbase_global csv 30 09 2012 18 32 0Ko DISCARD gt CLEAN_dtm fiiles_5L BAT 04 01 2011 19 47 2Ko readme 14 txt 21 12 2010 18 01 1Ko ML datbase global csv 18 06 2010 17 37 5 dathase_ global xls 18 06 2010 17 37 Le descriptif des variables s affiche dans la fen tre de gauche Dans la fen tre centrale nous pouvons lire entre crochets le nombre de valeurs IV 1 Importation XL 123 distinctes observ es dans le fichier et entre parenth ses une lettre A ou N La lettre A signifie que l on a observ des valeurs non num riques la lettre N indique que ce sont uniquement des valeurs num riques Il est alors plus facile de choisir le statut des variables correspondant la deuxi me tape de cette proc dure Pour cela gt 2 Select types S lectionnez une ou plusieurs variables dans la liste de la fen tre centrale puis sp cifiez leur statut en cliquant sur CHAR gt pour une variable nominale ou cat gorielle ici les variables signal tiques 1 2 4 et d opinion 7 12 pour variable num rique ou continue ici la variable 3 Age pour les variables textuelles les r ponses aux questions ouvertes variables 5 6 13 DISCA
6. Les fichiers internes sont des fichiers en format txt et s obtiennent soit de fa on manuelle partir d un mode de saisie d importation int gr Dtm Vic soit le plus souvent partir de fichiers pr existants en format doc pour certaines donn es textuelles ou en format csv issu d Excel pour les donn es num riques et textuelles ou encore simplement en format texte codes ASCII La proc dure d importation ne s op re qu une fois au d but du processus de l analyse Nous approfondirons ici l importation standard en format Excel de donn es num riques et textuelles telles que les donn es d enqu tes compos es de questions ferm es et ouvertes puis dans une seconde partie nous pr senterons la proc dure de saisie directe des donn es D autres proc dures sont pr sent es dans le Tutoriel en Anglais int gr Dtm Vic Les textes simples format interne type 1 d crit en section 1 5 et illustr par l exemple IIl 1 du chapitre III ne donnent pas lieu une proc dure d importation particuli re il suffit d ins rer les s parateurs entre des textes aux formats usuels gt Cliquez sur le bouton Data Importation Preprocessing Data Capture Exportation Une fen tre s affiche et offre diff rentes possibilit s pour constituer un jeu de donn es num riques ou textuelles en format Dtm 118 IV Importation Cr ation Exportation aie ME TELE TT A ELITE Le importer des donn es nu
7. a EU 7 DECO im om u tet oy a wo se ms s 2 Tableau de contingence croisant les m dias et les statuts d activit 11 2 Analyse des Correspondances 45 L objectif est de d crire les relations entre les diff rents m dias et les statuts d activit pour la population consid r e Nous consid rons galement en ligne trois autres caract ristiques socio conomiques le sexe l ge et le niveau d tude comme variables suppl mentaires Les tableaux de contingence croisant ces variables avec la variable m dia sont ainsi juxtapos s au tableau pr c dent Le dossier EX_A02 SimpleCorAnalysis contient le fichier de donn es et le fichier dictionnaire qui peuvent tre import s partir d un fichier de donn es de type Excel e fichier de donn es SCA dat txt Agriculteur 96 Petit patron 122 Aff Cadre sup 193 Prof interm 360 Employ 511 Ouvrier qualif 385 Ouvrier non qual 156 Inactif 1474 Homme 1630 Femme 1667 15 24 ans 660 25 34 ans 640 35 49 ans 888 50 64 ans 617 65 ans ou 491 Primaire 908 Secondaire 869 Techn prof 901 Superieur 619 Ce fichier de donn es comporte 20 lignes dont 8 seront actives et 7 colonnes Chaque ligne contient l identifiant des cat gories socio conomiques entour du symbole quote suivi des 6 valeurs correspondant aux fr quences absolues de 6 m dias s par es par au moins un espace vide
8. gt Cliquez nouveau sur M Visualization gt Dans la fen tre intitul e DTM visualization Loading files Selecting axes cliquez sur Load coordinates Dans le sous menu correspondant choisir nouveau le fichier ngus_ind txt Les coordonn es des individus lignes sont s lectionn es gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant choisissez le fichier part_cat txt La partition induite par les cat gories de la variable 76 sexe est charg e gt Cliquez sur Graphics puis choisissez encore les axes 2 et cliquez sur Continue puis sur DISPLAY Le Plan factoriel 2 3 s affiche gt Cliquez sur le bouton C Hull Convex Hull Enveloppe convexe La figure ci dessous repr sente alors les 300 individus dans le plan 2 3 avec une couleur par classe et une enveloppe convexe par classe 011410371 M 29 ni 0 Zl Enveloppes convexes des deux sous nuages hommes femmes dans le plan s miom trique 2 3 apr s usage du bouton Colours de facon a contraster les deux sous populations VI 1 Donn es num riques S miom trie 165 Commentaire Les deux cat gories Homme violet et Femme marron sont en fait troitement li es l axe vertical 3 on peut le v rifier partir des zones de confiance bootstrap Mais ce lien est peine visible quand on regarde directement les enveloppes convexes des deux sous nuages correspondant ces deux cat go
9. 11 3 2 Mise en uvre de l ACM Selon le m me principe de mise en uvre de l analyse en composantes principales cf 11 1 2 le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Cliquez sur le bouton Create a command file ligne Juluk ae a aE Une fen tre Choosing among some basic analyses appara t gt S lectionnez l analyse MCA Multiple Correspondances Analysis dans la rubrique Nu IEEE EE EA a E Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t Etape 2 S lection des fichiers dictionnaires et de donn es 3 Cliquez sur le bouton Open a dictionary Dans le r pertoire DtmVic Examples A Start EX _A03 MultCorAnalysis ouvrir MCA_dic txt Ce fichier s affiche dans une premi re fen tre Le statut categorical ou numerical des variables est indiqu dans une deuxi me fen tre gt Cliquez sur le bouton Open a Data File Dans le r pertoire DtmVic Examples A Start EX_A03 MultCorAnalysis ouvrir le fichier MCA dat txt qui s affiche dans une troisi me fen tre 11 3 Analyse des Correspondances Multiples 59 Fa Selecting dictionary and data 8 region 2A01 region_paris 1 Open a dictionary Dtm format AAO2 bassin parisien 2A03 nord 2AO4 est AAOS ouest AA06 sud ouest Sommeil numerical Sexe 2 categories AGE 3 categories List of variables check Activit 2 categories Education 3 categories agglom
10. la justice la soci t Dans le dossier EX A03 MultCorAnalysis du r pertoire DtmVic Examples_A Start sont contenus les fichiers dictionnaire et des donn es en format Dtm Vic 1 le fichier dictionnaire MCA dic txt region satisf log tres region paris satisf log assez bassin parisien satisf log peu nord satisf log pas du tout est satisfaction cadre de vie ouest cdv tres sud ouest cdv assez centre est cdv peu mediterranee cdv pas du tout taille d agglomeration statut d occupat logement lt 2000 accedant 2001 5000 proprietaire 5001 10000 locataire 10001 20000 loge gratuit 20001 50000 autre 50001 100000 depenses de logement gt Cf Lebart L 1987 Conditions de vie et aspirations des Fran ais Evolution et structure des opinions de 1978 1984 Futuribles 1 p 25 56 Cf aussi Lebart L 1986 Qui pense quoi Evolution et structure des opinions en France de 1978 1984 Consommation Revue de Socio Economie Dunod 4 p 3 22 11 3 Analyse des Correspondances Multiples AB07 ABO8 ABO9 2 ACO1 ACO2 0 7 ADO1 ADO2 ADO3 ADO4 ADOS ADO6 AD07 5 AGO1 AG02 AG03 AG04 AGO5 AIO1 AI02 AI03 4 AJOL AJ02 AJ03 AJ04 4 AKO1 AKO2 AKO3 AKO4 4 100001 200000 gt 200000 paris agglo paris Sexe masculin feminin age situation actif etudiant menagere s prof malade invalide retraite militaire chomeur Al statut matrimonial celibataire marie e concubi
11. soit visualis s par les diff rents outils de la rubrique VAT AAAA O o A 1110112 1 3 Visualisation des r sultats Dans l tape WIGHT Lelie ae O O ol une s rie d outils de visualisation permettent de valider les r sultats et de faciliter leur interpr tation cf chapitres II et III Pour utiliser un de ces outils Cliquer sur le menu correspondant axes factoriels Classements pour chaque axe des coordonn es des individus des variables actives suppl mentaires etc pour une valuation rapide des r sultats de l analyse factorielle plans factoriels Description des plans factoriels pour tous les types d l ments impliqu s dans les analyses Bootstrap Bootstrap BootstrapView Zones de confiance ellipses ou enveloppes convexes dans les plans factoriels pour les l ments s lectionn s s riation Les lignes et les colonnes de la table de contingence sont r ordonn es selon le premier axe de l analyse des correspondances de la table Pr sentation g n rale 15 Les techniques de S riation sont fond es sur des permutations simples de lignes et de colonnes de la table tudi e elles ont l avantage pratique et cognitif de montrer les donn es brutes l utilisateur et donc de lui viter l utilisation de r gles de lecture complexes Ces permutations peuvent montrer les blocs homog nes de valeurs lev es ou au contraire de valeurs petites ou nulles Elles peuvent
12. une fen tre Options Bootstrap and or Clustering of observations apparait Compte tenu du petit nombre d individus aucune classification n est n cessaire nous ne consid rons ici que la proc dure du bootstrap gt Cliquez sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut cf encadr technique section 11 1 2 Etape 5 a propos de ACP 50 Il Donn es num riques gt Choisir O ou 1 classe puis cliquez sur Enter Nous ne voulons pas effectuer de classification gt Cliquez sur Fe Options bootstrap and or clustering of observations Number of replicates between 5 and 30 Bootstrap Suggested value 25 fe pez 1 Do you want a bootstrap validation 25 Enter no Bootstrap options Partial default Total 0 or 1 means no clustering at all 2 How many clusters to begin wath 0 Enter Continue la fen tre Create a starting parameter file r appara t gt Cliquez sur 2 Create a parameter file for SCA Un fichier param tre vient d tre cr sous le nom param _SCA txt et stock dans le dossier EX_A02 SimpleCorAnalysis du r pertoire DtmVic Examples A Start Pour le conserver en vue de r it rer directement la m me analyse plus tard il faudra le renommer apr s l analyse F Create a starting parameter file Default Name of the crea
13. 11 3 Analyse des Correspondances Multiples 65 Cet outil fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations gt Cliquez sur Une fen tre s affiche proposant diff rentes visualisations a Selecting the types of coordinates Dans cet exemple d analyse six rubriques sont possibles colonnes actives variables cat gories cat gories suppl mentaires lignes actives individus observations colonnes actives lignes actives individus actifs densit et colonnes actives cat gories suppl mentaires L item PLANEVIEW with moveable tags reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique gt S lectionnez colonnes actives cat gories suppl mentaires 1 Apparait une fen tre pour s lectionner le couple d axes souhait s gt Laisser les axes 1 er 2 option par d faut puis cliquez sur display Il est possible de ne faire figurer sur les plans que certaines variables gt Cliquez alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select 66 Il Donn es num riques La fen tre du plan factoriel appara t Save Moregraphs Manmenu Sgnofaxes Zoom Font Ranks Axes color HELP trfem nsp In t DL transt soc nsp mariage nsp justice tres_ bien
14. On notera que TreeTagger n a pas d interface graphique Il fonctionne avec ligne de commande Comme sugg r par Helmut Schmid on peut utiliser l interface Windows plus conviviale WinTreeTagger r alis e par Ciarn O Duibhin http www smo uhi ac uk oduibhin oideasra interfaces winttinterface htm Notez que le fichier alimentant WinTreetagger doit imp rativement tre un fichier texte au format Dtm Vic Le nouveau fichier a importer issu de WinTreetagger contient trois colonnes s par es par des tabulations Premi re colonne occurrence Deuxi me colonne Etiquette grammaticale Troisi me colonne Lemme Un tel fichier contient autant de lignes qu il y a d occurrences et de signes de ponctuation voir le Help de Dtm Vic C est ce fichier que la proc dure remet en format Dtm Vic iv Fragmentation d un texte en format 1 textes s par s par en textes de format 2 Le bouton Fragmentation of a Dtm text format 1 into a Dtm Text format 2 permet de fragmenter les textes importants en petites unit s de V 3 Outils sp cifiques de pr traitement 155 longueurs variables Ces unit s sont form s de une ligne deux lignes des textes initiaux il s agit approximativement d une fragmentation en unit s de contexte On verra ci dessous que la longueur des lignes peut tre modifi e dans certaines limites Une variable nominale est cr e pour conserver l information rattachant les unit s aux textes
15. id them kide 55 high anioy for x security peace other oththe shildren conten 55 medium ve way leisure conteng E5 mediuMand no gettingohome with althah ter freedorrgeneral 0 55 high an Tes j EURE cos Fa h i standard siousetiMe os og Smyth world cpg onz os they PA e eople IW cell ePS Hir 19 n r u would see long imp ha af the ir g l P g ppy well wa after randch ducation a able to s 56 low educ love 80 medium noting don hot png aryting satisfaction althy 02 going m s job s soto ait com ave Y keep there Pe your else comlorta Vote ing 103 much worries more future mends really iust think make 30 highgs a4 out want go car do what ac about Remarque Les cat gories actives Age x Education colonnes de la table lexicale sont imprim es en rouge alors que les mots actifs lignes sont imprim s en bleu Les r les des diff rents boutons sont d crits pr c demment notamment dans les exemples A 1 et A 2 3 Validation Bootstrap gt Cliquez sur B Bootstrapl pour valider la position des variables sur le plan factoriel Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquez sur Load Data puis ouvrir dans le r pertoire le fichier des replications selon le bootstrap choisi S lectionnez le fichier ngus_par_booti txt pour un bootstrap textuel partiel R pondre la bo te Set of principal coordinates loaded qui
16. Cet exemple reprend les proc dures de base de l exemple 1 pr c dent Analyse en composantes principales et classification clustering d un ensemble de donn es num riques avec diff rents outils de visualisation impliquant aussi une variable nominale sp cifique la variable identifiant les 3 esp ces d iris L exemple pr sente ensuite les am liorations apport es par l analyse de contiguit dont l analyse lin aire discriminante et un cas particulier 3 L exemple 3 dans le dossier EX _C03 Graphs vise d crire trois types simples de graphes planaires sym triques principalement au moyen de l analyse des correspondances Contrairement aux exemples pr c dents le r pertoire contient plusieurs jeux de donn es un graphe en forme de damier un cycle et des graphes empiriques repr sentant des r gions du Japon et de France Ces exemples veulent jeter un pont entre les diff rentes possibilit s du logiciel Dtm Vic un m me graphe peut provenir de donn es d entr e diff rentes donn es num riques donn es textuelles et aussi dans ce cas un format externe sp cifique pour les graphes 4 L exemple 4 dans le dossier EX C04 Images a une vocation plut t p dagogique montrer les propri t s de compression num riques des m thodes en axes principaux et des s ries de Fourier discr tes titre de comparaison Les images n cessitant un format sp cifique cette application ne s ins re pas dans les cha nes d
17. Cliquez sur Load coordinates Dans le sous menu correspondant choisir le fichier anagraf txt qui contient les coordonn es factorielles pour les analyses directes de graphes gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant s lectionnez No partition Puis proc dez comme pour l exemple Chessboard gt 3 Cliquez sur puis choisissez les axes 1 et 2 par d faut dans la fen tre S lection des axes et cliquez sur puis sur DISPLAY Dans une nouvelle fen tre intitul e Vizualisation Graphics le plan factoriel principal s affiche Une fois de plus toutes les tapes de la section pr c dente pourront tre r alis es Les graphiques obtenus sont encore identiques ceux de la section VI 3 2 b Ils ne sont donc pas reproduits VI 3 5 Execution des exemples Cycle Cette section est en tout point identique la section VI 3 2 ex cution de l exemple Chessboard Numerical et VI 3 4 Le graphique a la forme d un cycle avec le m me nombre de sommets Les fichiers homologues des fichiers Chessboard 7x7 dat txt Chessboard_ 7x7 dic txt Chessboard Extern_7x7 txt et Chessboard_ CA Param txt sont maintenant respectivement Cycle 49 dat txt VI 3 Descriptions de Graphes 193 Cycle 49 dic txt Cycle Extern_49 txt et Cycle CA Param txt Ils peuvent tre trouv s dans le r pertoire Cycle e E 5 im a E ai a E Plan factoriel principal pour le graphe Cycle a
18. II est par cons quent fortement recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es n cessaires l analyse au format Dtm Vic d crits dans le paragraphe 1 5 24 Il Donn es num riques II 1 Analyse en Composantes Principales ACP ou PCA Ce premier exemple voir r pertoire DtmVic Examples A Start EX_A01 PrinCompAnalysis vise d crire un ensemble de variables continues par l Analyse en Composantes Principales 1 1 1 Les donn es et fichiers Dtm Vic Enqu te budget temps Les donn es sont extraites d une Enqu te Budget temps Multim dia effectu e par le Centre d tude des Supports de Publicit www cesp org en 1992 aupr s de 18000 personnes Ont t relev s le temps pass diverses activit s quotidiennes travail loisirs d placements repas repos soit 39 activit s de V6 a V44 ainsi que le temps de fr quentation de divers m dias radio t l vision presse soit 5 m dias de V45 V49 Le temps est exprim en minutes par jour Il est mesur le jour pr c dant l entrevue Ont galement t relev es les caract ristiques socio conomiques du r pondant telles que l ge le sexe l activit le niveau d ducation et le lieu de r sidence correspondant 5 variables nominales de V1 V5 Les 18 000 r pondants originaux sont group s selon les combinaisons de cinq caract ristiques socio conomiques prod
19. LA Li 9 s 2 g S Commentaire Les zones de confiance des points m dias en rouge montrent que ceux ci ont des positions distinctes donc des profils d activit s typ s En revanche certains points activit en noir ont des zones de confiance qui empi tent Ainsi on ne peut conclure que les Ouvriers non qualifi s les Ouvriers qualifi s et les Employ s occupent des positions distinctes et donc que ces cat gories ont des profils de fr quentation m dia distincts gt Pour fermer le graphique cliquez sur return II 3 Analyse des Correspondances Multiples ACM ou MCA Le troisi me exemple voir r pertoire DtmVic Examples_A_Start EX _A03 MultCorAnalysis d crit un ensemble de variables nominales par l Analyse des Correspondances Multiples 11 3 1 Les donn es Extraits de l enqu te Conditions de vie et Aspirations des Fran ais Les donn es sont extraites d une enqu te par sondage effectu e par le CREDOC en 1986 sur les conditions et aspirations des Fran ais Elles traitent des r ponses d un petit sous chantillon de 315 individus et 49 questions Une premi re s rie de questions concerne les caract ristiques objectives du r pondant ou de son m nage ge statut genre quipements D autres s ries de questions se rapportent l attitude ou aux opinions des enqu t s sur la perception du niveau de vie la famille l environnement physique et technologique la sant
20. ToolBox Preprocessing numerical propose des outils l mentaires de prise de contact et de pr traitements en vue de l importation ou de l utilisation de donn es num riques et textuelles DimVic Specific tools for preprocessing numerical data Deciphering the first characters of a new file Replacing tabs with semicolons before importation Replacing commas with semicolons before importation Lorsque l on re oit un fichier de donn es internet cl USB DVD il est utile de v rifier la nature des caract res pr sents num riques alohanum riques s parateurs ponctuation ventuelles tabulations etc Le premier bouton Deciphering the characters of a new file nous donne le code ASCII correspondant aux 6000 premiers caract res d un fichier op ration aussi utile parfois qu l mentaire Le second bouton Replacing Tabs with semicolons est utile lors de l importation d un fichier Excel Dans certaines versions d Excel le s parateur du format csv est une virgule comma cas fr quent des pays pour lesquels la notation d cimale utilise des points a la place des virgules la virgule pouvant alors jouer un r le de s parateur d enregistrement Le passage par la sauvegarde avec les tabulations comme s parateurs est alors plus pratique Il faut ensuite utiliser ce bouton Attention Si un tel fichier contient d j des points virgules la transformation ne pourra avoir lieu L
21. axe les traits structuraux diagonaux sont d favoris s par la formule de reconstitution des donn es Enfant balayant une cour Cas de l analyse des correspondances Images couleur ppm reconstitu es successivement avec deux axes principaux 10 axes et 100 axes R f rences bibliographiques sommaires 207 R f rences bibliographiques sommaires Becue M 1991 Analisis de Datos Textuales CISIA Saint Mand Benz cri J P 1973 L Analyse des Donn es Tome 1 La Taxinomie Tome 2 L Analyse des Correspondances Dunod Paris 2de d 1976 Benz cri J P 1992 Correspondence Analysis Handbook Marcel Dekker New York Bouroche J M Saporta G 1980 L analyse des Donn es Coll Que Sais je PUF Paris Bry X 1995 Analyses Factorielles Simples Economica Paris Efron B 1979 Bootstraps methods another look at the Jackknife Ann Statist 7 p 1 26 Escofier B Pages J 1988 Analyses factorielle simple et multiple Dunod Paris Gifi A 1990 Nonlinear Multivariate Analysis Wiley Chichester Gower J C Ross G 1969 Minimum spanning trees and single linkage cluster analysis Appl Statistics 18 54 64 Gower J C Hand D J 1996 Biplots Chapman and Hall London Greenacre M 1984 Theory and Application of Correspondence Analysis Academic Press London Greenacre M Blasius J editors 2006 Multiple Correspondence Analysis and Related Methods Chapman and Hall CRC London Habert
22. c est dire ici le groupe i de r pondants et les 44 autres valeurs correspondent aux r ponses des 44 variables s par es par des espaces blancs les 5 premi res valeurs sont les items des 5 variables nominales genre age activit ducation agglom ration de r sidence qui sont la base de la formation des groupes les 32 autres valeurs correspondent aux cumuls du temps pass minutes par jour dans les activit s par tous les individus constituant le groupe i et les 7 derni res valeurs correspondent aux cumuls du temps pass au contact d un m dia 11 1 2 Mise en uvre de l analyse PCA Le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Cliquez sur le bouton Create a Command file de el Etat Une fen tre Choosing among some basic analyses appara t gt S lectionnez l analyse PCA Principal Components Analysis dans la rubrique ul tee MeF lem TELEAC TE Analyse en composantes principales 2 About Dtmic Data Format Help about command parameters Help about created files Dtm Data and text mining Dtm VYic Tools x BE Choosing among some basic analyses Data File Data Importation Preprocessing C Numerical Data basics Create a command file D BAS Basic Statistics about numerical and categorical variables means sta Command File lt lt M Open an existing command file Basic numerical results TAB CrossTabulating a series of catego
23. cution du fichier de commande fichier parametre gt Cliquez sur de elite Rai Les tapes de calcul de base pr sentes dans le fichier de commande sont ex cut es archivage de donn es et le dictionnaire choix des l ments actifs et suppl mentaires statistiques l mentaires analyse en composantes principales de la table s lectionn e r plications bootstrap de la table br ve description des axes classification description approfondie des classes Les 9 tapes d crites ci dessus s affichent la fin de l ex cution Pour examiner les r sultats num riques comme pr c demment gt Cliquez sur Basic numerical results de HSM Les r sultats num riques sont du m me type que ceux pr sent s en section II 1 3 Analyse en composantes principales chapitre Il VI 1 3 Visualisation et lecture des r sultats Nous proc dons tout d abord comme dans le chapitre Il propos de la 10 Statistique Exploratoire Multidimensionnelle 4 dition L Lebart M Piron A Morineau Dunod Paris 2006 162 VI Autres analyses avec Dtm Vic visualisation des r sultats en utilisant les possibilit s offertes par la seconde phase Mere A ALI ere Re L analyse r alis e permet d examiner les axes et les plans factoriels boutons et HE PlaneView la validation des positions des points sur les graphiques par Bootstrap avec BootstrapView la classification avec le bouton et les cartes auto orga
24. e fichier dictionnaire SCA dic txt Radio Television Quot Nat Quot Reg Magazine Mag TV 46 Il Donn es num riques Dans ce format interne de Dtm Vic les libell s des cat gories commencent la colonne 6 une police intervalle fixe telle que le courier peut tre employ e pour faciliter l utilisation de ce genre de format Rappel les espaces vides dans les identifiants individus et variables ne sont pas permis 11 2 2 Mise en uvre de l analyse SCA Comme dans l exemple 1 le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse Dans la fen tre du menu principal cliquez sur Command File F Une fen tre Choosing among some basic analyses gt S lectionnez l analyse SCA Simple Correspondence Analysis dans la rubrique Unite eRe Mm lalate ELE CRT ete TE Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t Etape 2 S lection des fichiers dictionnaires et de donn es gt Cliquez sur le bouton Open a dictionary Dans le dossier EX_A02 SimpleCorAnalysis du jeu d exemples de Dtm Vic ouvrir le fichier SCA_dic txt Il s affiche dans une premi re fen tre La liste et le statut num rique par d faut dans cet exemple des variables sont indiqu s dans une deuxi me fen tre 11 2 Analyse des Correspondances 47 Fa Selecting dictionary and data Radio Television Quot_Nat 1 Open a dictionary Dtm format Quo
25. galement indiquer exactement une volution continue et progressive des profils Une propri t optimale de l analyse de correspondance est la suivante le premier axe d une analyse de correspondance fournit un ordre optimal des points ligne et des points colonne projection des classes de la classification sur les plans factoriels Repr sentation des positions des centres de classes dans le plan factoriel Description des l ments caract ristiques de la classe correspondante variables num riques cat gories et galement mots ou r ponses dans le cas des questions ouvertes EH Kohonen Map cartes de Kohonen Cartes auto organis es des individus des variables et simultan es des individus et des variables partir des coordonn es factorielles Grilles carr es de dimensions 3 x 3 20 x 20 W Visualization Outils compl mentaires de visualisation Visualisations compl mentaires des plans factoriels et de la classification Ellipse de densit ou enveloppes convexes des classes Trac de l arbre de longueur minimal des plus proches voisins dans les plans factoriels Visualisation p dagogique de la construction progressive des classes cas de la proc dure k means nu es dynamiques Visualisation dans les plans factoriels des grilles de Kohonen et de certains graphes analyse de contig it Analyse locale structure de graphe L analyse de Contig it rel ve des techniques d analyse
26. justice nr 10 justice nsp cad vie tresp nr satist log tres 105 solitude peu Age_super_60 mariage indissol plutot_la_fem P famille oui mal_dos_oui en solitude nomtisf_sante tre 15 satisf_santepeu x Niv_Edmaririustice assez bien KIBE HU solitude nsp Tafisi 50C non tem 55a r rats gt hat maux_t nervosite_oui cad viustico assez_mal ts due al dos_non justice tres_mal satist_sante non depressif_oui solitude assez satist log assez Ane inf 30 Mariage diss_si_acco famille non satisf log peu cad vie peu solitude tres cad vie non satisf loc PlaneView 1 2 rubrique colonnes actives cat gories suppl mentaires PlaneView rubrique individus actifs densit Commentaires Dans les individus actifs densit les identifiants des individus sont remplac s par un caract re simple cas d un ensemble d individus tr s grand Cet affichage montre principalement la forme du nuage des individus mais les identifiants d origine peuvent s afficher en cliquant sur le bouton droit de la souris 11 3 Analyse des Correspondances Multiples 67 Rappel Pour chaque graphique le bandeau du haut contient des options Font offre la possibilit de modifier la police et la couleur des caract res Sign of axes permet d inverser les axes Save sauvegarde le graphique en format bmp Rank est utile seulement dans le cas des affichages tr s complexes ce bouton convertit les deux c
27. pondre Ok L archivage des coordonn es s affiche dans la fen tre du bas gt Cliquez sur Update dictionary et r pondre dans la boite de message Dictionary updated qui s affiche 146 V Recodage Archivage Outils divers Les fichiers dictionnaire et des donn es sont cr s dans le dossier EX_A03 MultCorAnalysis et sont nomm s dtm dico newAl txt et dtm_data_newA1 txt Pour archiver un deuxi me facteur recommencer la proc dure en s lectionnant les nouveaux fichiers dictionnaire et donn es dtm_dico_newA1 txt et dtm_ data newAl txt M me proc dure pour archiver une partition la suite Fa Adding one or several principal coordinates to the data file H He same same Sera coordinate file b Archiver une partition gt Cliquez sur Select partition file Une fen tre du dossier EX A03 MultCorAnalysis s affiche o figure le fichier part_cla_ind txt du stockage de la partition cr e lors de la proc dure MCA Multiple Correspondances Analysis et dont le nombre de classes a t sp cifi lors du param trage de l analyse gt Ouvrez dans le dossier EX A03 MultCorAnalysis le fichier part_cla_ind txt fichier de la partition voir les noms des divers fichiers texte cr s par Dtm Vic dans le Help about files du menu principal gt Cliquez sur Add partition V 1 Recodage et archivage 147 Select Dictionary Ouvrir Regarderdans EX_A03 MutCorAnalysis e ae im
28. riques S miom trie 159 traduction de la liste des mots Comme pour les tudes styles de vie les espaces obtenus permettent de positionner des produits des marques ou des services dans le cadre d tudes de recherche marketing Les trois fichiers qui composent cet exemple se trouvent dans le r pertoire DtmVic examples DtmVic Examples_C_NumData EX_C01 PCA Semio 1 le fichier de donn es PCA semio dat txt Cet exemple est de taille r duite et comprend 300 r pondants au lieu de 1000 ou 2000 qui sont les tailles usuelles des chantillons d enqu te s miom trique et 76 variables 70 mots les notes attribu es ces mots sont consid r es ici comme des variables num riques et 6 variables nominales d crivant les caract ristiques des r pondants 2 le fichier de dictionnaire PCA semio dic txt Le fichier dictionnaire contient les identifiants des 76 variables Dans le dictionnaire interne de DtmVic les identificateurs de cat gories doivent commencer colonne 6 une police intervalle fixe telle que courrier peut tre utile pour faciliter ce genre de format 3 le fichier de commandes EX _CO1 Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessite quelques param tres d crits bri vement dans le menu principal de DtmVic bouton Notons qu un fichier de commande similaire au fichier de commande EX CO1 Param txt peut galement tre g n r en cliqua
29. s rie d exemples reprend les techniques d analyses de base sur donn es num riques Cette s rie va nous donner l occasion d approfondir les outils et Contiguity du volet VIC de Dtm Vic WA Nous tudierons ensuite l application des analyses en axes principaux aux visualisations de graphes et aux compressions d images 1 L exemple 1 dans le dossier EX C01 PCA Semio vise a d crire un ensemble de variables num riques un extrait de donn es semiom triques par analyse en composantes principales Les axes principaux sont compl t s par une classification et une description automatique des classes un fichier de commande tout pr par nous permet d acc der directement la phase VIC On ne pr sentera ici que le sous menu Visualisation de la phase VIC visualisation des classes ou cat gories en utilisant des symboles ou des couleurs des enveloppes convexes ou ellipses de densit pour les classes le trac de l arbre de longueur minimale Minimum Spanning Tree les visualisations des graphes des plus proches voisins classifications de type k means la vol e etc 2 L exemple 2 dans le dossier EX C02 PCA Contiguity analyse un ensemble classique de variables num riques les donn es IRIS d Anderson et Fisher bien connues des statisticiens par l analyse VI 1 Donn es num riques S miom trie 157 en composantes principales la classification l analyse de contiguit et l analyse discriminante
30. tre appara t IV 1 Importation XL 121 F DtmWic Data importation IMPORTATION OF DATA Please have a look at the examples D 1 to D 5 described and commented in Tutorial D to get acquainted with the required original format of the data to be imported Cichonary and Numerical Data Files gt acel fr type file saved as csv files Free format tile Fixed format file Textual Data tree format Unique ML file containing both numerical and textual data ML specific file gt Cliquez ensuite sur Excel r type file saved as csv file Une fen tre Data Importation from an Excel file apparait proposant plusieurs options F DtmVic Data Importation from an Excel r file HELP Transforming a specific XL csv formatfile into DtmVic dictionary and data files Optional The file to be imported under Microsoft Excel format corresponds to a frequent situation 0 Change Tabs into Semicolons Optional Note two important constraints 0 Change Commas into Semicolons a the names of variables must have less than 20 characters nem by underscores if any scribed either by a number or by a chain of alphanumeri 6 at most without blank Note that these names will be truncated down to 10 characters to build the identifiers of the Start the importation process categories 1 important that these first 10 characters allow fo ntifying the variable ce of characters
31. vu une entr e directe dans le menu Contiguity gt Cliquez sur ES Contiguity dans l tape METIER AA Classification steps gt Cliquez sur Parameter Edit Choisissez l l ment Create Nous allons tablir les param tres n cessaires une description graphique Dans le premier bloc intitul ncoord Input coordinate file cochez 0 File ngus_ind coordinates of individuals observations Aucun fichier de coordonn es simple description d un graphe externe Dans le deuxi me bloc intitul npart partition file cochez 0 no partition Dans le troisi me bloc intitul meth method cochez 4 graphe de contiguit externe gt Cliquez sur VALIDATE gt Dans la barre sup rieure de la fen tre cliquez sur Une nouvelle fen tre appara t et vous tes invit s choisir le fichier du graphe externe Chessboard Extern 7x7 txt du 192 VI Autres analyses avec Dtm Vic r pertoire EX_C04 Graphs Chessboard Chessboard Extern Une autre fen tre Reading an external graph apparait gt Cliquez sur CONTINUE Une s rie de fen tres apparaissent indiquant les d tails techniques des calculs impliqu s dans l analyse des correspondances de la matrice M associ e au graphe Ces r sultats sont enregistr s dans le fichier imp_contig txt sauvegard dans le r pertoire de travail gt Cliquez sur M Visualization La fen tre intitul e DTM visualization appara t gt
32. 20_24 S2 A_LIT ILE_HETTERD_34 35_39 S3 VERY_MUCH_WORSE NOT_CHANGES 30 ow male high missing_value 18_19 Cat gories suppl mentaires avec l option Etiquettes d placables Dans le sous menu propos par PLANEVIEW with moveable tags nous avons s lectionn les cat gories suppl mentaires qui constituent le principal int r t de ce type d analyse directe des r ponses Le graphique ci dessus nous montre que l ge est une des variables tr s importantes dans la dispersion des r ponses ouvertes ainsi que le niveau d instruction et le genre sexe C est la suite de ce type d analyse r alis e sans a priori que l on peut choisir les crit res de regroupement des r ponses les plus pertinents Les autres outils ClusterView Kohonen peuvent tre utilis s selon les pr conisations des sections pr c dentes 117 IV Importation cr ation exportation des fichiers au format Dtm Vic Les fichiers en format interne de Dtm Vic sont les fichiers dictionnaire les fichiers de donn es num riques et les fichiers de textes pr sent s au paragraphe 1 3 Ils sont n cessaires pour proc der une analyse de donn es num riques ou une analyse de donn es textuelles Le cas le plus complet qui met en oeuvre ces trois types de fichiers est celui d une enqu te comportant des r ponses la fois des questions ferm es fichiers dictionnaire et donn es et des questions ouvertes fichier texte
33. 3 Activit V3 Act acti 1 Act inac 2 Education V4 Educ prim 1 Educ sec 2 Educ sup z agglome V5 aggl Imp 1 aggl Moy 2 aggl Rur 3 aggl Mixte 4 aggl Paris 5 Repos V7 Toilette V8 Repas V9 Petit D VLU Repas _ home V11 Repas rest V12 Travail VL TravailR V14 Enfants V15 M nage V16 Relation V17 Visite amis V18 Loisirs VIY Jeux Jar V20 Jardinag _V21 Loisirs ext V22 Disque V23 Lecture V24 Lect livr V25 OOO OO OOO OO 0 006 COO OC Oe Promenad V27 Courses V28 D placem V29 A pied V30 En Voitu V31 Fr quent V32 Autres a V33 Total Do V34 Total D V35 Total ho V36 Total Me V37 Radio V38 TV V39 Presse V40 Quotid_ N VAI Quotid_ R V42 Magazine V43 Mag TV V44 L identifiant d une variable nominale est pr c d par le nombre N de ses modalit s colonne 5 Les N lignes suivantes sont les N modalit s de r ponses n identifiant court en 4 caract res occupe les colonnes 1 5 et un identifiant long lt 20 caract res commence colonne 6 Conventionnellement une variable num rique a z ro cat gorie Les espaces vides sont interdits dans les identifiants 26 Il Donn es num riques 2 Extraits du fichier de donn es PCA dat txt ee PREP RP RRR PP MORPRPRPRPRPRPRER PE PISWOBWNHE OF L Le Le 2 24 om 54 Js Ze Ce fichier de donn es comprend 96 lignes et 45 valeurs Pour une ligne i la premi re valeur entre quotes correspond a l identifiant de l individu i
34. B Nazarenko A Salem A 1997 Les linguistiques de Corpus Armand Colin Paris Hayashi C Suzuki T Sasaki M 1992 Data Analysis for Social Comparative research International Perspective North Holland Amsterdam Jambu M Lebeaux M O 1978 Classification Automatique pour l Analyse des Donn es Tome 1 M thodes et Algorithmes Tome 2 Logiciels Dunod Paris Kohonen T 1989 Self Organization and Associative Memory Springer Verlag Berlin Lambert T 1986 R alisation d un Logiciel d Analyse de Donn es Th se Universit de Paris Sud D p Statistique Orsay Le Roux B Rouanet M 2009 Multiple Correspondence Analysis Vol 163 Sage Publication Inc Lebart L Morineau A Tabard N 1977 Techniques de la Description Statistique M thodes et Logiciels pour l Analyse des Grands Tableaux Dunod Paris 208 R f rences bibliographiques sommaires Lebart L Morineau A 1982 SPAD Syst me Portable pour l Analyse des Donn es CESIA 82 rue de S vres 75007 Paris Lebart L Morineau A Pleuvret P Brian E Aluja T 1983 SPAD Syst me Portable pour l Analyse des Donn es Tome II CESIA Lebart L Morineau A B cue M 1989 SPAD T Syst me Portable pour l Analyse des Donn es Textuelles Manuel de R f rence CISIA Paris Lebart L Morineau A Warwick K W 1984 Multivariate Descriptive Statistical Analysis Correspondence Analysis and Related Techniques for Large Matrices Wiley New York
35. Files Cliquez sur Basic numerical results pour naviguer dans le fichier de r sultats en format html puis sur Return pour en sortir et revenir au menu principal ou cliquez sur Basic numerical results text format pour ouvrir le fichier de r sultats en format texte Les fichiers de r sultats sont dans le r pertoire EX A04 Text Poems Rappel Le fichier r sultat imp txt comme son homologue imp html est galement sauvegard sous le nom imp suivi de la date et l heure de l analyse imp 18 07 11 14 45 txt signifie le 18 juillet 2011 14h 45 Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que les dossiers imp txt et imp html sont cras s chaque nouvelle analyse ex cut e dans le m me r pertoire Ill 1 Simples textes Po mes 79 DtmVic Main basic numerical results Table of content Artex building archive textual data Selox selecting an open question Numer numerical coding of texts Motex table categories x texts Aplum CA of lexical tables Clair description of axes in textual analysis Mocar characteristic words List of commands weer DtmVic Assignments gt listf no listp yes 2 DIM BASIC COMMAND FILE FOR TEXIUAL DATA ANALYSIS 3 4 Default Name of the created command file param VISUTEX txt 5 Comments symbol La lecture de ce fichier est utile pour prendre connaissance de certains
36. aux autres cat gories L axe 2 oppose la presse r gionale et magazine la presse TV et les agriculteurs et ind pendants aux employ s et ouvriers gt Cliquez sur pour sortir de cet outil 11 2 Analyse des Correspondances 53 2 Plans factoriels gt Cliquez sur El PlaneView Une fen tre s affiche proposant diff rentes visualisations de plans factoriels Cette option fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations L encore variables et observations repr sentent les modalit s des deux variables de la table de contingence Dans ce cas le sous menu Actives columns Active rows est appropri pour le tableau de contingence gt Cliquez sur la rubrique Actives columns Active rows puis s lectionnez les axes principaux d sir s ici les axes 1 et 2 Cliquez ensuite sur display Apparait une fen tre pour s lectionner le plan factoriel suivant la paire d axes souhait e gt Choisir les axes 1 er 2 choix par d faut puis cliquez sur display II est possible de ne faire figurer sur les plans que certaines variables Cliquez alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select Rappel Pour chaque graphique le bandeau du haut contient des options Save sauvegarde le graphique en format bmp Font offre la possibilit de m
37. base de donn es 3 Outils sp cifiques de pr traitements VI Autres analyses avec Dtm Vic 156 1 Donn es num riques Semiom trie 2 Donn es num riques Contiguit Iris de Fisher Anderson 3 Description de graphes 4 Reconstitution d images R f rences bibliographiques sommaires 207 Dtm Vic Data and text Mining Visualization Inference Classification Logiciel d analyse exploratoire multidimensionnelle de donn es numeriques et textuelles Librement t l chargeable sur www dtm vic com Introduction XN Dtm Vic est un logiciel consacr l analyse exploratoire multidi mensionnelle des donn es num riques et textuelles L analyse exploratoire comme son nom le sugg re est une d marche pr liminaire de contact avec un recueil de donn es contact suivi d investigations de description sans se limiter un protocole fix l avance L exploration suppose que les donn es sont complexes que les connaissances a priori sur ces donn es sont limit es L analyse multidimensionnelle elle s attache au cas o les dimensions le plus souvent les variables sont nombreuses ce qui est un facteur de complexit et par cons quent une incitation commencer par une d marche exploratoire Une autre incitation plus technique utiliser cette d marche concerne le caract re peu r aliste des hypoth ses statistiques distri
38. base de donn es par Voir Chapitre V i S lection d un sous ensemble al atoire d individus lignes ii S lection d un sous ensemble d individus lignes partir d un filtre ii S lection d un sous ensemble de variables colonnes iii Concat nation de deux bases de donn es variables diff rentes iv S lection d un sous ensemble de variables ayant un poids maximum Le menu suivant propose quelques outils l mentaires de prise de contact avec les donn es et de pr traitements en vue de l importation ou de l utilisation de donn es num riques et textuelles 18 Pr sentation g n rale Le dernier menu propose quelques proc dures en vue de l importation ou de l utilisation directe des textes DimVic Specific tools for preprocessing textual data Conversion of all the characters of a text into lowercase Suppress in a text the chains such az lt gt Re importing a Dim text file after WinTreeT agger Fragmentation of a Dtm text format 1 into a Dim text format 2 Changing the sizes of the lines in a Dtm ic text file Add empty lines for empty responses only in the case of Dim Texts format 2 i Conversion en minuscules des textes ii Suppression des balises lt et gt et du texte qu elles peuvent contenir iii R importation dans DtmVic d un fichier de type Dtmic type 1 ou 2 ayant t soumis au logiciel gratuit TreeTagger Ceci permet de lemmatise
39. caract res Sign of axes permet d inverser l orientation des axes Save sauvegarde le graphique en format bmp Rank est utile seulement dans le cas des affichages tr s complexes ce bouton convertit les deux coordonn es de l affichage courant en rangs Par exemple les n valeurs de l abscisse sont converties en nombres entiers de 1 n ayant le m me ordre que les valeurs originales Ainsi les deux distributions sont uniformes et les identifiants se recouvrent moins au prix d une d formation substantielle de l affichage 82 Ill Donn es textuelles et mixtes iad 1 Avis X 1 Axe Y Rodia Fan Save a8 ENNA his lo he 7 from see ren each S_12 can youth eye del look sweets all 5 14 eyes time S W every nor world her 2 wS_19d old S_15 I ss 52 an win sill Y this their MON A st beauty more M ofbut most my 10 15 20 fresh S5 a lif thou 0 S_8 may tores S_20 fair _17 sy S another thine 4 1 Iwill has thee one she lives sove o S_16 art Ns 10 n nature thyself for wre vere live aan sell much were et then Which should had shoulds you why use what sweet than _13 roe those treasure 1 winter S_6 yourself let some death times Positionnement des sonnets et des mots dans le plan factoriel principal Choisir une option puis cliquez sur gt Pour revenir au menu principal de Dtm Vic cliquez sur return 3 Validation Bootstrap Voir l encadr technique sur le boot
40. classes est en effet un cas particulier de l analyse de contigu t Dans un tel cas le graphe impliqu dans l analyse de contiguit est fait de k cliques graphes complets correspondant aux k classes de l analyse discriminante Dans notre cas particulier k 3 Tous les couples d observations appartenant une m me esp ce sont reli s par une ar te Aucune ar te ne relie deux observations appartenant deux esp ces diff rentes gt Revenir au menu principal et cliquez sur EM contiguity gt Cliquez sur Parameter Edit Choisissez l l ment Create gt Cochez 4 File ngus_ind coordinates of individuals observations dans le premier bloc ncoord Input coordinate file 2 part_cat txt nominales dans le deuxi me bloc npart partition file partition utilis e pour construire le graphe 180 VI Autres analyses avec Dtm Vic 3 Analyse Discriminante Classique dans le troisi me bloc meth method Dans ce cas particulier d analyse discriminante les param tres suivants n ont pas de sens Dtm Vic vous demande de les ignorer Remettre 0 les compteurs si n cessaire L analyse de contigu t sera effectu e en utilisant le graphique associ la partition en 3 esp ces de fleurs Toutes les paires d individus appartenant la m me esp ce sont reli es par une ar te il y a aucune ar te entre individus appartenant des esp ces diff rentes gt Cliquez sur VALIDA
41. gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant s lectionnez No partition gt Cliquez sur puis choisissez les axes 1 et 2 par d faut dans la petite fen tre S lection des axes et cliquez sur Continue puis sur DISPLAY Dans une nouvelle fen tre intitul e Vizualisation Graphics le plan factoriel principal s affiche voir figure VI 1 pr c dente XX k Dans la barre d outils verticale de la fen tre Graphics le bouton va nous permettre de tracer le graphe initial partir du codage externe Horiz axis 1 Vertic axis 2 Visualization Graphics DE 18 x SAVE 1 Axis ZOOM COLOUR FONT Density HELP Return Figure VI 2 M me plan factoriel principal pour le graphe Damier avec trac du graphe initial apr s changement de police bouton Font et de couleur bouton Colour 188 VI Autres analyses avec Dtm Vic gt Pour repr senter les ar tes du graphe d origine cliquez sur le bouton graphe externe de la barre verticale gt Ouvrez le fichier Chessboard_Extern_7x7 txt gt Cliquez sur le bouton Graph On obtient alors une repr sentation du graphe original avec une repr sentation des ar tes originales Figure VI 2 Cette repr sentation permet aussi d observer les d formations du graphe planaire dans les espaces engendr s par les paires d axes de rangs 3 12 On observe un effet Guttman multidimensionnel gt Reto
42. initial apr s changement de police bouton Font et changement de couleur bouton Colour Le traitement dissym trique des lignes et des colonnes et la normalisation op r e par l ACP ne permettent pas d obtenir une description satisfaisante de ce type de graphes On trouve dans ce r pertoire le fichier texte et le fichier de commandes Dans ce contexte particulier il n y a ni fichiers de donn es ni fichier dictionnaire le questionnaire comprend une pseudo question ouverte pos e a chaque sommet Quels sont vos sommets voisins 1 Fichier texte Chessboard_textual_7x7 txt Le format est le m me que celui d crit au paragraphe 1 5 Chapitre 1 85 tableau 4 dans le cas d une seule question ouverte tant donn que les r ponses peuvent avoir des longueurs tr s diff rentes les s parateurs sont utilis s pour distinguer les individus ou les personnes interrog es Les individus ici les n uds sont s par s par la cha ne de caract res partir de la colonne 1 ventuellement suivi d un identificateur Attention les 49 num ros de sommets sont ici consid r s comme des mots ils pourraient tre remplac s par 40 noms distincts avec les m mes 190 VI Autres analyses avec Dtm Vic calculs et le m me r sultat final pour le trac du graphe 2 Fichier de commandes Chessboard_Textual Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessite
43. initiaux voir le Help in situ v Changement de longueur des lignes de texte Le bouton Changing the size of the lines in a DtmVic text file permet une importation ou un reformatage des fichiers textes Au d part on dispose de textes en format DtmVic 1 ou 2 sans limitation pour la longueur des lignes la fin textes ayant des lignes d une longueur choisie par l utilisateur mais lt 200 caract res Cette proc dure permet d importer des textes aux lignes tr s longues mais aussi de formater les unit s de contexte cf point iv ci dessus vi Enfin le dernier bouton d clenche une proc dure limit e et sp cialis e qui permet de faire respecter la contrainte une ligne vide par r ponse ouverte vide pour des fichiers qui utiliseraient deux s parateurs cons cutifs Elle est parfois utile apr s la r importation apr s TreeTagger d un fichier de type 2 156 VI Autres analyses avec Dtm Vic Visualisations labor es Contiguite Graphes Images L orientation principale de Dtm Vic est l analyse exploratoire multi dimensionnelle des donn es num riques et textuelles avec validation syst matique des r sultats par la compl mentarit d approches diff rentes et par les m thodes de Bootstrap D autres applications et d autres outils qui permettent d envisager des analyses plus labor es sont pr sent s dans ce chapitre Dans le dossier DtmVic Examples DtmVic Examples_C_NumData une
44. le clavier La 1 variable s affiche dans la fen tre ae Creating Data Source File Update an existing datafile Dictionary of variables file format 2 sexe hom fem age observation de number observation identifier bas moyen 4 __ Jules haut Variable number 1 sexe __ Enter SAVE DATA BE Return 133 IV Importation Cr ation Exportation gt S lectionnez la modalit correspondant l individu avec le menu d roulant puis cliquez sur Enter ou appuyez sur Entr e sur le clavier La 2 variable s affiche II s agit de la saisir de la m me fa on Une fois les variables captur es pour l individu l individu suivant appara t Le dictionnaire s affiche dans la fen tre en haut et droite et le fichier des donn es dans la fen tre en bas IV 2 3 Cr ation des fichiers DtmVic Une fois la saisie achev e gt sauvegardez le fichier en cliquant sur SAVE DATA et enregistrer le nom du fichier de donn es Database dat txt par exemple relatif au fichier dictionnaire cr pr c demment puis SAVE DATA RETURN Create a first parameter file gt Cliquer sur Creating a first parameter filel Une fen tre pour la cr ation du fichier param tre appara t gt Cliquer sur le nouveau bouton Create a first parameter filel Le fichier param tre appara t dans la fen tre du bas DTM BASIC PARAMETER FILE param_start tet ee ee eee ee nn se Comments symbol Continuat
45. locale qui sont pr sent es au chapitre 8 de l ouvrage pr cit Statistique exploratoire multidimensionnelle Elle consid re le cas o les observations ont une structure de graphe a priori mais aussi lorsque le graphe est intrins que graphe des plus proches voisins par exemple Elle g n ralise l analyse discriminante de Fisher qui correspond au cas particulier du graphe associ une partition 16 Pr sentation g n rale L analyse de contigu t est abord e dans ce manuel de prise en main dans la section VI 2 du chapitre VI 1 4 La boite a outils La boite a outils DtmVic Tools propose diff rents types de recodage de stockage et de transformation des donn es cf chapitre V Dim Vic Tools Toolbox Data Recoding Toolbox File Processing Toolbox Preprocessing numerical Toolbox Preprocessing Texts gt Cliquez sur Toolbox Data Recoding Le premier menu qui apparait concerne le recodage des donn es et l archivage de certains r sultats Archiving principal axes and partitions Cr ation ou recodage de variables nominales i Regroupement de modalit s ii Cr ation d une variable nominale par croisement de deux variables nominales iii Transformation d une variable continue en variable nominale Pr sentation g n rale 17 iv Archivage des axes factoriels et des partitions Le second groupe d actions concerne le menu Il propose des modification de la
46. obtenir un bon contraste entre les classes puis verrouiller les couleurs gt Cliquez sur IC Hull Les trois especes sont encore bien separees Mais c est moins une surprise puisque l analyse discriminante lin aire vise pr cis ment la s paration des classes Nous sommes ici dans un cas supervis La m thode utilise la connaissance a priori de l esp ce de l iris pour construire de nouvelles coordonn es fonctions discriminantes qui induisent la meilleure s paration des classes Comme pr vu pour ce jeu de donn es classique l analyse discriminante permet une bonne s paration des classes Elle utilise la connaissance a priori des classes pour les s parer 182 VI Autres analyses avec Dtm Vic VI 3 Description de graphes Contrairement aux r pertoires des exemples pr c dents le r pertoire EX_C03 Graphs contient plusieurs sous r pertoires et plusieurs exemples Ces exemples visent d crire quelques graphes planaires sym triques simples partir de leurs matrices associ es principalement par analyse des correspondances VI 3 1 Vue d ensemble des dossiers et fichiers Les fichiers relatifs aux exemples de graphes sont situ s dans le dossier DtmVic Examples DtmVic Examples_C_NumData EX_C03 Graphs Ce dossier se compose de trois sous r pertoires Chessboard damier ou chiquier se rapporte la description d un graphe en forme de damier 49 sommets correspondant un damier carr
47. origine dans la rubrique Visualization cliquez sur Image Greyscale c Puis dans la partie inf rieure gauche de la fen tre dans la rubrique cliquez sur le bouton Correspondence Analysis pour commencer L analyse s effectue Ensuite refaire toutes les op rations de c 1 c 3 puis de d 1 d 4 Cet exemple est int ressant car il met en vidence le fait qu une forte structure g om trique de l image ici les colonnes du temple de Baalbeck peut contaminer la reconstitution dans le cas des axes principaux Ce n est pas le cas de la reconstitution de Fourier ligne par ligne en reconstituant une ligne de la partie sup rieure de l image le ciel on ignore qu il y a des colonnes plus bas dans l image En revanche c est le cas pour la reconstitution de Fourier colonne par colonne Temple de Baalbeck Cas de l analyse des correspondances Images reconstitu es VI 4 Reconstitution d images 205 successivement avec deux axes principaux neuf axes et 50 axes Les traits structuraux capt s par les premiers axes se r percutent sur les axes suivants et il faut atteindre pr s de 50 axes pour obtenir un ciel conforme celui de l image initiale VI 4 4 2 Exemple Cardinal Pour ouvrir le fichier couleur du Cardinal de l le Maurice cliquez sur le troisi me bouton Read ppm format dans la rubrique Open colour image Dans le r pertoire EX CO4 Image ouvrez le sous r pertoire 3 Cardinal
48. param tre s affiche dans une fen tre qui est aussi un diteur de texte Dans ce fichier de commandes on peut lire apr s avoir identifi les deux fichiers donn es et dictionnaire que 9 tapes sont effectu es ARDAT Archivage des donn es SELEC s lection des l ments actifs et suppl mentaires PRICO analyse en composantes principales DEFAC Br ve description des axes factoriels RECIP classification hi rarchique PARTI coupure du dendrogramme produit par l tape pr c dente et l optimisation de la partition obtenue DECLA description automatique des classes de la partition SELEC s lection d une variable nominale dans ce cas EXCAT extraction d une variable nominale 3 esp ces d iris s lectionn e par l tape SELEC Notez que le bouton Help about parameters est accessible partir de cet diteur de texte pour expliciter en Anglais les param tres de chaque tape b Ex cution du fichier de commande fichier param tre Revenir au menu principal et ex cuter les tapes de calcul de base gt Cliquez sur Return to execute dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton de ur eat Cette op ration ex cute les tapes de calcul du fichier de commandes c Lecture des r sultats gt Cliquer sur le bouton Basic numerical results de HSM Le browser ouvre le fichier HTML nomm imp html qui contient les princi
49. phase ex cute les tapes de calcul pr sentes dans le fichier de commande Num risation du texte et analyse des correspondances du tableau lexical gt Cliquer sur le bouton Basic numerical results de RESTES Le bouton ouvre le fichier HTML nomm imp html qui contient les principaux r sultats des tapes pr c dentes de calcul de base L tape NUMER nous apprend par exemple que nous avons 49 r ponses avec un nombre total de mots occurrences ici ar tes du graphe de 217 impliquant 49 mots distincts ici les sommets voisins sur le damier Notez que chaque sommet a aussi t consid r comme son propre voisin VI 3 Descriptions de Graphes 191 Apr s lecture de ces r sultats num riques retour au menu principal b Visualisation et lecture des r sultats Nous allons maintenant visualiser les r sultats avec les outils de l tape VIC Visualization Inference Classification steps Pour tracer le graphe Cliquez sur W Visualization Toutes les tapes de la section pr c dente peuvent tre r alis es de la m me fa on Les graphiques obtenus sont identiques ceux de la section VI 3 2 b Il n y a pas lieu de les reproduire VI 3 4 Ex cution directe de l exemple Chessboard_Extern Il n y a ni fichier de commandes ni fichier de dictionnaire pour ce type d analyse utilisant directement le format Externe Pour ce type de codage du graphe codage externe de graphe il est pr
50. plupart des enqu tes en marketing il est courant d inclure des informations sur les modes de vie et des valeurs des personnes interrog es Ces informations sont g n ralement obtenues par une s rie de questions d crivant les attitudes et les opinions La S miom trie est une technique introduite par Jean Fran ois Steiner L id e de base consiste ins rer dans le questionnaire une s rie de questions compos es uniquement de mots une liste de 210 mots est actuellement utilis e mais il va tre question ici d une liste abr g e contenant un sous ensemble de 70 mots Les personnes interrog es doivent noter ces mots selon une chelle comportant sept niveaux le niveau le plus bas 1 est relatif un sentiment plus d sagr able ou d plaisant vis vis du mot pr sent le plus haut niveau 7 relatif une sensation plus agr able ou plaisante au sujet de ce mot Le traitement des questionnaires par l Analyse en Composantes Principales met en vidence une structure stable la stabilit concerne l espace des 8 premiers axes principaux Des propri t s tr s similaires sont observ es dans dix pays diff rents malgr les probl mes pos s par la Pour de plus amples informations se r f rer l ouvrage La s miom trie par L Lebart M Piron JF Steiner Editeur Dunod Paris 2003 Ce livre peut tre t l charg partir du site www dtmvic com rubrique Publications VI 1 Donn es num
51. provenant des mesures La partition en trois esp ces n est pas prise en compte Il s agit donc d une approche non supervis e gt Cliquez sur le bouton EM Contiguity gt Cliquez sur Parameter Edit Choisissez l l ment La fen tre suivante appara t page suivante Nous allons tablir les param tres n cessaires une analyse de contiguit Dans le premier bloc intitul ncoord Input coordinate file cochez 1 File ngus_ind coordinates of individuals observations L analyse de contiguit utilisera les coordonn es des individus ou observations comme donn es d entr e Dans le deuxi me bloc intitul npart partition file cochez 0 no partition Dans le troisi me bloc intitul meth method cochez 2 Contiguity graph defined by k nearest neighbours VI 2 Donn es num riques et Contigu t Iris 177 RE Apes incrementirom min to rex Min first value for starting min number of edges if nn Meo Meximnum value max number of edges if nn VALIDATE Ensuite nous aurons entrer les valeurs num riques suivantes npas 2 incr mentation du nombre de plus proches voisins Min 4 nombre minimal de plus proches voisins Max 8 nombre maximum de plus proches voisins Trois analyses de contigu t seront alors effectu es pour les trois graphes correspondant respectivement 4 6 8 plus proches voisins de Min 4 jusqu Max 8 avec un incr ment
52. qu un nombre une cat gorie une r ponse laconique a une question ouverte ou un roman de Zola peut parfois tre compliqu La transparence totale des fichiers d entr e ou produits par Dtm Vic tous les fichiers sont en format texte non propri taire devrait cependant rassurer l utilisateur et limiter la complexit du processus Arriv au seuil du quatri me chapitre la lectrice ou le lecteur dispose d j d une certaine autonomie Quelques proc dures l mentaires d archivage ou de recodage sont propos es au chapitre V pour permettre d affiner ou d approfondir les analyses pr c dentes Enfin le sixi me et dernier chapitre pr sente des applications plus approfondies mettant notamment en uvre de nouvelles options des proc dures de visualisation Ce chapitre VI aborde aussi les analyses de contiguit les descriptions de graphes et illustre les capacit s de compression des techniques factorielles Toutes ces phases de l apprentissage supposent que le logiciel et le recueil d exemples aient t copi s ou t l charg s ce qui est possible partir du site http www Dtm Vic com gt On pourra galement t l charger sur ce site l ouvrage pr cit Statistique textuelle L Lebart et A Salem et l ouvrage La s miom trie Essai de Statistique structurale L Lebart M Piron J F Steiner 2003 Dunod Paris d o sont extraits certains jeux de donn es utilis s ici Les autres ouvrages cit s ne so
53. questions 1043 observations les r pondants et 3 questions ouvertes gt Cliquez sur OK le fichier texte en format Dtm Vic de type 2 s affiche dans une premi re fen tre 111 2 Analyse textuelle de questions ouvertes 93 Opening a text file 1 Open a Text File Dtm format 2 Select open questions and separators Return 0010311 good health I happiness l 0010621 happiness in people around me contented family would make me happy I contented with life as a whole education 0010931 contentment family I 4 More Data arts happiness money family I z gt Cliquez sur 2 Select Open questions and separators Une nouvelle fen tre ayant pour titre Selecting 1 the open questions 2 the list of separators appara t Etape 3 S lection des questions ouvertes gt S lectionnez les questions ouvertes 1 et 2 et les transf rer dans Result of the selection Puis choisir les s parateurs Ici nous adoptons ceux propos s par d faut Cliquez alors sur Vocabulary and Open question 1 per Question a Open gikt WeRMMG Beth hites lt 4 avg 3 ape recersed dunno thts phese They shoud be replaced betanchernd p WK F Vocubulaiy and Count 94 Ill Donn es textuelles et mixtes gt La fen tre suivante pr sente le vocabulaire alphab tique et par ordre de fr quence Nous devons choisir un seuil de la fr que
54. questions ferm es donn es num riques continues et variables nominales et des questions ouvertes donn es textuelles Ces donn es d enqu tes constituent l exemple type autour duquel s est d velopp Dtm Vic Une partie importante des m thodes mises en oeuvre dans le volet textuel du logiciel Dtm Vic sont pr sent es et comment es dans l ouvrage Statistique textuelle L analyse exploratoire multidimensionnelle des donn es num riques et textuelles appara t comme une phase incontournable du traitement de ces recueils complexes On sait et les exemples sont c l bres que les explorateurs d couvrent souvent autre chose que ce qu ils cherchent Les utilisateurs de Dtm Vic ont souvent l occasion de le v rifier de fa on pas forc ment plaisante pour tout le monde les analyses r alis es constituent de redoutables tests de coh rence et de qualit de l information de base que n appr cient pas toujours ceux qui ont recueilli cette information ni ceux qui l ont utilis e trop vite Mais pour les utilisateurs chevronn s notamment en sciences sociales ces preuves de coh rence globales ne sont pas des retomb es accidentelles des explorations mais bien un de leurs objectifs fondamentaux explicitement ins r dans une d marche critique qui voit le recueil comme une construction et m me dans une certaine mesure une fabrication de l information Dans la version 5 de Dtm Vic laquelle ce manuel d utilisation se r f
55. re principalement l interface du logiciel est en Anglais mots cl s rubriques d aide noms des analyses option qui tient compte du fait que les deux tiers des utilisateurs du logiciel sont non francophones Le public francophone de chercheurs et de charg s d tude n aura cependant pas Statistique textuelle Ludovic Lebart Andr Salem 1994 Dunod Paris La version anglaise Exploring Textual Data L Lebart A Salem E Berry 1998 Kluwer Dordrecht inclut des exemples utilis s dans ce manuel Introduction 7 de mal piloter le logiciel dans ces conditions Il est difficile pour une petite quipe et pour un logiciel dont l acc s est libre non subventionn de maintenir plusieurs versions dans des langues diff rentes Une version fran aise est toutefois projet e moyen terme Les limites actuelles du logiciel r visables en ce qui concerne la taille des donn es d entr e sont les suivantes 30 000 lignes ces lignes sont des individus ou observations 1200 colonnes variables num riques continues variables num riques codant des variables nominales une variable nominale une colonne 100 000 caract res pour les r ponses textuelles d un individu observation mais pas de limite pour un texte non associ un fichier num rique Ce format correspond la grande majorit des applications aux enqu tes socio conomiques aux fichiers issus des enqu tes de gestion ou de satisfaction aux relev s co
56. s affiche gt Puis cliquez sur Confidence Ellipse une fen tre Bootstrap confidence areas s affiche gt s lectionnez dans la rubrique Click to select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list Choisir ensuite le plan factoriel puis cliquez sur Confidence ellipses ou sur cf 8 11 1 4 pour obtenir l affichage graphique des variables actives 102 Ill Donn es textuelles et mixtes FA Bootstap confidence areas A Bootstrap confidence Zone there they things Confidence ellipses H 55 55 high wife with work world WOES would you your L 30 30 low L 5530 55 lo L 55 55 low M 30 30 medi M 5530 55 me M 55 55 medi H 30 30 high wv H 5530 55 hi a RRKRKRKRRROOOOOOOOOOOOOOOCOUOOOOOD LLLLLLLLLLLLLLLLLLLLELELL ELLE LL L LELILLLLLLLLLLLLELLELELEL ELLE EL LL 1 L about what j ar 1 qo out p worrie think alty nice future more b 7 much com m3 j 7 ae MAT f ur F there k P3 ha omforte job a going C n satigtact mn A ENG SI na di M to y 4 ve educati on ar mdacware aft ne y D myr ey work e a after well airas appy WINGATE i Ons 00 08 would Ps get __ theirmat g tportan 05 a 2 long 1 ty self e rP 3 f on 4 j a Sie they 4 that omymp own be tine ou standard 4 fs dog evt L Hh ilida
57. si le fichier ngus_var_boot txt a t charg ou des cat gories suppl mentaires si le fichier ngus_sup_cat_boot txt a t charg une fen tre des zones de confiance bootstrap s affiche 42 Il Donn es num riques Enfants M nage Acpied Relatior el ai i Disque_casse isie_amis Sommeil NE gt P Lolelea ein Toilette j D placements a Coursesrches Promenade _ Trav_Dom Trav_r mun r i Petit_D jeun Fr quentatio Repos Jardinage_Br Jeux_Jardina 1 Commentaires Les ellipses sont assez grandes en raison du faible nombre de groupes d individus L utilisation du bootstrap dans ce cas donne des zones de confiance pessimistes pour les points Dans une application r elle le fichier individuel original comportant des milliers d individus donnerait lieu des ellipses de confiance beaucoup plus petites gt Fermez la fen tre et choisissez maintenant le bouton convex Hulls Les ellipses sont remplac es par les enveloppes convexes des r plications bootstrap pour chaque point Les enveloppes convexes prennent en consid ration les points p riph riques tandis que les ellipses sont dessin es en utilisant la densit des nuages des r plications Les deux informations sont compl mentaires gt Pour revenir au menu principal de Dtm Vic cliquez selon la fen tre soit sur la croix en haut droite soit sur return 4 Classification Cette option permet d
58. the states of each categorical variable basic frequencies apparait gt Cliquez sur Values and counts Le nom des variables s affiche dans la fen tre de gauche La fen tre de droite pr sente les statistiques l mentaires de ces variables Il s agit seulement de permettre l utilisateur de v rifier que les statuts qu il a choisis pour les variables sont corrects IV 1 Importation XL 125 PA Dim Vic Format type XL r Finding the states of each categorical variable basic frequencies 1 Values and Counts as a global check of the whole file content 2 Create dictionary and data total number of variables 17 Var iy 2 distinct values GENDER Num freq value O IDENT Char 30 1 1 496 L i GENDER Char 6 1 2 547 2 Zs AGE CODE Char 6G A i lt SS SS SSSSSeSSSS SSS SSS SSS SS 5 SSS S 5 3 AGE Num 6 1 Var ae 12 distinct values AGE CODE 4 EDUCATION Char 6 1 Num freq value 5 Important Life Text 8000 1 ae 44 1 6 Important probe Text 8000 1 2 TF 10 7 CHANGE LAST YEARS Char 6 1 3 60 fi 8 CHANGE_YOUR_LAST_YRS Char 6 1 4 138 12 9 CHANGE YOUR NEXT YRS Char 6 1 5 ie 2 T PEOLE_BE_HAPPIER Char 6 L 6 98 3 LE PEOLE PEACE OF MIND char Gp L T 104 4 12 MORE OR LESS FREEDOM Char 6 L 8 93 J 13 Culture Text 8000 1 9 93 6 14 Age 3 CATEGORIES Char 6 1 10 90 7 15 sex age Char 6 1 el 78 8 16 sex teducation Char 6 1 12 66 9 ig iedue age Char 6 gd R S
59. txt pour un bootstrap partiel 68 Il Donn es num riques R pondre la fen tre Set of principal coordinates loaded qui s affiche gt Puis cliquez sur Confidence Ellipse une fen tre Bootstrap confidence areas s affiche gt s lectionnez dans la rubrique CLick to select les variables dont on veut visualiser les ellipses gt Les transf rer avec Select dans la fen tre Selected list gt Choisir ensuite le plan factoriel puis cliquez sur Confidence ellipses ou sur Convex Hulls pour obtenir l affichage graphique des variables actives si le fichier ngus_var_boot txt a t charg ou de la cat gorie suppl mentaire si le fichier ngus sup _cat_boot txt a t charg Fa Bootstap confidence areas famille oui famille non famille nsp nr mariage indissoluble mariage dissout_si_p mariage dissout_si_a mariage ne_sait_pas la_femme_seule plutot_la_femme homme_et_femme tr femmes ne_sait_pa satisf log tres satisf log assez satisf log peu satisf log pas_du_to cdvitres cdv assez cdv peu cdv pas_du_tout maux de tete oui maux de tete non mal_au_dos_oui mal_au_dos_non nervosite_oui nervosite_non etat_depressif_oui etat_depressif_non satisfaction_sante t satisfaction_sante s satisfaction_sante p _ satisfaction_sante p transf soc oui transf soc non Franstcnene sait m v u 7 v v v O v v v v M mariage dissout_si_p m
60. with E Ear Continue Note technique Les diff rents types de bootstrap pour variables non textuelles dans Dtm Vic a_ Bootstrap partiel pour les variables actives Avec ce type de bootstrap le plan initial sert d espace de r f rence pour accueillir les r plications qui sont projet es comme des variables suppl mentaires Le bootstrap partiel n a pas pour vocation de valider la stabilit de l espace de d part qui n est pas remis en question Il donne une id e de la variabilit imputable aux replications pour chaque point modalit pris isol ment b _ Bootstrap partiel pour les variables suppl mentaires Pour les variables suppl mentaires le bootstrap ne peut tre que partiel Il s agit d une validation externe et donc d un test statistique parfaitement l gitime ces variables n ayant pas particip la construction du sous espace de r f rence c_ Bootstrap total pour les variables actives Rappelons que dans ce cas chaque r plication donne lieu a une analyse en composantes principales sp cifique Il existe trois implementations du bootstrap total dans Dtm Vic Le bootstrap de type 1 simples corrections du signe des axes pour les analyses des r plications Le bootstrap de type 2 corrections des interversions d axes est plus labor Le bootstrap de type 3 Rotations procrust ennes des axes r pliqu s de fa on a les amener en correspondance avec les axes initiaux On rejoint
61. x niveau NA 2 feminin_x_niveau_faible 0 sel feminin_x_niveau_ moyen h sel feminin_x_niveau_ lev feminin x niveau NA i 12 satisfaction_cadre_de_y 13 statut_d occupation_log Confirm 14 depenses_de_ logement aive 92 15 disposez vous_d un_ma 2 nive 7 4 16 disposez vous_d un_piai 3 niveau_ les r 43 17 residence secondaire 4 niveau_N R 9 18 activite _professionnelle 2 3 4 5 6 fd 8 m_niveau_faible 83 m_niveau_moyen 34 m_niveau_ lev 19 Ze f_niveau_faible 109 24 etat depressif 2 cateqc f_niveau_ moyen 37 f_niveau_ lev 24 t Select another set gt S lectionnez les modalit s regrouper ou valider qui apparaissent dans une 3 fen tre 142 V Recodage Archivage Outils divers gt Entrez l tiquette de la nouvelle modalit dans la 4 fen tre puis confirmez La nouvelle modalit appara t dans la 5 fen tre gt Recommencez la proc dure d tiquetage pour toutes les nouvelles modalit s Si une modalit n est pas regrouper la s lectionner et lui attribuer une tiquette gt Une fois les regroupements termin s r pondre la bo te de message puis cliquez sur Update data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic newCr3x52 txt et dtm dat newCr3x52 txt dans le dossier EX_A03 MultCorAnalysis Une fen tre s affiche pour pr senter ces nouveaux fichiers 1 region 8 categorie
62. 00000M10000M00000mM0000Q 200000000000 O0NMNO0O0O0O0O0O0O0OGO0O0O0OOO OO 1 14 4 F6 AAS 4 000000000000 000M400 010000000000 000S00S 2000100000 4 I eooooces 4001400 cc cse 100014000000 1400 NO 4 r4 4 8 4 ss SO0O00000000000100100000000140044000000000 4 4 4 4 200000000004 00400MmO04400000 04044000000 40 ON OH OH 0000040000 0000100441401000040000NA4N01TO0MO0000N0m _ 000000000000 ON OO HF HB OCON KH BOM KB OCC He BF COON NO MOCO OM 0 aA OOK t parfois exclusivement les premiers SoCo OT CO CFO HOC ANTI MONNOONOOCOOOCOONOCOOCOC Ont noonoocooooonrtanoo So 200000010100 EGON VE OV OM ANMOO VK VO OE PrF EO ECV EV EO FA OA OO NA rt ONO risen t de sonnets Les derniers mots de la m 1 evreoent eo oe te ee OoOO NOOO Fe eeFnt eo eV ee eG Atr ese ese eso 1 14 rt si les caract res sont trop petits que les premiers 1 SESSSHSSSSAHSSANSSMGSGOESN H A AHA 4 A 4 4 4 NOON aA HOS ee carac e donn z I SOSOCACOCOO0OCOMANONANOOANOOTOMAOCOOCOOCNHNAOOCOSCO TO HAH donn i 24000000 40 Fu Eu HEN WH NH OH FO HH ON MON OH HH o Ht 2000410 COC HN COC HO CO HH OH ON O MN COOH HOCH HON OHM 4 or m me r or A co coco Co COM COCO HO COCO MN BOC MH FOO NOCO MN COC CAN CO ONOHOCO HOH OOo k d J CoN OK COCO CC HB OF CO ON COCO HON ONO KF COO COCO CONN OM OOM OOO eo M oO
63. 3 21 general 3 4 4 0 1 6 1 4 12 music 2 4 2 4 0 0 0 2 4 13 work 11 6 29 15 3 3 36 2 13 14 want 6 2 7 0 0 3 2 7 15 house 2 0 10 8 1 0 6 4 3 16 things 5 4 4 3 0 0 5 0 7 17 being 23 9 27 27 2 al 17 5 25 18 time 1 4 7 6 0 0 J 0 6 19 nice 3 7 3 1 1 5 0 7 20 friends 17 9 23 18 3 2 T 9 28 21 mind 0 5 6 12 1 5 8 5 5 22 getting 3 2 4 9 1 1 9 1 5 23 suppose 1 a 5 5 0 0 3 al 5 24 having 9 6 15 8 0 1 14 1 16 25 money 9 7 46 28 7 3 34 8 29 26 important 2 2 5 T 0 o 4 0 6 27 contentment 2 3 8 0 1 7 2 5 28 peace 5 6 10 19 1 10 8 na 29 living 8 4 3 13 2 2 23 a 14 On peut voir que les premiers mots de la liste reordonn e caract risent les cat gories plut t jeunes et instruites Les derniers mots de la m me liste r ordonn e sont absents ou rarement observ s parmi ces cat gories Cependant ils sont fr quents parmi les derni res cat gories c t droit de la table Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt Il est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire et ou texte au format Dtm Vic 107 111 3 Analyse directe de r ponses libres Cet exemple reprend l exemple pr c dent et proc de une analyse directe des r ponses une question ouverte sans regroupement pr alable 111 3 1 Les donn es et fichiers Dtm Vic Enqu te in
64. 4 43 112503 19 9 2508211058 37 8 3a c 478 0 44 2 217 9 29 6 22 3 80 4 81 1 29 3 1 9 c 465 1 41 6 248 5 25 9 37 0 85 8 56 3 35 3 10 21 p 458 4 47 41328 2 24 4 26 5 72 5 65 0 45 8 10 9 p_ 457 2 30 7 274 9 20 7 52 1 86 8 79 7 36 8 5 4 465 2 40 2 280 0 16 5 36 3 97 5 64 1 51 8 14 9 LRO EST 27 cra zeal a 450 2 63 11249 6 18 1 40 4 78 0 99 1 23 5 1 21 Woy A Pin 455 2 47 41251 6 15 7 30 4 53 7 82 1 131 9 4 9 aial Moy Aci Sec laeto 30 3fs37 116 1l el asaltos al Tossi 201 2122 H Moy Actif Sec 453 7 44 7 274 9 23 5 23 1 72 1 106 9 37 2 3 3 2123 H Moy Actif Sec 433 1 49 8 299 7 22 6 22 4 51 4 98 9 49 4 4 1 Tableau de donn es Budget temps premi res lignes gt oa Ved 3 UC _ O1 cq Cc gt Q EA U 3 O1 on O peal nls Repos CO NO oO cq O en ma aI OTR RIoOIOI amp Cy Cy Cy Cc CISCISCIS i NO O lt seu O lt Aa O NIN mG o MEG EN OJN 1 Le fichier dictionnaire PCA_dic txt Ce fichier est accessible dans le dossier en fran ais PCA dic Fr txt et en anglais PCA dic Eng txt Il contient les identifiants des 44 variables et des cat gories ou modalit s des variables nominales Conee V1 Sommeil V6 Dema Cours V26 Sex Fem 1 Sex Hom 2 Age V2 Age Moy 1 Age Ages 2 Age Jeun
65. 5 r Visite_amis Sommeil ces in z Loisirs_exte oilette D placements Co ct n urses Restaurant Magazines Mag_TV i Radio os RejRepas Promenade Trav_Dom En_Voiture Quot_nat Trav_remuner Television retit_Lejeu Presse Fr quentatio Repos Quot_reg Loisirs Jardinage_Br Jeux_Jardina Plan factoriel 1 2 rubrique colonnes actives des variables ou des cat gories Variables continues Activit s en actives en noir et variables continues M dia en suppl mentaires en rouge Dans le cas de cet exemple la premi re rubrique de menu colonnes actives variables ou cat gories contient en fait les variables num riques actives en noir et des variables num riques suppl mentaires en rouge Note Pour chaque graphique le bandeau du haut contient des options Save sauvegarde le graphique en format bmp Font offre la possibilit de modifier la police et la couleur des caract res More graph permet de changer de plan factoriel Sign of axes permet d inverser les axes Rank est utile seulement dans le cas des affichages tr s complexes ce qui n est pas le cas ici ce bouton convertit les deux coordonn es de l affichage courant en rangs Par exemple les n valeurs de l abscisse sont converties en nombres entiers de 1 an ayant le m me ordre que les valeurs originales Ainsi les deux distributions sont uniformes et les identifiants s av rent tre beaucoup plus lisibles
66. 85 successful 386 taking DtmVic_50 X 387 ana 388 through 7 389 trouble Minimum frequency 4 390 trying 391 voluntary CONFIRM 392 walk i 393 weather Improving 394 wellbeing Independa 395 worrying 2 Continue create the param Indoor 396 worship Ireland H e 1 Choose a frequency threshold N 1 1 6 1 R I 6 1 1 1 1 2 eee 4 ib ee bbb Nous devons choisir un seuil de la fr quence en choisissant une ligne dans la rubrique Vocabulary frequency order La ligne 397 correspond la fr quence 4 nous avions pris un seuil de 16 pr c demment pour des r ponses individuelles tr s pauvres lexicalement il faut plus de mots pour ne pas g n rer trop de r ponses vides apr s le choix du seuil Nous allons donc garder les 397 mots les plus fr quents gt S lectionnez cette ligne puis CONFIRMI La fr quence appara t R pondre OK gt Cliquez sur 2 Continue create the parameter file gt Une fen tre d ouverture des fichiers dictionnaires et de donn es appara t Etape 4 S lection des fichiers dictionnaire et donn es gt Cliquez sur le bouton Open a dictionary Dans le r pertoire EX_A06 Text Responses 2 ouvrir le fichier TDA dic txt Il s affiche dans une premi re fen tre Le statut nominal ou num rique des variables est indiqu dans une deuxi me fen tre gt Cliquez sur le bouton Open a Data File Dans le r pertoire EX_A06 Text Responses 2 ouvr
67. Basic Statistics about numerical and categorical variables means standard deviations extreme values counts TAB CrossT abulating a series of categorical variables including means of numerical variables DECAT Automatic description of a series of categorical variables IPFIT Re Weighting the obseryations individuals of a sample survey through Iterative Proportional Fitting Numerical Data principal axes techniques PCA Principal Components Analysis complemented with a clustering of the observations and a description of the clusters SCA Simple Correspondence Analysis to be applied to a contingency table or a binary table MCA Multiple Correspondence Analysis complemented with a clustering of the observations and a description of the clusters 12 Pr sentation g n rale La partie inf rieure de la m me fen tre traite des donn es textuelles Other analyses Textual Data CORTEX Preprocessing of texts Deleting or merging words VISUTEX Visualization of Texts building a lexical table and analyzing it through SCA See input format in example 4 4 VISURESP _ Visualization of responses SCA of the lexical table responses X words and clustering of the responses VISURESP CORTEX AHALEX CORTEX VISURECA CORTEX Numerical and Textual Data ANALEX Analysing through SCA a lexical table built from a specific categorical variable characterizing the respondents VISURECA _ Visualization and clustering of respons
68. CP montrant que sur la droite la premi re esp ce setosa nombre 50 est bien s par e des esp ces deux et trois qui elles se chevauchent b Visualisation d une partition en trois classes non supervis e Nous allons maintenant revenir au menu principal et refaire la visualisation pr c dente mais au lieu de charger la partition induite par les 4 cat gories de la variable 5 4 esp ces d iris nous allons charger une partition en trois classes produite par l algorithme de classification VI 2 Donn es num riques et Contigu t Iris 175 contenu dans les tapes de base cette partition correspond aux tapes RECIP et PARTI voir le fichier de commande Elle ne suppose pas connue la division en esp ces d o la d nomination de partition non supervis e gt cliquez sur M Visualization La fen tre intitul e DTM visualization appara t gt Cliquez sur Load coordinates Dans le sous menu correspondant choisir le fichier ngus_ind txt Les principales coordonn es des individus lignes sont s lectionn es Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant choisissez alors Load partition File et ouvrir le fichier part_cla_ind txt partition en 3 classes issue des phases RECIP et PARTI Horiz axis 1 ertic axis 2 Yisualization Graphics B laj x SAYE 1 Axis ZOOM COLOUR FONT Density HELP Return sf M me plan principal que la fig
69. EX VISURESP CORTEX i VISURESP CORTEXT r alise l analyse VISURESP apr s CORTEX Numerical and Textual Data ANALEX CORTEXT r alise simultan ment les proc dures ANALEX CORTEX AnsysCORTEXT et ANALEX VISURECA CORTEXT r alise simultan ment les procedures VISURECA CORTEX VicORTEXT et VISURECA On pourrait r aliser dans un premier temps la phase CORTEX puis les analyses pr cit es Mais CORTEX porte sur l ensemble du fichier texte alors que l on peut souhaiter corriger individuellement chaque question ouverte De plus les r ponses modales r ponses caract ristiques de chaque texte seront les r ponses originales et non les r ponses avec des mots corrig s Mais la s lection statistique des r ponses caract ristiques se fait bien elle sur les textes corrig s 14 Pr sentation g n rale Une fois le fichier de commande cr lors de la proc dure Create il est possible toujours dans la rubrique Command Filel d ouvrir directement ce fichier bouton pour en modifier directement certains param tres puis de l ex cuter bouton Les proc dures d analyses exploratoires de donn es num riques ou textuelles impliquent l enchainement de plusieurs techniques Analyse factorielle Classification Cartes de Kohonen Validation Bootstrap Les r sultats des analyses de base peuvent tre soit consult s dans la rubrique Result Files en navigant sur un fichier Html ou en format texte text format
70. FILE CSS CULO SELS a 13 as CES ENEE 1 Axes factoriels Cet outil fournit et classe les coordonn es sur les axes factoriels des variables actives suppl mentaires ou des observations gt Cliquez sur Zl axesview Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes ces r sultats sont aussi ceux de l tape DEFAC du fichier r sultat Analyse en composantes principales 35 Coordonn es des variables continues Coordonn es des variables actives et suppl mentaires nominales suppl mentaires ordonn es sur l axe 1 Supplt categories Active variables Suppl Categories Individuals obser Active variables Suppl Categories Individuals View Exit _View Exit Identifier aisi axis2 axis3 axis4 actifs 1667 97 1024 Identifier AgeMoy 495 166 1434 Repas_chez_s E Ages 1866 1475 246 D marches Femme 1312 1197 855 Homme 1486 1356 968 Piega inactifs 1970 115 1212 Jeunes 1486 1373 1006 primaire 939 1155 1070 secondaire 119 68 239 M nage gt superieur 555 802 503 r quentatio Repos Wag_TW Promenade Lecture Courses Petit_D jeun Television Remarque En cliquant sur la partie haute de l axe 1 on identifie rapidement les oppositions visibles sur cet axe opposition entre les activit s ext rieures relation repas au restaurant d placement sur la partie positiv
71. File Dtm format 2 Select open questions and separators p Return 0010311 an good health I happiness l 0010621 happiness in people around me contented family would make me happy contented with life as a whole education 0010931 contentment 4 4 family I More Data arts 020141 health gt Un deuxi me bouton 2 Select Open questions and separators apparait Cliquez sur ce bouton Une nouvelle fen tre Selecting 1 the open questions 2 the list of separators se pr sente Selecting 1 the open questions 2 the Gist of separators Open question 1 Cp Question 3 Open qik 2 WeRMMG Beth h ite lt 4 ad 3 ape recersed dunno this phese They shoud be replaced betoncherd Nocabulai and count Etape 3 S lection des questions ouvertes gt S lectionnez les questions ouvertes 1 et 2 et les transf rer dans Result of the selection Puis choisir les s parateurs Ici nous adoptons ceux propos s par d faut Cliquez alors sur Vocabulary and La fen tre suivante pr sente le vocabulaire alphab tique et par ordre de fr quence 110 Ill Donn es textuelles et mixtes 2 Vocabulary frequency threshold Separators of units apg cod ff aoe Number of occurrences tokens 13919 Number of words types 1365 Number of hapaxes 699 ocabulary Alphabetic order ocabulary Frequency order 384 4 standards 3
72. ISPLAY Dans la nouvelle fen tre intitul e Visualization Graphics sont affich s les individus dans le plan engendr par les axes s lectionn s Une couleur al atoire est attribu e chaque cat gorie Le bouton permet d essayer un nouveau jeu de couleurs Sur la barre d outils verticale gauche on appuie sur un bouton pour l activer Le bouton Density par souci de clart permet de remplacer les identifiants des individus par un seul caract re rappelant sa classe l identifiant et le num ro de la classe s obtiennent en cliquant sur le bouton gauche de la souris au voisinage des points 174 VI Autres analyses avec Dtm Vic Pressez le bouton C Hull Convex Hull enveloppe convexe qui trace l enveloppe convexe de chaque classe Le trac appara t ci dessous Horiz axis 1 Yertic axis 2 Visualization Graphics x SAVE 1 Axis ZOOM COLOUR FONT Density HELP Return Plan principal de l ACP des 4 variables continues mesures avec trac des enveloppes convexes correspondant aux trois esp ces d iris L identification des trois esp ces par des couleurs diff rentes est r alis e a posteriori apr s l analyse en composantes principales On voit que deux esp ces se chevauchent sur ce plan principal cette tape nous avons obtenu un affichage des 150 individus avec les enveloppes convexes correspondant aux trois esp ces C est l affichage classique dans le plan principal de l A
73. IV 2 2 Le fichier des donn es Une fois le fichier dictionnaire cr gt S lectionnez Creating the data file dans EOM A e AOE variables and creating the data filek Une fen tre pour la construction du fichier de donn es appara t a Creating Data Source File Update anexistingdata le an existing Update anexistingdata le Dictionary of variables file format LOAD DICTIONARY SAVE DATA RETURN Create a first parameter file Current lines of the data file Ouvrir Regarder dans O EX_D01 Importation Num_Text fg Er Check_Type_data txt GL New_typevar_datbase _global csv A B param_start txt El datbase _global csv E XL_adapted Ef datbase _global xls Datbase_global_dat txt Datbase_global_dic txt naine Cr Fichiers de type Annuler 132 IV Importation Cr ation Exportation gt Cliquez sur LOAD DICTIONARY et ouvrez le fichier dictionnaire cr pr c demment Database dic txt Une fen tre pour la capture de donn es appara t Le dictionnaire des variables s affiche dans la fen tre de droite 8 Creating Data Source File Updete an existing detefile Dictionary of variables file format 2 sexe hom fem age observation educ number observation identifier Les moyen o ene haut value Enter __Enter SAVE DATA Current lines of the data file gt Saisir l identifiant de l individu et cliquer sur ou appuyer sur Entr e sur
74. L tape CORTEX apr s le bouton Create du menu principal doit en g n ral intervenir avant ce type de transformation ii Suppression des balises XML ouvertes et ferm es lt et gt et du texte qu elles peuvent contenir 154 V Recodage Archivage Outils divers Le second bouton Suppress in a text the chains such as lt gt est utile si le texte transmis contient des balises dont on ne veut pas tenir compte textes format s pour le logiciel Lexico3 par exemple Toutefois ce type de transformation doit intervenir apr s que le texte ait t segment partir de certaines balises iii R importation dans DtmVic d un fichier de type Dtmic type 1 ou 2 ayant t soumis au logiciel gratuit TreeTagger Le bouton Re importing a Dtm text file after WinTreeTagger permet de lemmatiser un texte remplacer les formes graphiques par le lemme correspondant Il permet galement de supprimer certaines cat gories grammaticales pr positions articles etc Quatre options sont disponibles respectivement pour les textes anglais fran ais espagnols italiens Ceci suppose l installation du logiciel gratuit WinTreeTagger TreeTagger Auteur Helmut Schmid IMS University of Stuttgart TreeTagger est un analyseur morpho syntaxique ind pendant des langues dans son principe Les informations et le telechargement se font a partir du site web http www ims uni stuttgart de projekte corplex TreeTagger
75. Lebart L Salem A 1994 Statistique Textuelle Dunod Paris Lebart L Piron M Morineau A 2006 Statistique Exploratoire Multidi mensionnelle Visualisation et Inference en Fouille de Donn es Dunod Paris 4 dition refondue consulter pour une bibliographie plus compl te Lebart L Salem A Berry L 1998 Exploring Textual Data Kluwer Boston Lebart L Piron M Steiner J F 2003 La S miom trie Dunod Paris Lerman l C 1981 Classification et Analyse Ordinale des Donn es Dunod Paris Marano P 1972 Applications de l analyse factorielle des correspondances la compression de signaux d images Annals of Telecommunications vol 27 n 5 6 163 172 Marchand P 1998 L Analyse de Discours Assist par Ordinateur Armand Colin Paris Murtagh F 2005 Correspondence Analysis and Data Coding with R Chapman and Hall Boca Raton USA Roux M 1985 Algorithmes de Classification Masson Paris Salem A 1987 Pratique des segments r p t s Essai de satistique textuelle Klincksieck Paris Saporta G 1990 2010 Probabilit s Analyse des Donn es et Statistique Technip Paris Tenenhaus M 2007 Statistique Dunod Paris Tuffery S 2006 Data Mining et Statistique D cisionnelle Technip Paris Volle M 1980 Analyse des Donn es Economica Paris R f rences bibliographiques sommaires 209 L2C Octobre 2012 ISBN 978 2 953777 0 8 T l charg a partir du si
76. P4 etat depressif 2 categori Update data file and dictionary Deux nouveaux fichiers dictionnaire et de donn es sont cr s dtm_dic newG7 txt et dtm dat newG7 txt toujours dans le m me dossier EX _A03 MultCorAnalysis Une fen tre s affiche pour pr senter ces nouveaux fichiers pour lesquels l utilisateur pourra choisir de nouveaux noms s il le juge utile V 1 Recodage et archivage 141 gt Cliquez sur Return L op ration de regroupement des modalit s est termin e V 1 2 Croisement de deux variables nominales On souhaite dans ce cas augmenter les possibilit s d analyse et d interpr tation en cr ant une nouvelle variable nominale partir du croisement de deux variables nominales Exemple sexe X ge gt Cliquez sur Cross tabulating two categorical variables La fen tre de s lection des fichiers dictionnaires et des donn es appara t gt Ouvrir les fichiers dictionnaire et de donn es concern s pour l exercice on pourra ouvrir les fichiers pr c demment cr s dans le dossier EX _A03 MultCorAnalysis dtm dic newG7 txt et dtm_dat_newG7 txt lister les variables puis Continuer Une fen tre appara t cf ci dessous 4 Cross tabulating two categorical variables x Cross 1 and 2 1 masculin 138 2 feminin 177 masculin_x_niveau_ faible 0 sel 4 masculin_x_niveau_NR masculin_x_niveau_ moyen 0 sel 8 feminin_x_niveau_NR masculin_x niveau lev 0 masculin
77. Pratique de l Analyse des Donn es Num riques et Textuelles avec Dtm Vic Ludovic Lebart Marie Piron LC Pratique de l analyse des donn es num riques et textuelles avec Dtm Vic Seconde dition Octobre 2012 Ludovic Lebart Marie Piron L2C octobre 2012 ISBN 978 2 9537772 0 8 Sommaire IN OUI A enn tee inte tat Rn teeny Arent Re 4 I Pr sentation g n rale de Dtm Vic 9 1 Mise en place des fichiers de donn es 2 Techniques d analyse de donn es 3 Visualisation des r sultats 4 La boite a outils 5 Format interne des fichiers de donn es ll Donn es num riques Prise en main de Dtm Vic a partir de trois exemples 23 Analyse en Composantes Principales budget temps Analyse des Correspondances enqu te m dias Analyse des Correspondances Multiples aspirations WN e lll Donn es textuelles et mixtes Prise en main de Dtm Vic partir de trois exemples 71 1 Analyse Textuelle de textes po mes 2 Analyse Textuelle de questions ouvertes enqu te Life 3 Analyse directe de r ponses libres avec classification IV Importation cr ation et exportation des fichiers 117 1 Fichiers num riques et textuels a partir d Excel r 2 Saisie manuelle de donn es num riques V Recodage archivage outils divers 137 1 Recodage archivage 2 Intervention l mentaire sur une
78. RD gt pour abandonner des variables gt Une fois l attribution du statut accompli cliquez sur le bouton 3 Updating and continue puis r pondez sur le number of observations Cette proc dure cr e un nouveau fichier d importation nomm automatiquement New _typevar datbase global csv dont la deuxi me ligne contient les types des variables Mais l utilisateur n a pas se pr occuper de ce fichier DtmVic Format type XL r Finding the states of each variable basic frequencies OO 1 SelectinputData ile 2 Select types 3 Update and continue List of distinct observed values for each variable 0 IDENT 0 N 2 distinct values 1 GENDER 2 N freq value 2 AGE CODE 12 N 496 3 AGE 73 N 4 EDUCATION 3 N 5 Important Life 602 A 6 Important_probe 16934 CA 7 CHANGE_LAST_YEARS 6 N YOUR_LAST YRS 6 N 1 8 CHANGE 10 9 CHANGE YOUR_NEXT_YRS 6 N 11 10 PEOLE_BE_HAPPIER 4 N 11 PEOLE PEACE OF MIND 4 N 12 MORE _OR_LESS FREEDOM 4 N 13 Culture 1719 A lf Age ATEGORIES 17 CHAR 73 distinct values freq value 2 18 9 124 IV Importation Cr ation Exportation Pr cisions sur la nature de l importation Le proc d d importation consiste en la construction d un dictionnaire et d un fichier de donn es de DtmVic partir du fichier original de donn es Les noms des variables seront extraits a partir des identificateurs des v
79. Responses 2 du r pertoire DtmVic Examples_A Start 112 Ill Donn es textuelles et mixtes Creating a parameter file Description of a set of textual responses using numerical data The parameter file entitled param_VISURECA bt Create a first parameter file Execute 3 Return to Main Meru will provide a numerical coding ofthe first open questig list of words with their frequencies param_VISURECA txt DTM BASIC PARAMETER FILE FOR THE ANALYSIS OF A SET OF RESPONSES THE OBTAINED CLUSTERS WILL BE DESCRIBED BY THEIR CHARACTERISTIC WORDS AND RESPONSES AND BY THE SELECTED CATEGORICAL VARIABLES 2 Default Name ofthe created parameter file param_resp_ca ttt The correspondence analysis of the lexical table step ASPAR is followed by a clustering the characteristics words and responses step MOCAR for each cluster A systematic description of the clusters step DECLA provides the files likely to feed the menu ClusterView of DTM Comments symbol Continuation symbol gt A correspondence analysis of the lexical table words is performed A clustering of the responses is then carried out The obtained clusters are described by their characte words and responses and also by the categorical val the respondents or the responses To obtain these results Click on the button Execute or if you wish to study or edit the created parameter fil Return to the main menu o
80. S SSSSSsSSSShSs SSS SSSsSSSSSSSssSSSSses Var 3 numerical AGE mean sd min max 45 868 18 3983 18 000 90 0 T RAS Pc e gt Cliquez sur Create dictionary and datal Une fen tre creating a dictionary and a data file appara t sur l cran F DtmVic Creating a dictionary and a data file Select a directory and enter a Name for the new dictionary name for the new dictionary file then enter Seles i the ame direc tory and Name for the new data file enter a name for the new data file then enter Select the same directory and enter a name for the new textual Name for the new text file oa RS RENE Create new dictionary Create data and text files Create a DTM Parameter file for numerical and categ data gt Cliquez sur Name for the new dictionary Entrez le nom du fichier 126 IV Importation Cr ation Exportation dictionnaire Datbase global dic txt par exemple et enregistrez Pl DtmVic Creating a dictionary and a data file Select a directory and enter a Name for the new dictionary name for the new dictionary file then enter Select the sam LCanegistrer sous il enter a name fi Name for the new data file nter hs pris itrer dans 6 EX DO ation Num_Tet v 1 eX EE E apur_fpdName I xL adapted Select the san nter a name fo datbase_global csv Name for the new text file ee a ig set Vette datbase_global xis E fileinter txt EL New_typevar_datbase g
81. TE Un r sum des param tres appara t gt Dans la barre sup rieure de la fen tre cliquez sur Executel Les calculs sont effectu s La rubrique Results de cette barre sup rieure contient des d tails techniques sur les calculs impliqu s dans l analyse de contigu t La matrice associ e au graphe avec ses trois blocs diagonaux de 1 et avec la valeur O est d ailleurs visible dans cette pr sentation des r sultats gt Cliquez ensuite sur Contigu ty View La fen tre Visualization loading files selecting axes correspondant au bouton IV Visualization apparait gt Dans le menu Load coordinates de la nouvelle fen tre ouvrez le fichier ngus_contig txt gt Dans le menu Load or create a partition et dans le sous menu Load partition File choisissez le fichier part_cat txt nous allons identifier les trois esp ces d iris Nous ne pouvons pas calculer l arbre de longueur minimale ni les plus proches voisins partir du fichier de coordonn es issu de l analyse de contiguit ngus contig txt mais nous pourrions charger des r sultats obtenus ant rieurement partir du fichier ngus_ind txt issu de l analyse en composantes principales r sultats qui sont sauvegard s gt Cliquez sur Graphics Choisissez ensuite les axes 1 et 2 valeurs par d faut VI 2 Donn es num riques et Contigu t Iris 181 gt Cliquez sur DISPLAY Changer les couleurs de l cran si n cessaire pour
82. _V14 Disque_V23 32 Fr quent_V32 S lection des variables suppl mentaires transf rer dans la fen tre Supplementary Variables variables continues 38 Radio 42 Quotid_R suppl mentaires V38 V44 39 TV 43 Magazine 40 Presse 44 Mag_TV 41 Quotid_N variables nominales 1 Sexe 3 Activit suppl mentaires V1 a V4 2 Age 4 Education Analyse en composantes principales 29 Lez Selection of Active and Supplementary Elements Variables to be selectec Active Variable O E Retun 8 Toilette numerical 6 Sommeil numerical 9 Repas numerical 7 Repos numerical Peti_ D jeuner numerical 8 Toilette numerical Repas_chez_soi numerical 9 Repas numerical Restaurant numerical Petit_D jeuner numerical Trav_Dom numerical Repas_chez_soi numerical Trav_r mun r numerical Restaurant numerical Enfants numerical Trav_Dom numerical Clear M nage numerical Trav_r mune r numerical tie Relationnel numerical Enfants numerical Visite_amis numerical M nage numerical Loisirs numerical Relationnel numerical Jeux_Jardinage numerical Visite_amis numerical Clear Jardinage_Bricolage numerical Loisirs numerical Loisirs_exterieur numerical Jeux_Jardinage numerical Disque_cassette numerical Jardinage_Bricolage numerical Lecture numerical Loisirs_exterieur numerical Livres numerical SR D marches numerical Promenade numerical Courses numerical Supplementar
83. _ppm_ color puis ouvrez le fichier Cardinal ppm Une bo te de message rappelle les dimensions du fichier image Note Rappelons que dans le format ppm les trois couleurs de base Rouge Vert Bleu correspondant a chaque pixel ont des emplacements cons cutifs sur la m me ligne dont la longueur est donc trois fois le nombre de pixels de la ligne La compression par SVD ou CA ne d pend pas de l ordre des colonnes ce qui signifie que nous n utilisons m me pas le fait que les trois couleurs sont relatives un m me pixel N anmoins la compression structurelle fonctionne Dans ce cas la s rie de Fourier ligne par ligne n est videmment pas adapt e la couleur n appara t qu avec les derniers termes des s ries successivement avec deux axes principaux 10 axes et 100 axes VI 4 4 3 Exemple Extra _pgm_ppm Cet dernier exemple contient les deux formats d image pgm et ppm Dans le r pertoire EX CO4 Image ouvrez le sous r pertoire 4 Extra pgm ppm puis ouvrez le fichier broom pgm Une bo te de message rappelle les dimensions du fichier image 206 VI Autres analyses avec Dtm Vic Enfant balayant une cour Cas de l analyse des correspondances Images en niveaux de gris pgm reconstitu es successivement avec 2 axes principaux 10 axes et 100 axes Que ce soit en noir ou en couleur en actionnant le d filement automatique permis par les boutons on constate que l image du balai n appara t pas avant le 20
84. a graphique plus lisible 6 S riation Voir l encadr du paragraphe 3 du chapitre 1 La s riation est appliqu e ici la table lexicale croisant les 9 cat gories de r pondants et les mots choisis mots apparaissant au moins 16 fois dans le corpus Dans cette version de Dtm Vic la s riation peut tre obtenue seulement apr s les deux types d analyse VISUTEX et ANALEX Ces deux approches impliquent l analyse de correspondance des tables lexicales gt Cliquez sur M seriation La fen tre reordering appara t gt Cliquez sur Reordering the rows and the columns of a word text table Et r pondre OK Seriation of rows and columns of the lexical table completed 106 Ill Donn es textuelles et mixtes La table lexicale r ordonn e croisant les 9 cat gories des r pondants et les mots choisis est alors constitu e F4 Reordering Reordering the rows and columns of a word text table Hey Original table The rows and columns of the lexical table below have been sorted according to the coordinates on the first axis from the correspondence analysis of the table H 30 H 55 M 30 M 55 L 30 H 55 L 55 M 55 L 55 a leisure pi 3 5 5 0 o 2 1 0 2 education 4 3 4 6 2 1 4 0 1 3 job 15 ab 49 21 3 2 23 10 4 security 4 6 6 14 0 1 6 1 2 5 future 2 1 6 3 0 o 3 0 2 6 what 4 2 7 2 o 0 3 0 4 7 freedom 3 4 9 12 0 0 3 3 4 8 love 4 5 7 7 o 1 2 1 6 9 satisfaction 4 3 1 o 1 5 1 3 10 standard 3 2 5 9 3 1 5 2
85. active pour compl ter l tape ClusterView gt Cliquez sur Une fen tre Selecting observations appara t Etape 6 S lection des observations individus Trois cas de figure sont possibles 1 Consid rer l ensemble des observations 2 S lectionner les observations sur une liste 3 S lectionner les observations par un filtre Nous consid rons ici l ensemble des observations gt Cliquez sur All the observations will be active une fen tre Create a starting parameter file appara t Etape 7 Cr ation du fichier param tre F Create a parameter file for the sequence of processing analex 1 Select some options 2 Create a first parameter file 3 Execute Return to Main Menu A cette tape il est possible de s lectionner comme option les proc dures de bootstrap Rappelons que dans Dtm Vic les analyses factorielles peuvent tre compl t es par un bootstrap qui permet de valider la position des variables sur le plan factoriel gt Cliquez sur 1 Select some options 111 2 Analyse textuelle de questions ouvertes 97 une fen tre Options Bootstrap and or Clustering of observations apparait gt Cliquez sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis Enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas souhait cliquez sur no et continuer FA Options bootstrap
86. ainsi souvent les r sultats du bootstrap partiel Les options de bootstrap total peuvent tre mises en oeuvre par les utilisateurs avanc s mais ne sont pas utilis es dans ce manuel gt Cliquez sur 32 Il Donn es num riques la fen tre Create a starting parameter file r appara t b Cr ation du fichier param tre gt Cliquez sur 2 Create a parameter file for PCA F Create a starting parameter file Default Name of the created parameter file param_pca txt Comments symbol Continuation symbol Dummy line e g title Tas immediately after each line STEP LISTF NO LISTP yes Global Parameters NDICZ Dtm_PCA_dic_Fr txt dictionary file NDONZ PCA dat txt data file reading dictionary and data uilds the Archive Dictionary NGEX4 44 NIEX4 96 NXMOD 5 gt NEDIT 0 NIDI 1 TEST 999 STEP SELEC Selection for STATS Selects active supplementary variables and observations LSELI TOT IMASS UNIF LZERO REC selections of variables columns Un fichier param tre est cr sous le nom param_PCA txt dans le dossier EX _A01 PrinCompAnalysis du dossier DtmVic Examples_ A Start Pour le conserver en vue d analyses ult rieures il sera prudent apr s avoir quitt Dtm Vic de le renommer c Ex cution gt Cliquez sur La s quence des proc dures s affiche en bloc apr s l ex cution Execution com pleted Analyse en composantes princip
87. ales 33 Commentaires Ardat Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Stats statistiques de base Prico Analyse en Composantes Principales Recip Classification mixte utilisant la classification ascendante hi rarchique m thode des voisins r ciproques Parti Coupure du dendrogramme et optimisation de la partition par la m thode des centres mobiles k means Decla Description automatique des classes de la partition Note Lors d une utilisation ult rieure de Dtm Vic il est possible d ouvrir le fichier param tre param _PCA txt dans le menu principal eue ue E avec la proc dure Open an existing command file puis d ex cuter directement ce fichier Executel Les utilisateurs exp riment s peuvent modifier des param tres directement sous l diteur interne ou hors de Dtm Vic avec un diteur de texte voir le Help about parameters disponible partir de l diteur 1 1 3 Fichier de r sultats Les r sultats peuvent tre consult s partir de la rubrique Result Files gt Cliquez sur Basic numerical results pour naviguer dans le fichier de r sultats puis sur Return pour revenir au menu principal DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Selec selecting active and illustrative elements Stats basic statistics for numerical and nominal variables Prico principal components analy
88. an Voit V31 Quotid_N_V41 T TV v1 Presse_V40r quent_V32 Repos_V7 Quotid_R_V42 Loisirs_V19 Jardinag_V21 _Jar_V20 Educ_prim_1 Sex_Hom_2 Age_Ages_2 R sultat PlaneView rubrique colonnes actives cat gories suppl mentaires Remarque Sont pr sentes les variables continues et nominales suppl mentaires 3 Validation Bootstrap Cet outil permet de valider la position des variables sur le plan factoriel 1 Cliquez sur Bootstrap Une fen tre DtmVic Bootstrap Validation Stability Inf rence apparait gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des replications selon le bootstrap choisi S lectionnez le fichier ngus_var_boot txt pour un bootstrap partiel R pondre la fen tre Set of principal coordinates loaded qui s affiche Analyse en composantes principales 41 gt Puis cliquez sur Confidence Areas 1 une fen tre Bootstrap confidence areas s affiche gt s lectionnez dans la rubrique Click to Select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list F7 Bootstap confidence areas Bootstrap confidence Zone Petun Confidence ellipses _pied 0O En Voiture EII EEIEIEXIIIIEIIIIEIIE Le LAS IEEIIIEIIIIIIIEIIIIEE Le gt Choisir ensuite le plan factoriel puis cliquez sur Confidence ellipses pour obtenir l affichage graphique des variables actives
89. and or clustering of observations Number of replicates between 5 and 30 1 Do you want a bootstrap validation 25 Partial default Partial Specific Total Specific gt Cliquez sur la fen tre Create a starting parameter file r appara t gt Cliquez sur 2 Create a first parameter file Un fichier param tre vient d tre cr sous le nom param _ANALEX txt et stock dans le r pertoire EX_A05 Text Responses du r pertoire DtmVic Examples_ A Start gt Cliquez sur La liste des proc dures s affiche en bloc la fin de l ex cution Ardat Archivage des donn es Artex Archivage des textes Selox s lection des questions ouvertes S lection des l ments actifs et suppl mentaires Numer Num risation du texte Motex table de contingence Mots textes les textes tant ici les regroupement de r ponses selon la variable active s lectionn e Mocar mots et r ponses caract ristiques Aplum analyse des correspondances pour ce type de tables Selec Selection des variables en vue de la description de la variable active Decat description 98 Ill Donn es textuelles et mixtes automatique des modalit s de la variable active partir des variables suppl mentaires Execution completed Note Une fois le fichier param tre param_ANALEX txt cr il est possible apr s avoir quitt Dtm Vic de l ouvrir nouveau dans le menu principal avec la proc dure puis d ex cu
90. aram_VISUTE txt from the menu Open an existing command file Click on Execute Read the results from the button Main basic numerical Archive Texts or responses to open ended questions results ITYP 1 LIREP 1 NCOL 80 Use the VIC tools PlaneView ClusterView Bootstrap etc to visualize the results STEP SELOX Selection of open questions irrevelant here but necessary Z gt Cliquez sur 78 Ill Donn es textuelles et mixtes Les proc dures s affichent en bloc apr s l ex cution Artex Archivage des textes Selox S lection des questions ouvertes Numer Num risation du texte Motex table de contingence Mots textes Aplum analyse des correspondances pour ce type de tables Clair br ve description des axes factoriels Mocar mots et lignes caract ristiques p Execution completed Note Une fois le fichier de commande cr fichier param tre param_VISUTEXT txt il est possible de l ouvrir lors d une utilisation ult rieure de DtmVic dans le menu principal autel avec le bouton Open an existing puis d ex cuter ce fichier Executel Les utilisateurs experimentes peuvent aussi modifier les param tres directement sous l diteur propos par Open avec l aide du bouton Help about parameters disponible dans l diteur ou avec un autre diteur de texte hors de Dtm Vic l11 1 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result
91. ariables dans le fichier de d part Le nombre de cat gories pour chaque variable nominale et les noms de ces cat gories seront tablis a partir de ce fichier Pour chaque variable toutes les diff rentes s quences des caract res observ es dans le fichier de donn es sont d tect es et compt es Les cat gories des variables nominales sont rang es selon l ordre alphab tique de leurs identifiants Les lignes du fichier de donn es de DtmVic commenceront par l identifiant figurant dans la premi re colonne identifiant du fichier Excel Les modalit s des variables nominales seront des nombres entiers cons cutifs commen ant par la valeur 1 au lieu d un symbole alphanum rique l ordre des modalit s sera l ordre alphab tique de leurs symboles dans le fichier d origine Les valeurs manquantes cases vides dans le fichier de d part donnent lieu une modalit particuli re identifi e dans le dictionnaire Dtm Vic par la lettre b comme blanc Les valeurs des variables num riques seront identiques celles du fichier de donn es original les valeurs manquantes cases vides dans le fichier de d part sont remplac es dans cette version de DtmVic par la valeur conventionnelle Il Il 999 Les variables textuelles r ponses aux questions ouvertes donnent lieu un fichier textuel s par format textuel de type 2 cf chapitre section 1 5 Une seconde fen tre Format type XL Finding
92. ariage dissout_si_a maux_de_tete_oui maux_de_tete_non Bootstrap confidence Zone LLTIIILILIIIILILILILILIIXTX TX Le Seeeeeeeveseveceeveceeveeeeeeece Confidence ellipses Les ellipses de confiance prennent en compte la densit du nuage de points r plications mais peuvent laisser quelques points l ext rieur Chaque ellipse de confiance est calcul e a partir d une analyse en composantes principales sp cifique de l ensemble des r plications Les enveloppes convexes Convex hulls enveloppent toutes les r plications mais donnent du poids aux points p riph riques sans aucune 11 3 Analyse des Correspondances Multiples 69 consid ration de densit Cf par exemple le chapitre 7 de Multiple Correspondence Analysis and Related Techniques M Greenacre and J Blasius eds Validation Techniques in Multiple Correspondence Analysis L Lebart Chapman and Hall 2006 gt Pour revenir au menu principal VIC cliquez selon la fen tre soit sur la croix en haut a droite soit sur Exemples de zones de confiance bootstrap 4 Classification Cette option positionne les classes obtenues sur le plan factoriel gt Cliquez sur ClusterView Choisissez les axes 1 et 2 pour commencer et Continuer Lafen tre DTM Display of clusters appara t gt Cliquez sur View Les centroides des 5 classes apparaissent sur le plan factoriel gt Actionnez le bouton Categorical du bandeau Puis en cliquant dro
93. au prix d une distortion substantielle de l affichage gt Pour fermer le graphique cliquez sur la croix en haut a droite puis sur 38 Il Donn es num riques E Return lou directement sur la rubrique du bandeau Main menu gt Retournez ensuite sur PlaneView pour s lectionner une autre repr sentation factorielle Autres graphiques 1 rubrique PLANEVIEW with moveable tags permet de d placer les tiquettes des points du graphique gt Cliquer sur PLANEVIEW with moveable tags puis sur Continue Une fen tre appara t gt Choisir par exemple actives columns variables with continuous supplementary variables cliquer sur Continue et s lectionner le plan factoirel Enfants Relationnel Disque_casse 102 Lecture Visite_amis Sommeil Livres Loisirs_exte Toilette Magazines Mag_TV D placements Restaurant D marches Courses 05 2 2 05 Repas_chez_s Repas Promenade En_Voiture Quot_nat Trav_r mun r 1025 Television Petit_D jeun Fr quentatio Repos Quot_reg Loisirs Plan factoriel 1 2 rubrique PLANEVIEW with moveable tags puis bouton actives columns variables with continuous supplementary variables 1 Rubrique Individus actifs densit Analyse en composantes principales 39 Save More graphs Main menu Sign of axes Zoom Font Ranks Axes color HELP g ag PlaneView 1 2 Rubrique individus actifs densit Remarque Les identifia
94. aucun_diplome 54 aucun_diplome cep_seul 4 cep as sexe 2 categories cep_et_cap 56 cep_el_cap age numerical bepc seul 28 bepc_seul niveau_ niveau faible situation 7 categories technique_seul 9 A1 statut_matrimonial 5 ce technique_et_bepe 17 A2 niveau_d etudes 9 nb bu be 85 a p la_famille_est_le_seul_endr etudes_sup _g ecoles 43 opinion_sur_le mariage f autre 9 travaux menage enfants CO opon O1 Fe Co F9 JO CIRE satisfaction_ logement 4 satisfaction_cadre_de_vie mn statut_d occupation_loger depenses_de_logement _ Clear disposez vous_d un_magr disposez vous_d un_pianc residence_secondaire 2 activite_professionnelle conflits_travail vie_person chomage_douze_derniers maux_de_tete 2 catego mal_au_dos 2 categories nervosite 2 categories etat depressif 2 categori Update data file and dictionary data file and dictionary 10 11 12 13 14 15 16 17 18 re gt S lectionnez la variable recoder Ici nous choisissons dans la 1 fen tre la variable 7 niveau d tude en 9 cat gories Les cat gories modalit s de cette variable s affichent dans une 2 fen tre S lectionnez l ensemble des modalit s regrouper qui apparaissent dans une 3 fen tre Entrez le nom de la nouvelle modalit dans la 140 V Recodage Archivage Outils divers me 4 fen tre puis confirmez La nouvelle modalit appara t dans la 5 fen tre gt R
95. avec 7 lignes et 7 colonnes la matrice associ e est une matrice binaire 49 x 49 Cycle concerne la description analogue d un cycle 49 sommets Geography concerne la description de graphes associ s aux cartes g ographiques graphe de r gions contigu s du Japon enregistr sous forme textuelle et externe graphe des d partements contigus de France enregistr galement sous forme textuelle et externe a Le dossier Chessboard La description d un graphe sous forme de damier peut tre obtenue partir de plusieurs fichiers de donn es et dictionnaires diff rents a1 Un fichier de donn es num riques Chessboard_ numerical Dans le sous r pertoire Chessboard ouvrir le sous sous r pertoire Chessboard_numerical Y figurent les fichiers de donn es dictionnaire et param tres format num rique classique de Dtm Vic Le fichier de donn es Chessboard 7x7 dat txt contient la matrice d incidence du graphe avec 49 lignes et 49 colonnes Comme toutes VI 3 Descriptions de Graphes 183 les donn es classiques dans le format interne de DtmVic chaque ligne commence par son identifiant La cellule m i j d une telle matrice M vaut 1 si i et j sont des sommets reli s par une ar te O sinon Les identificateurs de colonnes se trouvent dans le fichier dictionnaire associ Chessboard_7x7_dic txt Ces fichiers seront analys s par l analyse des correspondances fichier de commande Chessboard CA Param t
96. b Si vous d sirez visualiser l image d origine dans la rubrique Visualization cliquez sur Image Greyscale L image appara t alors au centre de la fen tre comme indiqu ci dessous eee LAT Decomposition 4 ci a DE r n SEE o H N Portion de fen tre pr sentant l image originale Cheetah txt avant le choix du nombre d axes VI 4 Reconstitution d images 201 La rubrique c ci apr s est consacr e aux m thodes factorielles de compression axes principaux puis la rubrique d qui suivra examinera titre de comparaison la compression obtenue en ne retenant que les premiers termes des s ries de Fourier enti res Il ne s agit pas ici d optimiser la compression mais de comparer deux approches hi rarchiques simples bases de vecteurs versus bases de fonctions trigonom triques c Le cas des m thodes factorielles Dans la partie inf rieure gauche de la fen tre dans la rubrique Compression technique cliquez sur le bouton Correspondence Analysis pour commencer L analyse s effectue c1 Si vous souhaitez obtenir un aper u de la reconstitution des donn es de 1 100 axes cliquez directement sur le bouton Series from first term to total greyscale dans le panel On peut alors observer la reconstitution progressive de l image c2 Si vous vous int ressez un nombre d axes particulier s lectionnez le nombre requis dans la liste verticale corre
97. butionnelles dans le cas multidimensionnel qui rend malais e l utilisation codifi e des tests d hypoth ses L analyse exploratoire multidimensionnelle des donn es num riques sera un volet important du logiciel Dtm Vic Les outils de base en sont d une part les m thodes factorielles ou analyses en axes principaux telles que l analyse en composantes principales les analyses des correspondances simples et multiples d autre part les m thodes de classification classification hi rarchique m thodes de partitionnement cartes auto organis es Ces techniques ne s excluent pas mutuellement elles sont au contraire syst matiquement utilis es comme des techniques compl mentaires apportant chacune des points de vue indispensables sur la r alit statistique L ouvrage de base qui accompagne les m thodes mises en oeuvre dans ce volet du logiciel Dtm Vic a pour titre Statistique Exploratoire Multidimensionnelle Les donn es textuelles sont en particulier des donn es la fois Statistique Exploratoire Multidimensionnelle Visualisation et Inf rence en Fouille de Donn es Ludovic Lebart Marie Piron Alain Morineau 2006 4 me ed Dunod Paris 6 Dtm Vic multidimensionnelles et complexes Elles sont donc des candidats possibles aux traitements propos s par les analyses exploratoires Elles sont souvent associ es des donn es num riques C est le cas embl matique des enqu tes par sondage comportant la fois des
98. c dure VISUTEXT pour fusionner des mots formes graphiques relatives un m me lemme ou pour supprimer certains mots mots outils par exemple Toutefois une analyse pr alable des mat riaux bruts est toujours conseill e 86 Ill Donn es textuelles et mixtes treasure times ten some shouldst not let Extraits de la carte de Kohonen repr sentant simultan ment les sonnets et les mots Remarque Il est possible de changer de taille de police Font et de dilater la carte de Kohonen obtenue Dilat pour rendre le graphique plus lisible Les mots apparaissant dans la m me cellule sont souvent associ s aux m mes r ponses sonnets Cette propri t tient a un moindre degr pour les cellules contigu s 5 S riation Voir l encadr du paragraphe I 3 du chapitre 1 La s riation est appliqu e ici la table lexicale croisant les 20 sonnets et les mots choisis mots apparaissant au moins 4 fois dans le corpus gt Cliquez sur M seriation La fen tre Reordering appara t gt Cliquez sur Reordering the rows and the columns of a word text gt R pondre OK Seriation of rows and columns of the lexical table completed La table r ordonn e en lignes et en colonnes croisant les 20 sonnets et les mots retenus est alors constitu e 87 Ill 1 Simples textes Po mes liste 200000000000 0000000000000000000O00000O0O0OQO0Q OO eme A 200000000000 00000000000000
99. ction est identique la pr c dente ainsi qu la section VI 3 3 Ex cution de l exemple Chessboard Textual Le graphique est maintenant une esquisse d une carte du Japon cod e comme les r ponses la question ouverte Quelles sont vos r gions voisines les r pondants fictifs tant les m mes r gions du Japon Le dossier Japan_map contient les trois fichiers homologues des pr c dents texte externe et param tre Japan map Textual tex txt Japan map _Extern txt et Japan map _ Textual Param txt VI 3 Descriptions de Graphes 195 ot OMC akita iwate akita aomori iwate yamagata miyagi iwate aAOmoOr i akita mMmivagi gt yamagaca akita miyagi niigata fukushima Extrait du fichier de donn es textuelles Japan map Textual tex txt trois premi res r gions Ici les r gions sont consid r es comme des individus s parateur alors que les d partements ont t consid r s comme des textes s parateur Les deux codages sont possibles dans cette configuration simple La m me s quence d op ration conduit au graphique suivant dont la forme parabolique est en partie imputable la forme de l archipel mais aussi un effet Guttman marqu d j voqu en section VI 3 2 b propos des axes 3 et suivants et accentu ici par une diff rence d chelle entre les axes Cet effet Guttman d s le second axe appara t videmment pour les graphes en forme de cha nes ou de tre
100. ctive Quels sont vos ll Voir par exemple Exploring Textual Data 1998 par L Lebart A Salem L Berry Kluwer Academic Publisher Cette comparaison avait d ja t faite dans l article Introduction a l analyse des donn es L Lebart Consommation n 4 1969 p 65 87 Dunod 184 VI Autres analyses avec Dtm Vic voisins Au lieu d une matrice binaire M nous avons affaire ici un tableau beaucoup plus petit contenant l adresse num ro de colonne des 1 dans la matrice M Les commandes de Chessboard_Textual Param txt conduisent aux m mes r sultats que l analyse des correspondances de l alin a pr c dent en utilisant toutefois une s quence d tapes bien distinctes de Dtm Vic C est un exemple p dagogique de pont entre les mesures num riques et textuelles du DtmVic Attention Avec ce type de donn es les chiffres ne sont pas consid r s comme des nombres au sens math matique du terme mais comme de simples s quences de caract res Voir ci dessous l exemple des cartes du Japon et de France o les num ros des sommets sont remplac s par les noms des r gions et des d partements en clair Ce dossier contient galement le m me fichier Chessboard_Extern 7x7 txt que le dossier pr c dent b Le dossier Cycle Ce sous r pertoire Cycle est voisin de celui relatif au graphe Chessboard On y trouve de la m me fa on que pour le dossier Chessboard un codage num rique et externe Seule la forme d
101. ctives des variables ou des cat gories des cat gories suppl mentaires des lignes actives individus observations colonnes actives lignes actives individus actifs densit et colonnes actives cat gories suppl mentaires PLANEVIEW with moveable tags reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique S lectionnez la rubrique Actives columns variables or categories Apparait une fen tre pour s lectionner le plan factoriel suivant le couple d axes souhait F Selection of axes and points Active numerical variables Manual Selection of Points f Select random subsets of points Horizontal axis Vertical axis fe No default option le Axis 1 l As 2 C Yes 50 of points Ans 3 i C Yes 25 of points C Axis 4 C Axis 5 C Axis 6 C Axis 7 Axis 8 Axis 9 C Axis 10 C Axis 11 C Axis 12 C Axis 13 C Axis 14 Avis 15 Avis 15 gt Choisir les axes 1 et 2 puis cliquez sur Display Il est possible de ne Analyse en composantes principales 37 faire figurer sur les plans que certaines variables Cliquez alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur Select La fen tre du plan factoriel appara t Save Moregrachs Manmen Sy Enfants M nage A_pied Relationnel Disque_casse 02
102. d de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire ou texte au format Dtm Vic 72 Ill Donn es textuelles et mixtes 111 1 Simples textes S rie de po mes Cet exemple l mentaire traite la forme la plus simple d analyse des textes Les donn es correspondent une s rie de textes compos e ici des 20 premiers sonnets de Shakespeare Dans ce format simple Dtm Vic peut traiter jusqu 1000 textes sans limitation de taille pour chaque texte Cette portion de corpus prise comme exemple est ainsi un mod le r duit soulignant seulement les fonctionnalit s mais pas la puissance de Dtm Vic 11 1 1 Le fichier DtmVic S rie de po mes Dans le cadre d une analyse de texte un seul fichier Dtm Vic contenant l ensemble des textes suffit Celui de notre exemple est nomm Sonnet_LowerCase txt et est contenu dans le r pertoire DtmVic Examples A_Start EX_A04 Text Poems kKkKkK S 1 from fairest creatures we desire increase that thereby beauty s rose might never die but as the riper should by time decease his tender heir might bear his memory but thou contracted to thine own bright eyes feed st thy light st flame with self substantial fuel making a famine where abundance lies thyself thy foe to thy sweet self too cruel thou that art now the world s fresh ornament and only herald to the gaudy spring within thine own bud buries
103. dans le vallon Voil l errante hirondelle Qui rase du bout de l aile L eau dormante des marais KREE GAUTIER L automne va finir au milieu du ciel terne Dans un cercle blafard et livide que cerne Un nuage plombe le soleil dort Du fond Des tangs remplis d eau monte un brouillard qui Fond Collines champs hameaux dans une m me teinte ERIN VERLAINE Les sanglots longs Des violons De l automne Blessent mon coeur D une langueur Monotone Tableau 3 Fichier texte en format interne type 1 Dtm Vic Les trois textes sont en format libre sur moins de 200 colonnes les s parateurs des textes sont s par s par suivis de 4 espaces puis de l identifiant du texte comportant moins de 20 caract res la fin du fichier est mentionn par Tous les s parateurs occupent les 4 premi res colonnes Pour certaines ditions de tableaux il est utile et important que les 4 premiers caract res de l identifiant de texte caract risent le texte Si les lignes ont plus de 200 ccaract res une proc dure de Dtm Vic Tools permet de les reformater Le tableau 4 plus bas pr sente un fichier de textes concernant trois questions ouvertes pour trois r pondants cf l exemple 111 2 Pourquoi deux formats pour les donn es textuelles Contrairement aux donn es num riques les textes peuvent poser des probl mes d chelle de dimensions et donc de limites Le format type 1 s parateurs permet d accuei
104. data Seer selecting active and Ubstratier elements Shale eee aries Cor momie and nominal valable gt ou cliquez sur Basic numerical results text format pour ouvrir le fichier r sultat en format texte L importation est termin e IV 2 Saisie manuelle 129 IV 2 Saisie manuelle DtmVic propose un module de collecte de donn es num riques II est surtout utilisable dans un contexte p dagogique pour saisir de petits jeux de donn es num riques Ce module ne permet cependant pas de saisir des questions ouvertes Le passage par un fichier Excel est souhaitable Building the dictionary of variables and creating the data file Creating the data file manually IV 2 1 Le fichier dictionnaire gt S lectionnez dans le menu a Data Importation Preprocessing Data Capture Exportation Data Capture Exportation puis Building the dictionary eERBuilding the dictionary of variables and creating the data filek Une fen tre d di e la construction du dictionnaire appara t Fa Building the dictionary of variables Dictionary of variables DTM file format SAVE DICTIONARY RETURN 130 IV Importation Cr ation Exportation La premi re sous fen tre en haut gauche permet de saisir le num ro le nom et le type de chacune des variables re variable saisir me gt La 1 fen tre jaune affiche 1 le num ro de la 1 Dans la deuxi me fen tre tapez le nom de la variable pu
105. de l individu moins de 20 caract res les questions sont s par es par la fin du fichier est mentionn par Tous les s parateurs occupent les 4 premi res colonnes Note les lignes vides correspondent des non r ponses le dernier r pondant n a pas donn de r ponse aux deux derni res questions ouvertes au moins une ligne vierge est n cessaire dans ce cas Attention l ordre des individus doit tre celui du fichier de donn es num riques Noter que la limitation est de 12 questions ouvertes par fichier texte mais il peut y avoir plusieurs fichiers Notons que dans l importation d un fichier Excel contenant la fois des variables num riques et textuelles chaque r ponse une question ouverte est limit e 8000 caract res Dans les exemples fournis dans Dtm Vic les fichiers sont d j en format Dtm Vic sauf bien sur les exemples d importation La mise en forme dans le format de Dtm Vic est alors inutile pour l utilisateur Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt II est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire ou texte au format Dtm Vic 23 ll Donn es num riques Prise en main de Dtm Vic partir de trois exemples Les exemples suivants visent pr senter Dtm Vic l utilisateur d u
106. de npas 2 gt Cliquez sur VALIDATE Un r sum des param tres appara t gt Dans la barre sup rieure de la fen tre cliquez sur Executel Les calculs sont effectu s 178 VI Autres analyses avec Dtm Vic gt La rubrique permet de consulter les d tails techniques des calculs impliqu s dans l analyse de contigu t gt Cliquez ensuite sur Contigu ty View La fen tre Visualization loading files selecting axes qui correspondait au bouton MI Visualization apparait gt Dans le menu Load coordinates de la nouvelle fen tre ouvrez le fichier ngus_contig txt Au lieu d utiliser les coordonn es principales de l ACP ngus _ ind txt comme pr c demment nous utilisons maintenant le r sultat de l analyse de contiguit ngus_contig txt gt Cliquez ensuite sur Load or create a partition Dans le sous menu Load partition File s lectionnez le fichier part_cat txt Avec ce fichier nous allons identifier les esp ces Nous ne pouvons pas calculer l arbre de longueur minimale minimum Spanning Tree ni les plus proches voisins partir du fichier ngus contig txt gt Cliquez sur Graphics Choisissez ensuite les axes 1 et 2 qui sont d ailleurs les valeurs par d faut gt Choisissez cochez le num ro du niveau de contigu t par exemple 2 qui correspond 6 plus proches voisins Le niveau 1 correspond 4 plus proches voisins et le niveau 3 8 plus proches voisins gt C
107. division en classes d une variable continue sont fr quemment suscit s par les r sultats d une analyse ant rieure L archivage des partitions ou des axes factoriels est galement utile pour avancer dans la compr hension des donn es en permettant de r aliser des analyses qui les prennent en compte Ces tapes de recodage sont en fait assez fondamentales Bien que Dtm Vic ne soit pas un logiciel de gestion de donn es il a paru n cessaire de rendre ces op rations accessibles partir de la bo te outils Toolbox V 1 Recodage gt Cliquez sur Toolbox Data Recoding Le menu qui appara t concerne le recodage des donn es et l archivage de certains r sultats DtmVic Recoding tools Grouping some categories of a categorical variable Cross tabulating two categorical variables Breaking down a numerical variable into categories Archiving principal axes and partitions 138 V Recodage Archivage Outils divers Cr ation ou recodage de variables nominales i Regroupement de modalit s ii Cr ation d une variable nominale par croisement de deux variables nominales iii Transformation d une variable continue en variable nominale iv Archivage des axes factoriels et des partitions Que ce soit pour le regroupement de modalit s d une variable nominale pour la cr ation d une variable par croisement de deux variables nominales ou pour la transformation d une variable continue en une variable nomina
108. e dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton de Cua EnG 186 VI Autres analyses avec Dtm Vic gt Cliquer sur le bouton Basic numerical results de Le bouton ouvre le fichier HTML nomm imp html qui contient les principaux r sultats des tapes pr c dentes de calcul de base Apr s lecture de ces r sultats num riques retournez au menu principal b Visualisation et lecture des r sultats Nous allons maintenant visualiser directement le graphique dans l tape VIC Visualization Inference Classification steps gt Cliquez sur M Visualization on n utilisera pas ici les boutons AxeView PlaneView etc Une fen tre intitul e DTM visualization loading files selecting axes appara t Horiz axis 1 ertic axis 2 isualization Graphics SAVE 1 Axis ZOOM COLOUR FONT Density Return 1 5 Figure VI 1 Plan factoriel principal Analyse des correspondances pour le graphe Damier apr s changement de police bouton Font et changement de couleur bouton Colour gt Cliquez sur Load coordinates Dans le sous menu correspondant VI 3 Descriptions de Graphes 187 choisir le fichier ngus ind txt individus ou observations Les principales coordonn es des individus lignes sont s lectionn es En fait ici la matrice de donn es est sym trique il est quivalent dans ce cas tres particulier de choisir ngus_ var act txt
109. e base a Fichier de donn es Chessboard_ 7x7 dat txt b Fichier Dictionnaire Chessboard_7x7_dic txt c Fichiers de commandes Chessboard_CA Param txt Analyse des Correspondances et Chessboard PCA Param txt analyse en composantes principales Il est possible de r aliser soit une analyse des correspondances classique ou une analyse en composantes principales a Ouverture et Ex cution du fichier param tre de l AC Nous commencerons par ex cuter l analyse des correspondances gt Cliquez sur le bouton Open an existing command file de ae menu principal Puis recherchez le dossier Chessboard_ numerical dans DtmVic examples DtmVic Examples_C_NumData puis le fichier de commande Chessboard_ CA Param txt Notez encore que ces fichiers de commande peuvent tre facilement g n r s en cliquant sur le bouton Create du menu principal Basic Steps Une fen tre Select a basic analysis appara t Cliquez ensuite sur le bouton SCA Simple Correspondence Analysis ou sur le bouton PCA Principal Components Analysis les deux situ s dans la rubrique Numerical Data et suivez les instructions comme indiqu dans le chapitre II Apres avoir identifi et v rifi les fichiers de donn es et du dictionnaire trois tapes vont tre effectu es ARDAT Archivage des donn es SELEC s lection des l ments actifs et suppl mentaires AFCOR analyse des correspondances gt Cliquez sur Return to execut
110. e bouton Open a Data File Dans le r pertoire DtmVic_Examples_A Start EX_A01 PrinCompAnalysis ouvrir le fichier 28 Il Donn es num riques PCA _dat txt qui s affiche dans une troisi me fen tre gt Cliquez sur 3 Continue gt Une fen tre Selection of active et supplementary elements appara t alors Etape 3 S lection des variables actives et suppl mentaires Il A l int rieur de la fen tre Selection of active et supplementary elements s affichent trois autres fen tres 4 Variables to be selected o figure l ensemble des variables 5 Active Variables qui re oit les variables actives s lectionn es 6 Supplementary Variables qui re oit les variables suppl mentaires s lectionn es Pour ACP les variables actives doivent tre continues numerical Les variables suppl mentaires peuvent tre continues ou nominales Nous proposons de s lectionner les variables suivantes S lection des variables continues actives V6 V32 transf rer dans la fen tre intitul e Active Variables Sommeil_V6 Enfants _V15 24 Lecture _V24 Repos V7 M nage _V16 25 Lect_livr_V25 Toilette V8 Relation V17 26 D marche Course V26 Repas V9 Visite amis _ V18 27 Promenad_V27 Petit _D j_V10 Loisirs _V19 28 Courses _V28 Repas home V11 Jeux_Jar_V20 29 D placem_V29 Repas_rest_V12 Jardinag V21 30 A_pied_V30 Travail_V13 Loisirs_ext_V22 31 En_Voitu_V31 TravailR
111. e et les activit s de la maison jardinage repas chez soi sur la partie n gative sur l axe 2 le travail r mun r partie positive s oppose au repos partie n gative Dans le cadre de l analyse en composantes principales trois l ments peuvent tre examin s les variables continues actives et suppl mentaires les variables nominales suppl mentaires et les observations gt Cliquez sur l onglet des l ments examiner Active variables par exemple puis sur View Il est possible d ordonner les coordonn es sur un axe donn en cliquant sur le libell axis x en haut de l axe x gt Cliquez sur pour sortir de cet outil 2 Plans factoriels Cet outil fournit les plans factoriels s par s ou superpos s des variables actives suppl mentaires ou des observations gt Cliquez sur Une fen tre propose diff rentes visualisations de plans factoriels 36 Il Donn es num riques Pe Selecting the types of coordinates PlaneView Type of Display Active columns variables or categories C Supplementary categories C Rows individuals observations C Active columns variables rows observations C Supplementary lexical units C Rows individuals observations Density Supplementary continuous variables MCA Active columns Supplementary categories C PLANEVIEW with moveable tags lt 900 points Dans cet exemple d analyse six rubriques du menu sont possibles les colonnes a
112. e their treasure Les textes pouvant avoir des longueurs tr s diff rentes une ligne sp cifique s pare un sonnet d un autre Elle est caract ris e par des s parateurs suivis de 4 espaces blancs et du nom du texte Le symbole indique la fin du fichier Comme tous les fichiers de donn es en format Dtm Vic celui ci est en format txt La conversion en minuscules permet ici de ne pas traiter diff remment le premier mot de chaque vers L objectif est de d crire les textes partir de la table de contingence lexicale croisant les textes avec les mots les plus fr quents La m thodologie g n rale la base du traitement est pr sent e dans les livres Statistique textuelle L Lebart A Salem Dunod 1994 et Exploring Textual Data L Lebart A Salem L Berry Kluwer 1998 Dordrecht L ouvrage Statistique textuelle peut tre librement t l charg a partir du site www dtmvic com 11 1 2 Mise en uvre de l analyse textuelle VISUTEXT Le fichier de commande ou fichier param tre est cr en 4 tapes Etape 1 S lection de l analyse gt Dans la fen tre du menu principal cliquez sur le bouton de eflulttate RATE 74 Ill Donn es textuelles et mixtes gt Une fen tre Choosing among some basic analyses appara t ED RE ross abulating amp seres of cate Dtm Data and text mining Data File Data Importation Preprocessing Data Ce E ar UE Create a command fi
113. e traitement les plus usuelles de Dtm Vic Une interface sp cialis e est obtenue par le bouton SVD and CA of Images de la rubrique DtmVic Images du menu principal Les analyses de base auxquelles les exemples 1 a 3 ont recours sont celles pr sent es au chapitre II Nous ne revenons donc pas sur la mise en place interactive du fichier de commande ou fichier param tre et des analyses Nous pr sentons ici directement ces analyses a partir du fichier de commande d j pr par et fourni avec chaque exemple 158 VI Autres analyses avec Dtm Vic VI 1 Donn es num riques S miom trie L exemple 1 dans le dossier EX C01 PCA Semio vise analyser un ensemble de variables num riques extrait de donn es s miom triques par analyse en composantes principales Les principaux axes de visualisation sont compl t s par une classification avec une description automatique des classes La proc dure Vizualisation propose diff rents outils de visualisation des enveloppes convexes ou des ellipses de densit pour les classes le trac de l arbre de longueur minimale Minimum Spanning Tree et la visualisation des graphes des plus proches voisins Une nouvelle classification des variables ou des observations ou individus travers une m thode de type k means peut tre obtenue et visualis e it ration apr s it ration partir du sous menu Visualisation VI 1 1 Les donn es s miom triques Dans la
114. e troisi me bouton Replacing commas with semicolons est utile lorsque le fichier fourni a d j t sauvegard avec des virgules comme s parateur Comme pr c demment si le fichier contient d j des points V 3 Outils sp cifiques de pr traitement 153 virgules la transformation ne pourra avoir lieu Il convient donc de les remplacer par un autre symbole avant d actionner le bouton V 3 2 Donn es textuelles uniquement Le dernier bouton ToolBox Preprocessing texts propose quelques proc dures en vue de l importation ou de l utilisation directe des textes DimVic Specific tools for preprocessing textual data Conversion of all the characters of a text into lowercase Suppress in a text the chains such as lt __ gt Re importing a Dim text file after WinTreeT agger Fragmentation of a Dtm text format 1 into a Dtm text format 2 Changing the sizes of the lines in a Dtm ic text file Add empty lines for empty responses only in the case of Dim Texts format 2 i Conversion des textes en minuscules Le bouton Conversion of the characters of a text into lowercase transforme tous les caract res en minuscules Ceci fait gagner de l information en termes de fr quences pour le vocabulaire banal mais des traitements pr liminaires peuvent s imposer pour traiter par exemple homonymie entre certains noms propres noms de lieu par exemple et noms communs Tour Paris Pierre Constant
115. e visualiser les centres des classes qui sont projet s sur le plan factoriel gt Cliquez sur ClusterView Choisissez les axes 1 et 2 pour commencer et Continue e La fen tre DTM Display of clusters appara t Analyse en composantes principales 43 Font tags Color save os bitmap ME 29 ete Clust__5 Clust__2 ha Cl st__4 Clust__6 Commentaire En actionnant ce bouton num rique nous observons le lien entre les variables num riques variables actives et suppl mentaires du fichier de donn es et les 7 classes En raison du petit nombre d individus de l exemple certaines classes ne produisent pas des r sultats significatifs Dans le cadre de cet exemple les autres rubriques du menu principal ne sont pas appropri es gt Cliquez sur View Les centres des 7 classes apparaissent sur le plan factoriel Cliquez ensuite sur la rubrique du bandeau Cette rubrique est d sormais activ e Puis en cliquant bouton droit de la souris sur une classe les variables les plus descriptives de la classe apparaissent L ensemble des r sultats figure dans la proc dure DECLA du fichier sortie Basic numerical results ClusterView nous permet d appr cier la forme du nuage des centres de classes et d interroger interactivement leurs caract ristiques Nous pouvons facilement imaginer l int r t de l outil pour une visualisation relative des centaines de variables des milliers d individus regroup s par exem
116. ecommencez la proc dure pour toutes les modalit s de la variable Si une modalit n est pas regrouper la s lectionner et lui attribuer une tiquette Dans l exemple nous avons regroup les 4 premi res modalit s en niveau faible les 3 autres en niveau moyen la 8 modalit en niveau_ lev et la 9 en niveau _NR Non r ponse Les modalit s de la nouvelle variable apparaissent dans la 5 fen tre Cette variable est positionn e la fin du fichier et se nomme var7 4cat gt Une fois les regroupements termin s r pondre puis cliquez sur Update data file and dictionary Groupings some categories of a selected categorical vaiable region 8 categories a 1 aucun diplome 0 sel taille_d agglomeration_ norr F 2 cep seul 0 sel sexe 2 categories 3 cep et cap 0 sel eT P situation 7 categories i 5 Al statut_ matrimonial 5 ce ique Confi a i ou ontirm B la_famille_est_le_seul_endr 8 etudes_sup _g ecoles 0 sel 8 opinion_sur_le_mariage 9 autre 0 sel 0 travaux menage enfants 1 satisfaction_logement 4 2 satisfaction_cadre_de_vie 3 statut_d occupation_loger niveau _faible 192 4 depenses_de_logement _ niveau moyen 71 5 disposez vous_d un_magr des 43 6 disposez vous_d un_pianc niveau NR 9 7 residence secondaire 2 g 8 activite_professionnelle 9 conflits_travail vie_person DtmVic_44 Grouping completed You can update the data file now
117. ectangulaires de niveaux de gris format texte simple txt format pgm acronyme de Portable Gray Map ou Portable Grey Map en Anglais britannique et pour les images couleur format ppm acronyme de Portable Pixel Map On trouvera les fichiers d exemple dans le dossier EX CO5 Images du dossier DtmVic_Examples C_ NumData Dans ce r pertoire ouvrez le r pertoire dossier de l exemple C 5 EX CO5 Images Quatre sous r pertoires correspondent aux quatre exemples 1 Cheetah txt 2 Baalbeck pgm 3 Cardinal ppm color 4 Extra pgm_ ppm Tous les fichiers contenus dans ces sous r pertoires peuvent tre VI 4 Reconstitution d images 197 examin s avec un diteur de texte tel que Notepad inclus dans Windows UltraEdit ou un logiciel libre tel que Notepad ou TotalEdit etc Pour les images en niveaux de gris deux formats d entr e sont disponibles 1 Le format de texte simple Voir l exemple 1 c est dire l image cheetah txt du dossier 1_cheetah txt Le tableau de donn es contient des entiers positifs inf rieurs ou gaux 255 qui sont les valeurs du niveau de gris pour chaque pixel pas d identificateur Un tel format qui ne contient pas explicitement la taille de l image est le plus simple En raison de sa rusticit il n est ni utilis ni fourni par les logiciels de traitement d images usuels le format pgm Portable grey map voir l exemple 2 avec l
118. ements dans la rubrique WME Te ie Kane Bye e ES ross SOUISUNQ amp series of cate Dtm Data and text mining Data File Data Importation Preprocessing Data Ce K Create a command file A Numerical Data principal axe Spar An Anging PomMAnA ME PCA Principal Components Analysis SCA Simple Correspondence Analysi Basic numerical results Result Files MCA Multiple Correspondence Analy Basic numerical results txt form CORTEX Preprocessing oftexts 0 BYP EETA AS VISUTEX Visualization of Texts b VISURESP Visualization of respo Axes H Planeview Numerical and Textual Data DECAT Automatic description ofas IPFIT 3 Re Weighting the observations Axes Clusters Clusterview E Kohonen Map M yo ANALEX Analysing through SCA e lt URECA visualization anc us Une fen tre Opening a text file appara t Etape 2 S lection du fichier texte gt Cliquez sur le bouton Open a text File Dans le r pertoire EX_A06 Text Responses 2 lui m me inclus dans le dossier DtmVic_Examples_ A Start ouvrir le fichier TDA tex txt gt Une boite de message r capitule les informations de ce fichier 7329 lignes correspondant l ensemble des r ponses aux trois questions 1043 observations les r pondants et 3 questions ouvertes gt Cliquez sur ok le fichier s affiche dans une premi re fen tre 111 3 Analyse directe de r ponses libres 109 P Fa Opening a text file 1 Open a Text
119. ence adapt e un petit corpus Il s agit ici simplement d explorer l ventail des commandes sans interpr tation linguistique pertinente Fa Vocabulary frequency threshold Separators of units 32 10 42 S Number of occurrences tokens 2341 Number of words types 850 Vocabulary Alphabetic order He may most much old 1 Choose a frequency threshold say shouldst sweets those times too treasure 2 Continue create the parameter file mmi ol LI Von las Von l es ln los ne Un les los A ls es ls So WC Jo UH amp amp ND wo I S S S S S S S S S S S S S S S S S S S S a N ePeeOrrererereeeepPeeePeeePePePPePPPPPPOE amp 5 3 gt S lectionnez cette ligne 113 puis cliquez sur CONFIRMI La fr quence appara t R pondre la boite de message gt Cliquez sur 2 continue create a parameter file Etape 4 Cr ation du fichier param tre F Create a parameter file for the sequence of processing Vitex SEE Ea C est a cette tape de constitution du fichier param tre qu est propos e l option bootstrap cf les trois exemples pr c dents gt Cliquez sur 1 Select some options une fen tre Options Bootstrap and or Clustering of observations apparait Ill 1 Simples textes Po mes 77 Fy Options bootstrap and or clustering of observations Number of replicates between 5 and 30 Bootstrap Suggested value 25 fe pez 1 Do vou
120. ent voir sur l cran d accueil deux rubriques optionnelles la bofte outils DtmVic Tools qui propose diff rents types de recodage de stockage des donn es et la rubrique consacr e certaines analyses d images Ce manuel doit permettre de proc der une mise en oeuvre de ces 10 Pr sentation g n rale tapes de calcul et de visualisation Certaines d entre elles les plus sp cifiques du logiciel mentionn es dans la pr sentation ci dessous seront d taill es dans les diff rentes parties du manuel sachant que toutes les analyses rel vent d un m me enchainement des tapes 1 S lection d une analyse 2 Ouverture des diff rents fichiers de donn es dans le format Dtm Vic Choix des variables Choix des diff rents param tres sp cifiques l analyse 3 Cr ation d un fichier de commande 4 Ex cution du fichier de commande 5 Visualisation des r sultats Pour obtenir des aides sur les param tres ou les fichiers cliquez sur les menus Help dans la barre du haut qui s affichent alors en rouge Pour supprimer l affichage d une rubrique d aide cliquez nouveau sur le bouton correspondant Le tutoriel en anglais est accessible sur cette barre I 1 Mise en place des fichiers de donn es gt Cliquez sur Data Importation Preprocessing Data Capture Exportation dans PELER a Une fen tre sugg rant diff rentes proc dures appara t Voici les composants de cette fen tre Impor
121. er une nouvelle base de donn es r unissant deux ensembles de variables op ration utile lorsque les fichiers livr s sont segment s comme dans le cas des versions d Excel pour lesquelles le nombre de colonnes est limit Attention Les deux bases doivent contenir les m mes individus en lignes tri s dans le m me ordre gt Cliquez sur Concatenating 2 dtm files with 2 distinct sets of variables Une fen tre apparait gt Ouvrir les deux fichiers des donn es puis des dictionnaires a concat ner Ils s affichent dans chacune des quatre fen tres gt Cliquez sur Merge Sorted Files Une s rie de fen tres s affichent successivement Les deux premi res pr cisent l int gration des deux fichiers de donn es In file O individuals have no counterparts r pondre OK Une troisi me fen tre donne le nombre d individus du nouveau fichier R pondre Ok Enfin une quatri me fen tre indique que la proc dure merge des deux fichiers de donn es est effectu e r pondre Ok Les identifiants des deux fichiers apparaissent dans la fen tre du bas Cliquez sur Merge dictionariesl Une fen tre indique que la proc dure merge des dictionnaires est effectu e r pondre Ok et cliquez sur Exit Deux fichiers dtm_dico_ new et dtm_data_ new sont alors cr s 152 V Recodage Archivage Outils divers V 3 Outils sp cifiques de pr traitement V 3 1 Donn es num riques et textuelles Le bouton
122. eration 5 categories 2 Open a Data File Dtm format 3 Continue fselect active and supplementary elements Ee gt Cliquez sur une fen tre Selection of active and supplementary elements appara t Etape 3 S lection des variables actives et suppl mentaires A l int rieur de la fen tre Selection of active and supplementary elements s affichent trois autres fen tres Variables to be selected o figurent l ensemble des variables Active Variables qui re oit les variables actives s lectionn es Supplementary Variables pour les variables suppl mentaires s lectionn es Dans le cadre de l analyse des correspondances multiples les variables actives doivent tre nominales cat gorielles Les variables suppl mentaires peuvent tre continues ou nominales Nous sugg rons de s lectionner les variables suivantes comme variables actives et suppl mentaires gt Variables actives transf rer dans la fen tre Active Variables la famille est le seul_endroit_o nervosite opinion_sur_le_mariage etat_depressif travaux menage enfants Satisfaction_sante Satisfaction logement Societe a besoin de se transf Satisfaction cadre de vie fonctionnement _justice maux de tete les gens comme moi se sentent_seuls mal_au dos 60 Il Donn es num riques gt S lection des variables suppl mentaires transf rer dans la fen tre Supplementary Variables
123. ervations 170 VI Autres analyses avec Dtm Vic Le cas d un graphe externe fait partie des fonctionnalit s du logiciel Dtm Vic mais n est pas pr sent dans ce manuel de prise en main Il s agit donc ici d une analyse de contiguit intrins que ouvrant des possibilit s int ressantes d exploration de donn es L id e de d duire des donn es une m trique susceptible de mettre en vidence l existence de classes a t sugg r e par Art et al 1982 et Gnanadesikan et al 1982 Quelques r f rences pour la section VI 2 1 Art D Gnanadesikan R Kettenring J R 1982 Data Based Metrics for Cluster Analysis Utilitas Mathematica 21 A 75 99 Burtschy B Lebart L 1991 Contiguity analysis and projection pursuit In Applied Stochastic Models and Data Analysis R Gutierrez and M J M Valderrama Eds World Scientific Singapore 117 128 Gnanadesikan R Kettenring J R Landwehr J M 1982 Projection Plots for Displaying Clusters in Statistics and Probability Essays in Honor of C R Rao G Kallianpur P R Krishnaiah J K Ghosh eds North Holland Lebart L 1969 Analyse statistique de la contiguit Publications de I ISUP XVIII 81 112 Lebart L 2000 Contiguity Analysis and Classification In W Gaul O Opitz and M Schader Eds Data Analysis Springer Berlin 233 244 Lebart L 2006 Assessing Self Organizing Maps via Contiguity Analysis Neural Nerworks 19 847 854 VI 2 2 L
124. es et cliquez 166 VI Autres analyses avec Dtm Vic sur puis sur DISPLAY Le Plan factoriel 2 3 s affiche Dans le bandeau de gauche de la fen tre Graphics figurent quatre familles de boutons Sur la barre d outils verticale gauche on appuie sur un bouton pour l activer couleur rouge et on appuie de nouveau pour le d sactiver couleur noire e Le bouton Minimum Spanning Tree trace l arbre de longueur minimale e Le bouton N N Nearest Neighbours plus proches voisins joint chaque point ses voisins les plus proches Le bouton permet d incr menter le nombre de plus proches voisins lt 20 La figure ci dessous montre l espace des mots plan 2 3 avec le trac de l arbre de longueur minimum Cet arbre tant calcul dans l espace des trois premiers axes il apporte un compl ment par rapport au plan Les figures obtenues partir des plus proches voisins sont analogues Trac de l Arbre de longueur minimale dans le plan s miom trique 2 3 apr s avoir actionn le bouton Colours VI 1 Donn es num riques S miom trie 167 d Calcul direct d une partition dans le menu Visualisation Dtm Vic permet de construire a la vol e c est a dire en dehors du fichier de commande une partition k means de variables ou des individus gt Cliquez sur M Visualization Une fen tre intitul e DTM visualization Loading files Selecting axes appara t gt Cliquez s
125. es columns variables adapt e cette analyse En effet elle concerne les mot utilis s Les proximit s entre mots signifient que ces mots sont utilis s dans les m mes r ponses donc souvent dans les m mes phrases Il y a une composante syntaxique plus prononc e dans les associations que lors de l analyse pr c dente qui rapprochait les mots utilis s par les m mes cat gories de r pondant et donc l int rieur de textes beaucoup plus importants Appara t alors une fen tre pour s lectionner le plan factoriel suivant la paire d axes souhait e Choisir les axes 1 er 2 puis cliquez sur display Le plan factoriel appara t Active numerical variables HELP Vertical axis axis 2 Ranks Axes color Save as bitmap Return Main Menu mc art music soyfriend garden sport y parentsisureetally free dog walking reading booke son covers suppose jet anything tar Se mur als Caltdaughter course su else nothing dogs travel intewife 2 full holidays comfort husband mother community has helping looking comes friendship 450 that ji relationship i pension great ME country f r neighbours safe means bett 5 etter basically weather faith etc future children nuclear contact religion hobbies work wellbeing grandchildre home child baby girlfriend voluntary success welfare safety car justice 100 kids somethi
126. es donn es Iris de Fisher Anderson Pour les donn es num riques en format texte de Dtm Vic cherchez le r pertoire DtmVic_Examples Dans ce r pertoire ouvrez le dossier DtmVic_Examples_C_ NumData Puis ouvrez le dossier de l exemple C 2 nomm EX_CO2 PCA Contiguity Comme d habitude il est recommand d utiliser un r pertoire pour chaque application car Dtm Vic produit beaucoup de fichiers textes interm diaires li s l application Au d part le r pertoire doit contenir 3 fichiers a le fichier de donn es b le fichier dictionnaire c le fichier de commandes a Fichier de donn es iris dat txt VI 2 Donn es num riques et Contigu t Iris 171 L exemple comporte 150 observations et 5 variables 4 mesures ces variables num riques sont les longueurs des diff rents constituants des fleurs Longueur des s pales Largeur des s pales Longueur des p tales largeur des p tales et une variable nominale d crivant l appartenance aux esp ces trois esp ces d iris setosa versicolor virginica R f rence Anderson E 1935 The irises of the Gaspe Peninsula Bulletin of the American Iris Society 59 2 5 Le fichier de donn es iris dat txt comprend donc 150 lignes et 6 colonnes l identificateur de lignes entre quotes suivi de 5 valeurs correspondant 4 variables num riques et une variable nominale s par es par au moins un espace b Dictionnaire iris _dic txt Le fichier diction
127. es with categorical data as supplementary elements MCA TEXT MCA Clustering description of clusters from numerical categorical textual variables Explicitations sommaires des traitements Numerical Data basics A Analyse descriptive univari e BAS Demande BAS Basic Statistics about numerical and categoric de tableaux crois s TAB des variables TAB CrossTabulating a series of categorical variabh continues ou nominales Description automatique d une variable par DECAT _ Automatic description of a series of cate Une s rie de variables nominales DECAT IPFIT Fie Weightina the observations individuals 0 Redressement de l chantillon IPFIT Iterative Proportional Fitting Analyse statistique exploratoire de donn es num riques Enchainement d une analyse PCA Principal Components Analysis complem actorielle Analyse en Composantes Principales PCA Analyse des SCA Simple Corespondence Analysis to be Correspondances Simples SCA Analyse des Correspondances Multiples MCA et d une MCA Multiple Corespondence Analysis compClassification k means et classification ascendante hi rarchique Voir chapitre II Analyse statistique exploratoire d un corpus Textual Data_ de textes CORTEXT supprime ou regroupe CORTEX Preprocessing of texts Deleting odes mots lemmatisation sommaire mue empirique VISUTEXT r alise une analyse des VISUTEX Visualization of Texts building 2lcorrespondances simples d une table l
128. everal principal coordinates to the data file H Help O Select data file Select nea a conde coordinate file Select sa at file ES coordinates Update dictionary V 1 Recodage et archivage 145 gt Ouvrir le fichier dictionnaire MCA dic txt puis celui de donn es MCA dat txt et s lectionner l archivage d un facteur coordinate file ou d une partition Select partition filel a Archiver un facteur gt Cliquer sur Select coordinate file Une fen tre appara t affichant le dossier EX_A03 MultCorAnalysis o figure le fichier ngus_ind txt des coordonn es factorielles cr lors de la proc dure IMCA Multiple Correspondence Analysis V7 Adding one or several principal coordinates to the data file Select Dictionary Ouvrir Select data file Regarder dans e EX_A03 MultCorAnalysis e FA E imp 24 03 10_09 02 txt ncharcat txt E nqus_var_boot txt imp html E ngus_da txt E ngusout txt ee E imp txt i ngus_ind txt param_MCA txt E MCA_dat txt E nqus_sup_cat txt E part_da_ind txt MCA_Eng_dic txt ngus_sup_cat_boot txt E MCA_Fr_dic txt E ngus_var_act txt Add coordinates d gt ouvrez le fichier ngus_ind txt puis s lectionnez l axe a archiver Les coordonn es factorielles apparaissent dans la 3 fen tre gt Cliquez sur Add coordinates Une boite de message Coordinate added Please update the dictionary apparait R
129. exicale VISURESP Visualization of responses sca VOI chapitre III VISURESP r alise une analyse directe de r ponses ouvertes Numerical Data principal axes tech Pr sentation g n rale 13 Analyse statistique exploratoire de questions Numerical and Textual Data ouvertes voir chapitre III ANALEX r alise une analyse des correspondances simples Analysing through 5GA a lexical tal es ANALEX _ Analysing throug d une table lexicale agr g e VISURECA VISURECA Mean ef date et case une analyse analogue VISURESP mais l illustre avec des variables nominales MCA TEXT MCA Clustering descriptiaMCA TEXT Analyse des correspondances multiples variables nominales classification illustr es par les variables lexicales D autres techniques d analyse textuelle sont propos es dans le menu Other analyses gt Si l on clique sur ce bouton une nouvelle fen tre appara t Les analyses CORDA et SEGME fournissent des concordances et des segments r p t s alors que les analyses suivantes incluent directement la phase CORTEX corrections de textes au sein des analyses VISUTEX VISURESP VISURECA ANALEX Textual Data CORDA Concordances of a series of CORDA fournit les concordances d une liste de mots SEGME Lists of repeated segments SE GME donne les listes de segments r p t s VISUTEXT CORTEXT r alise l analyse VISUTEX pr c dente VISUTEX CORTEX Vus pr s correction de textes similaire CORT
130. f DTM Dummy line e g title mandatory immediately after each line STEP 4 Selectthe file param_resp_ca tt fram the menu LISTF NO ISTP yes Global Parameters Use_Parameters NDICZ TDA_dic tet dictionary file Click on Execute NDONZ TDA_dat tet data file NTEXZ TDA_tex t t name oftextfile Pour ce type d analyse il n y a pas encore de validation bootstrap La classification est automatique et le nombre de classes est choisi par d faut en fonction du nombre de r ponses ici 30 classes Ce nombre de classe peut tre modifi en ditant le fichier de commande ou fichier param tre avant l ex cution param tres des tapes STEP PARTI et DECLA gt Cliquez sur La liste des proc dures s affiche en bloc la fin de l ex cution Commentaires sur les tapes de calcul Ardat Archivage des donn es Artex Archivage des textes Selox s lection des questions ouvertes S lection des l ments actifs et suppl mentaires Numer Num risation du texte Aspar analyse des correspondances directe de la table clairsem e sparse individus x mots Recip classification hi rarchique des r ponses par la m thode des voisins r ciproques Parti coupure de l arbre et optimisation de la partition obtenue Motex table de contingence Mots textes les textes tant ici les regroupement de r ponses selon les classes de la partition Mocar mots et r ponses caract risti
131. fa on en cliquant sur new data file le fichier de donnees de DtmVic est cree Une boite de message donne le nombre d individus R pondre OK En cas de presence de questions ouvertes cliquez sur Create new text file Un r capitulatif des donn es import es appara t dans une nouvelle fen tre gt Cliquez enfin sur le bouton Create a DTM Parameter file Une fen tre create a first parameter file appara t sur l cran Cliquez alors sur Create a first parameter file Un fichier de commande de DtmVic est affich dans la fen tre inf rieure dans DtmVic les expressions fichier de param tre et fichier de commande sont quivalentes Les op rations et les commentaires restent identiques ceux de l introduction F DtmVic Create a starting parameter file basic statistics for the new data file Create a first parameter file Execute LF Return to Main Menu DTM BASIC PARAMETER FILE param_start t The parameter file entitled param_start txt Comments symbol Continuation symbol gt will provide a list of the variables Dummy line e g title mandatory immediately after each line STEP together with their basic characteristics LISTF NO LISTP yes Global Parameters To obtain these results Click on Execute NDICZ datbase_global_dic ttt dictionary file NDONZ datbase_global_dattt datafile Read the results from the menu Main Basic Numerical Result
132. fen tre appara t gt Cliquez sur Open a dictionary Ouvrir alors titre d exemple le fichier MICA _dic txt dans EX _A03 MultCorAnalysis Une premi re fen tre affiche le libell des variables et des modalit s gt Cliquez ensuite sur Open a Data file et ouvrez le fichier MCA dat txt dans EX _A03 MultCorAnalysis Puis cliquez sur List of variables 136 IV Importation Cr ation Exportation a Selecting dictionary and data 1 Open adictionary Dtm format 2 Open a Data File Dtm format 3 List of variables check Create new data file for Excel r v Il est possible d exporter soit en format Excel soit en format R Ici nous faisons le choix d un fichier Excel gt S lectionner Create new data file for Excel et r pondre la boite de message New data file created Un nouveau fichier MCA_d_dtm_XL csv est cr dans le r pertoire EX_A03 MultCorAnalysis Un extrait de ce fichier Excel 14 individus 4 variables figure ci dessous lt 2000 62 000000 20001 50000 24 000000 lt 2000 52 000000 st bassin_ 60 66 est 10001 20000 female 42 000000 137 V Recodage archivage outils divers L exploitation des donn es statistiques est un processus interactif n cessitant souvent plusieurs it rations Parmi les op rations les plus courantes le regroupement des modalit s d une variable nominale le croisement de deux variables nominales la
133. ge 3 variables textuelles correspondant aux 3 questions ouvertes enfin 4 autres variables nominales qui correspondent des variables signal tiques recod es l ge en 3 classes les croisements du genre avec l ge en 3 classes le niveau d ducation le croisement de l ge en 3 classes avec le niveau d ducation last_years _your last_yrs mportant_life mportant_probe good health happiness in peog contented with life as 2 he way british peopl _ Ss fofrs ro no sfrofes na no ro eo a ro ro s s nochange famil BA tr ee La premi re ligne et la premi re colonne contiennent les identifiants respectivement des individus et des variables Toutes les valeurs alohanum riques celles par exemple des identifiants ou encore des cat gories des variables nominales doivent tre compos es de moins de Cc 2 k 5 8 1 6 1 91 3 al COLO O NI OD B G M O N O BIOIN aff af frofro frofro r9 r9 r no afro ro o gender 120 IV Importation Cr ation Exportation 20 caract res et de pr f rence de moins de 10 et ne doivent pas contenir d espace vide Les r ponses aux questions ouvertes sont des textes de moins de 8000 caract res Par contre les donn es manquantes sont exprim es par des espaces vides Pour un tableau de donn es n individus et p variables quelque soit leur nature le tableau Excel dispose donc de n 1 lignes et de p 1 colonnes Le f
134. ght bear his memory l but thou contracted to thine own bright eyes feed st thy light st flame with self substantial fuel making a famine where abundance lies l thyself thy foe to thy sweet self too cruel thou that art now the world s fresh ornamentl and only herald to the gaudy spring I within thine own bud buriest thy contentl and tender churl makest waste in niggarding l pity the world or else this glutton bel to eat the world s due by the grave and thee l a 2l More Data when forty winters shall beseige thy brow and dig deep trenches in thy beauty s field thy youth s proud livery so gazed on now will be a tatter d weed of small worth held I then being ask d where all thy beauty lies l J Etape 3 S lection des questions mots et vocabulaire La fen tre suivante permet de s lectionner soit les questions ouvertes ce qui n est pas le cas ici soit de compl ter la liste des s parateurs des mots F Selecting 1 the open questions 2 the list of separators 2 Characters separating the words wl m OK Vocabulary and counts gt Cliquez directement sur vocabulary and counts La fen tre suivante pr sente le vocabulaire ordre alphab tique et ordre de fr quence Nous devons choisir un seuil de frequence en choisissant une ligne dans la rubrique WMI Ea A oe lelesalatmmelge tg La ligne 113 correspond la 76 Ill Donn es textuelles et mixtes fr quence 4 c est une petite fr qu
135. hent en bloc la fin de l ex cution Commentaires sur les proc dures ArDaT Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Multm Analyse des correspondances multiples Recip Classification mixte utilisant la classification ascendante hi rarchique m thode des voisins r ciproques Parti Coupure du dendrogramme et optimisation de la partition par la m thode des centres mobiles k means Decla Description automatique des classes Note Une fois cr il est possible lors d une utilisation ult rieure de Dtm Vic d ouvrir le fichier param tre param MCA txt dans le menu principal avec la proc dure Open an existing command file puis d ex cuter a nouveau ce fichier Executel Les utilisateurs exp riment s peuvent modifier des parametres directement ou avec n importe quel autre diteur de textes apres avoir quitt Dtm Vic 11 3 Analyse des Correspondances Multiples 63 1 3 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files gt Cliquez sur Basic numerical results pour naviguer dans le fichier en format html puis sur Return pour en sortir et revenir au menu principal DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Selec selecting active and illustrative elements Multm multiple correspondence analysis MCA Recip hierarchical clustering reciprocal neighbours
136. ibilit s du logiciel est un Ces fichiers en format texte extension txt sont lisibles par le bloc notes ou un diteur de texte TotalEdit notepad notepad UltraEdit etc ou par l diteur de texte de Dtm Vic actionn par le bouton Open du menu principal 20 Pr sentation g n rale recueil de donn es d enqu te par sondage comportant des r ponses aux questions ferm es et des r ponses aux questions ouvertes Les questions ferm es peuvent donner lieu des variables continues ou encore quantitatives ou des variables nominales ou qualitatives Le tableau 1 donne un exemple d un fichier dictionnaire au format Dtm Vic pr sentant quatre variables trois nominales et une continue GENDER nombre de cat gories 2 en col 1 4 blanc intitul MALE identif courts col 1 4 blanc identificateur FEMALE identif courts col 1 4 blanc identificateur AGE nombre de cat g 0 en col 1 4 blanc var num r AGE CODE nombre de cat gories 2 en col 1 4 blanc intitul 18 24 idencilr courts Cols 1L 4 7 Blanc 2dentif T lt 20 Car j 25 39 identif courts col 1 4 blanc identif lt 20 car 40 59 identif courte col 1 4 blanc identif lt 20 car gt 60 ideniil Courts fool 14 blanc 1dentif lt 20 ar EDUCATION nbre de cat gories 3 en col 1 4 blanc intitul LOW identif courts col 1 4 blanc identificateur MEDIUM identif courts fool 1 4 blanc ide
137. ichier est sauvegard en format csv dont les s parateurs sont des points virgules version fran aise d Excel Ce fichier qui va nous servir d exemple a pour nom datbase_global csv il se trouve dans le r pertoire dossier DtmVic_Examples_D_Import EX_D01 Importation Num_Text lui m me dans le dossier DtmVic Examples t l chargeable avec Dtm Vic Dans certaines versions d Excel notamment les versions anglophones le s parateur pour le format csv n est pas le point virgule mais la virgule La proc dure d importation de DtmVic pr voit une possibilit de changement des s parateurs De fait tout comme les espaces vides les points virgules et les apostrophes dans l expression des valeurs alohanum riques ne sont pas autoris s et doivent tre remplac s par un autre symbole De m me les valeurs num riques notamment les nombres plus de 3 chiffres ne doivent pas contenir de blancs criture des francophones laissant un demi espace pour s parer les milliers Enfin dans la version fran aise et dans quelques versions europ ennes d Excel les virgules d cimales doivent tre remplac es par les points d cimaux habituels dans les notations anglo saxonnes et dans les langages de programmation IV 1 2 Proc dure d importation Importation of variables observations and texts Specific preprocessing and importation tools S lectionnez dans le menu principal a dans observations and texts Une fen
138. id r es comme actives gt S lection des variables continues actives V1 V6 transf rer dans la fen tre Active Variables 48 Il Donn es num riques F1 Selection of Active and Supplementary Elements Variables to be selected Active Variables O D Return Radio numerical Radio numerical Television numerical Television numerical Quot_Nat numerical Quot_Nat numerical Quot_Reg numerical Quot_Reg numerical Magazine numerical Magazine numerical Maa TY numerical Mag_TY numerical moO orm Clear selection Clear Supplementary Variables gt Cliquez sur Une fen tre Selecting observations appara t Etape 4 S lection des observations individus Les lignes ne repr sentent pas ici des observations ou individus comme pour l ACP ou l Analyse des Correspondances Multiples plus loin mais des modalit s de variables Aussi de la m me mani re que l on consid re des variables actives et ou suppl mentaires on proc de la s lection des modalit s actives et ou suppl mentaires repr sent es en ligne Nous retenons ici l ensemble des 8 statuts d activit comme variables actives et le sexe l ge et le niveau d tude comme variables suppl mentaires gt Cliquez sur The observations will be selected from a list F4 Selecting observations individuals rows Reigenanint one All the observations will be active individuals or rows of the data file If you choose t
139. ie les mots descriptifs de la cat gorie apparaissent gt Actionnez ensuite le bouton du bandeau Puis en cliquant droit sur une cat gorie les textes descriptifs r ponses caract ristiques ou r ponses modales de la cat gorie apparaissent 104 Ill Donn es textuelles et mixtes view r gt in I ann DE ernie CURE RTE O O 5 Carte auto organis e Kohonen map gt Cliquez sur EH Kohonen Map Une fen tre Selection of elements appara t gt Cliquez sur Rows columns Une fen tre Kohonen map or SOM map appara t gt Choisir la carte map 5x5 puis et r pondre OK la boite de message SOM map completed Une nouvelle fen tre Kohonen map s affiche gt Actionnez Draw La Carte de Kohonen apparait Les variables actives sont les mots en noir et les observations repr sentent les cat gories de la variable en rouge 11 2 Analyse textuelle de questions ouvertes 105 suppose security education 30 55 high tamil everything y standard ot at 30 55 low contentment welfare good own dog other daughter mind people see keeping very so long going them trom can atter are on ob high your there well me way like you ve grandchildre would tood should as much church our anything they help 55 medium I 55 low day Remarque Il est possible de changer de taille de police Font et de dilater la carte de Kohonen obtenue Dilat pour rendre l
140. image Baalbeck pgm du dossier 2_ Baalbeck_pgm en utilisant un diteur de texte ou un bloc notes Le format pgm est un format simple et transparent en niveaux de gris La premi re ligne contient l identificateur de format P2 Les deuxi me et troisi me lignes contiennent trois entiers nombre de colonnes nombre de lignes et la valeur maximale 255 Ensuite le tableau est affich par ligne Chaque pixel de la table est repr sent comme un nombre d cimal d crivant le niveau de gris lt 255 Chaque pixel de la table a au moins un espace blanc avant et apr s Aucune ligne ne d passe 72 caract res le format ppm Pour les petites images couleur le format d entr e est le format texte ppm portable pixel map Consultez l exemple 3 Cardinal ppm via un diteur de texte ou un bloc notes dossier 3_Cardinal_ppm Ce format est assez voisin de pgm mais avec trois entiers 3 niveaux de RGB Red Green Blue sur une m me ligne par pixel Ce format est galement celui de l exemple 4 Les fichiers pgm et ppm peuvent tre obtenus par une exportation partir du logiciel libre Open Office pr ciser pgm format texte en utilisant un fichier JPEG en entr e Attention pour ce module limitation a 1000 pour le nombre de pixels en ligne ou en colonne 5 Image adapt e du livre La compression de donn es Mark Nelson M amp T Publishing Inc 1992 Pour plus d informations sur un tel format veuillez consulter par e
141. int e identifier of wust save this file as a text file in csv format command File then Save as btain a free format file with semi colons as separators Si le fichier Excel a t sauvegard en utilisant des tabulations ou des virgules comme s parateurs cliquez sur un des boutons optionnels 122 IV Importation Cr ation Exportation Change Tabs into Semicolons change les tabulations en points virgules apr s avoir v rifi que le fichier original ne contenait pas de points virgules et remplac ceux ci le cas ch ant Change Commas into Semicolons change les virgules en points virgules apr s avoir v rifi que le fichier original ne contenait pas de virgules et remplac celles ci le cas ch ant Dans ce cas s lectionnez le fichier Excel sauvegard avec des tabulations ou des virgules et convertissez le Un nouveau nom est donn au fichier cr Le proc d d importation continuera d employer ce nouveau fichier Dans tous les cas gt Cliquez sur le bouton Start the importation processl Une nouvelle fen tre Format type XL Finding the states of each categorical variable basic frequencies apparait gt Cliquez sur 1 Select Input Data filel et ouvrez le fichier XL en format csv Pour l exemple on choisit le fichier datbase global csv dans le r pertoire DtmVic_Examples_D_Import EX_D01 Importation Num_Text gt R pondre OK la bo te de message
142. ion symbol gt Dummy line e g title mandatory immediately after each line STEP JUSTF NO USTP yes Global Parameters INDICZ dico tet dictionary file gt Cliquer sur Execute 134 IV Importation Cr ation Exportation La fen tre d ex cution appara t identique celle de la proc dure d importation simple v rification et statistiques de base pour les donn es enregistr es Execution completed Les fichiers saisis dictionnaire et donn es sont maintenant pr ts pour les analyses IV 4 Exportation de fichiers de donn es en format Excel ou XL La proc dure d exportation pr sente principalement l int r t d exporter des variables recod es et surtout des coordonn es factorielles archiv es ou une partition calcul e et archiv e les proc dures d archivage sont trait es au chapitre V On propose ici d exporter le fichier de donn es issu de l exemple de l analyse des correspondances multiples du chapitre Il L exportation peut se faire vers un format Excel ou vers un format voisin acceptable par la proc dure read table du langage R fichier dont le format est identique au format Excel l exception de la premi re ligne IV 4 1 Proc dure d exportation Exporting a DTM file to R or to Excel r Exporting dtm data and dictionary to or Excel r STIG CHERE Ce Shite AE A AE MEN gt Cliquer sur Exportation dtm datal dans SSJ a DE EEO to Excel Une
143. ir le fichier TDA dat txt qui s affiche dans une troisi me fen tre L image de l cran correspondant est la m me que pour l exemple II 2 111 3 Analyse directe de r ponses libres 111 J CTR une fen tre Selection of active et supplementary elements appara t Etape 5 S lection des variables actives et suppl mentaires Il A l int rieur de la fen tre Selection of active et supplementary elements s affichent trois autres fen tres Variables to be selected o figure l ensemble des variables Active Variables Il n y a pas de variable active puisque c est le texte des r ponses qui est actif ici Nous avons en fait choisi des variables actives en s lectionnant plus haut les r ponses aux questions ouvertes 1 et 2 Supplementary Variables re oit les variables suppl mentaires s lectionn es Nous pouvons toutes les s lectionner Elles nous serviront d crire nos axes et nos classes D cu Une fen tre Selecting observations appara t Etape 6 S lection des observations individus Nous consid rons ici l ensemble des observations gt Cliquez sur All the observations will be active une fen tre Create a starting parameter file appara t Etape 7 Cr ation du fichier param tre gt Cliquez sur 2 Create a first parameter file Un fichier param tre vient d tre cr sous le nom param _VISURECA txt et stock dans le r pertoire EX A06 Text
144. is dans la 3 fen tre donnez le Type de la variable c est dire le nombre de modalit s si la variable est nominale ou tapez 0 si la variable est continue Un bouton s affiche l issu de la saisie du type de la variable Si celle ci est continue continuez la saisie Si elle est nominale une fen tre appara t pour saisir les num ros et les modalit s de la variable nominale Une fois les modalit s enregistr es cliquez sur ou appuyez sur la touche entr e Continuez de saisir l ensemble des variables Le r sultat de la capture du dictionnaire des variables appara t dans la fen tre inf rieure ainsi que dans celle de droite dans laquelle elle appara t dans le format interne de DtmVic Building the dictionary of variables Dictionary of variables DTM file format Hit SAVE DICTIONARY RETURN Par exemple une premi re variable Age a t saisie Etant une variable continue le type est 0 Une seconde variable Sexe est saisie Ayant deux modalit s le type 2 est saisi Il fait alors appara tre une fen tre contig e dans laquelle sont saisis les libell s des deux modalit s 131 IV Importation Cr ation Exportation Cliquez sur ENTER ou pressez la touche Entr e apr s chaque saisie gt Une fois l ensemble des variables captur es cliquez sur SAVE DICTIONARY et enregistrez un nom pour le fichier du dictionnaire On peut le nommer Database dic txt Cliquez ensuite sur RETURNI
145. isation impliquant galement la pr sence de donn es nominales Les paragraphes qui suivent pr sentent les am liorations apport es par l analyse de contigu t VI 2 1 Rappel sur l Analyse de Contigu t Dans l analyse de la contiguit nous consid rons le cas d un ensemble d observations multidimensionnelles n objets d crits par p variables conduisant une matrice X n p Les observations ont a priori une structure de graphe Les n observations sont ainsi les n sommets d un graphe sym trique G dont la matrice associ e sym trique n n est la matrice M m 1 si les sommets i et i sont reli s par une ar te mi 0 sinon Une telle situation se produit lorsque les sommets repr sentent les points d une s rie chronologique ou des zones g ographiques L Analyse de contiguit confronte les variances locales et globales et g n ralise ainsi l analyse discriminante qui confronte les variances internes et globales ou de fa on quivalente les variances internes et externes Elle permet de mettre en vidence les niveaux responsables des patterns observ s locaux ou globaux Le graphe constitue donc une information externe Dans cet exemple nous allons traiter la situation dans laquelle la matrice M et la structure du graphe ne sont pas externes mais proviennent de la matrice des donn es X elle m me G tant par exemple le graphe sym tris des k plus proches voisins provenant d une distance entre les obs
146. it 70 Il Donn es num riques sur une classe les variables descriptives de la classe apparaissent L ensemble des r sultats figure dans la proc dure DECLA du fichier de r sultats os TT ae Un clic droit sur l tiquette d une classe provoque l affichage des l ments les plus caract ristiques de la classe L activation des l ments numerical categorical se fait sur le bandeau sup rieur du graphique On verra propos des analyses textuelles que la m me proc dure ClusterView permet d afficher aussi les mots caract ristiques des classes pour la r ponse des individus une question ouverte et les r ponses caract ristiques sous forme de texte des classes Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt Il est par cons quent recommand de cr er un r pertoire par application Au d part un tel r pertoire doit contenir les fichiers de donn es dictionnaire et texte au format Dtm Vic 71 lil Donn es textuelles et mixtes Prise en main de Dtm Vic partir de trois exemples Ce chapitre pr sente un exemple d analyse textuelle simple et deux exemples d analyses labor es utilisant la fois des donn es num riques et textuelles Dossier DtmVic_Examples_ A Start de DtmVic_Examples L Exemple 4 contenu dans le sous dossier EX _A04 Text Poems r alise une analyse lexicale partir d une s rie de textes
147. itution obtenue en fonction du nombre de termes conserv s dans la d composition de Fourier avec la reconstitution pr c dente a l aide de CA ou de SVD est interessante Note 1 Un affichage graphique des niveaux de gris pour chaque ligne peut tre obtenu a partir du bouton Curves of grey levels appuyer plusieurs fois pour balayer toute l image Note 2 Toutes les images cr es sont enregistr es au format bitmap extension bmp dans le r pertoire du fichier de l image analys e Note 3 La compression par SVD ou CA ne d pend pas de l ordre des lignes et des colonnes de la table contrairement a la compression de Fourier N anmoins cette compression par axes principaux que l on peut qualifier de compression structurelle parce qu elle ignore les positions relatives des l ments donne des r sultats satisfaisants 204 VI Autres analyses avec Dtm Vic VI 4 4 Ex cution des autres exemples gt Cliquez sur le bouton SVD and CA of images dans la rubrique du menu principal de Dtm Vic gt La fen tre Reconstitution of some small images appara t cf ci dessus VI 4 4 1 Exemple Baalbeck a Cliquez sur le premier bouton Read pgm format dans la rubrique Dans le r pertoire EX CO4 Image ouvrez le sous r pertoire 2 Baalbeck_pgm Dans 2 Baalbeck pgm ouvrez le fichier Baalbeck pgm Une boite de message rappelle les dimensions du fichier image b Si vous d sirez visualiser l image d
148. l mentaires et les observations gt Cliquez sur l onglet des l ments examiner Active variables par exemple puis sur View Il est possible d ordonner les coordonn es d un axe donn par exemple l axe 2 en cliquant sur Axis 2 Active variables Suppl Categories Individuals observ Active variables Suppl Categories Individuals obst _View Exit _ Identifier aisi avis2 ais3 Age_super_60 333 374 363 feminin 204 54 101 Niv_Educ_bas 203 59 142 Age_inf 60 85 104 87 Identifier anis 1 axis 2 axis 3 a satisfaction sante p 2256 300 1250 satistacton_sante p 1370 lz 395 etat_depressif_oui 1350 317 569 justice ne_sait_pas 1001 935 716 Niv_Educ_moyen 14 64 224 Mariage ne sait pas 306 1282 598 Age_inf 40 82 14 264 la_femme_seule 079 1442 B26 Age_inf 30 248 347 133 transf soc ne_sait_p 565 1383 307 masculin 261 70 129 maus_de_t te_oui r05 145 51 Niy Educ haut 335 65 115 solitude assez d acc 694 363 17 solitude tres_d acco 651 545 995 nervosit oui 640 160 160 mal_au_dos_oui 570 150 Ed satisf log peu 358 E80 1883 justice refus repoand 144 1110 17 satisf log assez 129 358 19 plutot_la_femme 119 80 Fd manage dissout sip 53 A 165 ody assez F0 123 231 famille oui 53 154 289 Coordonn es x 1000 des variables Coordonn es x 1000 des var nominales actives nominales suppl mentaires 2 Plans factoriels
149. la ind txt classes de la partition pour les individus gt Cliquez sur puis dans la fen tre S lection des axes choisir les axes 2 et 3 qui constituent le premier plan s mio VI 1 Donn es num riques S miom trie 163 m trique car l axe 1 est un axe de notation gt Cliquez ensuite sur Continue puis sur DISPLAY Le Plan factoriel 2 3 s affiche Dans le bandeau vertical de gauche de la fen tre Graphics figure une s rie de boutons On appuie sur un bouton pour l activer couleur rouge et on appuie de nouveau pour le d sactiver couleur noire Le bouton Convex Hull Enveloppe convexe trace l enveloppe convexe de chaque classe Pressez ce bouton La figure ci dessous repr sente les 300 individus dans le plan 2 3 avec une couleur par classe et une enveloppe convexe par classe Enveloppes convexes Convex Hulls des 7 classes dans le plan 2 3 apr s activation du bouton C Hull puis du bouton Colours b Visualisation partir d une variable nominale La visualisation pr c dente va tre reprise mais au lieu d utiliser une partition fournie par un algorithme de classification nous allons utiliser la partition induite par les cat gories d une variable nominale sp cifique Il s agit de la variable num ro 76 sexe s lectionn e et extraite travers les 164 VI Autres analyses avec Dtm Vic deux tapes SELEC et EXCAT la fin du fichier de commande
150. le la premi re tape consiste ouvrir le fichier dictionnaire 1 Open a dictionary puis celui des donn es 2 Open a data file lister les variables 3 List of variables puis cliquer sur Les op rations suivantes sont effectu es partir du jeu de donn es de l exemple EX_A03 MultCorAnalysis dans le dossier DtmVic_A_ Start V 1 1 Regroupement de modalit s d une variable nominale Lors du d pouillement de donn es d enqu te et l occasion de tris a plat effectu s sur les variables nominales on doit parfois regrouper certaines modalit s d une variable nominale pour satisfaire dans la mesure du possible certaines r gles de recodage viter des modalit s faible effectif quilibrer le nombre de modalit s des variables nominales regrouper des cat gories similaires ou trop fines gt Cliquez sur Grouping some categories of a categorical variable La fen tre de s lection des fichiers dictionnaire et des donn es apparait gt Ouvrir les fichiers MCA dic txt et MCA dat txt dans le dossier EX_A03 MultCorAnalysis lister les variables et cliquer sur 4 Continue V 1 Recodage et archivage 139 4 Selecting dictionary and data 1 Open a dictionary Dtm format 2 Open a Data File Dtm format number of lines 315 More Data v4 Continue select a variable and its categories ad 3 List of variables check region 8 categories taille_d agglomeration_ norr
151. le P DECAT Automatic description of a s IPFIT Pe Weighting the observations Numerical Data principal axe oni an existing r PCA Principal Components Analysis SCA Simple Correspondence Analysi Basic numerical results Result Files MCA Multiple Correspondence Analy Basic numerical results tt format g Textual Data CORTEX Preprocessing oftexts 0 Die Cer ERE VISUTEX Visualization of TE b VISURESP Visualization of respo Axes EPianeView Ble Numerical and Textual Data Axes Clusters Clusterview E Kohonen Map ANALEX Analysing through SCA a VISURECA Visualization and clus gt S lectionnez l analyse MISUTEX Visualization of texts de la rubrique WJMUEIRELE Une fen tre Opening a text file appara t Etape 2 S lection du fichier texte gt Cliquez sur le bouton 1 Open a text File Dans le r pertoire EX_A04 Text Poems ouvrir le fichier Sonnet_LowerCase txt Apr s avoir cliqu sur sur la boite de message donnant le nombre de lignes et de textes le fichier s affiche dans une premi re fen tre gt Cliquez ensuite sur 2 Select Open questions and separators gt Ill 1 Simples textes Po mes 75 F1 Opening a text file 1 Open a Text File Dtm format 2 Select open questions and separators ma S JE from fairest creatures we desire increase l that thereby beauty s rose might newer die l but as the riper should by time decease l his tender heir mi
152. lection des l ments actifs et suppl mentaires PRICO analyse en composantes principales DEFAC br ve description des axes factoriels RECIP Classification ascendante hi rarchique m thode des voisins r ciproques PARTI Coupure du dendrogramme produit par l tape pr c dente et optimisation de la partition obtenue DECLA Description automatique des classes de la partition SELEC S lection d une variable sp cifique EXCAT Extraction de la variable sp cifique s lectionn s par l tape SELEC qui pr c de pour tre utilis e dans la suite VI 1 Donn es num riques S miom trie 161 Dans ce fichier de commandes l tape SELEC joue comme toujours un r le fondamental pour d cider quelles variables seront actives ou suppl mentaires L tape RECIP effectue une classification hi rarchique des observations en utilisant l algorithme de la recherche en cha ne de voisins r ciproques et l tape PARTI coupe l arbre obtenu selon le nombre de classes fix a priori puis optimise la partition par des it rations de type k means RECIP et PARTI ex cutent un algorithme hybride de classification L diteur de texte interne de Dtm Vic contient aussi un bouton Help about qui donne brievement en Anglais la signification de chacun des parametres Nous ne modifierons pas le fichier de commande gt Cliquez sur Return to execute dans le bandeau pour revenir au menu principal b Ex
153. liquez sur DISPLAY Changer les couleurs si n cessaire gt Cliquez sur C Hull Les trois esp ces sont maintenant mieux s par es Cela signifie que le graphe sym tris des 6 plus proches voisins permet de calculer une matrice des covariances locale qui peut jouer le r le d une matrice des covariances interne Dans cet exemple le plan principal d une analyse de la contiguit est similaire au plan principal d une analyse lin aire discriminante de Fisher Nous devons garder l esprit que l analyse de contiguit n utilise pas la connaissance a priori des esp ces C est une m thode non supervis e contrairement l analyse discriminante qui elle tente de s parer au mieux les esp ces VI 2 Donn es num riques et Contigu t Iris 179 L analyse de contigu t r ussit s parer assez correctement les trois vari t s d lris La matrice des covariances locale calcul e partir des plus proches voisins fournit ici l estimation d une matrice des covariances interne Les excellents r sultats sont d s au fait que les plus proches voisins sont calcul s dans un espace ayant plus de 2 dimensions et pour cet exemple au fait que les 3 classes sont assez bien s par es dans cet espace b Analyse discriminante Nous allons maintenant effectuer une analyse de contigu t qui co ncide exactement avec une analyse discriminante lin aire classique L Analyse discriminante lin aire en k
154. liser une police intervalle fixe Une variable num rique telle que l ge ou le nombre d enfants a conventionnellement z ro cat gorie Les espaces vides dans les identifiants ne sont pas permis 2 fichier de donn es extraits MCA_dat txt 0005 8 0011 8 0018 8 pO dr de de 2 3 1 1 2 2 2 2 4 7 7 6 6 6 3 3 2 4 ein Qe 2 di Oe Bn de Dy By Oe oe 2 1 7 5 4 7 7 1 5 3 4 2 1 8 2 1 3 2 3 1 4 2 2 1 4 O O 2 4 7 7 7 5 7 3 7 2 4 2 3 1 2 3 1 2 1 3 2 1 7 6 7 5 5 7 5 2 4 rd 2 2 decide Ay 12 2 2 222 1 1 3 7 7 4 4 7 4 3 4 4 4 7 7 5 6 7 5 5 2 4 0030 5 1 1 8 0024 5 1 1 0036 2 4 58 Il Donn es num riques 0042 2 4 1 71 5 2 0048 5 1 1 62 1 2 0054 5 5 1 24 1 3 0060 4 1 1 52 1 2 3 3 4 2 3 2 2 2 1 3 0 0 2 2 2 5 7 7 5 5 1 3 4 4 Sy 2 2 20253 2 2 2 11 20 de 1 3 6 6 6 6 6 3 3 3 1 3 2 1 1 1 3 2 2 2 3 2 2 2 2 1 2 2 2 2a 4 7 4 7 5 7 4 3 3 3 1 8 1 3 lt 3 1 2 3 2 2 2 2 2 2 2 1 22 Ay Iina 2 7 7 5 4 5 7 3 3 2 Le fichier de donn es comporte 315 lignes correspondant aux individus enqu t s et 50 valeurs Pour une ligne i la premi re valeur entre quotes correspond l identifiant de l individu i et les 49 autres valeurs correspondent aux r ponses des 49 variables num riques ou aux valeurs codant les items de r ponse aux variables nominales s par es par des espaces blancs
155. llir des textes fort longs par exemple les romans de la Com die humaine de Balzac Chaque texte peut tre long mais le nombre de texte est ici limit 1200 Le format de type 2 S parateurs pour les observations puis pour les questions ouvertes dont le nombre est limit a 12 correspond au fichier d enqu te le nombre de textes doit tre alors inf rieur a 30000 limite du nombre d observations de Dtm Vic dans la version actuelle Le texte total d un individu est alors limit a 100000 caracteres 22 Pr sentation g n rale 1006 my sons my kids are very important to me being on my own I am responsible for their education education and moral standard of the youngsters law and order basically British culture is traditional people tend to keep themselves to themselves 1007 job being a teacher I love my job for the well being of the children law and order drug abuse child abuse accommodating of course people from different races and culture have settled in here i e Irish Jewish Asians and the British culture is working alright aaa 1008 job sometimes it is very hard to find a job Tableau 4 Fichier texte de questions ouvertes en format interne Dtm Vic type 2 Trois individus ont r pondu trois questions ouvertes Le format est libre sur 200 colonnes Le s parateur entre les individus est suivi par l identifiant
156. lobal csv Create new dictionary 5 vira txt Create data and text files jer datbase_global_dic txt Per A Create a DTM Parameter file for numerical and categ data gt Cliquez ensuite sur Name for the new data file Entrez le nom du fichier de donn es Datbase_global_dat txt et enregistrez gt Cliquez sur Name for the new text file Entrez le nom du fichier dictionnaire Datbase_global_text txt par exemple et enregistrez S il n y a pas de donn es textuelles passez l tape suivante F DtmVic Creating a dictionary and a data file Dictionary to be saved to Name for the new dictionary datbase_global_dic txt Recap for the imported data Number of kept numerical var 1 Data to be saved ti Number of kept categorical var 9 Name for the new data file datbase_ global _ dat txt Number of kept textual var 3 Number of discarded variables 4 extual data to be saved to 5 atbase global text txt Name for the new text file datbase_global_text Create new dictionary PEOLE PEACE OF MIND V9 PEOLE PE catO 1 PEOLE PE catl 2 PEOLE_PE_cat2_3 PEOLE PE cat3 4 4 MORE_OR_LESS FREEDOM V10 Create data and test files Create a DTM Parameter file for numerical and categ data IV 1 Importation XL 127 gt Cliquez sur Create new dictionary Le fichier dictionnaire de DtmVic est cr automatiquement et s affiche dans la fen tre R pondre New Dictionary completed De la m me
157. logiques aux analyses sensorielles etc On a choisi dans ce manuel apr s une br ve pr sentation du logiciel chapitre I de pr senter six exemples de traitement sur des donn es d j pr par es c est dire pr sent e dans un format convenable et fournies avec le logiciel chapitre II et Ill Ces exemples correspondent des utilisations fr quentes de Dtm Vic L utilisateur apprendra cr er lui m me un fichier de commande partir de l interface propos e On trouvera successivement une analyse en composantes principales encha n e avec une classification et pour les classes un positionnement factoriel et une description automatique une analyse des correspondances une analyse des correspondances multiples galement compl t e par une classification une analyse factorielle lexicale d une s rie de texte puis dans le cadre d une enqu te une analyse des correspondances d une table lexicale construite partir d une question ouverte et d une question ferm e enfin une analyse et une classification directe des r ponses une question ouverte Les cinq premi res applications donnent lieu des visualisations valid es par la technique du bootstrap En esp rant avoir motiv le lecteur par cette premi re pr sentation des fonctionnalit s du logiciel on aborde au chapitre IV les proc dures d importation des donn es On con oit facilement que traiter des unit s 8 Dtm Vic Statistiques aussi disparates
158. ltat en format texte puis cliquer sur pour en sortir et revenir au menu principal Le fichier r sultat est nomm selon les m mes principes que pour l analyse en composantes principales 11 2 4 Visualisation des r sultats Nous renvoyons le lecteur au paragraphe II 1 4 pour la pr sentation de la deuxi me phase de Dtm Vic et le d tail des diff rents outils de visualisation Nous consid rons ici comme outils AxesView PlaneView et Bootstrap 52 Il Donn es num riques 1 Axes factoriels gt Cliquez sur Fa AxesView Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes r sultats correspondant l tape DEFAC du fichier r sultat gt Cliquez sur Active variables puis sur pour obtenir les coordonn es des modalit s m dia Cliquez ensuite sur Individuals observations puis sur View pour obtenir les coordonn es des modalit s actives statut d activit et des modalit s suppl mentaires Active variables Suppl Categories Individuals observations Supe Coordonn es des E modalit s de la Mag T Magazine variable m dia Quot_Nat Quot_AReg Radio Television Coordonn es des modalit s de la variable statut d activit Cette variable est positionn e en ligne et consid r e icicomme individus Techn _prof L axe 1 oppose la presse quotidienne nationale aux autres m dias et les cadres
159. m riques ou textuelles en format Excel libre ou fixe des donn es textuelles en format libre ou encore des fichiers XML contenant des donn es num riques ou textuelles les fichiers dictionnaires et les fichiers de donn es num riques ou textuelles manuellement partir d un mode de saisie d importation int gr Dtm Vic Les deux autres proc dures Tai Roi oO IS et Dtm_tools concernent l exportation le recodage et l archivage des donn es About Dtm ic Data Format Help about command parameters Help about created files Dim Data and text mining I Dtm Vic Tools Data File d Data Importation Preprocessing Data Capture Exportation Toolbox Data Recoding sus nn Toolbox File Processing Importing Dictionary Data and Texts Specific preprocessing and importation tools Importation of variables observations and texts Building the dictionary of variables and creating the data file Exporting a DTM file to R or to Excel r IV 1 Importation XL 119 IV 1 Importation de fichiers Excel IV 1 1 Pr sentation du fichier Excel Nous consid rons le tableau de donn es de l enqu te Life pr sent e dans les deux derniers exemples du chapitre Ill pr c dent Le fichier correspondant dispose en ligne de 1043 individus et en colonnes de 17 variables 9 variables nominales le genre l ge recod le niveau d ducation et 6 variables d opinion 1 variable continue l
160. me fen tre 111 2 Analyse textuelle de questions ouvertes 95 Fa Selecting dictionary and data 4 FEMA FEMALE 1 Open a dictionary tm format u 12 AGE_CODE 18_19 20_24 25_29 2 categories 12 categories List of variables check numerical EDUCATION 3 categories S1_CHANGE_IN THE STANDARD OF L 5 categories 52_CHANGE_IN YOUR STANDARD OF_ 5 categories 2 Open a Data File Dtm format lt 3 Continue select active and supplementary elements gt Cliquez sur une fen tre Selection of active et supplementary elements appara t Etape 5 S lection des variables actives et suppl mentaires A l int rieur de la fen tre Selection of active et supplementary elements s affichent trois autres fen tres es ss SUP ere ta ye Sheree eet 7 R eagai GE m TUE STAs EL FE paea SCHAHGE ICT OUR STADE D OF i emaren 96 III Donn es textuelles et mixtes Active Variables qui re oit les variables actives s lectionn es Supplementary Variables qui re oit les variables sup pl mentaires Pour ce type d analyse la variable active unique est celle dont les modalit s vont servir regrouper les r ponses aux questions ouvertes Nous sugg rons de s lectionner la variable nominale num ro 14 Educ age comme variable active et nous ignorons les variables suppl mentaires Dans ce cas les variables suppl mentaires pourraient servir d crire la variable
161. nage separe e divorce veuf ve famille famille famille opinion mariage mariage mariage mariage 3 la famille est le seul end OUI non nsp nr sur le mariage indissoluble dissout si pb grave dissout si accord ne sait pas travaux menage enfants la femme seule plutot la femme homme et femme tr femmes ne sait pas satisfaction logement 57 negligeable sans gros probleme une lourde charge tres lourde charge ne fait pas face ne sait pas activite professionnelle plein temps temps partiel non activite n a jamais travail conflits travail vie person conflits oui conflits non chomage douze derniers mois chomage oui chomage non maux de tete maux de tete oui maux de tete non mal au dos mal au dos oui mal au dos non nervosite nervosite oul nervosite non etat depressif etat depressif oul etat depressif non Satisfaction sante Satisfaction sante tres Satisfaction sante satisf Satisfaction sante peu Satisfaction sante pas du t nombre de personnes logt Le dictionnaire MCA_dic txt contient les identifiants de 49 variables 39 nominales et 10 continues Rappel L identifiant d une variable nominale est pr c d par le nombre N de ses cat gories en colonne 5 Les N lignes suivantes identifient les N cat gories des r ponses un identifiant en 4 caract res occupe les colonnes 1 4 et un identifiant long 20 caract res maximum commence la colonne 6 uti
162. naire iris dic txt contient les identificateurs de ces 5 variables Dans cette version du dictionnaire interne Dtm Vic les identifiants des cat gories doivent commencer en colonne 6 une police intervalles fixe courrier par exemple est n cessaire pour repr senter clairement ce genre de format c Fichier de commandes EX_CO2_Param txt La phase de calcul de l analyse est d compos e en tapes Chaque tape n cessite quelques param tres d crits bri vement dans le menu principal de Dtm Vic bouton Help about parameters Notons qu un autre fichier de commande similaire mais pas forc ment identique au fichier de commande EX C02 Param txt peut galement tre g n r en cliquant sur le bouton Create rubrique Somu uea du menu principal Basic Steps Proc der alors comme le montre le premier exemple de la section II 1 d volu l analyse en composantes principales VI 2 3 Calculs de base ACP et classification Ex cution de l exemple C 2 Iris et lecture des r sultats a Ouverture du fichier param tre gt Cliquez sur le bouton Open an existing command file de la rubrique elslnElenadls menu principal Recherchez dans DtmVic_Examples le sous r pertoire DtmVic_Examples_C_NumData Dans ce r pertoire ouvrir le r pertoire de l exemple C 2 nomm EX _CO02 PCA Contiguity 172 VI Autres analyses avec Dtm Vic gt Ouvrir alors le fichier de commande EX CO2 Param txt Le fichier
163. nce en choisissant une ligne dans la rubrique Vocabulary frequency order La ligne 135 correspond la fr quence 16 gt S lectionnez cette ligne puis CONFIRMI La fr quence appara t R pondre Fa Vocabulary frequency threshold Separators of units 52 10 42 Number of occurrences tokens 139193 Number of words types 1365 Vocabulary Alphabetic order He 1 14 18 worries 1 Choose a frequency threshold 2 ne 3 personal 30 relationship 6 social I am If marriage Improving pr 2 Continue create the parameter file gt Independance sufficient Indoor together Ireland without It animals a got ability know able making abled now about old above one abroad order absence parents abuse religion gt Cliquez sur 2 Continue create the parameter file Une fen tre d ouverture fichiers dictionnaires et donn es appara t o on w amp 2 1 1 6 1 1 i 6 1 1 1 1 2 2 0 5 5 1 1 3 2 1 2 Etape 4 S lection des fichiers dictionnaire et de donn es gt Cliquez sur le bouton Open a dictionary Dans le r pertoire EX_A05 Text Responses ouvrir le fichier TDA dic txt Il s affiche dans une premi re fen tre Le statut nominal ou num rique des variables est indiqu dans une deuxi me fen tre gt Cliquez sur le bouton Open a Data File Dans le r pertoire EX_A05 Text Responses ouvrir le fichier TDA dat txt qui s affiche dans une troisi
164. ne fa on pragmatique Ils correspondent un dossier inclus dans le dossier DtmVic Examples_A_Start qui a t t l charg avec le logiciel Dtm Vic Chaque exemple rend compte d un jeu de donn es adapt une des analyses factorielles de base Analyse en Composantes Principales Analyse simple des Correspondances Analyse des Correspondances Multiples enrichie par des outils compl mentaires bootstrap classification cartes de Kohonen s riation 1 L exemple 1 contenu dans le dossier EX_A01 PrinCompAnalysis est une analyse en composantes principales appliqu e un ensemble de variables continues prise en compte de variables actives et sup pl mentaires validation Bootstrap classification des individus et description des classes 2 L Exemple 2 contenu dans le dossier EX _A02 SimpleCorAnalysis pr sente une analyse des correspondances simples adapt e l analyse d un tableau de contingence variables actives et suppl mentaires validation Bootstrap 3 L Exemple 3 contenu dans le dossier EX_A03 MultCorAnalysis porte sur l analyse des correspondances multiples appliqu e un ensemble de variables nominales issues de donn es d enqu tes variables nominales actives suppl mentaires variables continues validation Bootstrap classification des individus et description des classes obtenues Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt
165. ne variable nominale en regroupant les valeurs num riques en classes Ce regroupement en k classes se fait a partir d un d coupage pr alable en n quantiles n classes d effectifs gaux n tant beaucoup plus grand que k Ce d coupage est utile car il d lin arise le r le de la variable dans les calculs des liaisons non lin aires peuvent alors tre prises en compte Cliquez sur Breaking down a numerical variable into categoriesl La fen tre de s lection des dictionnaires et des donn es appara t gt Ouvrir dans le dossier EX A03 MultCorAnalysis les fichiers dictionnaire et de donn es MCA Fr dic txt et MCA dat txt Une fen tre appara t FP Dividing a numerical variable into categories mean 43 756 1 region 8 categories 2 taille_d agglomeration_ nombre 3 age 5 situation 7 categories 6 Al statut_matrimonial 5 categ 7 2 niveau_ d etudes 9 catego 8 la famile_est_le_seul_endroit 3 opinion_sur_le mariage 4 ca 10 travaux menage enfants 4 11 satisfaction logement 4 cate 12 satisfaction cadre de_ vie 13 statut d occupation_logement 14 depenses_de_logement _une 15 disposez vous_d un_magneto 16 disposez vous_d un_piano 17 residence secondaire 2 cat 18 activite_professionnelle 4 ca 19 conflits_travail vie_personnel 24 etat_depressif 2 categories 25 satisfaction_sante 4 categori 27 enfants 2 categories Update data file and dictionary 28 nombre_d enfants numerical v
166. nes ne coincidera pas en g n ral avec la partition induite par les param tres du fichier de commande Voir l encadr de la section VI 1 2 pr c dente propos des calculs r alis s par les instructions du fichier de commande tapes RECIP et PARTI Horiz axis 2 Yertic axis 3 Contiguity Visualization SAVE 1 Axis ZOOM COLOUR FONT Density HELP Return TO ORDER af Exemple de visualisation de la premi re it ration de la construction de la partition en 5 classes Les variables ici les mots sont reli es par des segments de droites aux centres provisoires de classes auxquels elles sont affect es les 5 mots qui servent de centres provisoires de classes sont rep rables par un carr rouge VI 2 Donn es num riques et Contigu t Iris 169 VI 2 Donn es num riques et contiguite Iris Cette section concerne l analyse exploratoire d un ensemble de variables num riques Les donn es Iris de Anderson et Fisher jeu de donn es classique pour les statisticiens par l analyse en composantes principales et la classification avec une description automatique des classes obtenues Elle ajoute ces approches de base l analyse de contiguit et l analyse discriminante La premi re partie de cet exemple est tr s semblable l exemple VI 1 de la section pr c dente analyse en composantes principales et classification clustering d un ensemble de donn es num riques avec divers outils de visual
167. nfidence areas s affiche gt s lectionnez dans la rubrique Click to select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list Choisir ensuite le plan factoriel puis cliquer sur ou sur sur cf 11 1 4 3 Bootstrap pour obtenir l affichage graphique des l ments actifs si le dossier ngus_par_boot1 txt a t charg F1 Bootstap confidence areas Bootstrap confidence Zone _ Retum Confidence ellipses ALL LL 2 LL L LE LL L LL LL L L LR Peeeeeeveeceeeseneeeeeeeeene 84 Save Signofaxes Zoom Font Zonesonly Type 1ony Type2only Noreplicate Lines color Ill Donn es textuelles et mixtes yourself 5_13 than your should decay A say life sweet z were live bea times winter Commentaires Les ellipses correspondant aux points change et beauty contiennent l origine des axes on ne peut rejeter l hypoth se selon laquelle la distribution des ces points est indiff renci e dans les 20 textes En revanche le mot another a une position typ e sur le premier axe et neutre sur le second Le mot eye a une position significative sur le second axe 4 Cartes auto organis es de Kohonen gt Cliquez sur H Kohonen Map Une fen tre Selection
168. ng J0 everything families us honesty law war service IUSE Ici compte tenu de la pr sence de 398 mots nous avons choisi l option RANK 15cfriends family pour d former les coordonn es transformation en rangs sans modifier leur ordre sur les axes Nous avons galement demand un Zoom de fa on a d tacher un peu plus les mots mais nous n avons sur la copie d cran ci dessus que le quadrant sup rieur droit du plan factoriel La police FONT a galement t augment e 116 Ill Donn es textuelles et mixtes On peut galement choisir l option PLANEVIEW with moveable tags qui reprend certaines de des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique DTM Display with moveable tags m x D Vic ce iv D Fane ee Reckaw aves Save as imap D rer O O O missing_value 0 5 0 3 45_49 S3 A_LITTLE_WORSE 0 2 missing_value female 55 55 59 25 29 missing_valueyERY_MUCH_WORSE z EE male law 01 S2 MUCH_BETTER MA e female 3055 S9 mediumy MUCH_WORSE BOTH Sohne 55 flow CASES missing_valueng_value 71_et_ over_55 f di 0 4 55 low 0 2 LOWE LESS _heppiEl 55 high ss om S2 A_LITTLE_WORSE ERMemale 30 730 mediur t0_55 65_70 S1 A a c S3 MUCH DETTE EN BETTER less_than HIGH 30 55 high _ me SAME 50 re moci30 55 medium male 30 male na male 30 high About the_same S A_LITTLE_BETTER INCREASES
169. ng an open question Numer numerical coding of texts Aspar direct CA of texts Clair description of axes in textual analysis Recip hierarchical clustering reciprocal neighbours Mocar characteristic words Selec selecting active and illustrative elements Decla description of clusters Posit positionning categories in textual analysis Wea ER R Rappel Le fichier r sultat imp txt comme son homologue imp html est galement sauv sous le nom imp suivi de la date et l heure de l analyse Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que le dossier imp txt resp imp html est cras a chaque nouvelle analyse ex cut e dans le m me r pertoire 111 3 4 Visualisation des r sultats et interpretation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires la validation et l interpr tation des r sultats Axes Clusters Fa ClusterView H Kohonen Map M Visualization ER Contiguity 1 Axes factoriels gt Cliquez sur Z axesView L utilisation de AxesView est parfaitement similaire a celle des analyses pr c dentes Les consulter pour naviguer dans cet outil 2 Plans factoriels gt Cliquez sur Hi PlaneView Une fen tre s affiche proposant diff rentes visualisations de plans 111 3 Analyse directe de r ponses libres 115 factoriels gt Choisir la rubrique Activ
170. nis es avec Kohonen Map Les fonctionnalit s de ces quatre premiers boutons ont t d crites propos des exemples des chapitres II et IIl Nous allons dans cette section nous focaliser sur les fonctionnalit s du bouton MI Visualization Cette option propose des outils de visualisations compl mentaires des plans factoriels et de la classification ellipse de densit ou enveloppes convexes des classes trac de l arbre de longueur minimale trac des plus proches voisins dans les plans factoriels visualisation p dagogique de la construction progressive des classes cas de la proc dure k means nu es dynamiques visualisation dans les plans factoriels des cartes de Kohonen et de certains graphes a Visualisation utilisant la partition demand e dans le fichier de commande tapes RECIP et PARTI gt Cliquez sur le bouton W Visualization Une fen tre intitul e DTM visualization loading files selecting axes appara t gt Cliquez sur Load coordinates Dans le sous menu correspondant choisir dans un premier temps le fichier ngus ind txt Les principales coordonn es des individus lignes sont s lectionn es Une sous fen tre donne les caract ristiques du fichier gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant s lectionnez la partition obtenue pr c demment l tape de calcul Choisir alors Load partition File et ouvrir le fichier part_c
171. nt pas libres de droit cette date et doivent tre consult s en biblioth que ou acquis dans le r seau des librairies Pr sentation g n rale de Dtm Vic Dim Wie Pour lancer l ex cution de Dtm Vic il suffit de cliquer sur l ic ne lt du raccourci plac sur le bureau de Windows par le programme d installation ou par l utilisateur On obtient l cran d accueil suivant PA Dtmyic 5 6 Main Menu last update September 5th 2012 www dtmyic com lO About Dimvic Data Format Help about command parameters Help about created files Mex f Recent features 2012 Statistical Dim Data and text mining Dtm Vic Tools i Data File Data Importation Preprocessing Data Capture Exportation Toolbox Data Recoding Toolbox File Processing Commend Fis SRS Ree Toolbox Preprocessing numerical Open an existing command file Toolbox Preprocessing Texts Result Files Basic numerical results txt format Dtm Vic Im ages SVD and CA of images Validation ion sotto a Vic Visualization Inference Classification Dtm Vic est structur en deux tapes La premi re tape MOZA comprend les proc dures de mise en place des donn es importation saisie exportation et les proc dures d analyses des donn es cr ation puis ex cution du fichier de commande i La seconde tape DETTE fournit les outils de visualisation de validation et d interpr tation des r sultats On peut galem
172. nt sur le bouton du menu principal tapes de base comme indiqu au chapitre 2 de ce manuel Une fen tre Select a basic analysis s affiche Cliquez ensuite sur Principal Components analysis situ dans la rubrique Numerical Data et suivez les instructions VI 1 2 Calculs de base PCA et classification Ex cution de l exemple C 01 s miom trie et lecture des r sultats a Ouverture du fichier param tre gt Cliquez sur le bouton Open an existing command file de la rubrique SMe menu principal 160 VI Autres analyses avec Dtm Vic Ensuite recherchez le dossier DtmVic Examples C NumData dans DtmVic examples Dans ce r pertoire ou dossier ouvrez le r pertoire EX_CO1 PCA Semio Ouvrez le fichier de param tres EX CO1 Param txt Le fichier param tre s affiche dans la fen tre de l diteur de texte no LERFA yes global parameters PCA semio dic txt Dictionary file PCA Ssemio dat Ext Data file Reading data and dictionary NIEXA 300 NQEXA 76 Selecting active and supplementary variables LSELI TOT IMASS UNIF LZERO NOREC LEDIT short CONT ACT 1 70 NOMI ILL 71 76 END STEP STATS Basic descriptions LHIST no STEP PRICO Principal component analysis V rifier que les fichiers de donn es et dictionnaires inscrits dans le fichier param tre sont coh rents avec ceux du r pertoire Dix tapes sont effectu es ARDAT Archivage des donn es SELEC S
173. ntificateur HIGH identif courts col 1 4 blanc identificateur Les identificateurs ont moins de 20 caract res Jamais de blanc l int rieur d un identificateur Tableau 1 Fichier dictionnaire en format interne Dtm Vic pour quatre variables Sexe 2 modalit s ge 0 modalit variable continue classe d ge 4 modalit s niveau d ducation 3 modalit s Les commentaires en italique donnent les explications du format fixe du fichier dictionnaire Le tableau 2 donne l exemple d un fichier de donn es de Dtm Vic correspondant aux 4 variables du fichier dictionnaire pr c dent pour 5 individus sujets observations ou r pondants n1006 Identificateur de l observation entre n100 7 quotes sans blanc lt 20 caract res n1008 Separateurs entre valeurs au moins un n950 espace blanc n2007 Tableau 2 Fichier de donn es en format interne Dtm Vic Pour 5 individus sujets ou observations correspondant aux 4 variables du dictionnaire pr c dent Sexe Age Age clat en 4 modalit s niveau d ducation cf tableau 1 Longueur maximale d une ligne 5000 caract res commentaire du format en italique Le tableau 3 donne l exemple d un fichier texte en format interne Dtm Vic pour une s rie de trois textes cf exemple III 1 po mes Pr sentation g n rale 21 ERER LAMARTINE Voil les feuilles sans s ve Qui tombent sur le gazon Voil le vent qui s l ve Et g mit
174. nts des individus sont remplac s par un caract re simple cas de nombreux individus plusieurs milliers par exemple Cet affichage montre la forme du nuage des individus et d ventuels individus aberrants Les identifiants d origine peuvent s afficher en cliquant sur le bouton droit de la souris 2 Rubrique individus actifs 1272 4134 4233 1234 41324221 4215 jiii 1134 4128 5131 Te 5132 ot 41 5 16235 10e 1224 14131 51242 51215115 1124 1223 6123 5111 1235 3135 5133 5122 poe 5222 6233 1221 6223 07 113306 05 04 13 0 01 6135 6123 12 13 04 5215 05 oe 6224 J 1348 6118 6214 6222 109 1123 5112 6115 6213 1115 6212 2132 bib 1122 1121 3233 3123 yi 3224 6221 2131 piit 2115 3121 2122 e211 225 I 3115 2121 9122 he 3222 3213 3135 PlaneView 1 2 rubrique individus actifs Remarque Les individus sont repr sent s par leur identifiants Cet affichage est surtout int ressant lorsque les individus sont peu nombreux lt 2000 40 Il Donn es num riques 3 rubrique colonnes actives cat gories suppl mentaires Seve More graphs Man menu Son of exes Zoom Font Rarks Axes color HELP Age _Jeun_3 Sex_Fem_1 Educ_sup_3 Enfants_V15 M nage_V16 A_pied_V30 Relation_V17 Lone amis s SommeLect_livr_V224 i oisirs_e i ekers oe gt Dapon vaa ANT Magaziag TV Vues VE ou Ack ina 15 A Radio_V38c_2 He RRepas_home_V J i Promenad_V27 T I V13 g Act_acti_1 T
175. nu principal A ce stade il est utile de conna tre le format interne des fichiers d entr e de Dtm Vic Ces formats seront g n r s par les proc dures d importation Trois fichiers en format texte constituent le format de Dtm Vic Note les noms des fichiers sont libres mais l extension txt est commode pour 0 6 4 une consultation rapide du contenu des fichiers Exemple dic txt le fichier dictionnaire fournit les noms des variables num riques et nominales II inclut les libell s des cat gories correspondant chaque variable nominale cf tableau 1 Note les identifiants des variables et les libell s des cat gories ne doivent pas contenir d espaces vides blancs Ils sont par ailleurs parfois tronqu s 8 caract res dans les repr sentations visuelles Exemple dat txt le fichier de donn es contient les valeurs de ces variables pour un ensemble d individus ou observations ainsi que les identifiants des individus cf tableau 2 Exemple tex txt deux types de fichiers textes sont consid r s Un format de fichier des textes simples type 1 peut tre employ lorsqu on traite une s rie de textes cf tableau 3 sans fichier dictionnaire ni fichier de donn es associ s Lorsque les textes sont nombreux et qualifi s cas des r ponses des questions ouvertes on introduit deux niveaux de s parateurs Fichier type 2 cf tableau 4 Un cas d application qui montre toutes les poss
176. o Coo I MOSMAN BANA AADH FENTON NBM 1 ef 9 4 8 4 4 M 4 6 rt 1 CA NOONAAOOMONMNAANOOAOOOMOMOOO0OOMOOMOO0OO0OMOrONOSS Reordering the rows and columns of a word text table Commentaire On peut voir ou deviner mots de la liste des mots r sonnets dans la liste elle sorted according to the coordinates on the first axis from The rows and columns of the lexical table below have been the correspondence analysis of the table ordonn e sont absents ou rarement observ s parmi ces sonnets Cependant ils sont fr quents parmi les derniers sonnets c t droit de la table table permet d inspecter la table lexicale pour Origina Le bouton laquelle les lignes et les colonnes ont leur disposition initiale 88 IIT Donn es textuelles et mixtes 111 2 Analyse textuelle de questions ouvertes Cet exemple vise d crire les r ponses une question ouverte dans une enqu te par sondage en relation avec des r ponses des questions ferm es Il s agit de confronter les profils lexicaux des r ponses de certaines cat gories de r pondants choisies a priori I11 2 1 Les donn es et fichiers Dtm Vic Enqu te internationale sur les attitudes et valeurs L enqu te qui va nous servir d exemple a t men e dans sept pays Japon France Allemagne Royaume Uni Etats Unis Pays Bas Italie vers la fin des A 7 A ean 3 A ann es 80 Nous pr sentons ici le volet britanni
177. o select a subset of The ob i Nb nei ne active observations you can either sal ti go id aol select them manually from a list of observations identifiers or define a logical filter involving th iabl fthe data file CHUN a et rte PE e A The observations will be selected using filters La fen tre selection of Active and Supplementary observations appara t 11 2 Analyse des Correspondances 49 gt S lectionnez les modalit s de la variable statut d activit comme l ments actifs Puis s lectionnez les modalit s des variables sexe age niveau d tude comme l ments suppl mentaires F1 Direct or manual selection of Active and Supplementary observations 1 Agriculteur Petit_patron Aff _Cadre_sup Prof _interm Employ Ouvrier_qualif 6 Ouvrier_qualif Ouvrier_non_qual 7 Ouvrier_non_qual Inactif oa 8 Inactif Clear F selection emme 15 24_ans 25 34_ans 35 49_ans 50 64_ans 65_ans_ou_ Primaire Secondaire Techn _prof Superieur 1 Agriculteur 2 Petit_patron 3 Aff_Cadre_sup 4 Prof _interm 5 Employl ta CO J OOO Fe Ooh Clear selection J 1 _prof 9 Superieur gt Cliquez sur une fen tre Create a starting parameter file appara t Etape 5 Cr ation du fichier param tre Nous faisons ici le choix d une proc dure bootstrap Si elle n est pas retenue cliquez directement sur 2 Create a parameter file for SCA gt Cliquez sur 1 Select some options
178. odifier la police et la couleur des caract res More graph permet de changer de plan factoriel Sign of axes permet d inverser les axes Rank est utile seulement dans le cas des affichages tr s complexes ce qui n est pas le cas ici ce bouton convertit les deux coordonn es de l affichage courant en rangs voir note de la section pr c dente La fen tre du plan factoriel appara t Choisir une option puis cliquez sur Retournez ensuite sur PlaneView pour s lectionner une autre representation factorielle Pour fermer le graphique cliquez sur ou sur la croix en haut a droite puis sur dans la fen tre de selection des axes principaux 54 Il Donn es num riques Techn _prof Mag_TV 25 34_ans 1 5 24_ans Ouvrier_qual Ouvrier_non_ 005 ir Prot _jnterm Secondaire as a3 a ot a5 Radio Femme 01 Quot_Nat Television Superieur akaras Inactif Aff _Cadre_s Primaire Quot_Reg Magazine i 6 Agriculte Commentaire On rel ve galement sur le plan factoriel principal l opposition entre Presse quotidienne Nationale et R gionale et aussi entre Cadres et les autres cat gories Puis sur le second axe l opposition entre les magazines TV et les autres supports de presse gt Retourner ensuite sur PlaneView pour s lectionner une autre repr sentation factorielle Pour fermer le graphique cliquez sur ou sur la croix en haut droite puis su
179. of elements appara t Ill 1 Simples textes Po mes 85 Les colonnes c est dire les variables actives sont les mots et les lignes c est dire les observations sont les po mes On souhaite repr senter sur une m me carte les mots et les po mes gt Cliquez sur Rows columns Une fen tre Kohonen map appara t F Kohonen Map or SOM map Size of the square map C Map3x3 Press the Contiguity matrices button if you C Map4x4 need the contiguity matrix associated with the Contiquity matrices SOM map for further investigation Press the Random Start button for starting a Random Start new SOM map from random initial conditions Map10x 10 C Maplixil C Map12x12 C Map 13x13 C Mapl4x14 C Map15x 15 C Map17 x17 C Map18x18 C Map19x19 Map 20 x 20 gt Choisir la carte map 5x5 puis et r pondre OK la boite de message SOM map completed Une nouvelle fen tre s affiche gt Actionnez Draw La Carte de Kohonen appara t Nous avons obtenu une repr sentation simultan e des lignes et des colonnes due l utilisation comme fichier d entr e des coordonn es de l analyse de correspondance de la table lexicale Dans le cadre de cet exemple les autres articles du menu principal ne sont pas appropri s Notons que pour toute l analyse pr sent e aucune transformation pr alable n a t op r e sur le vocabulaire La proc dure CORTEX aurait pu pr c der la pro
180. ombre N de ses cat gories en colonne 5 Les N lignes suivantes identifient les N cat gories des r ponses un identifiant court en 4 caract res occupe les colonnes 1 5 et un identifiant long 20 caract res maximum commence la colonne 6 Une variable num rique telle que l ge ou le nombre d enfants a O cat gorie Rappel 2 les espaces vides dans les identifiants ne sont pas permis 3 Fichier des textes des questions ouvertes TDA tex txt extraits 1 J1 good health happiness D1 happiness in people around me contented family would make me happy contented with life as a whole education 1 3 contentment family arts 1042 to see my daughter settled in a job health healthy enough to keep them secure that I get on well with my neighbours a life outside my family circle folk music architecture particularly religious architecture 1043 contentment my children s health and happiness Ce fichier contient les r ponses libres de 1043 individus aux trois questions ouvertes cit es pr c demment Le format du fichier des textes est assez sp cifique mais transparent pour l utilisateur format txt Rappel sur le format interne Dtm Vic Puisque les r ponses peuvent avoir des longueurs tres diff rentes des s parateurs sont utilis s pour distinguer les questions des individus ou r pondants Les individus q
181. onnez la variable nominale dans la 1 fen tre par exemple 3 Sexe la transf rer dans la 2 fen tre gt S lectionnez la modalit de filtrage par exemple f minin gt Cliquez sur Confirm Le nombre de lignes individus conserv es s affichent dans la fen tre Number of kept lines et correspond au nombre d individus de la cat gorie affich dans la fen tre Corresponding Categories cat gorie qui ne s affiche plus apr s la proc dure de confirmation gt Cliquez sur Update data file and text file Un fichier dont le nom par d faut est dtm_data_Subset txt est cr e dans le dossier EX_A03 MultCorAnalysis Le fichier dictionnaire MCA_dic txt reste inchang L op ration est termin e V 2 2 S lection d un sous ensemble de variables gt Cliquez sur Selecting a subset of variables Une fen tre appara t gt Ouvrir les fichiers dictionnaire et de donn es de la base concern e lister les variables puis continuer Une nouvelle fen tre appara t gt S lectionner dans la 1 fen tre l ensemble des variables conserver dans la nouvelle base les transf rer dans la 2 fen tre V 2 Interventions sur une base 151 gt Cliquer sur Update data file and dictionary Deux fichiers dtm_dic_SELVAR txt et dtm_dat_SELVAR txt sont cr s dans le dossier EX_A03 MultCorAnalysis V 2 3 Concat nation d ensembles de variables Cette option permet de concat ner deux bases de donn es de Dtm Vic pour cr
182. oordonn es de l affichage courant en rangs gt Pour revenir au menu principal de Dtm Vic cliquez selon la fen tre soit sur la croix en haut droite soit sur Return 3 Validation Bootstrap Cet outil permet de valider la position des variables sur le plan factoriel gt Cliquez sur IB Bootstrap Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t F vtmVic bu tstrap Validation Stability Inference LIST OF BOOTSTRAP REPLICATES FILES THAT COULD BE OPENED ngus_var_boot txt usual partial bootstrap replicated data projected as supplementary elements CA PCA MCA ngus_var_boot_total txt total bootstrap replicated data totally re analysed PCA CA and MCA ngus_sup_cat_boot txt bootstrap for supplementary categories in MCA ngus sup cont_boot tx uhius ngus_boot_on_variable Regarder dans O EX_A03 MulttCorAnalysis vla imp 24 03 10_09 02 txt E ncharcat txt limp html ngus_da txt ces Mak m a imp txt ngus_ind txt part_da_ind txt ngus_contig_boot txt MCA_dat txt ngus_sup_cat txt MCA_Eng_dic txt ngus_sup_cat_boot txt MCA_Fr_dic txt ngus_var_act txt L M mk Nom du fichier ngus_var_boot txt Fichiers de type x Annuler gt Cliquer sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi gt S lectionnez le fichier ngus_ var _boot
183. orical variable Idans la rubrique Numerical and Textual Data Une fen tre Opening a text file appara t De plus amples explications a propos de cet exemple particulier et de la m thodologie correspondante peuvent tre trouv es dans le livre Exploring Textual Data L Lebart A Salem L Berry Kluwer AcademicPublisher 1998 92 Ill Donn es textuelles et mixtes E ross GNulaing amp series of cate DECAT Automatic description ofas Data File Data Importation P ing Data C EE niet IPFIT 3 Re Weighting the observations ee un Create a command file _ Numerical Data principal axe COLE coon oran commend geet Open an existing command file mor F g PCA Principal Components Analysis Dtm Data and text mining SCA Simple Correspondence Analysi Result Files MCA Multiple Correspondence Analy Basic numerical results txt tome Textual Data CORTEX Preprocessing of texts 0 Vito EEA aae VISUTEX Visualization of Texts b Axes Pianeview f Numerical and Textual Data papa ANALEX Analysing through S Da VISURECA Visualization and clus Axes Clusters ClusterView Ea Kohonen Map Etape 2 S lection du fichier texte gt Cliquez sur le bouton Open a text File Dans le r pertoire EX_A05 Text Responses ouvrir le fichier TDA _tex txt gt Une boite de message r capitule les informations de ce fichier 7329 lignes correspondant l ensemble des r ponses aux trois
184. our prendre connaissance de certains r sultats qui ne peuvent tre visualis s Ainsi la proc dure NUMER nous dit que nous avons 1043 individus et 13 919 mots dont 1365 mots distincts Utilisant un seuil de fr quence de 16 ce qui signifie que l on conserve les mots de fr quence sup rieure 16 le nombre de mots conserv s se r duit 10738 tandis que le nombre de mots distincts est ramen 136 Le livre Exploring Textual Data op cit traite les d tails de ce pr traitement et tous les r sultats qui suivent 111 2 4 Visualisation des r sultats et interpr tation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires la validation et l interpr tation des r sultats TT Pi VIC VISUAL Axes Clusters Fa ClusterView H Kohonen Map V Visualization ER Contiguity 1 Axes factoriels gt Cliquez sur Z AxesView Une fen tre propose de visualiser les coordonn es des variables actives suppl mentaires et des observations sur les premiers axes Dans le contexte de l analyse textuelle seulement deux options sont envisageables actives variables qui correspondent aux cat gories et les observations qui correspondent aux mots gt Cliquez sur l onglet des l ments a examiner Active variables ou 100 Ill Donn es textuelles et mixtes Individuals observations puis sur View Il est possible d ordonner les coordonn es d un axe donn en cliquant sur cet a
185. p 02 06 10_09 36 txt E ncharcat txt IE ngus_var_boot txt Select data file limp html E ngus_da txt E param_MCA txt E imp txt E nqus_ind txt E E MCA_dat txt ngus_sup_cat txt MCA_Eng_dic txt ngus_sup_cat_boot txt E MCA_Fr_dic txt ngus_var_act txt lt gt Nomdutchie Peter wi pete dene rd 4 Select Sa pate file Une fen tre Partition added Please update the dictionary appara t R pondre Ok Fa Adding one or several principal coordinates to the data file Select Sortie file L archivage de la partition s affiche dans la fen tre inf rieure 148 gt Cliquez sur Update dictionary et r pondre dans la fen tre Dictionary update qui s affiche Les fichiers dictionnaire et des donn es sont cr s dans le dossier EX_A03 MultCorAnalysis et sont nomm s dtm dico newP1 txt et dtm_ data newP1 txt V 2 Interventions l mentaires sur la base de donn es Le second groupe d actions est obtenu en cliquant sur ToolBox File Processing DtmVic File Processing tools Selecting random samples of individuals new data and text files Selecting a subset of individuals new data and text files Selecting a subset of variables new data and dictionary files Concatenating 2 dtm files with 2 distinct sets of variables Selecting a subset of numerical variables new data and dictionary files i S lection d un sou
186. paux r sultats des tapes pr c dentes de calcul de base Apr s lecture de ces r sultats num riques retour au menu principal VI 2 Donn es num riques et Contigu t Iris 173 VI 2 4 Visualisation et lecture des r sultats Comme pour l exemple C 1 pr c dent portant sur la s miom trie nous allons maintenant utiliser les fonctionnalit s du bouton M Visualization a Visualisation partir d une partition induite par une variable nominale esp ce d iris Nous allons visualiser les diff rentes esp ces de fleurs variable n 5 dans le plan engendr par les premiers axes principaux de ACP gt cliquez sur M Visualization Une fen tre intitul e DTM visualization appara t gt Cliquez sur Load coordinates Dans le sous menu correspondant choisir dans un premier temps le fichier ngus_ ind txt Les principales coordonn es des individus lignes sont s lectionn es gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant choisissez alors Load partition File et ouvrir le fichier part_cat txt la partition induite par les 4 cat gories de la variable 5 les 4 esp ces d iris Cette partition a t choisie et extraite travers les 2 derni res tapes SELEC et EXCAT du fichier de commande ci dessus gt Cliquez sur puis choisissez les axes 1 et 2 par d faut dans la petite fen tre S lection des axes et cliquez sur Continue puis sur D
187. plans factoriels propos es l option active columns actives rows est adapt e cette analyse Ill 1 Simples textes Po mes 81 Pa Selecting the types of coordinates PlaneView Type of Display Active columns variables or categories Supplementary categories Rows individuals observations Active columns variables rows observations Supplementary lexical units C Rows individuals observations Density Supplementary continuous variables MCA Active columns Supplementary categories PLANEVIEW with moveable tags lt 900 points gt S lectionnez la rubrique Actives columns variables rows observations Une fen tre pour s lectionner le plan factoriel suivant la paire d axes souhait e apparait gt Choisir les axes 1 er 2 puis cliquez sur display Il est possible de ne faire figurer sur les plans que certaines variables Cliquez alors sur Manual Selection of points S lectionner les variables et les transf rer dans la seconde fen tre en cliquant sur select La fen tre du plan factoriel appara t On peut galement choisir ce menu par l interm diaire de PLANEVIEW with moveable tags qui reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique Rappel Pour chaque graphique le bandeau du haut contient des options Font offre la possibilit de modifier la police et la couleur des
188. ple en une vingtaine de classes 44 Il Donn es num riques II 2 Analyse des correspondances AC ou SCA Ce deuxi me exemple vise d crire un petit tableau de contingence par l analyse des correspondances les donn es sont dans le r pertoire DtmVic Examples_ A Start EX _A02 SimpleCorAnalysis 11 2 1 Les donn es et fichiers Dtm Vic Fr quentation multim dia Les donn es proviennent d une enqu te multim dia par chantillonnage effectu e par le CESP en 1992 pour laquelle on retient ici deux variables nominales une variable m dia a 6 modalit s radio t l vision presses nationales et r gionales magazines magazines de TV et une variable statut d activit a 8 modalit s agriculteur petit patron cadre sup rieur profession interm diaire employ ouvrier qualifi ouvrier non qualifi inactif Le tableau de contingence consid r est obtenu par croisement de ces deux variables Les 6 modalit s m dias sont repr sent es en colonne et les 8 modalit s statuts d activit sont les lignes de la table de contingence La cellule i j de la table contient le nombre de contacts le jour pr c dent l enqu te entre les r pondants appartenant au statut i avec le m dia j Rappelons que les lignes et les colonnes repr sentent deux variables et jouent un r le identique contrairement au cas de l analyse en composantes principales qui distingue variables et observations woa EN m
189. plementary Variable inquietude_maladie_grave 4 categories inquietude_agression_dans_la_r 4 categories 3 sexe 2 categories inquietude_accident_de_la_rout 4 categories 50 Age_categ 4 categories inquietude_chomage 4 categories 51 Niv Educ 3 categ 3 categories inquietude_accident_nucleaire 4 categories T a importance_famille numerical importance_travail numerical importance_temps_libre numerical Clear importance_amis numerical slt importance_parents numerical importance_religion numerical importance_politique numerical Age_categ 4 categories Niv Educ 3 categ 3 categories gt Cliquez sur Une fen tre Selecting observations appara t Etape 4 S lection des observations individus Trois cas de figure sont possibles 1 Prendre en compte l ensemble des observations 2 S lectionner les observations sur une liste 3 S lectionner les observations par un filtre Nous prenons en consid ration ici l ensemble des observations gt Cliquez sur All the observations will be active une fen tre Create a starting parameter file appara t 11 3 Analyse des Correspondances Multiples 61 Etape 5 Cr ation du fichier param tre F Create a starting parameter file A cette tape il est possible de s lectionner comme option les proc dures de bootstrap et ou de classification Rappelons que dans Dtm Vic les analyses factorielles sont syst matiquement compl t es par
190. po mes codage num rique des r ponses application de l analyse des correspondances au tableau lexical croisant les mots et les po mes validation Bootstrap description des po mes par leurs mots et vers caract ristiques carte de Kohonen des mots et po mes s riation L Exemple 5 contenu dans le sous dossier EX_A05 Text Responses_1 porte sur l analyse d un jeu de donn es num riques et textuelles correspondant des questions ferm es et ouvertes d une enqu te traitement des r ponses une question ouverte utilisant une variable nominale sp cifique pour regrouper les r ponses codage num rique des r ponses analyse des correspondances de la table lexicale croisant les mots et les cat gories d individus validation Bootstrap description des cat gories par leurs mots et r ponses carte de Kohonen simultan e des mots et des cat gories L Exemple 6 utilise les m mes donn es et dictionnaire que l exemple 5 Il est contenu dans EX_A06 Text Responses_2 toujours dans le dossier DtmVic_Examples_A_Start proc de a une analyse directe des r ponses a une question ouverte sans regroupement pr alable avec classification des r ponses et description des classes partir des mots des r ponses caract ristiques et des caract ristiques des r pondants Rappel Dtm Vic produit de nombreux fichiers de r sultats interm diaires li s l application tous en format txt II est par cons quent recomman
191. que de cette enqu te que nous d signerons par Enqu te Life qui traite les r ponses de 1043 individus 14 questions ferm es et 3 questions ouvertes Les questions ferm es concernent la fois les caract ristiques objectives du r pondant ou de son m nage ge statut genre quipements et des questions sur les attitudes et les valeurs des personnes interrog es dont la plupart furent extraites du questionnaire de l enqu te Aspiration exemple de la section 11 3 ACM Trois questions ouvertes ont t pos es Qu est ce qui est le plus important pour vous dans la vie Quelles sont les autres choses tr s importantes pour vous relance de la premi re question Que pensez vous de la culture de votre pays Nous nous int ressons ici aux deux premi res questions que nous voulons par la suite mettre en relation avec l ge et le niveau d instruction du r pondant Une variable nominale 9 cat gories est cr e combinant les trois niveaux d ge avec trois degr s d instruction Cet exemple est disponible dans le dossier EX_A05 Text Responses_1 cf Hayashi C Suzuki T Sasaki M 1992 Data Analysis for Social Comparative research International Perspective North Holland Amsterdam Le Professeur Chikio Hayashi ancien Directeur de Institute of Statistical Mathematics Tokyo et ma tre d uvre de ces enqu tes f t aussi un de premiers d couvreur de l analyse des correspondance
192. quelques param tres d crits bri vement dans le menu principal de DtmVic bouton Help about parameters a Ouverture et Ex cution du fichier decommande gt Cliquez sur le bouton Open an existing command file de ae menu principal et ouvrez le fichier param tre Chessboard_Textual Par txt Quatre tapes sont effectu es ARTEX textes d archivage SELOX s lection de la question ouverte NUMER codage num rique du texte ASPAR analyse des correspondances du tableau de contingence r pondants x mots Notez que ce fichier de commande peut galement tre g n r en cliquant sur le bouton Create de la rubrique Command file du menu principal Basic Steps Une fen tre Select a Basic Analysis appara t Cliquez ensuite sur le bouton VISURESP situ dans la rubrique Textual Data et suivez les instructions comme indiqu dans les chapitres Il et III Notez galement que dans ce cas de donn es simples une seule question ouverte il est possible de consid rer chaque r ponse comme un texte Dans un tel cas le s parateur doit tre remplac par le s parateur comme dans l exemple 1 1 du chapitre III Au lieu de l analyse VISURESP Visualization of responses il est alors n cessaire d effectuer l analyse VISUTEX Visualization of texts gt Cliquez sur Return to execute dans le bandeau pour revenir au menu principal gt Cliquer sur le bouton de elite hall Cette
193. ques pour chacune des classes Selec Selection des variables en vue de la description des classes de la partition des individus Decla description automatique des classes partir des variables suppl mentaires nominales et continues enfin Posit positionnement des variables nominales suppl mentaires dans les plans factoriels construits rappelons le avec les mots des r ponses aux questions ouvertes actives 111 3 Analyse directe de r ponses libres 113 Execution completed Affichage des tapes de calcul apr s l ex cution Note Une fois cr il est possible apr s avoir quitt Dtm Vic d ouvrir nouveau le fichier param tre param _VISURECA txt dans le menu principal June avec la proc dure Open an existing command file puis d ex cuter ce fichier Executel Les utilisateurs exp riment s peuvent modifier les param tres directement sous l diteur propos par Open an existing ou avec un autre diteur de texte hors de Dtm Vic voir le bouton Help about parameters menu principal 11 3 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files du menu principal MP gt Cliquez sur Basic numerical results pour naviguer dans le fichier en format html puis sur pour en sortir et revenir au MP 114 Ill Donn es textuelles et mixtes DtmVic Main basic numerical results Table of content Artex building archive textual data Selox selecti
194. r dans la fen tre de s lection des axes principaux gt Pour revenir au menu principal de VIC cliquez soit sur la croix en haut droite soit sur Main menu soit sur return 3 Validation Bootstrap gt Cliquez sur Bootstrap pour valider la position des variables dans les plans factoriels Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquez ensuite sur Load Data puis ouvrir dans le r pertoire le fichier des r plications selon le bootstrap choisi On s lectionne ici le fichier ngus_var_boot txt pour un bootstrap partiel R pondre la bo te de message Set of principal coordinates loaded qui s affiche 11 2 Analyse des Correspondances 55 gt s lectionnez Tick to select les variables dont on veut visualiser les ellipses Les transf rer avec Select dans la fen tre selected list Choisir ensuite le plan factoriel puis cliquez sur Confidence ellipses pour l affichage graphique des variables actives fichier ngus_var_boot txt Fa Bootstap confidence areas Tick to select Selected list _ Retum 5 Bootstrap confidence Zone Agriculteur Agriculteur Petit_patron Petit_patron ff _Cadre_s Aff _Cadre_s Prof _interm Prof _interm Employl Employl Ouvrier_qual Ouvrier_qual v Ouvrier_non_ V Inactif vV Radio Television Quot_Nat Quot_Reg Magere KELK nih i 9 s 9 2 Ed s s 2 2 9
195. r sultats qui ne peuvent tre visualis s La proc dure NUMER nous apprend par exemple que la table lexicale se pr sente sous la forme de 280 r ponses lignes avec un nombre total de mots occurrences de 2321 impliquant 830 mots distincts Utilisant un seuil de fr quence de 4 ce qui signifie que l on conserve les mots de fr quence sup rieure trois le nombre de mots conserv s se r duit 1384 tandis que le nombre de mots distincts est ramen 114 I11 1 4 Visualisation des r sultats et interpr tation Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires la validation et l interpr tation des r sultats Axes Clusters Fa ClusterView H Kohonen Map V Visualization ER Contiguity 1 Axes factoriels Cet outil fournit les coordonn es sur les axes factoriels des variables actives suppl mentaires ou des observations gt Cliquez sur LA axesview 80 Ill Donn es textuelles et mixtes Dans le contexte de cette analyse textuelle seulement deux options sont envisageables active variables qui correspondent ici aux po mes et les observations qui correspondent ici aux mots Description of principal axes Active variables Suppl Categories Individuals observations Suppl lexical units Suppl cont var MCA gt Cliquez sur l onglet des l ments examiner Active variables ou Individuals observations puis sur View Il est possible d o
196. r un texte en supprimant certaines cat gories grammaticales pr positions articles Valable pour les textes anglais fran ais espagnols italiens iv Fragmentation d une s rie de textes en format 1 textes s par s par en textes de format 2 form s de une ligne deux lignes des textes initiaux approximativement fragmentation en unit s de contexte Une variable nominale est cr e pour conserver l information rattachant les unit s aux textes initiaux v Changement de longueur des lignes de texte Au d part format DtmVic 1 ou 2 sans limitation pour la longueur des lignes A la fin textes ayant des lignes d une longueur choisie par l utilisateur mais lt 200 caract res Cette proc dure permet d importer des textes aux lignes tr s longues mais aussi de formater les unit s de contexte cf point iv ci dessus vi Cette derni re proc dure limit e et sp cialis e permet de faire Pr sentation g n rale 19 respecter la contrainte une ligne vide par r ponse ouverte vide pour des fichiers qui utiliseraient deux s parateurs cons cutifs La rubrique BIMA mE essentiellement p dagogique montre les possibilit s de compression d images offertes par l analyse de correspondances ou simplement par la d composition aux valeurs singuli res section VI 4 du chapitre VI 1 5 Format interne des donn es Dtm Vic Version anglaise de cette section affich e par le bouton Data Format du me
197. rdonner les coordonn es d un axe donn en cliquant sur cet axe gt Cliquez pour sortir de cet outil Active variables Suppl Categories Individuals observatio Active variables Suppl Categories Individuals observations Identifier axis 1 axis 2 axis 3 axis 4 axis 5 263 237 4 214 580 S_10 340 360 273 9 634 S_11 321 158 246 296 136 S_12 68 744 331 370 583 another 713 177 414 470 212 686 1 S_13 1402 799 50 298 46 art 601 370 221 578 736 123 1 S_14 61 535 442 465 17 34 418 399 2g 39 5 5_15 574 337 25 104 239 be 648 774 222 143 2739 39 2 5_16 1156 236 247 81 113 bear 565 505 832 615 402 104 4 S_l 583 38 172 108 137 beauty 149 68 4233 90 266 216 c 3_18 64 370 20 540 59 but 250 104 174 182 43 187 2 3_19 25 319 354 74 4 by 61 293 365 100 223 270 4 S_2 136 202 196 381 197 can 386 740 495 933 314 319 3 5_20 135 10 195 50 211 change 114 203 218 86 810 634 3 5_3 307 34 70 208 381 72 35 486 246 193 188 2 5_4 741 612 237 750 683 day 691 686 59 28 488 391 4 S45 1n4 q 1052 167 837 dasth 1204 29 anne 179 02 4 Coordonn es des sonnets Coordonn es des mots variables actives observations 2 Plans factoriels Cette option fournit les plans factoriels s par s ou superpos s des sonnets variables actives et des mots observations gt Cliquez sur H pPlaneview Une fen tre s affiche proposant diff rents plans factoriels Parmi les configurations de
198. rical variables including means of DECAT Automatic description of a series of categorical variables Result Files z IPFIT 3 Re Weighting the observations individuals of a sample survey throug Basic numerical results tt format Numerical Data principal axes techniques CPCA Principal Components Analysis complemented with clustering of the Vic Visualization Inference SCA Simple Correspondence Analysis to be applied to a contingency table e Une fen tre Selecting dictionary and data apparait Etape 2 S lection des fichiers dictionnaire et donn es gt Cliquez sur le bouton Open a dictionary Dans le r pertoire EX A01 PrinCompAnalysis ouvrir le fichier PCA_dic txt Il s affiche dans une premiere fen tre Le statut nominal categorical ou num rique des variables est indiqu dans une deuxi me fen tre F4 Selecting dictionary and data 2 Sexe fem Femme 1 Open a dictionary Dtm format hom Homme 3 AGE A 35 AgeMoy A 50 Ages A 35 Jeunes Sexe 2 categories AGE 3 categories List of variables check Activit 2 categories 4 Education 3 categories agglomeration 5 categories Sommeil numerical y 515 59 58 500 i 2 Open a Data File Dtm format i 463 29 34 200 More Data 1122 456 39 43 099 i i k i 478 00 44 200 465 10 41 599 458 39 47 400 3 Continue select active and supplementary elements Cliquez sur l
199. ries de r pondants Ce r sultat presque paradoxal illustre la diff rence entre statistiquement significatif qui est le cas ici et nettement distinct qui n est pas le cas ici c Arbre de longueur minimum et plus proches voisins dans l espace des variables mots gt Cliquez sur Une fen tre intitul e DTM visualization loading files selecting axes appara t gt Cliquez sur Load coordinates Dans le sous menu correspondant choisissez le fichier ngus var act txt pour une classification de variables les coordonn es principales des variables actives sont s lectionn es Une sous fen tre donne les caract ristiques du fichier gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant s lectionnez la partition obtenue pr c demment l tape de calcul Choisissez alors No partition gt 1 Cliquez sur Min Span Tree Minimum Spanning Tree Choisissez le nombre d axes qui serviront calculer l arbre de longueur minimale par exemple ici les 3 premiers axes Confirmer en cliquant OK sur le nombre d axes conserv s gt 2 Cliquez sur N NI recherche de plus proches voisins Nearest Neighbours limit 20 NN R pondre OK la recherche des plus proches voisins gt 3 Cliquez sur puis choisissez encore les axes 2 et 3 qui constituent le premier plan s miom trique car l axe 1 est une axe de notation dans la fen tre S lection des ax
200. rmet d obtenir les informations n cessaires en Anglais Les fichiers images cr es image originale et images reconstitu es partir d un nombre variable d axes principaux sont automatiquement sauvegard s en format bmp Le logiciel Paint du volet Accessoire des programmes sous Windows ou le logiciel gratuit IrfanView par exemple permet de visualiser ces images et de les sauvegarder en format JPEG plus conomique en espace Cette variante consiste centrer pr alablement les niveaux de gris l int rieur de p zones rectangulaires avant SVD puis ajouter les p moyennes apr s SVD on peut choisir p 2 x 2 3x3 4x4 5x5 etc t6 Cette variante consiste faire une transformation logarithmique pr alable puis a proc der a une SVD tu tableau doublement centr en ligne et en colonne 200 VI Autres analyses avec Dtm Vic gt Cliquer sur VI 4 3 Ex cution d un premier exemple format de texte simple Exemple T te de gu pard 1 Cheetah_ txt gt Cliquez sur le bouton SVD and CA of images dans la rubrique Dien 07727 du menu principal gt La fen tre Reconstitution of some small images appara t cf ci dessus a Cliquez sur le premier bouton Read formatted txt file dans la rubrique Dans le r pertoire EX CO4 Image ouvrez le sous r pertoire 1_Cheetah_txt Dans ce r pertoire ouvrez le fichier Cheetah txt Une boite de message rappelle les dimensions du fichier image
201. rvations Cliquez sur All the observations will be active une fen tre Create a starting parameter file appara t Etape 5 Cr ation du fichier de commande fichier param tre F Create a starting parameter file A cette tape il est possible de s lectionner comme option les proc dures de bootstrap et ou de classification En effet dans Dtm Vic les analyses factorielles peuvent tre compl t es par une proc dure de bootstrap qui permet de valider la position des variables sur le plan factoriel et ou une classification avec une description automatique des classes a S lection d une option e Cliquez sur 1 Select some options une fen tre Options Bootstrap and or Clustering of observations apparait gt Cliquez sur yes pour la proc dure bootstrap indiquer le nombre de r plications par d faut 25 puis enter C est le bootstrap partiel qui est appliqu par d faut Si le bootstrap n est pas adopt cliquez sur no gt S lectionnez le nombre de classes souhait nous sugg rons 7 classes puis cliquez sur Analyse en composantes principales 31 F Options bootstrap and or clustering of observations Number of replicates between 5 and 30 Bootstrap Suggested value 25 fe yeg 1 Do you want a bootstrap validation 25 Enter no Bootstrap options Partial default Total D or 1 means no clustering at all 2 How many clusters to begin
202. s a or by reading them from the reading dictionary and data saved file imp txt using a notepad builds the Archive Dictionary or a text editor NQEXA 10 NIEXA 1043 NXMOD 12 gt NEDIT 0 NIDI 1 TEST 999 STEP SELEC Selection for STATS gt Cliquez enfin sur pour cr er le fichier param tre Le fichier param tre est automatiquement sauvegard sous le nom de param _start txt dans le dossier de travail 128 IV Importation Cr ation Exportation Le fichier param tre n inclut aucune commande d analyse statistique labor e Il se limite au calcul des statistiques de base des variables II sert simplement de contr le l importation des donn es num riques La fen tre d ex cution identique toutes proc dures d analyse appara t dans la fen tre du menu principal Execution completed Les proc dures s affichent en bloc la fin de l ex cution l tape Ardat archive les donn es et le dictionnaire L tape Selec choisit les variables pour le traitement suivant dans ce cas ci toutes les variables disponibles sont choisies L tape Stats calcule les statistiques g n rales Les r sultats peuvent tre consult s dans l tape Result Files gt Cliquez sur Basic numerical results pour ouvrir le fichier en format html puis sur Returni pour en sortir et revenir au menu principal DimVic Main basic numerical results Table of ptral Ardat buikling archive dirtionary and
203. s 111 2 Analyse textuelle de questions ouvertes 89 inclus dans le r pertoire DtmVic Examples_A _ Start On y trouve 3 fichiers d entr e Dtm Vic Dictionnaire Donn es num riques Donn es textuelles Ces fichiers en format Dtm Vic peuvent tre g n r s par une proc dure d importation partir d un fichier Excel unique cf chapitre IV 1 fichier de donn es pour les questions ferm es TDA dat txt extrait Ce fichier comprend 1043 lignes les individus et 15 colonnes s par es par des espaces blancs La premi re colonne correspond l identifiant de l individu les 14 autres sont les valeurs des r ponses aux questions ferm es repr sent es par des variables nominales ou num riques continues 2 Fichier dictionnaire des questions ferm es TDA dic txt extraits 2 GENDER EDUM MEDIUM MALE MALE EDUH HIGH FEMALE 3 WILL PEOLE BE HAPPIER AGE CODE HAP1 Happier o 18 19 HAP2 LESS happy 20 24 HAP3 About the same 25 29 4 PEOLE PEACE OF MIND 30 34 PEA1 INCREASES 35 39 PEA2 DECREASES PEA3 40 44 NOT CHANGES 45 49 PEA4 OTHER 50 54 3 MORE OR LESS FREEDOM 55 59 FRE1 MORE FREEDOM 60 65 FRE2 LESS FREEDOM 65 70 FRE3 THE SAME 71 et 3 Age 3 classes AGE 30 less than 30 EDUCATION 3055 from 30 to 55 LOW 55 over 55 Le fichier dictionnaire contient les identifiants des 14 variables 90 IIll Donn es textuelles et mixtes Rappel 1 L identifiant d une variable nominale est pr c d par le n
204. s internet leur domicile etc Il est alors commode de s lectionner un sous fichier Dtm Vic sans avoir re importer les donn es partir de la base initiale gt Cliquez sur Selecting a subset of individuals Une fen tre apparait gt Ouvrir les fichiers dictionnaire par exemple MCA dic txt de donn es par exemple MCA dat txt lister les variables ouvrir le fichier texte des questions ouvertes s il existe puis continuer Une nouvelle fen tre appara t 150 V Recodage Archivage Outils divers Fa Selecting a subset of individuals from a selected categorical variable region 8 categories a 1 masculin 2 feminin taille _d agglomeration_ nombre 2 feminin f1771 sexe 2 categories age numerical situation 7 categories A1 statut_matrmonial 5 categ A2 niveau_d etudes 9 catego la_famille_est_le_seul_endrait opinion_sur_le_mariage 4 ce travaux menage enfants 4 satisfaction_ logement 4 cat satisfaction_cadre_de_vie statut_d occupation_logemen Confirm depenses_de_logement _ur disposez vous_d un_magnetc 4 disposez vous_d un_piano residence_secondaire 2 cal activite_professionnelle 4 ce conflits_travail vie_personnel chomage_douze_derniers_mc maux_de_tete 2 categories mal_au_dos 2 categories nervosite 2 categories etat depressif 2 categories 2 3 4 5 6 fd 8 9 N b d b d d d d ad el ent o a m m a aa a E a a A Co MN gt S lecti
205. s n 1 masculin 138 1 masculin x niveau faible 0 sel 2 _taile_d ag 2 feminin 177 2 masculn_x niveau moyen 0 sel gt gt Cross tabulating two categorical variables 3 masculin_x_niveau_ lev 0 sel 4 masculin_x_niveau_NR 0 sel 5 feminin_x_niveau_faible 0 sel 6 feminin_x_niveau_ moyen 0 sel 7 feminin_x_niveau_ lev 0 sel ta gt 8 feminin_x_niveau_NR 0 sel 9 opinion_sur_le_mariage 10 travaux menage enfant 11 satisfaction_ logement 12 satisfaction_ cadre de_v 13 statut_d occupation_ log Confirm 14 depenses_de_logement 1 ile 92 15 disposez vous_d un_mar 2 niveau moyen 7 4 16 disposez vous_d un_piai 3 43 17 residence_secondaire 18 activite_professionnelle 19 coniflits_travail vie_persc 20 chomage_douze_detnie m_niveau_faible 83 21 maux_de_tete 2 categ m_niveau_moyen 34 22 mal_au_ dos 2 categori m_niveau_ lev 19 23 nervosite 2 categories f_niveau_faible 109 24 etat depressif 2 categc Eniveau_ moyen 37 f_niveau_ lev 24 Vic 44 niveau_NR 9 Grouping completed You can update the data file now Update data file and dictionary gt Cliquez sur Return Une fois l op ration termin e vous pouvez modifier les noms des fichiers par d faut si ceux ci ne conviennent pas V 1 Recodage et archivage 143 V 1 3 Transformation d une variable continue en variable nominale Cette proc dure permet de transformer une variable continue en u
206. s ensemble al atoire d individus lignes ii S lection d un sous ensemble d individus lignes partir d un filtre iii S lection d un sous ensemble de variables colonnes iv Concat nation de deux bases de donn es variables diff rentes v S lection d un sous ensemble de variables ayant un poids maximum Les sections i et v ne seront pas trait es de fa on d taill es ici Elles comportent des rubriques HELP qui devraient faciliter la t che des utilisateurs V 2 Interventions sur une base 149 La section i permet de diviser par 2 ou 4 la taille de l chantillon de d part form de la r union des 2 ou 4 groupes Ceci permet de tester des analyses de fa on plus conomique mais aussi de valider des structures observ es La section v est tr s particuli re et r pond la situation pratique suivante Si les donn es comportent un grand ensemble homog nre de n variables num riques dont la somme sur les individus a un sens alors on peut s lectionner les p variables p lt n de plus fortes sommes Exemple on a pour 10 000 individus 1200 variables nombre de visites pour 1200 sites webs On peut s lectionner les 400 sites les plus visit s pour travailler sur ce seul sous ensemble V 2 1 S lection d un sous ensemble d individus par filtrage Il est fr quent d avoir travailler de fa on approfondie sur une sous population par exemple les femmes les personnes ayant acc
207. s partition pr alable de l image analyse logarithmique S ries de Fourier discr tes Pour les quatre premi res m thodes le nombre d axes retenus de 1 100 est cocher dans la seconde colonne Si le nombre d axes retenu est 8 par exemple ce sont les 8 premiers termes de la formule de reconstitution des donn es qui sont utilis s pour reconstituer l image Les deux boutons centraux d clenchent un affichage des images gris ou couleur Les deux boutons du panel gris sur la droite d clenchent un balayage automatique pour tous les axes propos s Toutes les figures interm diaires sont sauvegard es en format Windows bitmap bmp Avant d examiner les exemples sch matisons la suite des op rations faire dans le cas des analyses en axes principaux m thodes factorielles gt Cliquez selon l extension du fichier image sur un des boutons Read txt format ou pgm format ou ppm_format R pondre aux boites de message number of columns et number of rows qui s affichent gt S lectionner une des m thodes par exemple l analyse des correspondances Correspondence Analysis ou la d composition aux valeurs singuli res Singular Values Decomposition R pondre lorsque s affiche la boite de message End of computation gt S lectionner le nombre d axes R pondre dans la fen tre of axes gt Cliquer sur un des boutons selon l image choisie noir et blanc ou couleur En fait le bouton Help pe
208. sis PCA Recip hierarchical clustering reciprocal neighbours Parti partitioning by cutting a dendrogram Decla description of clusters List of commands DtemVic Assignments gt ou cliquez sur Basic numerical results text format pour ouvrir le fichier r sultat en format texte 34 Il Donn es num riques Le fichier r sultat nomm imp txt est contenu dans le r pertoire EX_AO1 PrinCompAnalysis Il est galement sauvegard sous le nom imp suivi de la date et l heure de l analyse imp 08 07 11 14 45 txt signifie le 8 juillet 2011 a 14h 45 Ce fichier de sauvegarde conserve les r sultats num riques principaux tandis que le fichier imp txt est cras pour chaque nouvelle analyse ex cut e dans le m me r pertoire Apr s avoir consult les r sultats num riques revenez au menu principal Ces r sultats seront visualis s alors dans l tape VIC de Dtm Vic qui facilite consid rablement l interpr tation l histogramme des valeurs propres celui des indices de niveau et le dendrogramme doivent cependant tre consult s dans l un des fichiers imp txt ou imp html 11 1 4 Visualisation des r sultats Cette deuxi me phase fondamentale de Dtm Vic fournit les outils de visualisation n cessaires l interpr tation et la validation des r sultats 1 rT Fi ml OS TWO J L ELAT by a ppn PE i T Ew EPS F j PAPIER ET O ee Fara rae Oy aR FES GOOLE LA CH JFO FE
209. spondante et visualisez chaque image avec le bouton utilis en b CN ar ap wer Cas de l analyse des correspondances Images reconstitu es successivement avec un axe principal quatre axes et 16 axes Dans ce cas pour un seul axe la formule de reconstitution contient deux termes le terme correspondant l hypoth se d ind pendance 0 axe et le premier axe c3 la place de l analyse des correspondances vous pouvez choisir la m thode de Singular Value Decomposition D composition aux Valeurs Singuli res et refaire les op rations c1 et c2 202 VI Autres analyses avec Dtm Vic Cas de la d composition aux valeurs singuli res Images reconstitu es successivement avec un axe principal quatre axes et 16 axes Dans ce cas pour un axe la formule de reconstitution ne contient qu un seul terme d o un retard par rapport l analyse des correspondances retard qui s estompe au fil de l accumulation des axes Note Toutes les images cr es sont syst matiquement enregistr es au format bitmap extension bmp dans le r pertoire du fichier de l image analys e d Le cas des s ries de Fourier discr tes Dans la partie inf rieure gauche de la fen tre dans la rubrique cliquez sur le bouton Discrete Fourier Transfo Une nouvelle fen tre s affiche C Use of row wise or column wise Fourier transform Curves of Grey levels Image Greyscale Image Colour e C 3first
210. sses premier axe dominant les axes suivants tant des fonctions polynomiales du premier Plan factoriel principal pour le graphe Japon avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour Le signe des axes est arbitraire Il peut aussi tre chang pour retrouver l orientation g ographique initiale 196 VI Autres analyses avec Dtm Vic VI 4 Reconstitution d images parenth se m thodologique Les exemples cette section VI 4 sont principalement des exemples p dagogiques qui servent illustrer les propri t s de compression des analyses en axes principaux en gardant un nombre limit d axes principaux provenant d une d composition aux valeurs singuli res ou d une analyse des correspondances dans le domaine de l analyse d images domaine peu familier pour certains utilisateurs actuels de Dtm Vic Une comparaison est faite avec les s ries de Fourier discr tes en gardant un nombre limit de termes de l expansion qui elles prennent en compte les positions relatives des pixels VI 4 1 Format des fichiers image Ce type de traitement ne fait pas usage des donn es en format texte interne Dtm Vic car il traite d images num ris es Un simple tableau rectangulaire de nombres entiers suffit il n est pas n cessaire d avoir des identificateurs de lignes ou colonnes dictionnaire En fait trois formats particuliers seront utilis s tableaux r
211. strap chap Il section II 1 2 Etape 5 gt Cliquez sur IB Bootstrap pour valider la position des variables sur les plans factoriels Une fen tre DtmVic Bootstrap Validation Stability Inf rence appara t gt Cliquez sur Load Data puis ouvrir dans le r pertoire le fichier des replications selon le bootstrap choisi S lectionnez le fichier ngus_par_booti txt pour un bootstrap partiel dans le cas textuel gt R pondre la fen tre Set of principal coordinates loaded qui s affiche Ill 1 Simples textes Po mes 83 a DtmVic Bootstrap Validation Stability Inference L Load Data Confidence Areas a Return to VIC menu LIST OF BOOTSTRAP REPLICATES FILES THAT COULD BE OPENED ngus_var_boot txt usual partial bootstrap replicated data projected as supplementary elements Lu ngus_var_boot_tqmandddd ICA Regarder dans E EX_A04 Text Poems lt f ce E ngus_sup_cat_bof En E ncharword txt E ngusko txt E Sonnet_LowerCase txt ngus_sup_cont_ bj E nous txt E par88dtm txt E word_text txt ngus_da txt param_VISUTEXT txt word_text_new txt J ngus boot on va nous_ind txt E part_som txt is E pca_control txt ability E ngus_var_act txt B ReadMe txt lt gt ngus_contig booq Nom du fichier nous _par_boot1 bt Fichiers detype z _Amuer gt Puis cliquez sur Confidence Ellipse une fen tre Bootstrap co
212. t thy content and tender churl makest waste in niggarding pity the world or else this glutton be to eat the world s due by the grave and thee XKXKXX S 2 when forty winters shall beseige thy brow and dig deep trenches in thy beauty s field thy youth s proud livery so gazed on now will be a tatter d weed of small worth held then being ask d where all thy beauty lies where all the treasure of thy lusty days to say within thine own deep sunken eyes were an all eating shame and thriftless praise how much more praise deserved thy beauty s use Pour un ensemble plus important de sonnets et les commentaires attenants se reporter au site http www shakespeare online com sonnets Ill 1 Simples textes Po mes 73 if thou couldst answer this fair child of mine KkK K S 20 a woman s face with nature s own hand painted hast thou the master mistress of my passion a woman s gentle heart but not acquainted with shifting change as is false women s fashion an eye more bright than theirs less false in rolling gilding the object whereupon it gazeth a man in hue all hues in his controlling much steals men s eyes and women s souls amazeth and for a woman wert thou first created till nature as she wrought thee fell a doting and by addition me of thee defeated by adding one thing to my purpose nothing but since she prick d thee out for women s pleasure mine be thy love and thy love s us
213. t_Reg Magazine Mag TV Radio numerical Television numerical List of variables check Quot_Nat numerical Quot_Reg numerical Magazine numerical Mag IV numerical Agriculteur 96 118 2 71 50 171 Peti 1 49 4 2 Open a Data File Dtm format Aff_Cadre_sup More Data Ouvrier non_qual 156 185 8 69 42 85 3 Continue select active and supplementary elements Les colonnes de fr quences pour une variable nominale donn e sont consid r es ici comme des variables num riques Nous verrons que pour l analyse des correspondances multiples section II 3 ci apr s les variables nominales ont le statut de categorical variable comme nous l avons vu propos de certaines variables suppl mentaires en ACP 4 Cliquez sur le bouton Open a Data File Dans le m me dossier EX_A02 SimpleCorAnalysis ouvrir le fichier SCA dat txt qui s affiche dans une troisi me fen tre Note il est possible qu une bo te de message annonce l existence d une derni re ligne vide Cliquer alors sur OK deux fois lt a Cliquez sur une fen tre Selection of active et supplementary elements appara t Etape 3 S lection des variables actives et suppl mentaires Dans le cas d une table de contingence les variables sont en fait les modalit s de la variable consid r e en colonne c est dire ici les m dias Le jeu de donn es pr sente ici peu de variables types de m dias qui sont toutes cons
214. tation of variables observations and texts Importing Dictionary Data and Texts specific preprocessing and importation tools Importation de fichiers de donn es num riques ou textuelles et constitution des fichiers dictionnaire donn es et textes dans le format Dtm Vic Voir chapitre IV Quelques outils de pr traitement Pr sentation g n rale 11 Building the dictionary of variables and creating the data file Creating the data file manually Modules de saisie de donn es construction du dictionnaire des variables et cr ation du fichier de donn es Voir chapitre IV Exporting a DTH file to R or to Excel r Exporting dtm data land dictionary to or Excel fr Exporting dtm data dictionare and texts into a unique XML file Exportation de fichiers de donn es en format Excel R ou XML Voir chapitre IV Dim_tools Amending or updating data and dictionary Ctr tools Cr ation de nouvelles variables s lection d un sous chantillon ou concat nation de plusieurs fichiers Voir l acc s direct a la bo te a outils BARRE et chapitre V 1 2 Techniques d analyse des donn es gt Cliquez sur Create a command file dans la rubrique Juluk ue aG de Dtm Data and Text mining Une fen tre affichant diff rentes techniques d analyse possibles selon la nature num rique ou textuelle des donn es appara t La partie sup rieure de cette fen tre traite des donn es num riques BAS
215. te www dtm vic com 210 LUDOVIC LEBART T l com ParisTech MARIE PIRON Institut de Recherche pour le D veloppement ISBN 978 2 9537772 0 8 Dtm Vic Data and text Mining Visualization Inference Classification Logiciel d analyse exploratoire multidimensionnelle de donn es num riques et textuelles Librement t l chargeable sur www dtm vic com
216. ted parameter file param_sca tst Comments symbol is Continuation symbol Dummy line e g title RS immediately after each line STEP LISTF NO LISTP ves Global Parameters NDICZ Dtm_SC _dic_Fr tat dictionary file pans SCA_dat Fr txt data file Comments about step ARDAT number of questions or variables in both the dictionary and the data file number of individuals or rows in the data file Indicate the presence of an identifier recommended STEP ARDAT reading dictionary and data builds the t Dictionary NOEX4 6 NIEX4 19 NXMOD 1 NEDIT 0 NIDI 1 TEST 999 11 2 Analyse des Correspondances 51 gt Cliquez sur Execution completed Les proc dures s affichent en bloc la fin de l ex cution ArDat Archivage des donn es Selec S lection des l ments actifs et suppl mentaires Afcor Analyse des correspondances et Defac Description des axes factoriels Note Lors d une utilisation ult rieure de Dtm Vic il est possible d ouvrir le fichier param tre param SCA txt dans le menu principal oJulur ue Ei avec la proc dure Open an existing command file puis d ex cuter ce fichier Executel 1 2 3 Fichier de r sultats Les r sultats peuvent tre consult s dans l tape Result Files gt Cliquez sur Basic numerical results pour ouvrir le fichier en format html ou sur Basic numerical results text format pour ouvrir le fichier resu
217. ter ce fichier Execute Les utilisateurs exp riment s peuvent modifier les param tres directement sous l diteur propos par ou avec un autre diteur de texte hors de Dtm Vic voir le bouton Help about parameters menu principal et menu de l diteur de texte interne 111 2 3 Fichier de r sultats Les r sultats peuvent tre consult s dans la rubrique Result Files du menu principal gt Cliquez sur Basic numerical results pour naviguer dans le fichier en format html puis sur Return pour en sortir et revenir au menu principal Rappel Le fichier r sultat imp txt comme son homologue imp html est galement sauv sous le nom imp suivi de la date et l heure de l analyse Ce fichier de sauvegarde garde comme archives les r sultats num riques principaux tandis que les dossiers imp txt et imp html sont cras s chaque nouvelle analyse ex cut e dans le m me r pertoire 111 2 Analyse textuelle de questions ouvertes 99 DtmVic Main basic numerical results Table of content Ardat building archive dictionary and data Artex building archive textual data Selox selecting an open question Numer numerical coding of texts Motex table categories x texts Mocar characteristic words Aplum CA of lexical tables Selec selecting active and illustrative elements Decat description of categories of a nominal var List of commands La lecture de ce fichier est n cessaire p
218. terms made detaultl Computation column wise 4firstterms Sony C Total 32 C Totel 16 Total 8 Total 4 Total 2 Total Series from first term td Series from firstte Portion de la fen tre de commande des compressions par s ries de Fourier discr tes d1 Vous devez ensuite s lectionner le mode de calcul de la s rie de Fourier en ligne ou en colonne Row wise ou columnwise S lectionnez Row wise par exemple d2 Puis comme pr c demment si vous souhaitez obtenir un aper u de la reconstitution des donn es lorsque le nombre de termes augmente cliquez directement sur le bouton Series from first term VI 4 Reconstitution d images 203 to total greyscale dans le panel Images for a series of terms On peut alors observer la reconstitution progressive de l image d3 Si vous vous int ressez un nombre de termes particulier parmi les termes de la s lection sugg r e s lectionnez le nombre requis dans la liste verticale correspondante et visualisez chaque image avec l analogue du bouton utilis en b be 7 E LT gt _ a Cas des s ries de Fourier discr tes option ligne par ligne Images reconstitu es successivement avec deux termes 9 termes et 19 termes L analyse colonne par colonne donne des r sultats diff rents mais avec un pouvoir de compression quivalent dans le cas de cette image d4 La comparaison de la reconst
219. ternationale sur les attitudes et valeurs Il s agit encore de Enqu te Life volet britannique de l enqu te internationale sur les attitudes et valeurs voir section pr c dente III 2 1 Nous nous int ressons ici aux deux premi res questions que nous voulons analyser directement sans regroupement pr alable Qu est ce gui est le plus important pour vous dans la vie Quelles sont les autres choses tr s importantes pour vous Nous voulons d tecter quelles sont les variables nominales les plus li es aux r ponses pour ventuellement les utiliser pour proc der aux regrou pements de r ponses proc dure ANALEX de la section pr c dente La section III 2 donne toutes les informations n cessaires sur les trois fichiers Dtm Vic de base qui vont tre utilis s Fichier de donn es pour les questions ferm es TDA dat txt Fichier dictionnaire des questions ferm es TDA dic txt Fichier des textes des questions ouvertes TDA tex txt 111 3 2 Mise en uvre de l analyse textuelle directe des r ponses VISURECA Le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Dans le menu principal cliquez sur de elaia lale all Une fen tre Choosing among some basic analysis appara t 108 Ill Donn es textuelles et mixtes gt S lectionnez l analyse MISURECA Visualization and Clustering o responses with categorical data as suplementary el
220. u graphique est diff rente Le codage textuel et le fichier de commandes de l Analyse en composantes principales ont t omis dans ce cas c Le dossier Geography Les deux sous r pertoires du r pertoire Geography sont les homologues de l exemple textuel du dossier Chessboard Les r pertoires Japan map et France map illustrent le codage textuel dans le cas des graphes d crivant les diff rentes r gions du Japon et des d partements de France Dans le cas du Japon par exemple les deux premi res lignes du fichier Japan map _textual tex txt indiquent que les provinces d Akita et d Iwate sont contig es la province d Aomori etc Le fichier de commande correspondant est le fichier Japan map textual Param txt Il est similaire au fichier Chessboard_Textual Param txt Dans le cas de la France par exemple les deux premieres lignes du fichier France _Text txt indiquent que le d partement de l Ain est contigu aux d partements Is re Jura Rh ne Hte_Sadne Savoie Hte Savoie Le fichier France _Param txt est le fichier de commande correspondant Le fichier France_extern txt repr sente la carte de France dans le format externe d fini dans la section a 2 ci dessus Il permettra de tracer le graphe initial dans les plans factoriels VI 3 Descriptions de Graphes 185 VI 3 2 Ex cution de l exemple Chessboard_numerical R pertoire Chessboard_ numerical dans EX_C03 Graphs Chessboard Dans ce dossier figurent les fichiers d
221. ui doivent imp rativement tre dans le m me ordre que dans le fichier de donn es num riques sont s par s par la cha ne de caract res commen ant la colonne 1 suivie ventuellement de l identifiant de l individu 111 2 Analyse textuelle de questions ouvertes 91 Puis la ligne suivante viennent les r ponses aux questions ouvertes s par es par commen ant la colonne 1 Le symbole indique la fin du fichier Comme tous les fichiers de donn es Dtm Vic ce fichier est un dossier de texte brut txt Si le dossier des textes vient d une phase de traitement de textes il doit tre sauv en txt Apr s archivage des fichiers dictionnaire des donn es et des textes le codage num rique du texte nous permet de construire une table lexicale croisant les mots avec une variable nominale s lectionn e Une analyse de correspondance est alors ex cut e sur cette table lexicale Des zones de confiance bootstrap pourront tre dessin es autour des mots et des cat gories d individus 11 2 2 Mise en uvre de l analyse textuelle sur tableau lexical agr g ANALEX Le fichier param tre est cr en 5 tapes Etape 1 S lection de l analyse gt Dans le menu principal cliquez sur de Juluk lale Aai Une fen tre Choosing among some basic analysis appara t gt S lectionnez l analyse ANALEX Analysing through SCA of a lexical table built from a specific categ
222. uisant 96 groupes qui constituent en quelque sorte des r pondants artificiels Le tableau de donn es de cet exemple dispose en ligne les 96 cat gories de r pondants et en colonne les 5 caract ristiques de base le genre l ge l ducation et l agglom ration de r sidence soit 5 variables nominales les 38 activit s quotidiennes et 5 fr quentation m dia soit 43 variables continues A la crois e de la ligne i et de la colonne j est mentionn apres l identificateur de l individu le cumul du temps pass en minutes par jour pour l activit j par les individus de la cat gorie i L objectif est de d finir les associations entre les diff rentes activit s consid r es comme variables actives et d tudier le lien entre ces associations et la fr quentation des m dias et aussi les caract ristiques socio conomiques consid r es comme variables suppl mentaires A partir d un fichier de type Excel deux fichiers en format Dtm Vic sont import s Ils sont contenus dans le dossier EX A01 PrinCompAnalysis Ils peuvent tre ouverts avec un diteur de texte bloc note notepad Ultraedit TotalEdit Notepad ou l diteur de texte interne de Dtm Vic Analyse en composantes principales 25 Caract socio co M dias Quotid_Nat Ident gt D 2 Age D amp Sommeil ral otal ro2fronef Pot of GE 41 9 58 3 53 1 123 7 7 2 463 3 34 25 aaro aat aal DCR ar iat c 456
223. ur Load coordinates Dans le sous menu correspondant choisissez le fichier ngus var act txt pour une classification des variables actives Pour un regroupement d individus s lectionnez le fichier ngus_ind txt gt Cliquez ensuite sur Load or create a partition Dans le sous menu correspondant s lectionnez l option Create a new k means partition Vous devez ensuite s lectionner figure ci dessous le nombre de classes d sir es le nombre de coordonn es principales pour les calculs de distances le nombre maximum d it rations g n ralement lt 12 et vous devez cocher yes si vous d sirez visualiser les it rations Fl Creating anew partition through k means algorithm Execute k means algorithm Other random start 168 VI Autres analyses avec Dtm Vic Exemple du choix de 5 classes calcul es avec 6 axes en 12 it rations au maximum A titre p dagogique on peut visualiser les diff rentes tapes de construction de la partition dans la fen tre apr s avoir cliqu sur Graphics Il faut ensuite s lectionner les axes 2 et 3 puis cliquer sur Continue puis enfin cliquer sur DISPLAY Dans la barre verticale gauche il faut alors cliquer sur IterKM puis cliquer alternativement sur calcul des centres des classes et sur Clust affectation des l ments aux nouveaux centres de classes jusqu ce que la convergence soit atteinte Notez que la partition obtenue par cet algorithme classique des k moyen
224. ure pr c dente Attention Les couleurs diff rencient les classes issues de l algorithme de classification non supervis e et non plus les esp ces La classification non supervis e en trois classes ne r ussit isoler que la classe de droite Les deux autres esp ces sont m lang es au sein des deux classes restantes Comme on le soup onnait la partition obtenue directement partir des 176 VI Autres analyses avec Dtm Vic mesures num riques en ignorant l esp ce n est pas en mesure de s parer les trois esp ces Seule l esp ce setosa bien s par e des deux autres esp ces coincide avec une des classes cluster de la partition Retour vers MALI all Sie VI 2 5 Analyse de contiguite Deux analyses de contiguit vont tre ex cut es La premi re non supervis e utilise le graphe des plus proches voisins C est l analyse de contigu t intrins que La seconde supervis e utilise le graphe form de trois cliques disjointes correspondant aux trois esp ces d iris tous les couples d individus appartenant une m me esp ce sont voisins deux couples appartenant deux esp ces diff rentes ne sont jamais voisins Dans ce cas pour lequel l appartenance a une esp ce est connue a priori l analyse de contigu t coincide avec l analyse discriminante lin aire a Graphes des plus proches voisins Nous allons effectuer une analyse de contigu t utilisant un graphe des plus proches voisins
225. urnez au menu principal en quittant la fen tre du plan factoriel puis en cliquant sur puis quittez Dtm Vic c Ouverture et Ex cution du fichier param tre de l ACP Reprendre les op rations des sections a et b en ouvrant cette fois ci le fichier de commande Chessboard PCA Param txt PCA analyse en composantes principales R p tez toutes les op rations pr c dentes On voit travers le graphique produit par cet exemple que l Analyse en Composantes Principales d crit de fa on moins fid le la structure du graphe que l Analyse des Correspondances Figure VI 3 VI 3 3 Ex cution de l exemple Chessboard_textual Cette section concerne l ex cution de l exemple Chessboard_textual du r pertoire DtmVic Examples_C_NumData EX_C03 Graphs Chessboard et la lecture des r sultats Nous sommes dans le cadre d une analyse textuelle similaire celui de l exemple qui vise d crire les r ponses une question ouverte dans une enqu te par sondage Exemple III 2 du chapitre III Voir Benz cri 1973 L analyse des donn es Tome II B chapitre 10 Sur l analyse de la correspondance d finie par un graphe pp 244 261 VI 3 Descriptions de Graphes 189 Horiz axis 1 ertic axis 2 Yisualization Graphics 3 z la xi SAVE 1 Axis ZOOM COLOUR FONT Density HELP Return sf Figure VI 3 Cas de l analyse en composantes principales Plan factoriel principal pour le graphe Damier avec trac du graphe
226. vec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour VI 3 6 Ex cution de l exemple France_map Dossier Geography Cette section est identique la section VI 3 3 Ex cution de l exemple Chessboard_Textual Le graphique est maintenant une sch matisation d une carte de France pr sent e comme une suite de r ponses la question ouverte Quelles sont vos d partements voisins les personnes interrog es tant les d partements fran ais Ain Ain Isere Jura Phone mi ek Te oa aee EVENE ALSE Aisne Ardennes Marne Hord e NS ENTRE NN ETES CNE Allier Allier Cher Creuse lowes Nilewite Pun cle Dems mus Seine Extrait du fichier de donn es textuelles France_Text txt trois premiers d partements L homologue du dossier Chessboard_Textual est France_map tandis que les homologues des trois fichiers Chessboard_textual_7x7 txt 194 VI Autres analyses avec Dtm Vic Chessboard_Extern_7x7 txt et Chessboard textual Param txt sont respectivement les trois fichiers France Text txt France extern txt et France Param txt Plan factoriel principal pour le graphe France avec trac du graphe initial apr s changement de police bouton Font et changement de couleur bouton Colour Le signe des axes arbitraire peut tre chang pour retrouver l orientation initiale VI 3 7 Ex cution de l exemple Japan_ map Dossier Geography Cette se
227. want bootstrap validation E Enter fA Bootstrap options Partial default Total Continue gt Cliquez sur yes pour la proc dure bootstrap indiquez le nombre de r plications par d faut 25 puis Enter Si le bootstrap n est pas adopt cliquez sur no gt Cliquez sur la fen tre Create a parameter file appara t de nouveau gt Cliquez sur 2 Create a first parameter file Un fichier de commande parameter file vient d tre cr sous le nom param_VISUTEX txt et stock dans le dossier EX_A04 Text Poems du r pertoire DtmVic Examples_ A Start Pour le conserver en vue d analyses ult rieures il faudra le renommer F Create a parameter file for the sequence of processing Vitex 2 Create a first parameter file Execute Return to Main Menu Return The command file Le parameter file entitled param_VISUTEX i Default Name of the created command file param_VISUTEX tat will provide a id coding of the texts list of words Comments symbol ae with their frequencies together with a correspondence Continuation symbol analysis of of lexical table words x texts with possible Dummy line e g title ARS immediately after each line STEP bootstrap confidence areas for points Characteristic words and lines for each text will LISTF NO LISTP yes Global Parameters be provided To obtain these results Click on Execute Or Return to the main menu of Dtmvic Select the file p
228. xe Cliquez sur pour sortir de cet outil PE man ne Su Tee aries mee Active variables Suppl Categories Individuals observations g _ View Identifier axis 1 axis 2 ans 3 EHER 55 high 6 afd ord 452 55rlow 305 111 r 14 55 medium 114 elf z FI 30 High 337 nr 219 39 0low 101 209 F foo 30 medium 208 149 193 29 30 557high 296 104 266 148 30 5510 39 115 150 le 30 55 medium 131 TF7 fd 23 children church Coordonn es des variables nominales comfortable 70 actives Coordonn es des mots observations 2 Plans factoriels gt Cliquez sur HAI PlaneView Une fen tre s affiche proposant diff rentes visualisations de plans factoriels gt Choisir la rubrique Actives columns variables rows observations adapt e a cette analyse En effet elle concerne des lignes et des colonnes de la table lexicale Apparait alors une fen tre pour s lectionner le plan factoriel suivant la paire d axes souhait e Choisir les axes 1 er 2 puis cliquez sur display Le plan factoriel appara t On peut galement choisir ce menu par l interm diaire de PLANEVIEW with moveable tags qui reprend certaines des rubriques pr c dentes et permet de d placer les points superpos s pour rendre plus lisible le graphique 111 2 Analyse textuelle de questions ouvertes 101 Save More g acts Man menu Sign of axes Zoom Font Ranks Axes colo MELP which wellare mind son church
229. xemple http netpbm sourceforge net doc pgm html 198 VI Autres analyses avec Dtm Vic VI 4 2 Analyse pour la compression d images gt Cliquez sur le bouton SVD and CA of images dans la rubrique DtmVic Images du menu principal SVD and CA of images Une fen tre appara t dont la partie sup rieure est repr sent e ci dessous AL Reconstitution of some small images Number of axes Help C 1 axis Open Greyscaleimage Visualization read formatted ttt file 3 axes Image Greyscale Image Colour read pgm format C 5 axes 7 axes axes read ppm_format 7 9 axes 10 axes 12 axes e 4 Correspondence Analysis 14 exes Singular Values Decomposition SVD after partition 16 axes C 18 exes 20 axes 25 exes 30 axes C 35 exes SVD on Log C 40 axes 50 axes Discrete Fourier transform 100 axes Description de la fen tre Reconstitution of some small images Sur la gauche figurent en colonne trois boutons rouge fonc correspondant aux trois formats de fichiers images d crits au paragraphe pr c dent format simple de niveaux de gris format pgm de niveaux de gris format ppm couleur Puis plus bas cinq boutons bleus correspondant aux cing m thodes de compressions choisies Analyse des correspondances SVD D composition aux valeurs singuli res Analyse VI 4 Reconstitution d images 199 apr
230. xt puis par l analyse en composantes principales fichier de commande Chessboard PCA Param txt afin de proc der une comparaison La comparaison n est pas favorable l analyse en composantes principales dans ce cas particulier a 2 Un fichier de donn es externes Chessboard_Extern 7x7 txt Toujours dans le r pertoire Chessboard_numerical le fichier Chessboard_ Extern_7x7 txt est un autre codage possible du graphe Chessboard qualifi d externe car il est diff rent du format interne g n ral de Dtm Vic Il donne pour chaque sommet ligne les num ros des sommets contigus La premi re ligne contient le nombre de sommets 49 puis la longueur des identificateurs 4 et le degr maximum du graphe borne sup rieure du nombre d ar tes adjacentes un seul sommet 10 Notez que chaque ligne de nombres se termine avec la valeur conventionnelle O indicateur de fin de ligne pour ce format Ce format sp cifique tr s compact peut conduire directement une description du graphe dans le sous menu contigu t de DtmVic a 3 Un fichier de donn es textuelles Chessboard_ textual_7x7 txt Le fichier Chessboard textual 7x7 txt dans le sous sous r pertoire Chessboard_textual contient les m mes informations de base sous une forme tout fait distincte le format est celui des r ponses une question ouverte Chaque sommet du graphe est consid r comme une personne interrog e r pondant la question ouverte fi
231. y ds help g ig Mess s me should wire aver A Wd amii y ue d general freedom her mth ohe 4 gattir vig l isur j 5 i ecurity mind welfare which Zones de confiance pour quelques points mots et points cat gories Commentaires Nous pouvons voir que individuellement quelques mots n ont aucune position significative everything et anything par exemple Dans cet affichage nous apprenons par exemple que presque tous les groupes d age ducation points colonne ont des profils lexicaux distincts si l on excepte les cat gories 30 low moins de 30 ans de bas niveau de l ducation et 30 medium moins de 30 ans niveau moyen d ducation dont les zones de confiance se recouvrent en grande partie 111 2 Analyse textuelle de questions ouvertes 103 4 ClusterView Dans le cas d ANALEX il ne s agit pas des r sultats d une classification mais des cat gories de la variable active Cette option positionne les 9 cat gories de la variable 14 educ age sur le plan factoriel et fournit les mots et textes caract ristiques pour chacune de ces cat gories gt Cliquez sur Fal ClusterView Choisissez les axes 1 et 2 pour commencer et Continue La fen tre du plan factoriel s affiche Cliquez sur View La localisation des 9 classes apparaissent sur le plan factoriel gt Actionnez dans un premier temps le bouton du bandeau Puis en cliquant droit sur une cat gor
232. y Variable D placements numerical A_pied numerical 1 Sexe 2 categories En_Yoiture numerical 2 AGE 3 categories Fr quentation_Media numerical 3 Activit 2 categories Autres_activites numerical 4 Education 3 categories Tot_Domicile numerical 38 Radio numerical Tot_D placement numerical Television numerical Tot_hors_Domicile numerical Presse numerical 3 Tot Media numerical Quot_nat numerical 8 Radio numerical Quot_reg numerical Television numerical Magazines numerical D Presse numerical Mag_TY numerical Quot_nat numerical 2 Quot_reg numerical Magazines numerical Mag TY numerical gt Cliquez sur 4 1 Une fen tre Selecting observations appara t Etape 4 S lection des observations individus Trois cas de figure sont possibles Consid rer l ensemble des observations e S lectionner les observations sur une liste e S lectionner les observations par un filtre SPSS OR ES SSP SEE y a a Selecting observations individuals rows CETERAN AREARE All the observations will be active individuals or rows of the data file lf you choose to select a subset of active observations you can either select them manually from a list of observations identifiers or define a logical filter involving other variables of the data file The observations will be selected from a list 30 Il Donn es num riques Nous prenons en compte ici l ensemble des obse

Download Pdf Manuals

image

Related Search

Related Contents

INSTALLATION OPERATION MAINTENANCE  Nilfisk-ALTO X34SW User's Manual  JBL-AquaCristal-Handbuch 2008  (2010年12月) (PDF:2.5MB) - 工学部  AEG 49176V-MN cooker    カタログ  MAINTENANCE INTERVALS - Safety  

Copyright © All rights reserved.
Failed to retrieve file