Home

Manuel d`Utilisation - Université Sorbonne Nouvelle

image

Contents

1. QOOGO000000 00000000080 0000800000 8800000000 8000000000 0000000080 0000000008 0000000000 0008800000 0000000000 0000000000 0800080000 OO000000008 0080000000 0000000000 2088000000 O000000000 0000000000 0000000800 0000000000 goo000000000 0000080000 0000000000 je passe en revue tous ceux qui sont rest s fid les au peuple et ceux qui l ont trahi parmi les d serteurs de la sans culotterie je ne vois que des riches croupis dans tous les lt Epg 4 gt vices que des ambitieux des intrigants des voleurs Ki Les des escrocs des joueurs des hommes de loi des accapareurs tous les inutiles tous les chefs de 1 esp ce humaine mais foutre en retournant m daille en examinant le c t des sans culottes qu y rencontre t on 7 des p res de Occurrence 4 famille de bons artisans des ouvriers le soutien de tat qui dans leur mis re b nissent la r volution et la soutiennent de tout leur pouvoir dont les enfants combattent pour la libert et versent leur sang pour la pat
2. Options Ce bouton permet de fixer des seuils lors du traitement 31 LEXICO 3 de gros corpus il permet aussi d indiquer si le corpus trait a t pr alablement tiquet Aide L aide en ligne Aide g n rale Le fichier d aide de Lexico3 peut tre consult tout moment partir de la console en cliquant sur l ic ne Aide Aide contextuelle Lors de l ex cution des modules l utilisateur peut faire apparaitre une aide contextuelle en rapport avec le traitement en cours en cliquant sur le bouton Aide dans la boite de dialogue active Glossaire La d finition de quelques notions de base en statistique textuelle est reprise dans l aide en ligne Editeur Pour visualiser un texte ou vos r sultats partir de Lexico 3 cliquez sur l ic ne Editeur et partir de l ic ne Ouvrir s lectionnez votre document 3 32 LEXICO 3 Quitter Avant de quitter Lexico3 v rifiez que vous avez sauvegard vos donn es dans le rapport Pour quitter Lexico3 cliquez sur l ic ne 33 LEXICO 3 V Astuces Navigation S lectionner Glisser On s lectionne une ou plusieurs forme s clic gauche de la souris avec majuscule ou contr le activ suivant le nombre de parties s lectionn comportement windows habituel et on glisse les mots On peut ensuite r it rer les op rations de glissement de formes dans la fen tre droite via la souris Plein cran Pour visualise la fen
3. des intrigants des voleurs des escrocs des joueurs des hommes de loi des accapareurs tous les inutiles tous les chefs de esp ce humaine mais foutre en retournant la m daille en examinant le c t des sans culottes qu y rencontre t on 2 des p res de famille de bons artisans des ouvriers le soutien de tat qui dans leur mis re b nissent la r volution et la soutiennent de tout leur pouvoir dont les enfants combattent pour la libert et versent leur sang pour la patrie est que l que je vois des hommes et de v ritables r publicains ce n est pas pour avoir des places ni pour s enrichir qu ils pers v rent leur unique ambition est d tre libres et de pouvoir se dire en eux m mes nul n est au dessus de moi personne n est au dessous de moi Vous pouvez vous d placer l int rieur de texte soit par section les carr s non color s soit par occurrence les carr s color s Pour ajouter les cartes au rapport cliquer sur Section 28 LEXICO 3 Groupe de formes Il est possible d effectuer des requ tes sur plusieurs formes la fois en basant les requ tes sur des pr fixes des suffixes des expressions r guli res type egrep grep ou des suites des caract res graphiques 1 Mise en uvre Entrez le nom du groupe de formes Entrez la forme que vous d sirez rechercher Cliquez sur rechercher L objet r sultant peut ensuite
4. faire la conduite de grenoble a tous les talons rouges quand je disais du soir au matin que tous les ci devant ne cesseraient de nous trahir n avais je pas raison foutre je me suis toujours plus d fi des nobles convertis que des migr s c est pour nous frapper de plus pr s que ces gredins sont rest s au milieu de nous ils ont fait les chiens couchants pour mieux nous tromper jamais foutre ils ont cess de entendre avec les ennemis du dehors ce sont eux qui nous ont mis chien et chat qui ont brouill les cartes dans les trois assembl es nationales et corrompu les repr sentants du peuple si nous avions eu assez d estoc pour les envoyer tous coblentz au commencement de LEXICO 3 r volution nous n aurions pas achet notre libert par des flots de sang nous aurions depuis longtemps une constitution la paix et le bonheur r gneraient dans notre r publique dans le fond de mon coeur j ai toujours d test philippe d orl ans je le regardais comme un hypocrite qui t t ou tard nous lt Epg 3 gt tournerait casaque mais comme cet inf me sc l rat servait notre cause en prodigant son or pour donner des croc en jambes louis le tra tre je pensais comme tous les patriotes qu il fallait s en servir comme d une chemise que l on quitte quand elle est sale ne le redoutais pas car il est trop vil et trop m prisable pour croire que jamais les sans culottes pourraient se donner un p
5. tre manipul comme une forme normale en cliquant sur la fl che rouge du groupe clic gauche maintenu on glisse le groupe sur la carte de la partition cf image Si vous effectuez une nouvelle recherche vos r sultats se concat nent aux pr c dents 29 LEXICO 3 Eh amp Mosa que En cliquant sur cette ic ne vous r organisez plusieurs applications fen tres sur la m me feuille 7 Cr er une nouvelle feuille Pour viter la superposition des diff rentes applications en cours vous pouvez cr er de nouvelles feuilles en cliquant sur l ic ne Les feuilles de travail s empilent sur la droite de la fen tre principale Les onglets Feuille n 1 permettent de passer de l une l autre D placer vers une autre feuille Pour d placer une application vers une nouvelle feuille s lectionnez la cliquez sur l ic ne et s lectionnez la feuille d sir e Nouvelle feuille gt Feuille 2 Feuille 3 Feuille 4 Ajouter au rapport 30 LEXICO 3 Toutes les fen tres produites au cours d une exploration textuelle peuvent tre int gr es dans un rapport au format HTML Pour sauvegarder l application en cours cliquez sur ajouter au rapport et dans l onglet rapport cliquez sur enregistrer Le r pertoire Rapport se cr e automatiquement il contient le fichier Rapport html o vous trouverez sous forme de liens hypertexte toutes les donn es sauvegard es Figure 15 Rapport html
6. D ou viennent les fr quences de vocabulaire Mots N 1 p 189 212 Van Rijckevorsel J 1987 The application of fuzzy coding and horseshoes in multiple correspondances analysis DSWO Press Leyde Warnesson IL Parisot P Bedecarrax C Huot C 1993 Traitements linguistiques et analyse des donn es pour une exploitation syst matique des banques de donn es Revue Frangaise de bibliom trie i 21 Weil G E Salem A Serfaty M 1976 Le livre d Isate et l analyse critique des sources textuelles Revue R E L O LASLA N 2 Li ge Yule G U 1944 The Statistical Study of Literary Vocabulary Cambridge University Press Reprinted in 1968 by Archon Books Hamden Connecticut 48 LEXICO 3 Zipf G K 1935 The Psychobiology of Language an Introduction to Dynamic Philology Boston Houghton Mifflin 49
7. Duchesne de H bert juillet 1793 mars 1794 Histoire amp Mesure Vol I n 3 4 Guiraud P 1954 Les caract res statistiques du vocabulaire P U F Paris Guiraud P 1960 Probl mes et m thodes de la statistique linguistique P U F Paris Guttman L 1941 The quantification of a class of attributes a theory and method of a scale construction in The prediction of personal adjustment P Horst ed SSCR New York p 251 264 Habert B Tournier M 1987 La tradition chr tienne du syndicalisme fran ais aux prises avec le temps Evolution compar e des r solutions conf d rales 1945 1985 Mots n 14 Labb D 1990 Le vocabulaire de Fran ois Mitterrand Presses de la Fond Nat des Sciences Politiques Paris Labb D 1983 Fran ois Mitterrand Essai sur le discours La pens e sauvage Grenoble Labb D 1990 Normes de d pouillement et proc dures d analyse des textes politiques Grenoble Labb D Thoiron P Serant D Ed 1988 Etudes sur la richesse et la structure lexicales Slatkine Champion Paris Gen ve 46 LEXICO 3 Lafon P 1980 Sur la variabilit de la fr quence des formes dans un corpus Mots 1 p 127 165 Lafon P 1951 Analyse lexicom trique et recherche des cooccurrences Mots N 3 p 95 148 Lafon P 1981 D pouillements et statistiques en lexicom trie Slatkine Champion 1984 Paris Lafon P Salem A 1983 L Inventai
8. avons accus s les hommes du 14 juillet et du 10 _____________ ou tard un million d hommes r unis prendrait la ch vVous permet de choisir comb ii les reprochent des hommes purs qui dans leur vie avant et aj 5 beaux esprits et des hommes d tat avait fait perdre la conventio we vous avez accus les hommes du 10 ao t d tre des dilapidateurs Figure 11 Largeur du contexte 24 LEXICO 3 2 Le fichier de sortie Le fichier concl html est un fichier html ou sont enregistr s successivement toutes les requ tes effectu es lors de la derni re session d utilisation de Concordances 25 LEXICO 3 SS Carte des paragraphes On peut cr er une carte des sections la segmentation se fait partir des d limiteurs s lectionn s paragraphes point Cr ation de sections D limiteurs disponibles X Figure 12 D limiteurs disponibles Carte des paragraphes des mots du dictionnaire S lectionner la forme dictionnaire que vous d sirez faire appara tre sur la carte des sections puis glisser la sur la carte clic gauche maintenu du segment vers le graphique 26 LEXICO 3 IR 3 zl DOC 0808800000 8000000000 0080000008 0800000000 0000000000 O008000000 0000000000 0000000000 GOEB0008000 OO200000008 150
9. lt partie 2 gt Paragraphes Le d coupage du corpus peut aussi se faire selon l ordre des paragraphes Dans ce cas on codera chaque paragraphe en ajoutant LEXICO 3 devant celui ci un caract re r serv cet effet et d clar dans la liste des d limiteurs par exemple 8 2 Tutoriel Text 1 Dans cet extrait du corpus Text1 txt plusieurs types de codage mis en vidence pour notre exemple par une fonte plus grande la clef Epg distingue 3 parties qui rendent compte de la pagination de l dition originale du P re Duchesne le caract re paragraphe distingue 4 paragraphes le caract re permet d identifier des lettres l origine en majuscules Tableau 2 1 Exemple de codage de corpus lt Sda 1793 gt 8012220 80320 lt Epg 1 gt lt Sat 0 gt la grande col re du p re duchesne de voir que les mouchards de la fayette et tous les fripons soudoy s par la liste civile veulent r tablir les compagnies de grenadiers et de chasseurs pour gorger les sans culottes et les chasser des assembl es de section ses bons avis aux lurons des faubourgs pour ou ils arrachent les moustaches postiches ces grenadiers de la vierge marie qui veulent r tablir la royaut lt S03 1 gt millions de tonnerre nous ne mettrons donc jamais les fripons a la raison ils lt Epg 2 gt ont laiss tomber leurs masques et nous les voyons nu serons nous encore dupes des fripons quand je voulais
10. tableau de fr quences ou de tableau crois tableau dont les lignes et les colonnes repr sentent respectivement les modalit s de deux questions ou deux variables nominales et dont le terme g n ral repr sente le nombre d individus correspondant chaque couple de modalit s tableau lexical entier TLE tableau double entr e dont les lignes sont constitu es par les ventilations des diff rentes formes dans les parties du corpus Le terme g n rique k ij du TLE est gal au nombre de fois que la forme i est attest e dans la partie j du corpus Les lignes du TLE sont tri es selon l ordre lexicom trique des formes correspondantes tableau des segments r p t s TSR tableau double entr e dont les lignes sont constitu es par les ventilations des segments r p t s dans les parties du corpus Les lignes du TSR sont tri es selon l ordre lexicom trique des segments i e longueur d croissante fr quence d croissante ordre lexicographique tableau lexical tableau double entr e r sultant du TLE par suppression de certaines lignes par exemple celles qui 42 LEXICO 3 correspondent des formes dont la fr quence est inf rieure un seuil donn taille sa d un corpus sa longueur mesur e en occurrences de formes simples terme sr nom g n rique s appliquant la fois aux formes et aux polyformes Dans le premier cas on parlera de termes de longueur 1 Les polyformes sont des term
11. tout segment suite d occurrences cons cutives non s par es par un d limiteur de s quence contenant cette occurrence 44 LEXICO 3 R f rences bibliographiques B cue M 1988 Characteristic repeated segments and chains in textual data analysis COMPSTAT 8th Symposium on Computational Statistics Physica Verlag Vienna Becue M Peiro 1993 Les quasi segments pour une classification automatique des r ponses ouvertes in Actes des 2ndes Journ es Internationales d analyse des donn es textuelles Montpellier ENST Paris p 310 325 Benzecri J P 1977 Analyse discriminante et analyse factorielle Les Cahiers de l Analyse des Donn es n 4 p 369 406 Benz cri J P amp coll 1973 La taxinomie Vol I L analyse des correspondances Vol II Dunod Paris Benz cri J P 1982 Histoire et pr histoire de l analyse des donn es Dunod Paris Benz cri J P amp coll 1981a Pratique de l analyse des donn es tome 3 Linguistique amp Lexicologie Dunod Paris Benz cri J P 1991a Typologies de textes grecs d apr s les occurrences des formes des mots outil Les Cahiers de l Analyse des Donn es XVI n 1 p 61 86 Benz cri J P 1992 Correspondence Analysis Handbook Transl T K Gopalan Marcel Dekker New York Bernet C 1983 Le vocabulaire des trag dies de Jean Racine Analyse statistique Slatkine Champion Gen ve 1983 Bolasco S 1992 Sur diff rentes st
12. un ensemble de traces qui manifestent l acte par lequel un auteur a produit ce texte facteur ac ou acm variables artificielles construites par les techniques d analyse factorielle permettant de r sumer de d crire bri vement les variables actives initiales forme sa ou forme graphique arch type correspondant aux occurrences identiques dans un corpus de textes c est dire aux occurrences compos es strictement des m mes caract res non d limiteurs d occurrence 37 LEXICO 3 forme banale sp pour une partie du corpus donn e forme ne pr sentant aucune sp cificit ni positive ni n gative dans cette partie forme caract ristique d une partie synonyme de sp cificit positive forme commune forme attest e dans chacune des parties du corpus forme originale pour une partie du corpus forme trouvant toutes ses occurrences dans cette seule partie fr quence sa d une unit textuelle le nombre de ses occurrences dans le corpus fr quence d un segment sr ou d une polyforme le nombre des occurrences de ce segment dans l ensemble du corpus fr quence maximale sa fr quence de la forme la plus fr quente du corpus en francais le plus souvent la pr position de fr quence relative sa la fr quence d une unit textuelle dans le corpus ou dans l une de ses parties rapport e la taille du corpus resp de cette partie gamme des fr quences sa suite not e Vk des e
13. LEXICO 3 Outils de statistiques textuels Manuel d Utilisation Equipe CLA2T Cette nouvelle version de Lexico3 a t r alis e par C dric Lamalle et Andr Salem Manuel provisoire tabli par Aude Maisondieu et Andr a Kuncova ILPGA Universit Paris 3 Sorbonne Nouvelle 19 rue des Bernardins 75005 Paris France http www cavi univ paris3 fr ilpga ilpga tal lexicoWWW lexico msh paris fr LEXICO 3 Table des Mati res I Installation II Menu principal III Pr paration du texte IV Outils de l utilisateur Segmentation Ouverture d une base Statistique par partie Segments r p t s Concordances Carte de paragraphes Groupe de formes Mosaique Cr er une nouvelle feuille D placer vers une autre feuille Ajouter au rapport Options Aide Editeur Quitter V Astuces Glossaire pour la statistique textuelle R f rences bibliographiques LEXICO 3 I Installation 1 Avertissement Cette version de Lexico3 est en test Nous vous demandons de signaler les ventuelles anomalies Lexico2 ILPGA 19 rue des Bernardins 75005 Paris France Joignez votre envoi le corpus de texte sur lequel vous aurez constat des dysfonctionnements ainsi que le fichier atrace txt cr au moment de l exploitation dans le r pertoire o se trouve le corpus analys Configuration requise Configuration minimale Windows 3 1 Processeur 386 4Mo de m moire vive 3 Mo libres sur le disque du
14. S LEXICOZ INI Fichier C LEXICO2 TRAVAIL DUCH TXT ouvert pour segmentation Fichier xxxx txn ouvert D limiteurs 7 001 nbf 11016 nhap 5079 nbclez 8 nbctnu 143 Tri lexicom de 11016 formes Fin Travail Dictionnaire Fichier Dict DUCH dic Fin EcriDicNum 11178 articles Fichier Texte DUCH num 192083 items Fichier Param DUCH par FIN DE LA SEGMENTATION ND Ouverture d une base En cliquant sur cette ic ne vous avez la possibilit d ouvrir des textes d j segment s il s agit des fichiers avec l extension par 15 LEXICO 3 Note Vous pouvez galement ouvrir un texte d j segment en le glissant sur l ic ne de Lexico3 Statistique par partie Pour comparer les variations dans l usage du vocabulaire entre les diff rentes parties du corpus on utilise le module Statistique par parties qui op re une s rie de calculs statistiques Le corpus aura t pr alablement trait par le module Segmentation 1 Mise en uvre du programme Cliquer sur l ic ne Statistique par partie une boite de dialogue apparait Elle vous permet de r gler les param tres de la partition Choix de la partition Epg numero Sat quinzaine Sda semaine edito mois Annuler Figure 4 Choix de la partition 16 LEXICO 3 S lectionner la forme dictionnaire que vous d sirez faire appara tre dans le graphe puis glisser la sur le graphe Figure 5 Grap
15. areil roi je me doutais bien foutre qu au premier faux pas que le capon ferait il se casserait le col un vi dase qui s tait cach au fond de cale au combat d ouessant ne pouvait jamais devenir un chef de parti LEXICO 3 IV Outils de l utilisateur Segmentation EE 1 La segmentation automatique Le module segmentation cr e une base de donn es textuelles partir d un corpus fourni par l utilisateur sous forme de fichier texte 2 Mise en oeuvre Depuis la console cliquez sur l ic ne du module Nouvelle base Segmentation Le programme vous propose de choisir un fichier texte dans un r pertoire selon les proc dures habituelles de Windows Segmentation choix du fchier texte aTe o SY a Hack 18911 To tet Hl dico pa W Text tet dico tet tenting bt DI Duch td H D gabgeg Kl Gabigagou td 4 Figure 1 Dialogue de s lection de fichier texte S ccavaez w vui pus a oe genie qui vor vunigauwiuviaeuc uu texte de type txt 10 LEXICO 3 Une bo te de dialogue appara t alors qui vous permet de r gler les param tres de la segmentation Choix des d limiteurs de forme x D limiteurs Figure 2 Dialogue de s lection des param tres de segmentation Vous pouvez ventuellement modifier la liste de d limiteurs de forme ce qui aura une incidence sur le d coupage des formes graphiques Lancez ensuite la segmentat
16. au menu d roulant tri avant apr s aucun Regroupement vous permet d effectuer des concordances par partition A 23 LEXICO 3 Largeur Vous pouvez choisir le nombre de caract res espaces inclus qui doivent appara tre avant et apr s chaque p le Pour le modifier apr s une premi re recherche changer la largeur et cliquer sur rafraichir Figure5 Lancez l ex cution de la requ te en appuyant sur entr e Il est possible d effectuer des requ tes sur plusieurs formes la fois Pour visualiser les diff rentes formes il suffit de cliquer sur les bouton Pr c dent et Suivant Pr c dent Sons BE hommes Tii Avent Regroupemen ts des vils goistes dont les autres ait un culte sanguinaire il apprit aux r de boufaille qu aux ouvriers et aux utiles et e d une demie douzaine de mangeurs d hommes appel s r ne que soixante et tant de mangeurs d hommes avaient occ caus la mort de plus d un million d hommes qui avait e a fait gorger plus d un million d hommes pendant qi a fait gorger plus d un million d hommes vous qui nt t pargn plus d un million d hommes de moins au it bien que t t ou tard un million d hommes r unis pren ct t et Figure 10 Boite de dialogue Concordances Forme hommes Tri aucun sl Regroupement lt Aucun gt DN Largeur Longueur du contexte a
17. dans le corpus segmentaire sr ensemble des termes attest s dans le corpus segmentation op ration qui consiste d limiter des unit s minimales dans un texte segmentation automatique ensemble d op rations r alis es au moyen de proc dures informatis es qui aboutissent d couper selon des r gles pr d finies un texte stock sur un support lisible par un ordinateur en unit s distinctes que l on appelle des unit s minimales s parateurs de phrases sa sous ensemble des caract res d limiteurs de s quence correspondant aux seules ponctuations fortes en g n ral le point le point d interrogation le point d exclamation s quence sa suite d occurrences du texte non s par es par un d limiteur de s quence seuil stat quantit arbitrairement fix e au d but d une exp rience visant s lectionner parmi un grand nombre de r sultats ceux pour lesquels les valeurs d un indice num rique d passent ce seuil de fr quence en probabilit etc sous fr quence sa d une unit textuelle dans une partie tranche etc nombre des occurrences de cette unit dans la seule partie resp tranche etc du corpus sous segments sr pour un segment donn tous les segments de longueur inf rieure et compris dans ce segment sont des sous segments ex AB et BC sont deux sous segments du segment ABC sp cificit chronologique sp sp cificit portant sur un groupe connexe de parti
18. de lignes de contexte se rapportant une m me forme p le contribution absolue ou contribution ac contribution apport e par un l ment au facteur Pour un facteur donn la somme des contributions sur les l ments de chacun des ensembles mis en correspondance est gale 100 contribution relative ou cosinus carr ac contribution apport e par le facteur un l ment Pour un l ment donn la somme des contributions relatives sur l ensemble des facteurs est gale 1 cooccurrence sa une pr sence simultan e mais non forc ment contigu dans un fragment de texte s quence phrase paragraphe voisinage d une occurrence partie du corpus etc des occurrences de deux formes donn es corpus ling ensemble limit des l ments nonc s sur lesquels se base l tude d un ph nom ne linguistique lexicom trie ensemble de textes r unis des fins de comparaison servant de base une tude quantitative d limiteurs de s quence sa sous ensemble des caract res d limiteurs de forme correspondant aux ponctuations faibles et fortes en g n ral le point le point d interrogation le point d exclamation la virgule le point virgule les deux points les guillemets les tirets et les parenth ses 36 LEXICO 3 dendrogramme cla repr sentation graphique d un arbre de classification hi rarchique mettant en vidence l inclusion progressive des classes discours la
19. e 27 834a 13 LEXICO 3 28 2632 29 1 abandonnant 30 4 abandonne 31 10 abandonn 32 1 abandonn es 33 3 abandonnent lt Le fichier corpus dic contient le dictionnaire des formes class s par fr quence un enregistrement pour chaque forme Tableau 3 8 Extrait du dictionnaire num ris frq rang lex forme 6130 2703 de 4749 6033 les 4298 5909 la 3773 4216 et i Ga ase 1 10809 voudrai 1 10817 vouer 259 10859 198 10860 49 10861 6 C 766 10873 96 10874 801 Cs 2 97 10882 01 1 10883 02 Le fichier corpus num contient le texte num ris c est dire sous une forme cod e o articles occurrences ponctuations et autres l ments du corpus sont r p rtori s de fa on compacte Ce fichier usage strictement interne ne peut tre consult avec un diteur de texte 14 LEXICO 3 Le fichier atrace txt contient un rapport d taill des op rations effectu es par le programme m moire allou e param tres pris en compte fichiers lus et crits cas d chec du traitement ce fichier peut fournir des indications permettant de situer la cause du probl me Tableau 3 9 Extrait du fichier de trace atrace txt kKCOMPTE RENDU DE LA SEGMENTATION Fichier C LEXICO2 TRAVAIL DUCH TXT ouvert pour v rification MAXART Maximum d articles trait s 50000 Allocation de 4687K Fichier d initialisation C LEXICO2T TEXTE
20. e du PCF 1934 1936 Klincksieck Paris Petruszewycz M 1973 L histoire de la loi d Estoup Zipf Math Sciences Hum n 44 47 LEXICO 3 Reinert M 1990 Alceste Une m thodologie d analyse des donn es textuelles et une Application Aur lia de G rard de Nerval Bull de M thod Sociol n 26 p 24 54 Romeu L 1992 Approche du discours ditorial de Ya et Arriba 1939 1945 Th se Paris 3 Salem 1984 La typologie des segments r p t s dans un corpus fond e sur l analyse d un tableau croisant mots et textes Les Cahiers de l Analyse des Donn es Vol IX n 4 p 489 500 Salem A 1986 Segments r p t s et analyse statistique des donn es textuelles Etude quantitative propos du p re Duchesne de H bert Histoire amp Mesure Vol 1 n 2 Paris Ed du CNRS Salem A 1987 Pratique des segments r p t s Essai de satistique textuelle Klincksieck Paris Salem A 1993 M thodes de la statistique textuelle Th se d Etat Universit Sorbonne Nouvelle Paris 3 Sekhraoui M 1951 La saisie des textes et le traitement des mots Probl mes pos s essai de solution M moire Ecole des hautes tudes en sciences sociales Paris Tournier M 1985a Sur quoi pouvons nous compter Hommage H l ne Nais Verbum Tournier M 1955b Texte propagandiste et cooccurrences Hypoth ses et m thodes pour l tude de la sloganisation Mots N 11 p 155 187 Tournier M 1980
21. e typographique utilis pour l encodage du texte sur un support lisible par l ordinateur caract res d limiteurs non d limiteurs sa distinction op r e sur l ensemble des caract res qui entrent dans la composition du texte permettant aux proc dures informatis es de segmenter le texte en occurrences suite de caract res non d limiteurs born e ses extr mit s par des caract res d limiteurs On distingue parmi les caract res d limiteurs les caract res d limiteurs d occurrence encore appel s d limiteurs de forme qui sont en g n ral le blanc les signes de 35 LEXICO 3 ponctuation usuels les signes de pr analyse ventuellement contenus dans le texte les caract res d limiteurs de s quence sous ensemble des d limiteurs d occurrence correspondant en g n ral aux ponctuations faibles et fortes contenues dans la police des caract res les caract res s parateurs de phrase sous ensemble des d limiteurs de s quence qui correspondent en g n ral aux seules ponctuations fortes classification stat technique statistique permettant de regrouper des individus ou observations entre lesquels a t d finie une distance classification hi rarchique 1 technique particuli re de classification produisant par agglom ration progressive des classes ayant la propri t d tre pour deux quelconques d entre elles soit disjointes soit incluses concordance sa l ensemble
22. enregistr sous la forme d un fichier de texte seul txt On carte les fichiers de type document doc et autres formats cr s par traitement de texte car ceux ci int grent au d but de l enregistrement un en t te renfermant diverses informations sur la mise en forme notamment Dans une tude lexicom trique qui s int resse principalement aux formes aux phrases et leur ventilation ces donn es sur la mise en page sont superficielles et qui plus est elles peuvent tre une source d erreurs lors de la segmentation Probl mes de codage Traitement des majuscules apostrophes On choisit de saisir le texte en minuscules pour permettre un classement plus juste dans les listes paradigmatiques En effet si l on maintient les majuscules le module de segmentation distinguera la forme simple il et la forme Il en d but de phrase ce qui fausserait les fr quences d apparition Toutefois ces conversions ne sont pas sans risque puisqu elles peuvent introduire des ambig it s dans les listes qui associeront alors certains noms propres et noms communs homographes par exemple une barre et Raymond Barre On peut d sambig iser ces formes en accollant au nom propre un signe de distinction par LEXICO 3 exemple barre Toutefois ce signe ne doit alors pas figurer dans la liste des d limiteurs Ponctuations d limiteurs Afin que le programme d analyse LEXICO3 puisse reconna tre les formes du corpus que l on segmente
23. es d un corpus muni d une partition longitudinale 41 LEXICO 3 sp cificit positive sp pour un seuil de sp cificit fix une forme 1 et une partie j donn es la forme i est dite sp cifique positive de la partie j ou forme caract ristique de cette partie si sa sous fr quence est anormalement lev e dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou sup rieures la sous fr quence constat e est inf rieure au seuil fix au d part sp cificit n gative sp pour un seuil de sp cificit fix une forme i et une partie j donn es la forme i est dite sp cifique n gative de la partie j si sa sous fr quence est anormalement faible dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou inf rieures la sous fr quence constat e est inf rieure au seuil fix au d part stock distributionnel du vocabulaire d un fragment de texte le vocabulaire de ce fragment assorti de comptages de fr quence pour chacune des formes entrant dans sa composition syntagmatique sa qui concerne le regroupement des unit s textuelles selon leur ordre de succession dans la cha ne crite syntagme ling groupe de mots en s quence formant une unit l int rieur de la phrase tableau de contingence stat synonyme de
24. es de formes dont la fr quence est sup rieure a 2 dans le corpus 1 Mise en uvre du programme Pour cr er la liste des segments r p t s cliquez sur l ic ne une bo te de dialogue appara t vous pouvez param trer le calcul des segments r p t s cf figure 5 Vous avez la possibilit de choisir les d limiteurs de s quence et la partition Vous pouvez fixer une fr quence minimum en dessous duquel les formes et les segments ne seront pas retenue Ce seuil est par d faut fix 10 Ensuite cliquez sur OK 21 LEXICO 3 Figure 8 Param trage du calcul de segments r p t s La liste des segments r p t s appara t dans la partie gauche de la fen tre vous pouvez la consulter en cliquant sur l onglet Segments r p t s cf figure 6 Navigation Rapport Dictionnaire Sp cits Part Sm Sp cifs Part Sat Segments r p t s Segments r p t s de bordeaux de brissot 5 de coblentz 5 de cobourg de custine de dumounez de lyon et de lyon de more de marseille de de paris de pat de sans de bien de bonne de bons is boutique des lignes de Context permet un retour au amp Figure 9 Liste des segments r p t s forme qui permet de 1 fr quemment autour du poie ro ro ro P P 6 h P fo fo L l ensemble 22 LEXICO 3 occasion d tre utile un homme a
25. es de longueur 2 3 etc termes contraints termes libres Un terme S1 est contraint dans un autre terme 52 de longueur sup rieure si toutes ses occurrences sont des sous segments de segments correspondant des occurrences du segment S2 Si au contraire un terme poss de plusieurs expansions distinctes qui ne sont pas forc ment r currentes c est un terme libre unit s minimales pour un type de segmentation unit s que l on ne d compose pas en unit s plus petites pouvant entrer dans leur composition ex dans la segmentation en formes graphiques les formes ne sont pas d compos es en fonction des caract res qui les composent valeur modale stat valeur pour laquelle une distribution atteint son maximum valeurs propres ac ou acm quantit s permettant de juger de l importance des facteurs successifs de la d composition factorielle La valeur propre not e la mesure la dispersion des l ments sur l axe a valeurs tests ac ou acm quantit s permettant d appr cier la signification de la position d un l ment suppl mentaire ou ilustratif sur une axe factoriel Bri vement si une valeur test d passe 2 en valeur absolue il y a 95 chances sur 100 que la position de l l ment correspondant ne puisse tre due au hasard variables actives variables utilis es pour dresser une typologie soit par analyse factorielle soit par classification Les typologies d pendent du choix et des poids des variables act
26. ffectifs correspondant aux formes de fr quence k lorsque k varie de 1 la fr quence maximale hapax gr hapax legomenon chose dite une seule fois sa forme dont la fr quence est gale un dans le corpus hapax du corpus ou dans une de ses parties hapax de la partie identification stat ling sa reconnaissance d un seul et m me l ment travers ses multiples emplois dans des contextes et dans des situations diff rentes index sa liste imprim e constitu e partir d une r organisation des formes et des occurrences d un texte ayant pour base la forme graphique et permettant de regouper les r f rences relatives l ensemble des occurrences d une m me forme index alphab tique sa index dans lequel les formes p les sont class es selon l ordre lexicographique celui des dictionnaires index hi rarchique sa index dans lequel les formes p les sont class es selon l ordre lexicom trique index par parties ensemble d index hi rarchiques ou alphab tiques r alis s s par ment pour chaque partie d un corpus lemmatisation regroupement sous une forme canonique en g n ral partir d un dictionnaire des occurrences du texte En 38 LEXICO 3 fran ais ce regroupement se pratique en g n ral de la mani re suivante les formes verbales l infinitif _ les substantifs au singulier _ les adjectifs au masculin singulier E les formes lid es la forme sans li
27. hique 17 LEXICO 3 Principales caract ristiques de la partition Principales caract ristiques de la partition Sat 0 Hapax Fmax 1 9731 2433 1590 401 de WI Sp cifs FC Figure 6 Caract ristiques de la partition Sp cificit L analyse des sp cificit s Ce fichier spf indique la ventilation des formes dans les parties et adjoint aux fr quences remarquables un indice de sp cificit Ce dernier s interpr te comme suit d abord le signe ou qui indique un sur emploi ou un sous emploi Param trage du calcul des sp cificit s Seuil de probabilit Fr quence minimale wv OK X Annuler 18 LEXICO 3 Sp cifs Part Sat Corpus de r f rence 0 1 Patties s lectionn es 0 a Sp cificit s C positives h gatives mon 54 13 15 tu 61 19 13 m 69 26 11 je 233 128 11 me 93 39 11 ma A4 13 10 moi 44 14 9 te 29 7 8 vous 346 217 7 ai 47 21 6 72 36 6 comme 127 75 5 dit 38 18 A mes 22 8 A donc 42 24 3 duchesne 55 31 3 ne 325 219 3 98 62 3 t 25 12 3 faut 88 54 3 50 29 3 lui 106 70 2 Figure 7 Sp cificit s A la suite de cet index par formes vient un index des sp cificit s duch spf par partie o l on retrouve class es les sp cificit s positives et n gatives L indice d originalit ast risque indique que la forme n est pr sente q
28. iodisation sa regroupement des parties naturelles du corpus respectant l ordre chronologique d criture d dition ou de parution des textes r unis dans le corpus phrase sa fragment de texte compris entre deux s parateurs de phrase polyforme sr arch type des occurrences d un segment suite de formes non s par es par un s parateur de s quence qui n est pas obligatoirement attest e dans le corpus ponctuation Syst me de signes servant indiquer les divisions d un texte et noter certains rapports syntaxiques et ou conditions d nonciation sa caract re ou suite de caract res correspondant un signe de ponctuation pourcentages d inertie ac ou acm quantit s proportionnelles aux valeurs propres dont la somme est gale 100 Not es ta 40 LEXICO 3 profil stat et ac d une ligne ou d une colonne d un tableau double entr e vecteur constitu par le rapport des effectifs contenus sur cette ligne resp colonne la somme des effectifs que contient la ligne resp la colonne r partition sa des occurrences d une forme dans les parties du corpus nombre des parties du corpus dans lesquelles cette forme est attest e segment sr toute suite d occurrences cons cutives dans le corpus et non s par es par un s parateur de s quence est un segment du texte segment r p t sr ou polyforme r p t e suite de forme dont la fr quence est sup rieure ou gale 2
29. ion en cliquant sur le bouton OK V rification des cl s tape au cours de laquelle le programme v rifie la conformit du corpus d entr e aux normes d crites plus haut Ce module signale notamment les cl s erron es lt S01 chirac espace dans le type ou le contenu de cl S 01 2 chi rac balise de fermeture isol e La vie est belle lt S01balladur gt absence de contenu de cl absence de type de cl Figure 3 Dialogue d avertissement d erreur de codage de cl 11 LEXICO 3 Lerico3 ES Probl me dans les clefs Fnnsultez arare tet Des informations plus d taill es des erreurs sont fournies par le fichier de compte rendu atrace txt qui indique de plus le num ro de la ligne incrimin e Tableau 3 4 Compte rendu de la segmentation k k COMPTE RENDU DE LA SEGMENTATION Fichier C LEXICO3T TEXTES DUCH TXT ouvert pour v rification L 2 Cl incorrecte espace dans contenu lt Sda 17 93 gt L 94 Cl incorrecte pas de contenu lt Epg gt L 5709 Cl incorrecte Mauvais emplacement de balise de fermeture L 5845 Cl incorrecte espace dans type lt Ep g 3 gt L13277 Cl incorrecte lt S02 330 lt L13496 Cl incorrecte pas d lt Epg8 gt L indique la ligne fautive Segmentation du texte Lorsque les lignes fautives ont t corrig es on relance le programme comme indiqu plus haut S il n y a plus d erreurs une jauge permet de suivre la progressio
30. ives qui doivent de ce fait constituer un ensemble homog ne variables suppl mentaires ou illustratives variables utilis es a posteriori pour illustrer des plans factoriels ou des classes Une variable suppl mentaire peut tre consid r e comme une variable active munie d un poids nul 43 LEXICO 3 variables de type T variable dont la fr quence est peu pr s proportionnelle l allongement du texte ex la fr quence maximale variables de type V variable dont l accroissement a tendance diminuer avec l allongement du texte ex le nombre des formes le nombre des hapax ventilation sa des occurrences d une unit dans les parties du corpus La suite des n nombres n nombre de parties du corpus constitu e par la succession des sous fr quences de cette unit dans chacune des parties prises dans l ordre des parties vocabulaire sa ensemble des formes attest es dans un corpus de textes vocabulaire commun sa l ensemble des formes attest es dans chacune des parties du corpus vocabulaire de base sp ensemble des formes du corpus ne pr sentant pour un seuil fix aucune sp cificit n gative ou positive dans aucune des parties i e l ensemble des formes qui sont banales pour chacune des parties du corpus vocabulaire original sa pour une partie du corpus l ensemble des formes originales pour cette partie voisinage d une occurrence sa pour une occurrence donn e du texte
31. n de la segmentation du texte Cr ation tri et enregistrement des dictionnaires Ces tapes permettent de constituer la liste des formes pr sentes dans le corpus et pour chacune de ces formes de calculer le nombre de ses occurrences ainsi que son rang alphab tique 12 LEXICO 3 A l issue de la segmentation une boite de dialogue informe de la fin normale de l op ration 3 Fichiers de sortie Plusieurs fichiers sont cr s et enregistr s sur disque dur dans le m me r pertoire que le texte source Le fichier corpus par contient les principaux d comptes effectu s par le programme formes occurrences etc ainsi que le rappel des caract res d limiteurs choisis lors de la segmentation Tableau 3 6 Exemple fichier param tres Lexico2 1 PC DUCH nbetiq 0 196125 196125 11023 142185 10859 6130 4953 5000000 14 8 143 0 0 rz R sultat de la segmentation du fichier DUCH TXT D limiteurs 27 j V O 08 nombre des occurrences 142185 nombre des formes 10859 frequence maximale 6130 nombre des hapax 4953 nombre des cl s type 8 nombre des cl s ctnu 143 Ein de la segmentation du fichier DUCH TXT Le fichier corpus alp contient un index des formes graphiques class s par ordre alphab tique Il n est cr que si vous avez coch la case Index Alphab tique dans la boite de dialogue du module Segmentation Tableau 3 7 Extrait de l index alphab tique frq form
32. ngue La langue est un ensemble virtuel qui ne peut tre appr hend que dans son actualisation orale ou crite discours est un terme commode qui recouvre les deux domaines de cette actualisation distance du chi 2 distance entre profils de fr quence utilis e en analyse des correspondances et dans certains algorithmes de classification ditions de contextes sa ditions de type concordanciel dans lesquelles les occurrences d une forme sont accompagn es d un fragment de contexte pouvant contenir plusieurs lignes de texte autour de la forme p le La longueur de ce contexte est d finie en nombre d occurrences avant et apr s chaque occurrence de la forme p le l ments d un segment sr chacune des formes correspondant aux occurrences qui entrent dans sa composition ex B C sont respectivement les premier deuxi me et troisi me l ments du segment ABC l ments actifs ac ou acm ensemble des l ments servant de base au calcul des axes factoriels des valeurs propres relatives ces axes et des coordonn es factorielles l ments suppl mentaires ou illustratifs ac ou acm ensemble des l ments ne participant pas aux calculs des axes factoriels pour lesquels on calcule des coordonn es factorielles qui auraient t affect es une forme ayant la m me r partition dans le corpus mais participant l analyse avec un poids n gligeable nonc nonciation ling l int rieur du texte
33. on affecte un statut chaque signe pr sent dans le texte On distinguera d une part les d limiteurs ul 4 0 ainsi que l espace Cette liste est donn e titre indicative et peut tre modifi e D autre part sont appel s non d limiteurs tous les caract res restants contenus dans la police a b c Toute suite de caract res non d limiteurs born e ses deux extr mit s par des d limiteurs est consid r e comme une occurrence une forme relever et classer Cl s On rencontre dans un texte un certain nombre de d limitations inh rentes telles que des d limitations chronologiques des d limitations marquant un changement d auteur ou encore indiquant la s quence des parties les chapitres d un livre Au cours d une tude lexicom trique on cherchera souvent comparer les fr quences du vocabulaire dans une partie par rapport une autre en modifiant les d coupages du corpus Pour que ces comparaisons s effectuent efficacement le texte doit comporter des balises informatives indiquant ces d limitations logiques sous une forme cod e compr hensible par la machine Cette m ta information doit figurer dans le fichier sans cependant risquer d influer sur les comptages statistiques On introduit donc ces diverses marques sous formes de cl s isol es du corpus par les chevrons lt et gt Ces cl s peuvent tre alpha num riques En voici un exemple lt auteur c sar gt
34. r Configuration conseill e Windows 3 1 ou 3 11 ou Windows 95 486 DX2 8Mo de m moire vive 3 Mo libres sur le disque dur Lexico2 fonctionne sous Windows 95 et Windows NT 3 51 et 4 0 Nous conseillons vivement de regrouper programme et corpus sur le disque dur 2 Installer le logiciel Pour installer LEXICO3 a Ins rer le CD ROM dans votre lecteur p LEXICO 3 Ex cuter le fichier SETUP EXE qui se trouve sur ce CD ROM Laissez vous guider par le programme d installation Le message Lexico3 a t install signale la fin de l installation Saodar sjuouigog op II suondo enbresoJA e oAnou oun 1991 e stzva 5 BOG lt E L mss aseq oun p IMAN jioddei ne 1o3nofy oun SIOA Jooe doq epry SouLioJ op odnour onbnsueijg Soouepioouo uonejueuisos oseq edrourid nu I ODIXTI LEXICO 3 III Pr paration du texte 1 Normes d enregistrement La norme basse L analyse statistique d un texte se base sur l unit textuelle qu est la forme pour estimer ses occurrences d limiter les s quences de mots o elle apparait et comparer ses fr quences dans une partie donn e du corpus par rapport une ou plusieurs autres Pour rendre possible et fiable cette segmentation il est n cessaire de d finir des normes de saisie qui assurent la coh rence du texte et de son codage Le texte doit tre
35. rat gie dans une analyse des formes textuelles Une exp rimentation partir de donn es d enqu te Jornades Internacionals d Analisi de Dades Textuals UPC Barcelona p 69 88 Bonnafous S 1991 L immigration prise aux mots Les immigr s dans la presse au tournant des ann es quatre vingt Kim Paris Brunet E 1981 Le vocabulaire fran ais de 1789 nos jours d apr s les donn es du Tr sor de la langue fran aise Slatkine Champion Gen ve Paris Demonet M Geffroy A Gouaze J Lafon P Mouillaud M Tournier M 1975 Des tracts en Mai 68 Mesures de 45 LEXICO 3 vocabulaire et de contenu Armand Colin et Presses de la Fondation Nat des Sc Pol Paris Dendien J 1986 La Base de donn es de l Institut National de la Langue Fran aise Actes du colloque international CNRS Nice juin 1985 2 vol Slatkine Champion Gen ve Paris Geffroy A Lafon P Tournier M 1974 L indexation minimale Plaidoyer pour une non lemmatisation Colloque sur l analyse des corpus linguistiques Probl mes et m thodes de l indexation minimale Strasbourg 21 23 mai 1973 Gobin C Deroubaix J 1987 Du progr s de la r forme de l Etat de l aust rit D clarations gouvernementales en Belgique Mots n 15 p 137 170 Guilbaud G Th 1980 Zipf et les fr quences Mots N 1 p 97 126 Guilhaumou J 1986 L historien du discours et la lexicom trie Etude d une s rie chronologique Le p re
36. re des segments r p t s d un texte Mots N 6 p 161 177 Lafon P Salem A Tournier M 1985 Lexicom trie et associations syntagmatiques Analyse des segments r p t s et des cooccurrences appliqu e un corpus de textes syndicaux Colloque de l ALLC Metz 1983 Slatkine Champion Gen ve Paris p 59 72 Lebart L 1969 L Analyse statistique de la contigu t Publications de l ISUP XVIII p 81 112 Lebart L 1982b L Analyse statistique des r ponses libres dans les enqu tes socio conomiques Consommation n 1 Dunod p 39 62 Lebart L Salem A 1988 Analyse statistique des donn es textuelles Dunod Paris Lebart L Salem A Berry E 1991 Recent development in the statistical processing of textual data Applied Stoch Model and Data Analysis 7 p 47 62 Menard N 1983 Mesure de la richesse lexicale th orie et v rifications exp rimentales Slatkine Champion Paris Muller C 1964 Essai de statistique lexicale L illusion comique de P Corneille Klincksieck Paris Muller C 1968 Initiation la statistique linguistique Larousse Paris Muller C 1977 Principes et m thodes de statistique lexicale Hachette Paris Muller C 1967 Etude de statistique lexicale Le vocabulaire du th tre de Pierre Corneille Paris Larousse P cheux M 1969 Analyse automatique du discours Dunod Paris Peschanski D 1988 Et pourtant ils tournent Vocabulaire et strat gi
37. rie ce n est que l que je i vois des hommes et de v ritables r publicains ce n est pas pour avoir des places ni pour enrichir qu ils pers v rent leur unique ambition est d tre libres et de pouvoir se dire en eux m mes nul n est au dessus de moi personne n est au dessous de moi S Section Carte de groupe de mots segments r p t s Apr s avoir activ le bouton Segments r p t s Lexico produit un dictionnaire des segments dans la partie gauche On peut manipuler les formes contenues dans le dictionnaire et par exemple les faire glisser sur la carte clic gauche maintenu du segment vers le graphique Partitions sections et retour au texte le texte g om trie variable On peut visualiser le texte via la carte des sections section s lectionn e au pr alable via le d coupage des partitions initialement int gr dans le codage du corpus et le texte lui m me fen tre du bas 27 LEXICO 3 Semaine 111 oo080000000 aagagaagaadaguu semaine 112 OB0B800000 0000080000 nanan semaine 121 00000 50 OB8O00000880 2228200 semaine 122 opo oOo80000088 08808 semaine 2 1 00000 100 0000800 gt passe en revue tous ceux qui sont rest s fid les au peuple et ceux qui l ont trahi parmi les d serteurs de la sans culotterie je vois que des riches croupis dans tous les lt Epg 4 gt vices que des ambitieux
38. rme graphique sont d partag es par un tri lexicographique sur la seconde etc ordre lexicom trique sa _ pour les formes graphiques 39 LEXICO 3 ordre r sultant d un tri des formes du corpus par ordre de fr quences d croissantes les formes de m me fr quence sont class es par ordre lexicographique _ pour les polyformes ordre r sultant d un tri par ordre de longueur d croissante des segments les segments de m me longueur sont d partag s par leur fr quence les segments ayant m me longueur et m me fr quence par l ordre lexicographique paradigme ling ensemble des termes qui peuvent figurer en un point de la cha ne parl e paradigmatique sa qui concerne le regroupement en s rie des unit s textuelles ind pendamment de leur ordre de succession dans la cha ne crite partie d un corpus de textes fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces derni res partition d un corpus de textes division d un corpus en parties constitu es par des fragments de texte cons cutifs n ayant pas d intersection commune et dont la r union est gale au corpus d un ensemble d un chantillon division d un ensemble d individus ou d observations en classes disjointes dont la r union est gale l ensemble tout entier partition longitudinale sa partition d un corpus en fonction d une variable qui d finit un ordre sur l ensemble des parties p r
39. sion lexical ling qui concerne le lexique ou le vocabulaire lexicom trie ensemble de m thodes permettant d op rer des r organisations formelles de la s quence textuelle et des analyses statistiques portant sur le vocabulaire d un corpus de textes lexique ling ensemble virtuel des mots d une langue longueur sa d un corpus d une partie de ce corpus d un fragment de texte d une tranche d un segment etc le nombre des occurrences contenues dans ce corpus resp partie fragment etc Synonyme de taille On note T la longueur du corpus t j celle de la partie ou tranche num ro j du corpus longueur d un segment sr le nombre des occurrences entrant dans la composition de ce segment occurrence sa suite de caract res non d limiteurs born e ses extr mit s par deux caract res d limiteurs de forme ordre lexicographique _ pour les formes graphiques l ordre selon lequel les formes sont class es dans un dictionnaire NB Les lettres comportant des signes diacris s sont class es au m me niveau que les m mes caract res non diacris s le signe diacritique n intervenant que dans les cas d homographie compl te Dans les dictionnaires on trouve par exemple rang es dans cet ordre les formes mais mais maison ma tre _ pour les polyformes ordre r sultant d un tri des polyformes par ordre lexicographique sur la premi re composante les polyformes commen ant par une m me fo
40. tre de droit en plein cran cliquez sur la fl che rouge situ e entre les fen tres gauche et droite Dictionnaire Pour la lecture du dictionnaire vous pouvez choisir entre l ordre lexicom trique ou l ordre lexicographique 34 LEXICO 3 Glossaire pour la statistique textuelle NB Les ast risques renvoient une entr e de ce m me glossaire Les abr viations qui suivent entre parenth ses pr cisent le domaine auquel s applique plus particuli rement la d finition Abr viations ac Analyse factorielle des correspondances acm Analyse des correspondances multiples cla Classification sp M thode des Sp cificit s sr Analyse des segments r p t s ling Linguistique stat Statistique sa Segmentation automatique accroissement sp cifique sp sp cificit calcul e pour une partie d un corpus par rapport une partie ant rieure analyse factorielle stat famille de m thodes statistiques d analyse multidimensionnelle s appliquant des tableaux de nombres qui visent extraire des facteurs r sumant approximativement par quelques s ries de nombres l ensemble des informations contenues dans le tableau de d part analyse des correspondances stat m thode d analyse factorielle s appliquant l tude de tableaux double entr e compos s de nombres positifs L AC est caract ris e par l emploi d une distance ou m trique particuli re dite distance du chi 2 ou c2 caract re sa sign
41. ue dans la partie courante Sp cificit s sur une partie donn e par rapport l ensemble On s lectionne une ou plusieurs partie s clic gauche de la souris avec majuscule ou contr le activ suivant le nombre de parties s lectionn comportement windows habituel et on lance les 19 LEXICO 3 sp cificit s On peut ensuite r it rer les op rations de glissement de mots sur la carte des sections via la souris AFC _ Sp cifs Part semaine n 2 hommes 2 encore 256 0 4 faut 265 0 af 22 m 208 0 1 donc 206 0 F2 bien 228 0 1 toutes 320 a bal y 324 0 1 tout 368 0 1 279 0 4 tu 296 0 AT 2 na contre 298 0 4 vos 154 0 4 bons 154 0 ga api s 154 H 11 150 0 E toujours 153 0 1 ceux 153 0 1 p Ea avait 177 0 1 aA 202 0 1 aussi 204 0 ENE iSO Fa dit 163 0 21 t te 172 0 af ele 368 0 je 0 1 vous 1097 0 1 du 1118 0 i 22 au 677 0 1 se mo oo A era is 798 0 1 que 2436 0 1 3773 a 111 de 6130 0 1 d 1274 0 4 i 1825 0 1 qi 2073 1 culottes 411 1 ez CAH Sp ch ev 20 LEXICO 3 2 Le fichier de sortie Le fichier est un fichier par o sont enregistr s successivement toutes les requ tes effectu es lors de la derni re session d utilisation 5 p Segments r p t s Les segments r p t s sont des suit
42. ussi int ressant quel est votre nsi donc au lieu d tre un homme sanguinaire quand je faisais ant de fois accus d tre un homme f roce tait le meilleur des maladie de 1 adoration un homme tel qu il soit n est plus il soit n est plus qu un homme nos yeux tant qu il va droit S coups re ois nos regrets homme pur et courageux longtemps nous Tableau Extrait d une concordance autour de la forme p le homme dans le corpus Duchesne Les tris Les diff rents contextes relatifs une m me forme peuvent tre ordonn s de trois mani res diff rentes Le tri de ces contextes peut tre effectu en fonction de l occurrence qui pr c de la forme p le tri avant l occurrence qui suit la forme p le tri apr s l ordre dans lequel les occurrences de la forme p le apparaissent dans le texte Le module Contextes permet de lancer plusieurs requ tes documentaires cons cutives partir d une base de donn es textuelles cr e par le module Segmentation 1 Mise en oeuvre Cliquer sur l ic ne Concordance une boite de dialogue apparait Soit entrez la forme dont vous souhaitez tudier les contextes dans la zone d dition forme pivot ex homme Soit s lectionner la forme dictionnaire ou le segment r p t segments r p t s dont vous souhaitez tudier les contextes puis glisser le dans la fen tre de droite Pr cisez l ordre de tri des contextes gr ce

Download Pdf Manuals

image

Related Search

Related Contents

FLM-3201 User Guide  YM - Snow Bike User Manual (R08.16.2011) - LoRes  graphisme + illustration  Philips SHAVER 3000 PowerTouch PT711  Gusto 120 Oven Assembly and Operation Manual  USBOCE-RL78-1-B 取扱説明書  重要 【結線方法】 施工説明書 警 告 安全に関するご注意  ABSORB 350™ Installation Manual  User`s Manual for National Dermatology Registry (DermReg) Web  Metodología de Optimización de Secuencia de Intervenciones a  

Copyright © All rights reserved.
Failed to retrieve file