Home

Manuel Lexico 3 - TAL - Université Sorbonne Nouvelle

image

Contents

1. Figure 3 6 Le param trage de l AFC On lance l analyse en cliquant sur le bouton OK Les parties du corpus apparaissent sur le plan des deux premiers axes factoriels extraits par l analyse On peut obtenir d autres visualisations en s lectionnant d autres axes bo tes situ es au dessus du graphique factoriel Les diff rents plans factoriels permettent une estimation des proximit s calcul es entre les diff rentes parties s lectionn es en fonction de leur vocabulaire On peut r it rer l analyse en en cartant certaines parties clic droit les parties cart es du corpus apparaissent alors avec des rayures grises On peut s lectionner clic gauche directement sur la carte produite une partie ou un groupe de parties Les contours des parties s lectionn es apparaissent alors en surbrillance Cette s lection permet par exemple de calculer des sp cificit s sur un groupe de parties 10 On trouvera un expos complet sur cette m thode par exemple dans L amp S p 135 26 02 03 LEXICO3 33 Figure 3 7 Graphe AFC Axe horizontal fr D Axe vertical E Le pinceau et la bo te de couleurs situ s droite du graphique permettent d associer une couleur un ensemble de parties L outil fl che permet de passer nouveau en mode de s lection Le dernier groupe de boutons permet de naviguer parmi les r sultats de l analyse e VP permet de consulter l histogramme des valeurs propres
2. 7 Figure 2 1 S lection d un fichier texte S lectionner le fichier qui contient le corpus segmenter Duchn txt Une bo te de dialogue appara t qui permet de r gler les param tres de la segmentation l aide des d limiteurs cf 1 Pr paration du texte Choix des d limiteurs de forme EN Figure 2 2 Bo te de s lection des param tres de segmentation Rappel Il est possible de modifier cette liste des d limiteurs Lancer ensuite la segmentation en cliquant sur le bouton OK V rification des cl s Le programme v rifie la conformit du corpus d entr e aux normes d crites plus haut Ce module signale notamment les cl s mal cod es espace dans le type ou le lt S 01 Ag la gt contenu de cl 26 02 03 LEXICO3 15 balise de fermeture isol e elle est lt belle absence de contenu de cl absence de type de cl Probl me dans les clefs Consultez atrace tst Figure 2 3 Avertissement d erreur de codage de cl Des informations plus d taill es sur les erreurs sont fournies par le fichier de compte rendu atrace txt dans le m me dossier que le fichier texte qui indique galement le num ro de la ligne incrimin e Les erreurs apparaissent alors comme ci dessous Tableau 2 1 Compte rendu de la segmentation Lxxx indique la ligne fautive XX XX XCOMPTE RENDU DE LA SEGMENTATION Fichier C LEXICO3T TEXTES DUCH TXT ouvert pour v rification L
3. int gr s qui facilitent la recherche de tels ensembles de formes Localisation des particularit s lexicom triques La caract risation des diff rentes parties d un corpus par les formes qu elles emploient abondamment est rendue plus pr cise dans la pr sente version par la possibilit de mettre en vidence des sections du texte dans lesquelles telle particularit de r partition est particuli rement remarquable La mat rialisation de ces sections sur des diagrammes repr sentant le texte permet de dresser une v ritable topographie textuelle LEXICO3 5 Pour en savoir plus En ce qui concerne les modifications les correction des erreurs les mises jour la source principale est le site Lexico3 de l quipe SYLED CLA2T l universit de la Sorbonne nouvelle Paris3 http Wwww cavi univ paris3 fr ilpga ilpga tal lexico WWW On trouve sur ce site les versions ant rieures de Lexico LexicoI Macintosh Lexico2 PC ainsi que divers documents t l chargeables parmi lesquels le pr sent manuel Une bibliographie g n rale est donn e en annexe Les renvois l ouvrage Lebart Ludovic Salem Andr Statistique textuelle Dunod Paris 1994 sont not s L amp S p xxx D veloppements venir Certaines proc dures couramment utilis es dans les recherches lexicom triques n ont pu tre int gr es dans la pr sente version C est le cas par exemple pour la Classification Ascendante Hi rarchique CAH ainsi que
4. s imposer pour le stockage des corpus textuels Cependant les corpus r unis pour l analyse lexicom trique sont encore constitu s de documents provenant de sources diff rentes souvent stock s sous des formats variables Pour viter de mettre en vidence des variations entre les textes qui renvoient des m thodes de stockages diff rentes il est utile de soumettre les textes un travail de normalisation minimal Plusieurs logiciels dont MKCorpus fourni sur le CD ROM prennent en charge une partie du n cessaire travail d homog n isation L analyse lexicom trique tudie la r partition dans les textes d unit s complexes emmes segments r p t s cooccurrences types g n ralis s Cependant une segmentation en formes graphiques constitue une premi re tape n cessaire qui permet tout la fois d obtenir une premi re estimation des principales caract ristiques lexicom triques du corpus nombre d occurrences de formes d hapax fr quence maximale de r aliser les premi res typologies sur les parties du corpus de localiser les erreurs qui subsistent apr s les premi res corrections Pour r aliser cette segmentation en formes graphiques il faut d finir des normes Dans le cas de Lexico3 ces normes sont particuli rement simples Le texte doit tre enregistr sous la forme d un fichier texte seulement GU D limiteurs non d limiteurs Dans le corpus soumis aux traitements lexicom t
5. 1967 Etude de statistique lexicale Le vocabulaire du th tre de Pierre Corneille Paris Larousse P cheux M 1969 Analyse automatique du discours Dunod Paris Peschanski D 1988 Et pourtant ils tournent Vocabulaire et strat gie du PCF 1934 1936 Klincksieck Paris Petruszewycz M 1973 L histoire de la loi d Estoup Zipf Math Sciences Hum n 44 Pierrel J M 2000 Ing nierie des langues Trait IC2 S rie informatique et SI Hermes Reinert M 1990 Alceste Une m thodologie d analyse des donn es textuelles et une Application Aur lia de G rard de Nerval Bull de M thod Sociol n 26 p 24 54 Romeu L 1992 Approche du discours ditorial de Ya et Arriba 1939 1945 Th se Paris 3 Salem A 1984 La typologie des segments r p t s dans un corpus fond e sur l analyse d un tableau croisant mots et textes Les Cahiers de l Analyse des Donn es Vol IX n 4 p 489 500 Salem A 1986 Segments r p t s et analyse statistique des donn es textuelles Etude quantitative propos du p re Duchesne de H bert Histoire amp Mesure Vol I n 2 Paris Ed du CNRS Salem A 1987 Pratique des segments r p t s Essai de satistique textuelle Klincksieck Paris Salem A 1993 M thodes de la statistique textuelle Th se d Etat Universit Sorbonne Nouvelle Paris 3 Sekhraoui M 1981 La saisie des textes et le traitement des mots Probl mes pos s essai de soluti
6. cf L amp S p197 et Salem 93 Accroissements sp cifiques Pour une partie s lectionn e le bouton SpEvol permet de calculer les sp cificit s ou accroissements sp cifiques de cette partie par rapport l ensemble des p riodes pr c dentes en excluant momentan ment du corpus les p riodes post rieures Le r sultat de ces calculs est fourni sous la forme d un tableau de sp cificit s identique celui pr sent la Figure 3 5 NB La partie n gative des accroissements sp cifiques met en vidence des unit s textuelles qui ont tendance tre sous utilis es dans la p riode consid r e par rapport aux p riodes qui pr c dent 26 02 03 LEXICO3 32 3 4 Analyse Factorielle des Correspondances AFC Le bouton AFC permet de r aliser une analyse factorielle des correspondances sur l ensemble des parties du corpus l exclusion de celles qui ont t cart es par suppression de la coche rouge La fen tre de param trage Figure 3 6 permet de fixer entre autres ems Le nombre des unit s textuelles prises en compte dans l analyse ep Le nombre des facteurs extraire NB Par d faut l analyse prend en compte les unit s dont la fr quence est sup rieure 10 La modification du seuil de fr quence minimale entra ne un nouveau calcul du nombre des unit s prises en compte Param trage de l AFC X Titre de l analyse Duchn mois Ni J1420 NJ fe NF E Ni fo ny2 fo Freg lin f 0 x Annuler
7. lectionn es 211 CA Sp cificit s C n gatives Terme FrgTot FrgP Sp ci 4 eg a S 3 Dans la premi re colonne on chaque 33 6 4 trouve les unit s sp cifiques class es par toi 98 10 4 ordre d croissant de sp cificit Les deux marcher 41 6 3 DEE 7 colonnes suivantes indiquent ann e 14 3 3 comment 33 5 3 respectivement la fr quence totale de la pendant 77 f 3 forme dans l ensemble du corpus et la millions 43 5 3 fr de la f d l ti pr sent 54 4 3 quence de la forme dans la partie savons 12 3 3 s lectionn e mile 35 6 3 Les boutons positives et n gatives de VOUS 1097 52 3 i EE See 47 E 3 l onglet des sp cificit s permettent d partement 14 3 3 d inverser l ordre de pr sentation de la liste gueule 12 3 3 a 4 Aie se Le T 5 3 qui s ouvre par d faut sur les sp cificit s aurons 21 4 3 positives ensuite 22 3 2 europe 22 3 z publique 23 3 2 ous 20 3 2 bled 16 3 2 canon 19 3 2 et 23 3 2 comit s 12 2 2 oeuvre 11 2 2 sal 11 2 2 moutons 11 2 2 noire 11 2 2 ruine 10 2 2 sucre 10 2 2 analais 10 SH Dpeuuiuites chronologiques Pour les s ries textuelles chronologiques s rie de textes produits par une m me source textuelle et r guli rement espac s dans le temps exemple Duchesne c t de l analyse des sp cificit s de chacune des parties du corpus l analyse des sp cificit s chronologiques met en vidence le vocabulaire particulier de p riodes plus larges form es de parties cons cutives
8. me et troisi me l ments du segment ABC l ments actifs ac ou acm ensemble des l ments servant de base au calcul des axes factoriels des valeurs propres relatives ces axes et des coordonn es factorielles l ments suppl mentaires ou illustratifs ac ou acm ensemble des l ments ne participant pas aux calculs des axes factoriels pour lesquels on calcule des coordonn es factorielles qui auraient t affect es une forme ayant la m me r partition dans le corpus mais participant l analyse avec un poids n gligeable nonc nonciation ling l int rieur du texte un ensemble de traces qui manifestent l acte par lequel un auteur a produit ce texte 26 02 03 LEXICO3 41 facteur ac ou acm variables artificielles construites par les techniques d analyse factorielle permettant de r sumer de d crire bri vement les variables actives initiales forme sa ou forme graphique arch type correspondant aux occurrences identiques dans un corpus de textes c est dire aux occurrences compos es strictement des m mes caract res non d limiteurs d occurrence forme banale sp pour une partie du corpus donn e forme ne pr sentant aucune sp cificit ni positive ni n gative dans cette partie forme caract ristique d une partie synonyme de sp cificit positive forme commune forme attest e dans chacune des parties du corpus forme originale pour une partie du corpus forme tr
9. n gation du contenu l de l ensemble de caract res 26 02 03 Application L expression m l peut repr senter mal mol L expression com e recherche coe comme commme L expression com e recherche comme commme L expression lt capital recherche capital capitale capitalisme L expression isme gt recherche syndicalime capitalisme L expression aeiou repr sente un des caract re de l ensemble des voyelles L expression a z repr sente un des caract res compris entre a et Z L expression aeiou repr sente des caract res qui ne sont pas ceux de l ensemble des voyelles LEXICO3 25 2 6 Le Garde Mots Le garde mots permet de m moriser formes segments TGens pour une utilisation ult rieure Pour stocker un TGen dans le garde mots il suffit de le faire glisser sur l ic ne du cube rouge cf glisser d poser supra Pour utiliser un TGen stock dans le garde mots on le glisse partir du cube rouge jusqu la fen tre de travail concordance ventilation des fr quences carte des sections etc dans laquelle il doit tre visualis 26 02 03 LEXICO3 26 26 02 03 LEXICO3 27 3 Outils d analyse statistique On a regroup dans ce chapitre plusieurs m thodes qui vont de la description statistique l mentaire comptages histogrammes etc divers types d analyse multidimensionnelle des donn es textuelles analyse factorielles des co
10. ph nom ne linguistique lexicom trie ensemble de textes r unis des fins de comparaison servant de base une tude quantitative d limiteurs de s quence sa sous ensemble des caract res d limiteurs de forme correspondant aux ponctuations faibles et fortes en g n ral le point le point d interrogation le point d exclamation la virgule le point virgule les deux points les guillemets les tirets et les parenth ses dendrogramme cla repr sentation graphique d un arbre de classification hi rarchique mettant en vidence l inclusion progressive des classes discours langue La langue est un ensemble virtuel qui ne peut tre appr hend que dans son actualisation orale ou crite discours est un terme commode qui recouvre les deux domaines de cette actualisation distance du chi 2 distance entre profils de fr quence utilis e en analyse des correspondances et dans certains algorithmes de classification ditions de contextes sa ditions de type concordanciel dans lesquelles les occurrences d une forme sont accompagn es d un fragment de contexte pouvant contenir plusieurs lignes de texte autour de la forme p le La longueur de ce contexte est d finie en nombre d occurrences avant et apr s chaque occurrence de la forme p le l ments d un segment sr chacune des formes correspondant aux occurrences qui entrent dans sa composition ex A B C sont respectivement les premier deuxi
11. chaque jour lui enl ve de nouveaux sujets partout o la constitution est connue les aristocrates ont le nez cass d j plusieurs communes du calvados l ont accept e d j plusieurs sections de bordeaux ont fait p lir les marchands de sucre en adoptant cet vangile de tous les peuples libres tous les bons citoyens en examinant cette constitution se disent lt Sat 1 gt voil pourtant l ouvrage de la montagne sans elle nous serions encore au premier chant de m tines puisqu elle a pu faire dans quinze jours ce que la convention n avait pu seulement esp rer dans neuf mois de travail il faut donc que cette montagne soit la fine fleur de la r publique les montagnards ne sont donc pas des voleurs de grand chemin puisqu ils font les lois les plus sages pour maintenir les propri t s ils ne sont donc pas des anarchistes des d sorganisateurs puisqu eux seuls veulent faire cesser l anarchie en tablissant le r gne de la loi nos fr res de paris avaient donc raison de d fendre cette sainte montagne c est tort que nous les avons accus s les hommes du 14 juillet et du 10 ao t ne pouvaient nous tromper lt Epg 3 gt encore une fois nous leur devons le salut de la r publique lt Sat 0 gt Figure 4 2 Ventilation dans les paragraphes de la forme hommes 4 2 Mieux utiliser les fen tres de travail Cr er une feuille de travail Pour viter un fractionnement trop important d
12. d coupent 1 3 Normes de d pouillement Pour proc der des d pouillements statistiques partir des textes ainsi stock s il faut d finir des normes d identification des unit s textuelles Comment identifier les occurrences d un m me type au fil du texte Plusieurs normes sont envisageables qui s appuient chacune sur des savoirs des pratiques des perspectives diff rentes e amp e d pouillement en formes graphiques identification automatique des occurrences d une m me cha nes de caract res est particuli rement facile d crire et mettre en uvre e e d pouillement en lemmes s appuie sur des ressources ext rieures dictionnaires de lemmes analyseurs syntaxiques ertains logiciels proposent galement le regroupement d occurrences qui peuvent tre rapport es une m me racine ou n gramme l aide de processus plus au moins automatis s Au del du simple d pouillement en formes graphiques Lexico3 permet de recenser diff rents types d unit s textuelles es segments r p t s suites de formes graphiques identiques attest es plusieurs fois dans le texte 26 02 03 LEXICO3 11 ees cooccurrences couples de formes pr sentes dans les m mes contextes phrase sections etc ees types g n ralis s ou Tgen s unit s de d pouillement d finies par l utilisateur l aide d outils lui permettant d effectuer automatiquement des regroupements d occurrences du texte ex les occurren
13. d entre eux au rang de d limiteur de section Ce pr codage permet d tudier ensuite la r partition des occurrences d une unit lexicom trique parmi les sections ainsi constitu es NB L insertion syst matique de caract res d limitant des sections peut tre r alis e en utilisant la fonction Remplacer d un traitement de texte 7 On changera ici syst matiquement les caract res retour chariot par la s quence retour chariot blanc caract re 26 02 03 LEXICO3 10 Cl s Balises Au cours d une tude lexicom trique on cherche comparer les fr quences des formes dans les diff rentes parties d un corpus Pour rendre possible ces comparaisons le texte doit comporter des balises indiquant les d limitations logiques du corpus Les parties d finies par l utilisateur peuvent tre chronologiques comme dans l exemple du P re Duchesne cf section 1 2 Prise en main rapide mais aussi th matiques Coder une cl Une cl ex lt Auteur Dupond gt se compose de 5 l ments 1 lt un chevron ouvrant 2 Auteur le type de la cl 3 le signe gal 4 Dupond le contenu de la cl 5 gt un chevron fermant Exemples lt Ann e 1998 gt lt Auteur Jean_de_la_Fontaine gt L insertion de cl s constitue une phase importante dans la pr paration du texte Les cl s introduites permettront ensuite l utilisateur d effectuer des comparaisons partir des parties du corpus qu elles
14. es du Tr sor de la langue fran aise Slatkine Champion Gen ve Paris Crochemore M Hancart C Lecroq T 2001 Algorithme du texte Vuibert Demonet M Geffroy A Gouaze J Lafon P Mouillaud M Tournier M 1975 Des tracts en Mai 68 Mesures de vocabulaire et de contenu Armand Colin et Presses de la Fondation Nat des Sc Pol Paris Dendien J 1986 La Base de donn es de l Institut National de la Langue Fran aise Actes du colloque international CNRS Nice juin 1985 2 vol Slatkine Champion Gen ve Paris Desgraupes B 2001 Introduction aux expressions r guli res Vuibert Geffroy A Lafon P Tournier M 1974 L indexation minimale Plaidoyer pour une non lemmatisation Colloque sur l analyse des corpus linguistiques Probl mes et m thodes de l indexation minimale Strasbourg 21 23 mai 1973 Gobin C Deroubaix J C 1987 Du progr s de la r forme de l Etat de l aust rit D clarations gouvernementales en Belgique Mots n 15 p 137 170 Guilbaud G Th 1980 Zipf et les fr quences Mots N 1 p 97 126 Guilhaumou J 1986 L historien du discours et la lexicom trie Etude d une s rie chronologique Le p re Duchesne de H bert juillet 1793 mars 1794 Histoire amp Mesure Vol I n 3 4 26 02 03 Guiraud P 1954 Les caract res statistiques du vocabulaire P U F Paris Guiraud P 1960 Probl mes et m thodes de la statistique linguistique P U F Paris G
15. fin de l installation LEXICO3 7 1 Les corpus de texte L analyse lexicom trique compare les d comptes r alis s partir du rep rage des occurrences d unit s lexicales formes segments types g n ralis s etc dans les diff rentes parties d un corpus de textes Cette introduction s ouvre sur des exemple l mentaires section 1 1 permettant d aborder rapidement le logiciel Les probl mes concernant la segmentation automatique sont pr sent s ensuite section 1 2 La section section 1 3 pr sente le cas d un corpus en grandeur r elle Prise en main rapide Les deux sections qui suivent s adressent aux utilisateurs d sireux d explorer rapidement les principales fonctionnalit s du logiciel Corpus d initiation auteurs txt A partir du fichier d initiation auteurs txt qui se trouve sur le CD on peut r aliser une partition en trois parties qui permettra ensuite d effectuer des comparaisons entre les textes rassembl s dans ce corpus Exemple de balisage d un corpus le fichier auteurs txt lt Auteur Nerval gt Il est un air pour qui je donnerais tout Rossini tout Mozart tout Weber lt Auteur Trenet gt Y a d la joie Bonjour bonjour les hirondelles Y a d la joie dans le ciel par dessus le toit lt Auteur Brassens gt La canne de Jeanne est morte au gui l an neuf elle avait fait la veille merveille un oeuf La cl Auteur permet ici de partager le corpus en trois parties qui se
16. fragment de texte correspondant aux divisions naturelles de ce corpus ou un regroupement de ces derni res partition d un corpus de textes division d un corpus en parties constitu es par des fragments de texte cons cutifs n ayant pas d intersection commune et dont la r union est gale au corpus d un ensemble d un chantillon division d un ensemble d individus ou d observations en classes disjointes dont la r union est gale l ensemble tout entier partition longitudinale sa partition d un corpus en fonction d une variable qui d finit un ordre sur l ensemble des parties 26 02 03 LEXICO3 43 p riodisation sa regroupement des parties naturelles du corpus respectant l ordre chronologique d criture d dition ou de parution des textes r unis dans le corpus phrase sa fragment de texte compris entre deux s parateurs de phrase polyforme sr arch type des occurrences d un segment suite de formes non s par es par un s parateur de s quence qui n est pas obligatoirement attest e dans le corpus ponctuation Syst me de signes servant indiquer les divisions d un texte et noter certains rapports syntaxiques et ou conditions d nonciation sa caract re ou suite de caract res correspondant un signe de ponctuation pourcentages d inertie ac ou acm quantit s proportionnelles aux valeurs propres dont la somme est gale 100 Not es ta profil stat et ac d une ligne o
17. index hi rarchique sa index dans lequel les formes p les sont class es selon l ordre lexicom trique index par parties ensemble d index hi rarchiques ou alphab tiques r alis s s par ment pour chaque partie d un corpus lemmatisation regroupement sous une forme canonique en g n ral partir d un dictionnaire des occurrences du texte En fran ais ce regroupement se pratique en g n ral de la mani re suivante les formes verbales l infinitif les substantifs au singulier les adjectifs au masculin singulier les formes lid es la forme sans lision lexical ling qui concerne le lexique ou le vocabulaire 26 02 03 LEXICO3 42 lexicom trie ensemble de m thodes permettant d op rer des r organisations formelles de la s quence textuelle et des analyses statistiques portant sur le vocabulaire d un corpus de textes lexique ling ensemble virtuel des mots d une langue longueur sa d un corpus d une partie de ce corpus d un fragment de texte d une tranche d un segment etc le nombre des occurrences contenues dans ce corpus resp partie fragment etc Synonyme faille On note T la longueur du corpus t j celle de la partie ou tranche num ro j du corpus longueur d un segment sr le nombre des occurrences entrant dans la composition de ce segment occurrence sa suite de caract res non d limiteurs born e ses extr mit s par deux caract r
18. limiteur de s quence seuil stat quantit arbitrairement fix e au d but d une exp rience visant s lectionner parmi un grand nombre de r sultats ceux pour lesquels les valeurs d un indice num rique d passent ce seuil de fr quence en probabilit etc sous fr quence sa d une unit textuelle dans une partie tranche etc nombre des occurrences de cette unit dans la seule partie resp tranche etc du corpus sous segments sr pour un segment donn tous les segments de longueur inf rieure et compris dans ce segment sont des sous segments ex AB et BC sont deux sous segments du segment ABC sp cificit chronologique sp sp cificit portant sur un groupe connexe de parties d un corpus muni d une partition longitudinale sp cificit positive sp pour un seuil de sp cificit fix une forme i et une partie j donn es la forme i est dite sp cifique positive de la partie j ou forme caract ristique de cette partie si sa sous fr quence est anormalement lev e dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou sup rieures la sous fr quence constat e est inf rieure au seuil fix au d part 26 02 03 LEXICO3 44 sp cificit n gative sp pour un seuil de sp cificit fix une forme i et une partie j donn es la forme 1 est dite sp cifique n gative de la partie j si
19. nomm Rapport Ce dossier ais ment manipulable l aide d un navigateur web Internet Explorer Netscape etc contient un fichier index htm qui permet la navigation parmi les r sultats s lectionn s Le rapport peut tre consult tout moment la condition que l utilisateur l ait pr alablement enregistr cf section 4 3 Ajouter au rapport Pour ajouter un document au rapport 1l suffit de cliquer sur l ic ne Ajouter au rapport d crite dans cette section Dans le cas g n ral on utilise l ic ne situ e dans la barre des outils Pour certains documents sections listes etc on utilise un bouton similaire situ dans la fen tre correspondante S 2 5 Recherche des segments r p t s R Les segments r p t s sont des suites de formes dont la fr quence est sup rieure 2 dans le corpus On trouve par exemple dans le corpus Duchesne les segments Segment longueur fr quence tirer les marrons du feu 5 5 L amp S p 58 26 02 03 LEXICO3 21 Pour cr er la liste des segments r p t s cliquer sur l ic ne SR une bo te de dialogue appara t qui permet de param trer la s lection des segments r p t s figure 2 5 La partie sup rieure de la fen tre permet de fixer le statut des caract res d limiteurs du texte le statut par d faut est d limiteur de s quence Pour modifier ce statut annuler la coche en regard du caract re correspondant Les segments r pertori s ne chevaucheront pas ce typ
20. permet d affiner cette liste en liminant par exemple apr s les avoir s lectionn es les formes patriarche patron patronne patres etc Expressions r guli res Nous avons retenu un langage d expressions r guli res ou rationnelles couramment utilis dans le monde de l informatique pour permettre l utilisateur de constituer des groupes Pour rechercher des formes Tgen via les expressions r guli res Lexico va effectuer par d faut une recherche de mot commen ant par la cha ne donn e Par exemple si l on recherche le motif pat le TGen produit sera l ensemble des mots commen ant par pat patriote pater Pour sp cifier la terminaison des mots cherch s il convient d utiliser gt Pour en savoir plus sur les expressions r guli res xxxxx Pour aller plus loin le site hftp www cavi univ paris3 fr ilpga ilpga tal lexicoWWW 26 02 03 LEXICO3 24 Par exemple pour rechercher tous les mots qui se terminent par isme le motif utiliser est lt isme gt Ce dernier motif peut aussi s crire de la mani re suivante isme gt dans la mesure o la recherche se fait sur des mots le point Fonction Repr sente n importe quel caract re 0 ou n occurrences du caract re qui pr c de 1 ou n occurrences du caract re qui pr c dent Repr sente une fin de mot Repr sente un ensemble de caract res x ke gt Repr sente la
21. pour certaines m thodes permettant de mettre en vidence les r seaux de cooccurrences dans un texte Ces proc dures seront disponibles dans la prochaine version de Lexico LEXICO3 6 Installation 0 1 Avertissement Il se peut malgr tout le soin que nous avons apport la pr paration de cette version que quelques erreurs subsistent encore Nous vous demandons de signaler les ventuelles anomalies Lexico3 ILPGA 19 rue des Bernardins 75005 Paris France Joindre l envoi le corpus de texte sur lequel des dysfonctionnements auront t constat s ainsi que le fichier atrace txt cr au moment de l exploitation dans le r pertoire o se trouve le corpus analys qui contient des renseignements indispensables pour le d bogage Configuration minimale A partir de Windows 95 Processeur 486 4Mo de m moire vive 3 Mo libres sur le disque dur Configuration conseill e Windows 98 et post rieurs Pentium II 8Mo de m moire vive 3 Mo libres sur le disque dur Lexico3 fonctionne sous Windows 95 et post rieurs et Windows NT 3 51 et 4 0 Nous conseillons vivement de regrouper programme et corpus dans un m me dossier sur le disque dur 0 2 Installer le logiciel Pour installer LEXICO3 Ins rer le CD ROM dans le lecteur Double cliquer sur l ic ne du fichier SETUP EXE qui se trouve sur ce CD ROM Suivre les indications donn es par le programme d installation Le message Lexico3 a t install signale la
22. rieures Au del du rep rage des seules formes graphiques le logiciel permet d tudier dans les textes la r partition d unit s plus complexes compos es de s quences de forme segments r p t s couples de forme en cooccurrence etc au contenu souvent moins ambigu que les formes graphiques dont elles sont compos es Principales nouveaut s Une version orient e objet La principale am lioration apport e cette nouvelle version concerne l architecture objet du programme Les diff rents modules qui communiquent ensemble sont d sormais capables d changer des donn es plus complexes formes segments r p t s cooccurrences dans l avenir Ainsi il est d sormais possible d envoyer vers le module concordance comme vers tous les autres modules des unit s constitu es dans les modules de segments r p t s des listes de formes et de segments constitu es dans les modules de sp cificit s etc Ces possibilit s permettent d envisager une v ritable navigation lexicom trique Constitution de groupes de formes L tude des accidents qui surviennent dans la r partition d une forme graphique pour les diff rentes parties d un corpus de textes suscite in vitablement des questions propos de la r partition d autres unit s graphiques qui lui sont li es au plan linguistique autres r alisations du m me lemme formes li es au plan s mantique De nouveaux outils recherche des expressions r guli res ont t
23. 2 Cl incorrecte espace dans contenu de cl lt Sda 17 93 gt 94 Cl incorrecte pas de contenu de cl lt Epg gt 5709 incorrecte Mauvais emplacement de balise de fermetur 5845 incorrecte espace dans le type de la cl lt Ep g 3 gt 13277 incorrecte mauvaise fermeture de la cl lt S02 330 lt 13496 incorrecte pas de signe lt Epg8 gt Segmentation du texte Lorsque les lignes fautives ont t corrig es on relance le programme comme indiqu plus haut S il n y a plus d erreurs une jauge permet de suivre la progression de la segmentation du texte A l issue de la segmentation la partie gauche de l cran affiche la liste lexicom trique des formes du corpus c t de chacune de ces formes on trouve sa fr quence dans l ensemble du corpus On appelle hapax toute forme n ayant qu une seule occurrence sur l ensemble du corpus On obtient un classement alphab tique de cette liste en cliquant sur le bandeau gris situ juste au dessus du dictionnaire ordre lexicographique Un second clic remet la liste dans son tat initial ordre lexicom trique 26 02 03 LEXICO3 16 Fichiers de sortie Plusieurs fichiers sont cr s et enregistr s sur le disque dur dans le m me r pertoire que le texte source Si le corpus soumis la segmentation s appelle nomg n rique txt ces fichiers s appellent respect
24. LEXICO3 1 SYLED CLA2T Universit de la Sorbonne nouvelle Paris 3 Version 3 41 f vrier 03 Outils de statistique textuelle C dric Lamalle William Martinez Serge Fleury Andr Salem Manuel d utilisation B atrice Fracchiolla Andrea Kuncova Aude Maisondieu LEXICO3 2 TABLE DES MATIERES AVAN DLODPOS rune tandis men taie tatin ere te nn lee ane Gate een re Canne Souss Tiis ouae s ESk 4 ee 4 Une version orient e objet ananas 4 Constitution de groupes de E 4 Localisation des particularit s lexicom triques ss 4 Pour en Savoir CEET 5 D veloppements Venir 2 use eege Bieber Seeerei 5 Installation nnneninsrenmnnenanenenanssnnninennnsanannnaenann 6 LEE EE 6 Configuration minimale issisnsrerrnasnsnensninneninnianann entiere 6 Configuration EE EEN 6 0 2 Installer le E 6 1 Les corpus d Texte EN 7 SECHER Eege Eege 7 Corpus d initiation auteurs tXt ebe 7 VOLE CONS E Eegeregie genee 8 1 2 Normes REENEN 8 D limiteurs non d limiteurs sosssoseeeenesssssseeeresrssssssseresesssssssesereeersssssserereeesssssssereees 8 Minuscules majuscules GHOSTODRES disease iemianenenanieenensnasnses 9 Sections du texte sai anmamiani AEA VEEE NENESE a ELERE 9 Cl s EELER 10 US Normes de d pouillement EE 10 1 4 Exemple le corpus Duchesne NS nn irait 11 2 Outils d exploration textuelle sosooocesessssseoocccesesessscoccccssesssssocccesesesssosocecesssesssoocceseses 13 2 1 Sesment r UN COrPUS E 13 Mise en uvre pra
25. Le diagnostic de sp cificit calcul contient deux indications a un signe ou qui indique un sur emploi ou un sous emploi dans la ou les partie s s lectionn e s par rapport l ensemble du corpus b un exposant qui rend compte du degr de significativit de l cart constat un exposant gal x indique que la probabilit d un cart de r partition sup rieur ou gal celui que l on a constat tait au d part de l ordre de 10 Exemple nous F 1270 f op 05 indique que la forme nous pr sente 1270 fois dans le corpus et attest e 66 dans les textes de la semaine num ro 211 est plus fr quente que ce que laissait esp rer une r partition au hasard Param trage du calcul des sp cificit s EN Seuil de probabilit Fr quence minimale 7 Sur la m thode des sp c E fio 1984 ou L amp S p 171 8 2 e Pour s lectionner une p X Annuler te partie On ajoute une partie l ensemble des p Itan ment sur la touche Control Sous l hypoth se d une distribution hyperg om trique avec ces param tres 26 02 03 LEXICO3 30 Figure 3 4 Param trage NB Si le calcul des segments r p t s a t pr alablement effectu les segments sp cifiques apparaissent galement dans la liste des unit s sp cifiques 26 02 03 LEXICO3 31 R sultats du calcul des sp cificit s Sp cifs Part semaine x Corpus de r f rence 111 112 121 122 211 21 Parties s
26. P 1981 D pouillements et statistiques en lexicom trie Slatkine Champion 1984 Paris Lafon P Salem A 1983 L Inventaire des segments r p t s d un texte Mots N 6 p 161 177 Lafon P Salem A Tournier M 1985 Lexicom trie et associations syntagmatiques Analyse des segments r p t s et des cooccurrences appliqu e un corpus de textes syndicaux Colloque de l ALLC Metz 1983 Slatkine Champion Gen ve Paris p 59 72 Lebart L 1969 L Analyse statistique de la contigu t Publications de l ISUP XVII p 81 112 Lebart L 1982b L Analyse statistique des r ponses libres dans les enqu tes socio conomiques Consommation n 1 Dunod p 39 62 Lebart L Salem A 1988 Analyse statistique des donn es textuelles Dunod Paris Lebart L Salem A Berry E 1991 Recent development in the statistical processing of textual data Applied Stoch Model and Data Analysis 7 p 47 62 Manning C Sch tze H 1999 Foundations of Statistical Natural Language Processing MIT Press Cambridge Menard N 1983 Mesure de la richesse lexicale th orie et v rifications exp rimentales Slatkine Champion Paris 26 02 03 Muller C 1964 Essai de statistique lexicale L illusion comique de P Corneille Klincksieck Paris Muller C 1968 Initiation la statistique linguistique Larousse Paris Muller C 1977 Principes et m thodes de statistique lexicale Hachette Paris Muller C
27. ateur Windows Navigation Rapport Dictionnaire E aj C Program FilesLexico 3 Duchn par Texte F Dictionnaire M Cartes Sections E A Partitions 2 semaine FA PELC 7 Graphiques Graphique 1 Figure 4 6 M Sp cifs Navigation z FC Plein cran Pour visualiser la fen tre de droite en plein cran cliquer sur la fl che rouge situ e entre les fen tres gauche et droite Aide Le fichier d aide de Lexico3 qui contient le pr sent manuel peut tre consult tout moment partir de la console en cliquant sur l ic ne Aide Ze Quitter Avant de quitter Lexico3 v rifier que toutes les donn es sont bien sauvegard es dans le rapport puis cliquer sur l ic ne 26 02 03 LEXICO3 39 5 Glossaire pour la statistique textuelle La d finition de quelques notions de base en statistique textuelle est reprise dans l aide en ligne NB Les ast risques renvoient une entr e de ce m me glossaire Les abr viations qui suivent entre parenth ses pr cisent le domaine auquel s applique plus particuli rement la d finition Abr viations ac Analyse factorielle des correspondances acm Analyse des correspondances multiples cla Classification sp M thode des Sp cificit s sr Analyse des segments r p t s ling Linguistique stat Statistique sa Segmentation automatique accroissement sp cifique sp sp cificit calcul e pour une partie d un corpus par
28. autour de la forme p le homme dans le corpus Duchesne Possibilit s d affichage de la concordance On choisit l ordre de tri des contextes partir du menu d roulant tri avant apr s aucun La bo te d roulante Regroupement permet de regrouper les contextes en fonction d une partition par exemple par locuteur mois ou ann e Largeur permet choisir le nombre de caract res espaces inclus qui doivent appara tre avant et apr s chaque p le Pour le modifier apr s une premi re recherche changer la largeur et cliquer sur rafra chir Figure 2 4 Les tris Les diff rents contextes relatifs une m me forme peuvent tre ordonn s de trois mani res diff rentes Le tri de ces contextes peut tre effectu en fonction de l ordre alphab tique de l occurrence qui pr c de la forme p le tri avant l ordre alphab tique de l occurrence qui suit la forme p le tri apr s l ordre d apparition des occurrences de la forme p le dans le texte Les bouton Pr c dent et Suivant fl ches rouges gauche de la fen tre permettent de naviguer parmi les concordances r alis es pour diff rentes formes types etc 26 02 03 LEXICO3 20 2 4 Ajouter les r sultats au rapport tous les documents produits par Lexico3 chaque concordance peut tre ajout e au mal Le rapport Les r sultats qui int ressent l utilisateur pour une exploitation ult rieure peuvent tre rassembl s dans un dossier
29. bouton ajouter au rapport Section plac en bas de la fen tre permet de sauvegarder les r sultats Naviguer l aide de la carte des sections Section j 1 gt ep Les boutons situ s gauche de la fen tre de visualisation de la s lection en forme de mains permettent de passer Occurence respectivement la section suivante pr c dente ou l occurrence ES Ke suivante pr c dente du Teen s lectionn ep L ic ne Ajouter au rapport section permet d enregistrer la section visualis e dans la fen tre du bas Section 26 02 03 LEXICO3 lt ucune gt ha Si DOOOOOCOOCOROCegCOOOOC COeeCggegg DOC HOMMMOCOOC CISisisisisisis eis LLLILIIIWS ISS Iw Sisisl Isi eis WS gsisisisisl SIS IS DOSS CCS OOCOMOOCOCOOCOM OrcOCOCCOCOCOOOOCOMOOOOOO Siss WS ISisisisigigisl LISssl Iw ss Sisi ISigigisisisigl IS sis IS Siss ais Iigisisis wiesst MOCOBOMOOC CO0OOOOBOC OBOCOOOOOD OOOOOOBSOOC OOBSOBOOOOS LISsSs est IS Issel LISsssisisissl Siss IS IS OOBOCOCOOC 0000M Cm0 OMOCOCOOO OO OO 0000080008 LISsisisisisisisl Iess LISsisisel IS Sisi ISSssIsisIsIsIsIs LI isel DORSCH 000000000 OO OCI BOOOOOOOOC OOOOOOOOB0 OO0OOOOOOS orromon OOBOBOOOOS OOBOOCBOOOCCOBSOCCESE EERSRRRMMCCOMOMOOOMOOCOODCNONCEE WISS III I isisgigigisisel ISigisisisl LS LUS Iisisieieieisl sie Is Iwisiel Iw pop0op0000008 0 0080800000 Ieisiel Iw elei gt Occurrence a e Gan sa majest buzotine commence jouer au lt Epg 2 gt roi d pouill
30. c it
31. ces des formes qui commencent par la s quence de caract re patr patrie patriotes patriotisme etc 1 4 Exemple le corpus Duchesne Text1 ixt est un fichier contenant un fragment du corpus P re Duchesnet Duchn txt Les deux fichiers sont disponibles sur le CD Rom d installation du programme Tableau 1 1 Exemple de codage de corpus lt An 1793 gt lt Numero 220 gt lt S03 0 gt lt Epg 1 gt t Le corpus P re Duchesne r uni par Jacques Guilhaumou dans le cadre du laboratoire Lexicom trie et textes politiques de l ENS de Fontenay St Cloud a fait l objet de nombreuses tudes notamment des tudes de caract re m thodologiques cf bibliographie infra 26 02 03 LEXICO3 12 S la grande col re du p re duchesne de voir que les mouchards de la fayette et tous les fripons soudoy s par la liste civile veulent r tablir les compagnies de grenadiers et de chasseurs pour gorger les sans culottes et les chasser des assembl es de section ses bons avis aux lurons des faubourgs pour qu ils arrachent les moustaches postiches ces grenadiers de la vierge marie qui veulent r tablir la STEEN S millions de tonnerre nous ne mettrons donc jamais les fripons la raison ils lt Epg 2 gt ont laiss tomber leurs masques et nous les voyons nu serons nous encore dupes des fripons quand je voulais faire la conduite de grenoble tous les talons rouges quand je disais du soir au matin q
32. directement sur l ic ne de Lexico3 2 3 Concordances L outil Concordance permet de visualiser toutes les occurrences d une forme ou d un type g n ralis Tgen en contexte La concordance permet un retour syst matique au texte et l environnement imm diat de la forme S lectionner une forme ou un type Cliquer sur l ic ne Concordance une bo te de dialogue appara t Pour obtenir la concordance d une forme on peut au choix entrer la forme dans la zone d dition forme pivot ex homme puis appuyer sur le touche Entr e faire glisser cette forme sur la fen tre des concordances partir du dictionnaire ou partir du Garde mots faire glisser un lien r alis partir de la fen tre groupe de formes ou un segment r p t voir section 2 5 segments r p t s dont on souhaite tudier les contextes puis la le glisser dans la fen tre de droite et l cher La concordance de toutes les occurrences du Tgen en contexte s affiche alors automatiquement dans une fen tre de concordance relative une forme donn e on peut s lectionner toute autre forme visible dans la fen tre et obtenir sa concordance Lancer l ex cution de la requ te en appuyant sur la touche Entr e La liste de toutes les occurrences en contexte du type pour lequel l on a lanc la recherche s affiche l cran 26 02 03 LEXICO3 19 Glisser D poser S lectionnez une forme clic gauch
33. documents stock s lors de sessions diff rentes il est pr f rable de sauvegarder chaque fois le dossier Rapport dans un dossier ou sous un nom diff rent On trouve le dossier Rapport dans le dossier Lexico3 cr par l installation du logiciel J Apm Mamm Intenet Expiors Ire per Chet intrenet Dcha Eden Atcbete Fei Du 2 Se S n 9 EI oO IO a g E E A n Ac et Dono am Beieche Faar Hiic qe Dee ADM Proza Diech enen Appart Fiappat hri Rappeet d analyse Principals carat nctiques leacocn triques ONerhre des cccureces tlcckre des formes Fr querce martnrale Qtlomhee des hapae 1 Concordance de homme ftri ordre du texte 2 Concerdance de homme tri ordre du texte 3 Graphique de veidaa porr la partition 2eme 1 Figure 4 6 Rapport 4 4 Options Aides Compl ments amp o ptions Ce bouton permet de modifier les limites du logiciel 100 000 formes lexicales diff rentes environ lors du traitement de gros corpus plusieurs millions d occurrences Il permet aussi d indiquer si le corpus trait a t pr alablement tiquet Quelques exemples de corpus Corpus pages occurrences formes diff rentes fr quence max Duchesne 350 142 177 10 988 6130 de Coran trad Fr de 26 02 03 LEXICO3 38 Duchesne de Onglet de navigation Cet onglet permet de naviguer parmi les r sultats produits par Lexico3 de la m me mani re que l explor
34. e Facteurs permet de consulter le tableau des facteurs Graphique permet de revenir au plan factoriel 26 02 03 LEXICO3 34 4 Outils de navigation lexicom trique Cette section d crit des fonctionnalit s qui permettent de se d placer parmi les r sultats produits par les diff rentes m thodes lexicom triques et le texte initial 4 1 Carte des sections La carte des sections permet une visualisation du corpus d coup en sections par la promotion d un ou de plusieurs caract re particulier paragraphes point etc au statut de d limiteur de section Cr ation de sections EN eat D limiteurs disponibles Sin Figure 4 1 Choix des d limiteurs de section Faire une carte des sections pour un Tgen S lectionner le Teen partir du dictionnaire du Garde mots de la liste des segments r p t s etc et le faire glisser sur la carte bouton gauche maintenu enfonc On s lectionne la section visualiser dans la fen tre du bas en cliquant sur le carr qui la repr sente dans la carte des sections On agrandit la taille des carr s qui repr sente chacune des sections en d pla ant vers la droite le curseur situ en haut et gauche de la fen tre On mat rialise une partition activ e en la s lectionnant dans la boite de liste situ e imm diatement la droite de ce curseur On colorie les sections en fonction de la sp cificit du Teen tudi dans la section On coch
35. e colonne donne les noms des diff rentes parties ici le num ro de la semaine s la colonne occurrences indique le nombre des occurrences des formes r pertori es La colonne formes indique le nombre des formes graphiques pr sentes dans chaque partie z s La colonne hapax indique pour chaque partie le nombre des formes qui n apparaissent Ou une fois dans la partie z s La colonne fr quence maximale indique le nombre des occurrences de la forme la plus fr quente 26 02 03 LEXICO3 29 e de de de de de de de de de Ae de de de de e ds de de de de lez D Figure 3 3 Caract ristiques de la partition Ce tableau permet une comparaison visuelle rapide des parties en fonction de leurs caract ristiques lexicom triques les plus importantes 3 2 Sp cificit s L analyse des sp cificit s permet de porter un jugement sur la fr quence de chacune des unit s textuelles dans chacune des parties du corpus Le bouton Sp cifs qui se trouve en haut droite Figure 3 3 permet d obtenir le tableau des sp cificit s d une partie s lectionn e Figure 3 5 ou d un ensemble de parties Par d faut l indice de sp cificit est calcul pour toute les unit s dont la fr quence est sup rieure 10 avec un seuil de probabilit fix 5 une fen tre param trage du calcul des sp cificit s appara t avant le d but du calcul qui permet l utilisateur de modifier ces param tres si besoin
36. e d abord la case seuil L ic ne qui pr c de imm diatement permet de r gler deux seuils en probabilit s qui entra neront un coloriage plus ou moins sombre des sections Pour une repr sentation simultan e de deux Tgens ce processus peut tre r it r en prenant soin de changer la couleur dans la boite correspondante Il faut maintenir dans ce cas la touche Control en position basse lors du second glisser d poser Les outils statistiques de la carte des sections Les deux ic nes situ es au m me niveau droite de la fen tre permettent de rep rer les types caract ristiques d un ensemble de sections sp cificit s des sections s lectionn es cf 3 2 26 02 03 LEXICO3 35 s Le premier bouton Cooccurences constitue automatiquement une s lection des sections dans lesquelles le Tgen tudi est pr sent c est cet ensemble de sections que l on compare l ensemble du corpus z s Le deuxi me bouton Sp cificit s permet l utilisateur de constituer une s lection arbitraire de sections dont on tudiera ensuite le vocabulaire sp cifique selon les conventions Windows on s lectionne les sections une une en maintenant le bouton Control en position basse la touche majuscule permet de s lectionner un groupe de sections cons cutives Comme toujours les listes de sp cificit s sont affich es dans la fen tre de gauche Le nombre des sections concern es par la s lection appara t en haut de la fen tre un
37. e de d limiteur La partie inf rieure permet de d cider du statut des cl s rencontr es dans le corpus Ici par exemple on permettra un segment de chevaucher une cl indiquant un changement de page mais non une cl indiquant un changement de partie On fixe une fr quence minimum en dessous de laquelle les formes et les segments ne seront pas retenus Ce seuil est fix 10 par d faut Le bouton OK permet de lancer la recherche des segments r p t s Param trage du calcul des segments r p t s D limiteurs de s quence mois numero __ quinzaine semaine Seuil de s lection des formes P Seuil de s lection des segments io Si x Annuler Figure 2 5 D limiteurs et seuil des formes 26 02 03 LEXICO3 22 La liste des segments r p t s r pertori s dans le texte appara t dans la partie gauche de la fen tre Elle est consultable en cliquant sur l onglet Segments r p t s Segments r p t s Lx 2 de brissot 14 2 de coblentz 15 2 de cobourg 10 2 de custine 20 2 de dumouriez 13 2 de france 12 2 de lyon 29 2 de marat 13 2 de marseille 23 2 de paris 62 3 de pitt et 10 2 de pt 17 2 de toulon 10 2 de bataille 10 S 2 de bien 11 Figure 2 6 Liste des 2 de bon 18 segments r p t s 2 de bonne 14 2 de bons 18 e 2 6 Groupe de formes L outil Groupe de formes per
38. e de la souris Maintenez le bouton gauche enfonc et faites glisser la forme s lectionn e vers l endroit souhait puis d posez l chez le bouton gauche Ki Ce Forme homme Tri aucun D Regroupement aucuns d Largeur Jan rocurer 1 occasion d tre utile un aussi int ressant quel est votre pays p ri ainsi donc au lieu d tre un sanguinaire quand je faisais cette propos u on a tant de fois accus d tre un f roce tait le meilleur des humains u ri de la maladie de 1 adoration un tel qu il soit n est plus qu un tel qu il soit n est plus qu un nos yeux tant qu il va droit on 1 sous leurs coups re ois nos regrets pur et courageux longtemps nous pleurero e leurs palais de leurs boudoirs 1 libre se d grade quand il est aux gages de le faire pendre on ne pend point un qui a cent mille cus r pondit il en ral qui le reconnut pour le plus galant de france il en est de m me de eustine mon service on ne guillotine pas un qui a vingt millions ei est dire en 1 insecte orgueilleux qui s appelle Chacun doit trouver sa subsistance dans ntrailles de la timide tourterelle 1 de son c t d truit tout ravage tout tait aussi m chant aussi cruel que 1 ES d o te revient donc cette humeur es pilles ternelles vois donc notre me dit la vieille comme on se divertit Figure 2 4 Concordances Extrait d une concordance
39. e la fen tre de travail principale il est pr f rable de cr er de nouvelles feuilles de travail en cliquant sur cette ic ne Les feuilles de travail s empilent sur la droite de la fen tre principale Les onglets Feuille n 1 permettent de passer de l une l autre On peut transporter des liens Tgen d une feuille l autre en passant par exemple par le Garde mot D placer vers une autre feuille de travail 36 Pour d placer une fen tre r sultat vers une nouvelle feuille la s lectionner cliquer sur l ic ne puis s lectionner la feuille d sir e Nouvelle feuille gt Feuille 2 Feuile3 Feuille 4 Feuille 5 Feuille 6 E Mosaique Cette ic ne permet de r organiser plusieurs fen tres sur la m me feuille 26 02 03 LEXICO3 37 4 3 Le rapport Le dossier Rapport contient les r sultats s lectionn s par l utilisateur pour une exploitation ult rieure Ce dossier ais ment manipulable l aide d un navigateur web Internet Explorer Netscape etc contient un fichier index htm qui permet la navigation parmi les r sultats Le rapport peut tre consult tout moment la condition que l utilisateur l ait pr alablement enregistr bouton Enregistrer au bas de l onglet Rapport pE Editer les r sultats Pour visualiser un texte ou bien les r sultats obtenus partir de Lexico 3 cliquer sur l ic ne Editeur et partir de l ic ne Ouvrir s lectionner le document d sir Pour conserver les
40. ent dit S03 1 le caract re paragraphe marque le d but de chacun des paragraphes du texte le caract re permet d identifier les majuscules du document original 26 02 03 LEXICO3 13 2 Outils d exploration textuelle Cette section d crit les fonctionnalit s de Lexico3 qui permettent de retrouver au fil des textes les occurrences des diff rentes unit s textuelles que l on peut construire partir de la s quence textuelle formes graphiques segments r p t s groupes de formes Tgens 2 1 Segmenter un corpus La segmentation cr e une base de donn es textuelles partir d un corpus Moncorpus txt fourni par l utilisateur Cette base se compose de trois fichiers Moncorpus dic Moncorpus par Moncorpus num dont les deux premiers peuvent tre visualis s au moyen d un traitement de texte quelconque Mise en uvre pratique Ouvrir le logiciel en cliquant deux fois sur l ic ne INSERER IC NE LEXICO3 Dans la barre d outils cliquer sur l ic ne la plus gauche Ee Q Lexico3 4 x LE GET H ze e H H Dar la basre d outils chouer sur l ic ne laplus t gaucte Cliquer sur cette ic ne pour ouvrir un fichier texte Le programme propose de choisir un fichier texte dans un r pertoire selon les proc dures habituelles du syst me d exploitation Windows 26 02 03 LEXICO3 14 echte del 2 alEs facteurs txt vp tst Wer pume Ippe Fichiers Texte P bt E Ame
41. ers lus et crits En cas d chec du traitement ce fichier peut fournir des indications permettant de cerner la cause des difficult s 26 02 03 LEXICO3 17 Tableau 2 3 Extrait du dictionnaire frq rang lex 6130 2703 4749 6033 4298 5909 3773 4216 et 4 Ca 1 10967 voyager 1 10987 zet des formes graphiques 259 10859 10860 10861 des ponctuations 10873 96 10874 S01 des types de cl s 97 10882 01 1 10883 02 des contenus de cl s Tableau 2 4 Extrait du fichier de trace atrace txt LecParam 192000 192000 11169 142177 10988 6130 5056 5000000 14 8 159 Allocation de la m moire Allocation de lexm r ussie 178720 octets Allocation de tnum r ussie 768000 octets Allocation de ftext r ussie 446800 octets Allocation de list r ussie 24520 octets Entr e dans OpenDicNum Dictionnaire num ris Duchn dic Entr e dans OpenTextNumFichier Texte DUCH num 192083 items Fichier Param DUCH par 26 02 03 LEXICO3 18 2 2 Ouverture d une base d j cr e On est souvent amen faire des exp riences sur un m me corpus lors de sessions de travail espac es dans le temps En r utilisant une base cr e lors d une session pr c dente on est s r que l on utilise bien lors de la session ult rieure les param tres de segmentation fix s lors de la premi re session NB JIlest possible d ouvrir un texte d j segment en le glissant
42. es d limiteurs de forme ordre lexicographique _ pour les formes graphiques l ordre selon lequel les formes sont class es dans un dictionnaire NB Les lettres comportant des signes diacris s sont class es au m me niveau que les m mes caract res non diacris s le signe diacritique n ntervenant que dans les cas d homographie compl te Dans les dictionnaires on trouve par exemple rang es dans cet ordre les formes mais ma s maison ma tre _ pour les polyformes ordre r sultant d un tri des polyformes par ordre lexicographique sur la premi re composante Les polyformes commen ant par une m me forme graphique sont d partag es par un tri lexicographique sur la seconde etc ordre lexicom trique sa _ pour les formes graphiques ordre r sultant d un tri des formes du corpus par ordre de fr quences d croissantes les formes de m me fr quence sont class es par ordre lexicographique _ pour les polyformes ordre r sultant d un tri par ordre de longueur d croissante des segments les segments de m me longueur sont d partag s par leur fr quence les segments ayant m me longueur et m me fr quence par l ordre lexicographique paradigme ling ensemble des termes qui peuvent figurer en un point de la cha ne parl e paradigmatique sa qui concerne le regroupement en s rie des unit s textuelles ind pendamment de leur ordre de succession dans la cha ne crite partie d un corpus de textes
43. gnes sont constitu es par les ventilations des segments r p t s dans les parties du corpus Les lignes du TSR sont tri es selon l ordre lexicom trique des segments i e longueur d croissante fr quence d croissante ordre lexicographique tableau lexical tableau double entr e r sultant du TLE par suppression de certaines lignes par exemple celles qui correspondent des formes dont la fr quence est inf rieure un seuil donn taille sa d un corpus sa longueur mesur e en occurrences de formes simples terme sr nom g n rique s appliquant la fois aux formes et aux polyformes Dans le premier cas on parlera de termes de longueur 1 Les polyformes sont des termes de longueur 2 3 etc termes contraints termes libres Un terme S1 est contraint dans un autre terme S2 de longueur sup rieure si toutes ses occurrences sont des sous segments de segments correspondant des occurrences du segment S2 Si au contraire un terme poss de plusieurs expansions distinctes qui ne sont pas forc ment r currentes c est un terme libre types g n ralis s Tgens unit s de d pouillement d finies par l utilisateur l aide d outils permettant d effectuer automatiquement des regroupements d occurrences du texte ex les occurrences des formes qui commencent par la s quence de caract re patr patrie patriotes patriotisme etc unit s minimales pour un type de segmentation unit s que l on ne d c
44. ieux utiliser les fen tres de avai san sditanneneetrrssatieaies 36 Cr er une feuille de Ale een dan 36 D placer vers une autre feuille de travail 36 e E 36 4 OS E ee E 37 4 4 Options Aides Compl ments sontlerenieeetinieieisestessl 37 EEN E EE NEEE E 37 Eeer EEN 38 P LH CFANE cette ON D ARR RARE 38 EE 38 OL A AEA E E PR dee AR 38 5 Glossaire pour la statistique textuelle sseoooosesesssssooccccesesssssocecesesesssosccccesesesssoocceseses 39 R f rences bibhosraphiques sisi 47 Cyher bibhographi sssssssssssssssssmnssssssesseneesssenneserenennsisnennenessnneeterenentieinienesenee 50 LEXICO3 4 Avant propos Lexico3 est l dition 2001 du logiciel Lexico dont la premi re version remonte 1990 Les fonctionnalit s pr sentes d s la premi re version segmentation concordances d comptes portant sur les formes graphiques sp cificit s et analyses factorielles portant sur les formes et les segments r p t s ont t conserv es et la plupart du temps notablement am lior es L originalit principale de la s rie Lexico est qu elle permet l utilisateur de garder la ma trise sur l ensemble des processus lexicom triques depuis la segmentation initiale jusqu l dition des r sultats finaux Les unit s qui seront ensuite automatiquement d compt es sont exclusivement constitu es partir de la liste des d limiteurs fournie par l utilisateur sans recours des ressources dictionnairiques ext
45. ivement nomg n rique par nomg n rique dic nomg n rique num Le fichier nomg n rique par contient les principaux d comptes portant sur les formes les occurrences etc ainsi que le rappel des caract res d limiteurs choisis lors de la segmentation Tableau 2 2 Exemple de fichier param tres par Lexico3 1 PC DUCH nbetiq 0 196125 196125 11023 142185 10859 6130 4953 5000000 14 8 14300 R sultat de la segmentation du fichier DUCH TXT D limiteurs 7 N 0 0 nombre des occurrences 142185 nombre des formes 10859 frequence maximale 6130 nombre des hapax 4953 nombre des cl s type 8 nombre des cl s ctnu 143 Fin de la segmentation du fichier DUCH TXT Le fichier moncorpus dic contient le dictionnaire des formes class es par fr quence un enregistrement pour chaque forme A c t de la fr quence de la forme on trouve son rang lexicographique dans le corpus i e son num ro dans la liste des formes class es selon l ordre lexicographique Le fichier Moncorpus num contient le texte num ris c est dire sous une forme cod e de fa on compacte les occurrences des formes ponctuations cl s et autres l ments du corpus Ce fichier usage interne ne peut tre consult l aide d un diteur de texte Le fichier atrace txt contient un rapport d taill des op rations effectu es par le programme m moire allou e param tres pris en compte fichi
46. le garde mots section 2 6 On choisit la couleur de tra age du TGen repr senter en activant la palette des couleurs situ e en haut droite du dictionnaire resp de la fen tre du groupe de formes Si aucune couleur n est choisie par l utilisateur le logiciel s lectionne des couleurs diff rentes pour chaque nouvelle ventilation La zone de tra age peut tre r initialis e tout moment bouton effacer ventuellement apr s avoir int gr le graphique au rapport On peut visualiser la ventilation de plusieurs unit s textuelles dans les parties du corpus exprim e 26 02 03 LEXICO3 28 e en fr quence absolues nombre d occurrences dans la partie en fr quence relatives nombre d occurrences rapport la longueur de la partie en termes de sp cificit s r sultat d un calcul statistique section 3 2 na mm mm re mmm me mi em Zentren P ui o mm 221 Im mm wi oa mm en pm en 7 rosen F javel C padas mar Ze Les Figure 3 2 Ventilation d une forme dans les parties d un corpus Statistiques par partie PCLC principales caract ristiques lexicom triques du corpus et de la partition La s lection de l ic ne PCLC fait appara tre les principales caract ristiques par PELC partie suivant la partition choisie schen Au egune coche rouge dans la colonne la plus gauche indique que la partie est s lectionn e pour le d compte des fr quences globales dans le corpus la second
47. male variables de type V variable dont l accroissement a tendance diminuer avec l allongement du texte ex le nombre des formes le nombre des hapax ventilation sa des occurrences d une unit dans les parties du corpus La suite des n nombres n nombre de parties du corpus constitu e par la succession des sous fr quences de cette unit dans chacune des parties prises dans l ordre des parties vocabulaire sa ensemble des formes attest es dans un corpus de textes vocabulaire commun sa l ensemble des formes attest es dans chacune des parties du corpus vocabulaire de base sp ensemble des formes du corpus ne pr sentant pour un seuil fix aucune sp cificit n gative ou positive dans aucune des parties i e l ensemble des formes qui sont banales pour chacune des parties du corpus vocabulaire original sa pour une partie du corpus l ensemble des formes originales pour cette partie voisinage d une occurrence sa pour une occurrence donn e du texte tout segment suite d occurrences cons cutives non s par es par un d limiteur de s quence contenant cette occurrence 26 02 03 26 02 03 R f rences bibliographiques Baayen H 2001 Word Frequency Distributions Series Text Speech and Language Technology Volume 18 Kluwer Academic Publishers Dordrecht Hardbound B cue M 1983 Characteristic repeated segments and chains in textual data analysis COMPSTAT 8th Sy
48. met de constituer des types rassemblant les occurrences de formes graphiques diff rentes li es par une propri t commune On peut ainsi moyennant certaines pr caution rassembler le pluriel et le singulier d une m me forme les flexions d un m me verbe des formes qui poss dent un lien s mantique etc Les formes ainsi regroup es peuvent ensuite tre manipul es comme des entit s uniques les Tgen On lance simultan ment une recherche sur plusieurs formes en introduisant des cha nes de caract res qui correspondent des pr fixes des suffixes ou des suites de caract res graphiques 26 02 03 LEXICO3 23 Mise en uvre Entrer le nom du groupe de formes Entrer la forme rechercher Cliquer sur rechercher L objet r sultant peut ensuite tre manipul comme une forme classique en cliquant sur la fl che rouge du groupe et en maintenant le clic gauche on glisse le groupe sur la carte de la partition Figure 2 7 Lors d une nouvelle recherche les nouveaux r sultats se concat nent aux pr c dents Groupes de formes B lsi E Nom du groupe ker Nouvelle entr e patr V Utiliser des expressions r guli res o Rechercher IV Ajouter Ze Supprimer Forme Fr quence patriotes 152 patrie 87 patriotisme 20 patriote 17 patriotiques 3 patriotique f Figure 2 7 Cr ation patriarche 3 de groupes de formes patron 2 patronne 2 patres 1 Le bouton Supprimer
49. mposium on Computational Statistics Physica Verlag Vienna Becue M Peiro R 1993 Les quasi segments pour une classification automatique des r ponses ouvertes in Actes des 2ndes Journ es Internationales d analyse des donn es textuelles Montpellier ENST Paris p 310 325 Benz cri J P amp coll 1973 La taxinomie Vol I L analyse des correspondances Vol IT Dunod Paris Benz cri J P 1991a Typologies de textes grecs d apr s les occurrences des formes des mots outil Les Cahiers de l Analyse des Donn es XVI n 1 p 61 86 Benz cri J P amp coll 1981a Pratique de l analyse des donn es tome 3 Linguistique amp Lexicologie Dunod Paris Bernet C 1983 Le vocabulaire des trag dies de Jean Racine Analyse statistique Slatkine Champion Gen ve 1983 Biber D Conrad S Reppen R 1998 Corpus Linguistics Investigating language structure and use Cambridge University Press Bolasco S 1992 Sur diff rentes strat gie dans une analyse des formes textuelles Une exp rimentation partir de donn es d enqu te Jornades Internacionals d Analisi de Dades Textuals UPC Barcelona p 69 88 Bonnafous S 1991 L immigration prise aux mots Les immigr s dans la presse au tournant des ann es quatre vingt Kim Paris Bouillon P 1998 Traitement automatique du langage naturel Editions Duculot Brunet E 1981 Le vocabulaire fran ais de 1789 nos jours d apr s les donn
50. ompose pas en unit s plus petites pouvant entrer dans leur composition ex dans la segmentation en formes graphiques les formes ne sont pas d compos es en fonction des caract res qui les composent valeur modale stat valeur pour laquelle une distribution atteint son maximum valeurs propres ac ou acm quantit s permettant de juger de l importance des facteurs successifs de la d composition factorielle La valeur propre not e la mesure la dispersion des l ments sur Taxe a 26 02 03 LEXICO3 45 valeurs tests ac ou acm quantit s permettant d appr cier la signification de la position d un l ment suppl mentaire ou illustratif sur une axe factoriel Bri vement si une valeur test d passe 2 en valeur absolue il y a 95 chances sur 100 que la position de l l ment correspondant ne puisse tre due au hasard variables actives variables utilis es pour dresser une typologie soit par analyse factorielle soit par classification Les typologies d pendent du choix et des poids des variables actives qui doivent de ce fait constituer un ensemble homog ne variables suppl mentaires ou illustratives variables utilis es a posteriori pour illustrer des plans factoriels ou des classes Une variable suppl mentaire peut tre consid r e comme une variable active munie d un poids nul variables de type T variable dont la fr quence est peu pr s proportionnelle l allongement du texte ex la fr quence maxi
51. on M moire Ecole des hautes tudes en sciences sociales Paris Tournier M 1980 D ou viennent les fr quences de vocabulaire Mots N 1 p 189 212 Tournier M 1985a Sur quoi pouvons nous compter Hommage H l ne Nais Verbum Tournier M 1985b Texte propagandiste et cooccurrences Hypoth ses et m thodes pour l tude de la sloganisation Mots N 11 p 155 187 Van Rijckevorsel J 1987 The application of fuzzy coding and horseshoes in multiple correspondances analysis DSWO Press Leyde V ronis J 2000 Annotation automatique de corpus panorama et tat de la technique Ing nierie des langues J M Pierrel Paris Herm s Yule G U 1944 The Statistical Study of Literary Vocabulary Cambridge University Press Reprinted in 1968 by Archon Books Hamden Connecticut Zipf G K 1935 The Psychobiology of Language an Introduction to Dynamic Philology Boston Houghton Mifflin 26 02 03 Liens 2 Ke Outils 27 26 02 03 Cyber bibliographie FRANTEXT http zeus imalf cnrs fr LEXICOMETRICA http www cavi univ paris3 fr lexicometrica MARGES LINGUISTIQUES http www marges linguistiques com ATALA http www atala org HYPERBASE http lolita unice fr pub hyperbase TROPES http www acetic fr SPHINX http www lesphinx developpement fr SPAD T http www cisia com ALCESTE http www image cict fr TALTAC http www talta
52. ontenues dans la police des caract res les caract res s parateurs de phrase sous ensemble des d limiteurs de s quence qui correspondent en g n ral aux seules ponctuations fortes 26 02 03 LEXICO3 40 classification stat technique statistique permettant de regrouper des observations ou des individus entre lesquels a t d finie une distance classification hi rarchique cla technique particuli re de classification produisant par agglom ration progressive des classes ayant la propri t d tre pour deux quelconques d entre elles soit disjointes soit incluses concordance sa l ensemble de lignes de contexte se rapportant une m me forme p le contribution absolue ou contribution ac contribution apport e par un l ment au facteur Pour un facteur donn la somme des contributions sur les l ments de chacun des ensembles mis en correspondance est gale 100 contribution relative ou cosinus carr ac contribution apport e par le facteur un l ment Pour un l ment donn la somme des contributions relatives sur l ensemble des facteurs est gale 1 cooccurrence sa une c pr sence simultan e mais non forc ment contigu dans un fragment de texte s quence phrase paragraphe voisinage d une occurrence partie du corpus etc des occurrences de deux formes donn es corpus ling ensemble limit des l ments nonc s sur lesquels se base l tude d un
53. ouvant toutes ses occurrences dans cette seule partie fr quence sa d une unit textuelle le nombre de ses occurrences dans le corpus fr quence d un segment sr ou d une polyforme le nombre des occurrences de ce segment dans l ensemble du corpus fr quence maximale sa fr quence de la forme la plus fr quente du corpus en fran ais le plus souvent la pr position de fr quence relative sa la fr quence d une unit textuelle dans le corpus ou dans l une de ses parties rapport e la taille du corpus resp de cette partie gamme des fr quences sa suite not e Vk des effectifs correspondant aux formes de fr quence k lorsque k varie de 1 la fr quence maximale hapax gr hapax legomenon chose dite une seule fois sa forme dont la fr quence est gale un dans le corpus hapax du corpus ou dans une de ses parties hapax de la partie identification stat ling sa reconnaissance d un seul et m me l ment travers ses multiples emplois dans des contextes et dans des situations diff rentes index sa liste imprim e constitu e partir d une r organisation des formes et des occurrences d un texte ayant pour base la forme graphique et permettant de regrouper les r f rences relatives l ensemble des occurrences d une m me forme index alphab tique sa index dans lequel les formes p les sont class es selon l ordre lexicographique celui des dictionnaires
54. qu on trouve dans la s quence j aime Lexico3 propose une liste de d limiteurs par d faut qui peut tre modifi e par l utilisateur i L espace blanc est automatiquement ajout cette liste Une fois la liste des d limiteurs fix e les autres caract res a b c deviennent des caract res non d limiteurs Toute suite de caract res non d limiteurs born e ses deux extr mit s par des d limiteurs est consid r e comme l occurrence d une forme relever et classer Minuscules majuscules apostrophes Pour des vis es particuli res l utilisateur peut combiner les conventions de pr traitement et les options de segmentation pour influer sur le type des formes produites par la segmentation On peut par exemple remplacer syst matiquement lors d un traitement pr alable toutes les majuscules du texte par une ast risque suivie de la minuscule correspondante ex Moi devient moi Une segmentation int grant le caract re parmi les d limiteurs confondra les occurrences des s quences Moi et moi une segmentation pour laquelle l ast risque n appartient pas cette liste produira des d comptes distincts pour les deux s quences Sections du texte Au del des partitions logiques rep rables dans le texte celui ci contient des marques de rupture qui constituent sa respiration phrases paragraphes etc Lexico3 offre la possibilit de promouvoir un caract re d limiteur ou plusieurs
55. rapport une partie ant rieure analyse factorielle stat famille de m thodes statistiques d analyse multidimensionnelle s appliquant des tableaux de nombres qui visent extraire des facteurs r sumant approximativement par quelques s ries de nombres l ensemble des informations contenues dans le tableau de d part analyse des correspondances stat m thode d analyse factorielle s appliquant l tude de tableaux double entr e compos s de nombres positifs L AC est caract ris e par l emploi d une distance ou m trique particuli re dite distance du chi 2 ou c2 caract re sa signe typographique utilis pour l encodage du texte sur un support lisible par l ordinateur caract res d limiteurs non d limiteurs sa distinction op r e sur l ensemble des caract res qui entrent dans la composition du texte permettant aux proc dures informatis es de segmenter le texte en occurrences suite de caract res non d limiteurs born e ses extr mit s par des caract res d limiteurs On distingue parmi les caract res d limiteurs les caract res d limiteurs d occurrence encore appel s d limiteurs de forme qui sont en g n ral le blanc les signes de ponctuation usuels les signes de pr analyse ventuellement contenus dans le texte les caract res d limiteurs de s quences sous ensemble des d limiteurs d occurrence correspondant en g n ral aux ponctuations faibles et fortes c
56. riques une forme graphique est une suite de caract res non d limiteurs encadr e par deux caract res d limiteurs Cela veut dire que les formes graphiques dont on va d compter les occurrences sont enti rement d finies par la liste des d limiteurs retenus par l utilisateur L identification se produit lorsque les cha nes MKCorpus est d velopp par S Fleury Paris3 Ilpga Syled 2 8 Se Ss On carte les fichiers de type document doc et autres formats cr s par traitement de texte car ceux ci int grent un en t te renfermant diverses informations sur la mise en forme notamment 26 02 03 LEXICO3 9 comprises entre deux d limiteurs de formes sont identiques Ainsi si l on n effectue pas de pr traitement appropri Vache n est pas identique vache et c est dire est diff rent de c est dire La partie m canique de la segmentation automatique est consid rablement simplifi e par la r alisation du principe simple un signe un statut Chaque signe typographique doit tre susceptible de recevoir un statut d limiteur ou non d limiteur fix une fois pour toutes au d but de la proc dure Ces principes entrent parfois en conflit avec les conventions typographiques usuelles Le tiret de dit il na pas le m me statut grammatical que celui de garde manger Il en va de m me pour l apostrophe de aujourd hui qui devrait tre consid r comme non d limiteur dont le statut diff re de celle
57. ront ensuite compar es entre elles Pour r aliser cette op ration il faut Ouvrir Lexico3 en cliquant sur l ic ne du logiciel S lectionner le fichier ouvrir dans le menu Fichier ici auteurs txt Accepter les param tres de segmentation qui seront d finis plus bas en cliquant sur le bouton OK Lexico3 pr sente alors dans la partie gauche de l cran la liste des formes attest es dans le corpus munies de leurs fr quences respectives On peut alors effectuer toute une s rie d op rations lexicom triques d crites dans la suite de ce manuel en actionnant les boutons qui appellent les diff rents modules du logiciel cf sections 2 4 26 02 03 LEXICO3 8 Votre corpus d essai Comme dans l exemple pr c dent ins rer quelques balises pour d limiter diff rentes parties dans le corpus par exemple lt partie 1 gt lt partie 2 gt etc Dans le dossier Lexico3 cr lors de l installation du logiciel l aide de votre traitement de texte habituel Word etc enregistrer votre document avec l option texte seulement article Enregister sous du menu Fichier Votre corpus d essai est pr t pour l exploitation par Lexico3 Pour une premi re utilisation le plus simple est d accepter les param tres de segmentation par d faut propos s par le logiciel caract res d limiteurs etc 1 2 Normes d enregistrement Dans la p riode r cente de nouvelles normes XML HTML etc tendent
58. rrespondances classification automatique analyse des s ries textuelles chronologiques 3 1 D coupage en parties al Les diff rentes cl s introduites avant la segmentation automatique cf section 1 les corpus de texte permettent d op rer diff rentes partitions du corpus Pour r aliser une partition du corpus on s lectionne un type de cl les diff rents contenus affect s cette cl d coupent alors le corpus en autant de parties diff rentes Exemple Apr s avoir segment le corpus Duchn txt cliquer sur l ic ne Sfatistiques par partie une bo te de dialogue appara t qui permet de choisir une cl de partition Figure 3 1 S lectionner par exemple la cl semaine double clic ou bouton Cr er Choix de la partition EN Epg numero Sat quinzaine Sda semaine edito mois Figure 3 1 Choix d une partition Une fen tre s ouvre x Annuler alors qui va permettre de comparer la fr quences des unit s textuelles dans l ensemble des parties Ventilation d une forme ou Tgen En faisant glisser sur cette fen tre les formes et ou les segments r p t s section 2 4 qui se trouvent dans les fen tres gauche de l cran on obtient la ventilation de la ou des unit s textuelles choisies dans les diff rentes parties du corpus Figure 3 2 On peut galement faire glisser sur cette fen tre les groupes de formes section 2 5 r alis s dans la fen tre correspondante ainsi que les liens stock s dans
59. sa sous fr quence est anormalement faible dans cette partie De fa on plus pr cise si la somme des probabilit s calcul es partir du mod le hyperg om trique pour les valeurs gales ou inf rieures la sous fr quence constat e est inf rieure au seuil fix au d part stock distributionnel du vocabulaire d un fragment de texte le vocabulaire de ce fragment assorti de comptages de fr quence pour chacune des formes entrant dans sa composition syntagmatique sa qui concerne le regroupement des unit s textuelles selon leur ordre de succession dans la cha ne crite syntagme ling groupe de mots en s quence formant une unit l int rieur de la phrase tableau de contingence stat synonyme de tableau de fr quences ou de tableau crois tableau dont les lignes et les colonnes repr sentent respectivement les modalit s de deux questions ou deux variables nominales et dont le terme g n ral repr sente le nombre d individus correspondant chaque couple de modalit s tableau lexical entier TLE tableau double entr e dont les lignes sont constitu es par les ventilations des diff rentes formes dans les parties du corpus Le terme g n rique Pr du TLE est gal au nombre de fois que la forme i est attest e dans la partie j du corpus Les lignes du TLE sont tri es selon l ordre lexicom trique des formes correspondantes tableau des segments r p t s TSR tableau double entr e dont les li
60. tique need EEEE a iE 13 N TIBARON OS Cle a ne 14 Segmentation E ntm ND One 15 Fichiers de SO nitrate bit nt et en EEEE 16 2 2 CVS NEE 18 SEENEN 18 S lectionner une forme ou HIN zeegsdenggebi egdeesdergeebgegSdeEudergegebd ERdeeNde Seege 18 Gliss i D POSET EE 19 Possibilit s d affichage de la concordance eesseeseeeseeseeessseeeeserersrsereeesssreressrreessseee 19 RE e 19 2 4 Ajouter les r sultats au TAPIE ea anne lente 20 IER ee e E 20 Ajouter AU e EE 20 2 5 1R bHerene des s gments r p t S si EE 20 2 0 Groupe eg 22 E AD EAN 23 EIERE e iegedEeeE Ed EENS aiea eiaa 23 EE deent en ra uma EEE EE REEERE 25 3 Outils d analyse statistique esssssesococecesssssooccccesesesssooccccccessssoocecesesesssooccecesesesssoocceseses 27 3 1 D co p ge E EE 27 Ventilation d une forme ou Tgen E 27 Statistiques par partie PR ententes 28 LEXICO3 3 SES GE CELA E 29 R sultats du calcul e 31 3 3 Sp cificit s chronologiques send 31 Acoroiss m nts SD CHIQUES EE 31 3 4 Analyse Factorielle des Correspondances AFC ssssssesssssssssssseessrersssssseerrrerssssssee 32 4 Outils de navigation lexicom trique e esssessesssoccesssocesssoccesssoccesssoccesscoceesssoceessoccsessoecesss 34 e E 34 Faire une carte des sections pour un Tgen eeessssseesssrerieserersssrrerrssrrersssreressrreeeseene 34 Les outils statistiques de la carte des sections unanime 34 Naviguer l aide de la carte des SEENEN 35 4 2 M
61. u d une colonne d un tableau double entr e vecteur constitu par le rapport des effectifs contenus sur cette ligne resp colonne la somme des effectifs que contient la ligne resp la colonne r partition sa des occurrences d une forme dans les parties du corpus nombre des parties du corpus dans lesquelles cette forme est attest e section sr portion de texte comprise entre deux d limiteurs de section exemple le paragraphe etc segment sr toute suite d occurrences cons cutives dans le corpus et non s par es par un s parateur de s quence est un segment du texte segment r p t sr ou polyforme r p t e suite de forme dont la fr quence est sup rieure ou gale 2 dans le corpus segmentaire sr ensemble des termes attest s dans le corpus segmentation op ration qui consiste d limiter des unit s minimales dans un texte segmentation automatique ensemble d op rations r alis es au moyen de proc dures informatis es qui aboutissent d couper selon des r gles pr d finies un texte stock sur un support lisible par un ordinateur en unit s distinctes que l on appelle des unit s minimales s parateurs de phrases sa sous ensemble des caract res d limiteurs de s quence correspondant aux seules ponctuations fortes en g n ral le point le point d interrogation le point d exclamation s quence sa suite d occurrences du texte non s par es par un d
62. ue tous les ci devant ne cesseraient de nous trahir n avais je pas raison foutre S je me suis toujours plus d fi des nobles convertis que des migr s Cl est pour nous frapper de plus pr s que ces gredins sont rest s au milieu de nous ils ont fait les chiens couchants pour mieux nous tromper jamais foutre ils n ont cess de s entendre avec les ennemis du dehors ce sont eux qui nous ont mis chien et chat qui ont brouill les cartes dans les trois assembl es nationales et cor rompu les repr sentants du peuple si nous avions eu assez d estoc pour les envoyer tous coblentz au commencement de la r volution nous n aurions pas achet notre libert par des flots de sang nous aurions depuis longtemps une constitution la paix et le bonheur r gneraient dans notre r publique Dans ces fichiers textes fournis titre d exemple la cl Sda permet de coder l ann e durant laquelle le texte a t publi la cl Numero permet d introduire un num ro de livraison qui respecte l dition originale du texte 96 livraisons num rot es de 255 351 pour le corpus DUCHhn txt 6 num ros pour le sous corpus text1 txt la cl Eng permet le passage une autre page conform ment la pagination de l dition originale du corpus la cl S03 permet de distinguer les portions de texte qui sont des titres et des chapeaux S03 0 du texte proprem
63. uttman L 1941 The quantification of a class of attributes a theory and method of a scale construction in The prediction of personal adjustment P Horst ed SSCR New York p 251 264 Habert B Fabre C Issac F 1998 De l crit au num rique constituer normaliser et exploiter les corpus lectroniques InterEditions Habert B Salem A Nazarenko A 1997 Les linguistiques de corpus Armand Colin Paris Habert B Tournier M 1987 La tradition chr tienne du syndicalisme fran ais aux prises avec le temps Evolution compar e des r solutions conf d rales 1945 1985 Mots n 14 Jurafsky D Martin J H 2000 Speech and Language Processing An Introduction to Natural Language Processing Computational Linguistics and Speech Recognition Prentice Hall Labb D 1983 Fran ois Mitterrand Essai sur le discours La pens e sauvage Grenoble Labb D 1990 Le vocabulaire de Fran ois Mitterrand Presses de la Fond Nat des Sciences Politiques Paris Labb D 1990 Normes de d pouillement et proc dures d analyse des textes politiques CERAT Grenoble Labb D Thoiron P Serant D Ed 1988 Etudes sur la richesse et la structure lexicales Slatkine Champion Paris Gen ve Lafon P 1980 Sur la variabilit de la fr quence des formes dans un corpus Mots N 1 p 127 165 Lafon P 1981 Analyse lexicom trique et recherche des cooccurrences Mots N 3 p 95 148 Lafon

Download Pdf Manuals

image

Related Search

Related Contents

Renaissance Installation & User Manual  仕様書3  Operator`s Manual Model No. PP15 15000 mAh  Conair Infiniti Pro  DECT UG D77T_V_H EN  MTM800 FuG TETRA Mobile Terminal Installation Manual  Mode d`emploi Papillon solaire à LED  Samsung Samsung SGH-J200 Käyttöopas  Silicon Power SP750GBPHDD01S2K external hard drive  en1 sólominuto  

Copyright © All rights reserved.
Failed to retrieve file