Home

Manuel d`utilisation d`Unitex - LIPN

image

Contents

1. NumeroMois FIG 6 29 Chevauchement de variables 6 7 APPLICATION DES GRAPHES AUX TEXTES 105 6 7 Application des graphes aux textes Cette section concerne uniquement les graphes syntaxiques 6 7 1 Configuration de la recherche Pour appliquer un graphe a un texte vous devez ouvrir le texte puis cliquer sur Locate Pattern dans le menu Text ou appuyer sur lt Ctrl L gt Vous pouvez alors configurer votre recherche grace a la fen tre de la figure 6 30 Dans le cadre intitul Locate pattern in the form of choisissez Graph et s lectionnez votre graphe en cliquant sur le bouton Set Vous pouvez choisir un graphe au format grf Unicode Graphs ou un graphe compil au format fst2 Unicode Compiled Graphs Si votre graphe est au format grf Unitex le compilera automatiquement avant de lancer la recherche Le cadre Index permet de s lectionner le mode de reconnaissance Shortest matches donne la priorit aux s quences les plus courtes Longest matches donne la priorit aux s quences les plus longues C est le mode utilis par d faut All matches donne toutes les s quences reconnues Le cadre Search limitation permet de limiter ou non la recherche a un certain nombre d occurrences Par d faut la recherche est limit e aux 200 premi res occurrences Le cadre Grammar outputs concerne le mode d utilisation des sorties Le mode Merge with input text perme
2. FIG 7 19 Grammaire ELAG v rifiant l accord en genre et en nombre entre un nom et l ad jectif qui le suit Codes optionnels Les codes syntaxiques et s mantiques optionnels sont d clar s dans la partie cat Ils peuvent tre utilis s dans les grammaires ELAG comme les autres codes La diff rence est que ces codes n interviennent pas pour d cider si une tiquette doit tre rejet e comme inva lide ou non lors du chargement de l automate du text Ce sont des codes facultatifs qui sont ind pendants des autres codes comme par exemple l attribut de niveau de langue z1 z2 Cette grammaire n est pas compl tement correcte car elle limine par exemple l analyse correcte de la phrase J ai re u des coups de fil de ma m re hallucinants 132 CHAPITRE 7 AUTOMATE DU TEXTE ou z3 De la m me mani re que pour les codes flexionnels il est galement possible de nier un attribut flexionnel en crivant le caract re juste avant le nom de l attribut Ainsi avec notre fichier d exemple le symbole lt A gauche f gt reconnait tous les adjectifs au f minin qui ne poss dent pas le code g Tous les codes qui ne sont pas d clar s dans le fichier tagset def sont ignor s par ELAG Si une entr e de dictionnaire contient un tel code ELAG produira un avetissement et retirera le code de l entr e En cons quence si deux entr es concurrentes ne diff raient dans l automate du texte d origine que par des codes n
3. 5 24 R pertoire de d p t Lorsqu on souhaite r utiliser une grammaire X dans une grammaire Y la m thode usuelle est de recopier tous les graphes de X dans le r pertoire o se trouve les graphes de Y ce qui pose deux probl mes le nombre de graphes dans le r pertoire devient vite tr s important deux graphes ne peuvent pas avoir le m me nom Afin d viter cela il est possible de stocker la grammaire X dans un r pertoire particu lier appel r pertoire de d p t Ce r pertoire est une sorte de biblioth que dans laquelle on peut ranger des graphes et faire ensuite appel ces graphes au moyen de au lieu de Pour utiliser ce m canisme il faut tout d abord d finir le r pertoire de d p t dans le menu 5 2 EDITION DE GRAPHES 71 Compiling graph alpha Compiling graph beta Compiling graph E greek delta grf Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection completed Compilation has succeeded Absolute path name detected windows E greek delta git Absolute path names are not portable ok Can FIG 5 8 Avertissement pour un nom de graphe non portable Info gt Preferences gt Directories voir figure 5 9 Choisissez votre r pertoire dans le cadre Graph repository Le r pertoire de d p t est propre la langue de travail vous n tes donc p
4. FIG 8 4 Table de lexique grammaire 31H 8 24 G n ration automatique de graphes Pour pouvoir g n rer des graphes partir d un graphe param tr et d une table il faut tout d abord ouvrir la table en cliquant sur Open dans le menu Lexicon Grammar voir figure 8 5 La table doit avoir t pr alablement convertie en texte Unicode La table s lectionn e est alors affich e dans une fen tre voir figure 8 6 Pour g n rer automatiquement des graphes partir d un graphe param tr cliquez sur Compile to GRF dans le menu Lexicon Grammar La fen tre de la figure 8 7 appara t alors Dans le cadre Reference Graph in GRF format indiquez le nom du graphe param tr utiliser Dans le cadre Resulting GRF grammar indiquez le nom du graphe principal qui 8 2 CONVERSION D UNE TABLE EN GRAPHES 143 Edit File Edition Windows Info Open Compile to GRF Close FIG 8 5 Menu Lexicon Grammar acquie d j adouber agioter agoniser archaiser arquer jarriver atermoyer badauder baisser Ibambocher bander barouder batifo ler b cher b tifier bigler boiter boitiller lEaussa SEO le Tilt REE HE EEE FIG 8 6 Affichage d une table sera g n r Ce graphe principal est un graphe faisant appel tous les graphes qui auront t g n r s En lan ant une
5. fUnigraphY SIZE 1313 9504 FONT Times New Roman 124 164 OFONT T BCOLOR FCOLOR ACOLOR SCOLOR CCOLOR DBOXES DF RAME DDATE y DFILE y DDIR y DRIG n4 DRST n4 FITS 10 PORIENT dl imes New Roman B 124 167772154 04 126322564 167116804 2554 v4 y q q 09 LI CHAPITRE 10 FORMATS DE FICHIERS La premi re ligne Unigraph est une ligne de commentaire Les lignes suivantes d fi nissent les valeurs des param tres de pr sentation du graphe SIZE x y d finit la largeur x et la hauteur y du graphe en pixels FONT name xyz d finit la police utilis e pour afficher le contenu des bo tes name repr sente le nom de la police x indique si la police doit tre en gras ou non Si x vaut B cela indique que la police doit tre en gras Pour une police normale x doit tre un espace De la m me mani re y vaut I si la police doit tre en italique un espace sinon z repr sente la taille de la police OFONT name xyz d finit la police utilis e pour afficher les transductions Les para m tres name x y et z sont d finis de la m me mani re que pour FONT BCOLOR x d finit la couleur de l arri re plan du graphe x repr sente la couleur au format RGB FCOLOR x d finit la couleur de dessin du graphe x repr sente la couleur au format RGB ACOLOR x d finit la couleur utilis e pour dessiner les lignes des bo tes qui corres pondent a des appels a des sous graphes x repr
6. 7 3 LEV E D AMBIGUITES LEXICALES AVEC ELAG 131 C est par exemple le cas de s quences fig es comme de bonne humeur qui ont un comporte ment syntaxique tr s proche de celui des adjectifs De telles s quence ont ainsi t int gr es dans le dictionnaire du fran ais en tant qu adjectifs invariables et donc sans trait flexionnel Le probl me est que si l on veut faire r f rence exclusivement ce type d adjectifs dans une grammaire de d sambiguisation le symbole lt A gt ne convient pas puisqu il donnera tous les adjectifs Pour contourner cette difficult il est possible de nier un attribut flexionnel en cri vant le caract re juste avant une des valeurs possibles pour cet attribut Ainsi le symbole lt A m p gt reconna t tous les adjectifs qui n ont ni genre ni nombre A l aide de cet op rateur il est maintenant possible d crire des grammaires comme celles de la figure 7 19 qui imposent l accord en genre et en nombre entre un nom et l adjectif qui le suit Cette grammaire conservera l analyse correcte de phrases comme Les personnes de bonne humeur m insupportent Il est toutefois recommand de limiter l usage de l op rateur car cela nuit la lisibilit des grammaires Il est pr f rable de distinguer les tiquettes qui acceptent diff rentes com binaisons flexionnelles au moyen de sous cat gories discriminantes d finies dans la partie discr lt N gt lt gt
7. Sigles pr noms anthroponymes cas2 Mots compos s ou suivis d une lettre majuscule symboles Cas particuliers Graphe r alis par Nathalie Friburger LI Tours Anne Dister Univ de Li ges Denis Maurel LI Tours FIG 2 9 Grammaire de d coupage en phrases pour le fran ais Par d faut l espace est facultatif entre deux bo tes Si l on veut interdire la pr sence de ce s parateur il faut utiliser le symbole sp cial l inverse si vous souhaitez forcer la pr sence de l espace vous devez utiliser la s quence Les lettres minuscules et majuscules sont d finies par un fichier alphabet voir chapitre 10 Pour plus de d tails sur les graphes voir le chapitre 5 Pour plus de d tails sur le d coupage d un texte en phrases voir 16 La grammaire utilis e se nomme Sentence fst2 et se trouve dans le r pertoire suivant r pertoire personnel langue Graphs Preprocessing Sentence L application de cette grammaire un texte s effectue gr ce au programme Fst2Txt en mode MERGE Cela signifie que les sorties produites par la grammaire en l occurrence le symbole S sont ins r es dans le texte Ce programme prend en entr e un fichier snt et le modifie 2 5 3 Normalisation de formes non ambigu s Certaines formes pr sentes dans les textes peuvent tre normalis es par exemple la s quence fran aise l on est quivalente la forme on Chaque utilisateur peut donc vouloir effectuer
8. below refers to any such program or work and a work based on the Program means either the Program or any derivative work under copyright law that is to say a work containing the Program or a portion of it either verbatim or with modifications and or translated into another language Hereinafter translation is included without limitation in the term modification Each licensee is addressed as you Activities other than copying distribution and modification are not covered by this License they are outside its scope The act of running the Program is not restricted and the output from the Program is covered only if its contents constitute a work based on the Program independent of having been made by running the Program Whether that is true depends on what the Program does 1 You may copy and distribute verbatim copies of the Program s source code as you receive it in any medium provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice and disclaimer of warranty keep intact all the notices that refer to this License and to the absence of any warranty and give any other recipients of the Program a copy of this License along with the Program You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee 2 You may modify your copy or copies of the Program or any portion of it thus forming
9. repr sentant respectivement les d but et fin de contexte qui sont repr sent s dans le graphe par des crochets verts Le d but et la fin d un contexte doivent appara tre dans le m me graphe Ho FIG 6 12 Utilisation d un contexte La figure 6 12 montre un exemple simple de contexte Ce graphe reconnait tous les nombres qui sont suivis par l euro la livre ou le dollar mais sans que le symbole d unit n apparaisse dans les occurrences trouv es Les contextes s interpretent de la fa on suivante Supposons que l on rencontre un d but de contexte lors de l application d une grammaire un texte et notons pos la position cou rante dans le texte cet instant Le programme Locate va ensuite chercher reconna tre l expression d crite dans le contexte S il choue il n y aura pas de match S il r ussit c est dire s il peut atteindre la fin du contexte le programme reviendra la position pos dans le texte et continuera l exploration de la grammaire partir la fin du contexte On peut galement d finir des contextes n gatifs en utilisant comme d but de contexte La figure 6 13 montre un graphe reconnaissant des nombres qui ne sont pas suivis par th La diff rence avec les contextes positifs est que lorsque Locate essaie de recon na tre l expression d crite dans le contexte le fait d atteindre la fin du contexte est consid r comme un chec car cela signifie que l on a reconnu une s que
10. ELAG cadre du bas Vous pouvez ajouter ou supprimer des 136 CHAPITRE 7 AUTOMATE DU TEXTE boites ou des transitions Lorsqu un graphe est modifi il est sauvegard dans le r pertoire du texte sous le nom sentenceN grf o N repr sente le num ro de la phrase Lorsque vous s lectionnez une phrase si un graphe modifi existe pour cette phrase celui ci est affich Vous pouvez alors r initialiser l automate de cette phrase en cliquant sur le bouton Reset Sentence Graph voir figure 7 24 FST Text Ivanhoe by Sir Walter Scott 2344 sentences Sentence 13 Reset Sentence Graph Rebuild FST Text Elag Frame Explode rn 5 Eva N ProperNoun PREP N ProperNoun FIG 7 24 Automate de phrase modifi Lors de la construction de l automate d un texte tous les graphes de phrase modifi s pr sents dans le r pertoire du texte sont effac s NOTE vous pouvez reconstruire l automate du texte en prenant en compte vos modi fications manuelles Pour cela cliquez sur le bouton Rebuild FST Text Toutes les phrases pour lesquelles des modifications ont t faites sont alors remplac es dans l automate du texte par leur version modifi e Le nouvel automate du texte est ensuite recharg automati quement 7 4 3 Param tres de pr sentation Les automates de phrase sont soumis aux m mes options de pr sentation que les graphes Ils partagent les m mes coule
11. L op ration de tri modifie le fichier texte Par d faut le tri est effectu dans l ordre des caract res en Unicode en supprimant les doublons 9 27 Table2Grf Table2Grf table graphe resultat sousgraphe Ce programme g n re automatiquement des graphes a partir de la table de lexique grammaire table et du graphe patron graphe Le nom du graphe principal de la gram maire obtenue est resultat Les noms des sous graphes produits sont g n r s a partir du mod le sousgraphe Si ce param tre est omis les noms des graphes g n r s sont form s a partir du param tre resultat auquel s ajoute un nombre 9 28 TagsetNormFst2 TagsetNormFst2 1 tagset fst2 Ce programme normalise l automate de texte fst 2 en fonction du jeu d tiquettes ELAG tagset Il supprime toutes les entr es de dictionnaires contenant des codes non conformes au fichier tagset 9 29 TextAutomaton2Mft TextAutomaton2Mft text fst2 Ce programme prend en param tre un automate du texte text fst2 et construit un quivalent au format mft d Intex Le fichier produit a pour nom text mft et est cod en Unicode 9 30 Tokenize Tokenize texte alphabet char_by_char Ce programme d coupe le texte en unit s lexicales Le param tre texte doit repr senter le chemin d acc s complet au fichier texte sans omettre l extension snt Le param tre alphabet doit repr senter le chemin d acc s complet au fichier d finissant l alphabet de 160 CHAPITRE 9 UTI
12. La licence LGPL est plus permissive que la licence GPL car elle permet d utiliser du code LGPL dans des logiciels non libres Du point de vue de l utilisateur il n y a pas de diff rence car dans les deux cas le logiciel peut tre librement utilis et distribu Toutes les donn es linguistiques distribu es avec Unitex sont soumises la licence LG PLLR 29 Le texte complet des licences GPL LGPL et LGPLLR se trouve dans les annexes 4 la fin de ce manuel 1 2 Environnement d ex cution Java Unitex est compos d une interface graphique crite en Java et de programmes externes crits en C C Ce m lange de langages de programmation permet d avoir une appli cation rapide et portable sous diff rents systemes d exploitation Afin de pouvoir utiliser l interface graphique il faut pr alablement installer un environnement d ex cution com mun ment appel machine virtuelle Java ou JRE Java Runtime Environment Pour fonctionner en mode graphique Unitex n cessite une version 1 4 ou plus r cente de Java Si vous avez une version trop ancienne de Java Unitex se bloquera apr s que vous ayez choisi votre langue de travail Vous pouvez t l charger librement la machine virtuelle 11 12 CHAPITRE 1 INSTALLATION D UNITEX correspondant votre syst me d exploitation sur le site de Sun Microsystems 38 l adresse suivante http java sun com Si vous travaillez sous Linux ou MacOS ou si vous utilisez
13. N z1 fs ms L int r t de cette distinction est donc laiss e a l appr ciation des personnes qui construisent des dictionnaires 3 1 2 Format des DELAS Le format des DELAS est tr s similaire celui des DELAF La diff rence est qu on ne mentionne qu une forme canonique suivie de codes grammaticaux et ou s mantiques La forme canonique est s par e des diff rents codes par une virgule Voici un exemple d entr e cheval N4 Anl1 Le premier code grammatical ou s mantique sera interpr t par le programme de flexion comme le nom de la grammaire utiliser pour fl chir l entr e L entr e de l exemple ci dessus indique que le mot cheval doit tre fl chi avec une grammaire nomm e N4 Il est possible d ajouter des codes flexionnels aux entr es mais la nature de l op ration de flexion limite l int r t de cette possibilit Pour plus de d tails voir plus loin dans ce chapitre la section 3 4 3 13 Contenu des dictionnaires Les dictionnaires fournis avec Unitex contiennent des descriptions des mots simples et compos s Ces descriptions indiquent la cat gorie grammaticale de chaque entr e ses ven tuels codes de flexion ainsi que des informations s mantiques diverses Les tableaux sui vants donnent un aper u des diff rents codes utilis s dans les dictionnaires fournis avec 3 1 LES DICTIONNAIRES DELA
14. agit d un retour la ligne il est remplac par un espace Pour les autres langues le d coupage est effectu caract re par caract re l exception du s parateur de phrases S le marqueur STOP et des tiquettes lexicales Ce d coupage basique garantit le fonctionnement d Unitex mais limite l optimisation des op rations de recherche de motifs Quelque soit le mode de d coupage les retours la ligne pr sents dans un texte sont remplac s par des espaces Ce d coupage est effectu par le programme Tokenize Ce programme produit plusieurs fichiers stock s dans le r pertoire du texte tokens txt contient la liste des unit s lexicales dans l ordre o elles ont t trouv es dans le texte text cod contient un tableau d entiers chaque entier correspondant l indice d une unit lexicale dans le fichier tokens txt tok_by_freq txt contient la liste des unit s lexicales tri e par ordre de fr quence tok_by_alph txt contient la liste des unit s lexicales tri e par ordre alphab tique stats n contient quelques statistiques sur le texte Le d coupage du texte Un sou c est un sou donne la liste d unit s lexicales suivantes Un ESPACE sou c est un On peut remarquer qu il est tenu compte de la casse Un et un sont deux unit s dis tinctes mais que chaque unit n est cod e qu une fois En num rotant ces unit s de 0 7 ce texte peut tre repr sent
15. est pas possible d associer une sortie 4 un appel a un sous graphe De telles sorties sont ignor es par Unitex Il faut donc utiliser une bo te vide situ e imm diatement gauche de l appel au sous graphe pour porter la sortie voir figure 6 7 DET is ignored on this path DET but not on this one FIG 6 7 Comment associer une sortie un appel de sous graphe 92 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES Les grammaires ne doivent pas non plus comporter de boucles infinies car les pro grammes d Unitex ne pourraient jamais terminer l exploration de telles grammaires Ces boucles peuvent tre dues des transitions tiquet es par le mot vide epsilon ou des ap pels de sous graphes r cursifs Les boucles dues des transitions par le mot vide peuvent avoir deux origines dont la premi re est illustr e par la figure 6 8 FIG 6 8 Boucle infinie due une transition par le mot vide avec sortie Ce type de boucle est du au fait qu une transition par le mot vide ne peut pas tre limi n e automatiquement par Unitex lorsqu elle est munie d une sortie Ainsi la transition par le mot vide de la figure 6 8 ne sera pas supprim e et provoquera une boucle infinie La seconde cat gorie de boucle par epsilon concerne les appels des sous graphes pou vant reconna tre le mot vide Ce cas de figure est illustr par la figure 6 9 si le sous graphe Adj reconnait epsilon on a une boucle infinie qu
16. participe pass finissant par i lt CDIC gt lt lt gt gt mot compos contenant un tiret lt CDIC gt lt lt gt gt mot compos contenant deux espaces lt A fs gt lt lt pro gt gt adjectif f minin singulier commen ant par pro lt DET gt lt lt u u n gt gt d terminant diff rent de un lt DIC gt lt lt es gt gt mot qui n est pas dans le dictionnaire et qui se termine par es lt V S T gt lt lt uiss gt gt verbe au subjonctif pass ou pr sent contenant uiss NOTE par d faut les filtres morphologiques sont soumis aux m me variations de casse que les masques lexicaux Ainsi le filtre lt lt gt gt va reconna tre tous les mots commen ant par mais galement ceux qui commencent par E ou Pour forcer le respect exact de la casse du filtre il faut ajouter _f_ imm diatement apr s celui ci Exemple lt A gt lt lt gt gt _f_ 48 Recherche 4 8 1 Configuration de la recherche Pour pouvoir rechercher une expression il faut tout d abord ouvrir un texte voir cha pitre 2 Cliquez ensuite sur Locate Pattern dans le menu Text La fen tre de la figure 4 4 appara t alors 4 8 RECHERCHE 59 E Locate Pattern Locate pattern in the form of O Regular expression hm 2 Graph Index 7 Grammar outputs O Shortest matches e Are not taken into account 8 Longest matches Merge with input text O All
17. tre utilis plusieurs fois afin de sp ci fier plusieurs graphes d arr t p s f d s produit l affichage des chemins de chaque sous graphe de la gram maire f d faut affiche les chemins de la grammaire globale d affiche les chemins en ajoutant des indications sur les imbrications d appels de sous graphes c SS 0xXXXX remplace le symbole SS quand il appara t entre entre angles par le caract re unicode de code hexad cimal 0xXXXX s L R sp cifie les d limiteurs gauche L et droit R qui entoureront les items Par d faut ces d limiteurs sont nuls s0 Str sil on tient compte des sorties de la grammaire ce param tre sp cifie la s quence Str qui s parera une entr e de sa sortie Par d faut il n y a pas de s para teur f a s si l on tient compte des sorties de la grammaire ce param tre sp cifie le format des lignes g n r es in0 inl out0 outl s oubienin0 out0 inl outl a La valeur par d faut est s v ce param tre produit l affichage de messages d informations rx L R ce param tre sp cifie comment les cycles doivent tre pr sent s L et R d signent des d limiteurs Si l on consid re le graphe de la figure 9 1 voici les r sultats que l on obtient si l on pose L et R il fait tr s tr s il fait tr s beau za Lu 50 9 FIG 9 1 Graphe avec cycle 9 15 Fst2Txt Fst2Txt texte fst2 alph mode char_by_char char_by_c
18. un DELAF et tre encadr es par les symboles et Les sorties variables n ont pas de sens dans ce type de graphe 88 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Il est possible de faire appel des sous graphes Il n est pas possible de faire r f rence aux dictionnaires pour d crire les formes normaliser L unique symbole sp cial reconnu dans ce type de graphe est le mot vide lt E gt Les graphes de normalisation de formes ambi gu s doivent tre compil s avant de pouvoir tre utilis s 6 14 Graphes dictionnaires Les graphes dictionnaires d j pr sent s la section 3 6 3 sont des graphes syntaxiques qui sont appliqu s par le programme Dico de fa on g n rer des entr es de dictionnaires tant donn que Di co utilise le moteur du programme Locate pour appliquer ces graphes ils ont exactement les m mes propri t s que les graphes syntaxiques 6 1 5 Graphes syntaxiques Les graphes syntaxiques galement appel s grammaires locales permettent de d crire des motifs syntaxiques qui pourront ensuite tre recherch s dans des textes De tous les types de graphe ceux ci poss dent la plus grande puissance d expressions car ils per mettent de faire r f rence aux dictionnaires Les variantes minuscules majuscules sont autoris es selon le principe d crit plus haut Il est toutefois possible de forcer le respect de la casse en encadrant une expression avec des guillemets L emploi des guillemets pe
19. utilisation des graphes param tr s seront d velopp es dans le chapitre 8 6 2 COMPILER UNE GRAMMAIRE 89 6 2 Compiler une grammaire 6 2 1 Compilation d un graphe La compilation est l op ration qui permet de passer du format grf un format plus facile manipuler par les programmes d Unitex Pour compiler un graphe vous devez l ou vrir puis cliquer sur Compile FST2 dans le sous menu Tools du menu FSGraph Unitex lance alors le programme Grf2Fst2 dont vous pouvez suivre l ex cution dans une fen tre voir figure 6 4 Compiling graph DetN Compiling graph DetSimple Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection completed Compilation has succeeded Cannot open the graph DetSimple grf FIG 6 4 Fen tre de compilation Si le graphe fait appel a des sous graphes ceux ci sont automatiquement compil s Le r sultat est un fichier fst2 qui rassemble tous les graphes qui composent la grammaire La grammaire est alors pr te tre utilis e par les diff rents programmes d Unitex 6 2 2 Approximation par un transducteur tats finis Le format FST2 conserve l architecture en sous graphes des grammaires ce qui les dif f rencie des stricts transducteurs tats finis Le programme Flatten permet de transfor mer une grammaire FST2 en un transducteur tats finis quand cel
20. Analyse des mots compos s libres 29 Antialiasing 78 83 180 Approximation d une grammaire par un transducteur tats finis 89 153 Arrobas 141 Automate tats finis 66 acyclique 111 du texte 53 87 111 153 157 159 160 forme compacte 152 156 forme d velopp e 152 minimal 43 Automate du texte conversion en texte lin aire 137 155 Axiome 65 Barre d ic nes 76 Bo tes alignement 79 cr ation 67 relier des 67 s lection 73 suppression 73 tri des lignes 78 Boucles infinies 91 Clitiques normalisation 114 158 Codes flexionnels 130 Collection de graphes 98 Coller 73 75 77 Commentaire dans un dictionnaire 32 dans un graphe 67 Comparaison de concordances 108 INDEX Compilation des grammaires ELAG 122 Compilation d un graphe 89 155 Compression de dictionnaires 43 147 158 Concat nation d expressions rationnelles 51 56 Concordance 60 105 148 comparaison 108 Conservation des meilleurs chemins 118 160 Contexte 47 Contextes 94 concordance 60 105 148 copie de liste 75 Contextes des occurrences 60 Contraintes flexionnelles 53 Contraintes sur les grammaires 90 Conversion de l automate du texte en texte lin aire 137 155 Conversion de fichiers 16 Copie de listes 75 Copier 73 75 77 Corpus voir Texte Couleurs configuration des 81 Couper 77 Cr ation d une bo te 67 D coupage en phrases 22 D placer des groupes de mots 101 D rivati
21. Paris 1986 3 7 8 1 28 Alain GUILLET and Christian LECLERE La structure des phrases simples en francais les constructions transitives locatives Droz Gen ve 1992 8 1 29 IGM Lesser General Public License for Linguistic Resources http igm univ mlv unitex lgpllr html 1 1 30 Gaby KLARSFLED and Mary HAMMANI MC CARTHY Dictionnaire lectronique du ladl pour les mots simples de l anglais DELASa Technical report LADL Universit Paris 7 1991 3 7 31 Tita KYRIACOPOULOU Les dictionnaires lectroniques la flexion verbale en grec moderne 1990 Th se de doctorat Universit Paris 8 3 7 BIBLIOGRAPHIE 209 32 Tita KYRIACOPOULOU Un syst me d analyse de textes en grec moderne repr senta tion des noms compos s In Actes du 5 me Colloque International de Linguistique Grecque 13 15 septembre 2001 Sorbonne Paris 2002 3 7 33 Tita KYRIACOPOULOU Safia MRABTI and AnastasiaYANNACOPOULOU Le diction naire lectronique des noms compos s en grec moderne Lingvisticee Investigationes 25 1 7 28 2002 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 34 Jacques LABELLE Le traitement automatique des variantes linguistiques en frangais l exemple des concrets Lingvistice Investigationes 19 1 137 152 1995 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 35 Eric LAPORTE and Anne MONCEAUX Elimination of lexical ambiguities by gram mars The ELAG system Lingvisticee
22. UT 44r 980143 243 qe paansas aTquem sty 4Jaag samodaq qmq noya se qons uamspuo fuotatsoddo sat Aq 24e5 aauautTma au pam103 2apnat uoT 30 quem sqTt YTM pas Aq peor sty wory at hutdsaams Jo 3aanseat S TITN Jo pue sheranod Jo U0TJ13X2 pau apeTh STU Jo asptm aya ut aoeds Wado syTqerteptsuos Fis en AtTayQ apem AayQ yotym oq Jna 3 THS pauueq aya Jo pasodmoo saaaatTs uit Jayoel 28010 E 134T3 YON s etia3en Jo pasodmos mq Haon Uertd1iaJst3 E 3 ang utano4es uotyoerzqqe qetaganbos 30 Ite utegi s E BUTS aTAEUT ENT mM103 38274d0tS 243 30 J0 2eu2 sem ssaap sty gji U IU Jo maya Autsodstp 30 apom 243 pue sTetrzaq Ba 298 amos 4324 PEU 212421 yatun uodn any sTdand Gyhbtaq Jo pauteqs usaq PEU qayoel stHis ae uonpa AJULPIOIUOI MOIY SAUN AILL 8 UY PIOJUOI US aoyueansndio giysi uz xayun ANa 82Uep109U0 _ FIG 4 8 Exemple de concordance 64 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES Chapitre 5 Grammaires locales Les grammaires locales sont un moyen puissant de repr senter la plupart des ph no m nes linguistiques La premi re section pr sentera le formalisme sur lesquel ces gram maires reposent Nous verrons ensuite comment construire et pr senter des grammaires avec Unitex 5 1 Formalisme des grammaires locales 5 1 1 Grammaires alg briques Les grammaires Unitex sont des variantes des grammaires alg briques galement ap pel es grammaires hors contexte
23. Une grammaire alg brique est constitu e de r gles de r criture Voici une grammaire qui reconna t n importe quel nombre de caracteres a S aS S Les symboles figurant gauche des r gles sont appel s symboles non terminaux car ils peuvent tre r crits Les symboles qui ne peuvent pas tre r crits par des r gles sont ap pel s symboles terminaux Les membres droits des r gles sont des suites de symboles non terminaux et terminaux Le symbole epsilon not d signe le mot vide Dans la grammaire ci dessus S est un symbole non terminal et a un terminal S peut se r crire soit en un a suivi d un S soit en mot vide L op ration de r criture par l application d une r gle est appel e d rivation On dit qu une grammaire reconna t un mot s il existe une suite de d riva tions qui produit ce mot Le non terminal qui sert de point de d part a la premi re d rivation est appel axiome La grammaire ci dessus reconnait ainsi le mot aa car on peut obtenir ce mot depuis l axiome S en effectuant les d rivations suivantes D rivation 1 r criture de l axiome en aS S as D rivation 2 r criture du S du membre droit en aS 65 66 CHAPITRE 5 GRAMMAIRES LOCALES S aS gt aas D rivation 3 r criture du S en e S gt aS aaS aa On appelle langage d une grammaire l ensemble des mots reconnus par celle ci Les lan gages reconnus par les grammaires alg
24. c Accompany the package with a written offer valid for at least three years to give the same user the materials specified in Subsection 4a above for a charge no more than the cost of performing this distribution d wa If distribution of the package is made by offering access to copy from a designated place offer equivalent access to copy the above specified materials from the same place e Verify that the user has already received a copy of these materials or that you have already sent this user a copy If the package includes an encrypted form of the Linguistic Resource the required form of the work that uses the Linguistic Resource must include any data and uti lity programs needed for reproducing the package from it However as a special ex ception the materials to be distributed need not include anything that is normally distributed in either source or binary form with the major components compiler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable 204 CHAPITRE 10 FORMATS DE FICHIERS It may happen that this requirement contradicts the license restrictions of proprietary libraries that do not normally accompany the operating system Such a contradiction means you cannot use both them and the Linguistic Resource together in a package that you distribute You may not copy modify sublicense link with or distribute the Linguistic
25. elg 177 fst 2 59 89 135 155 166 9r 059 93 135 155 158 163 htm1 149 ind 152 inf 43 147 174 tst 177 rule snt 22 152 157 159 161 168 txt 106 149 161 168 Alphabet txt 162 Alphabet_sort txt 38 CHECK_DIC TXT 37 147 175 Config 178 Replace fst2 24 Sentence fst2 23 Unitex jar 12 14 Unitex_1 2 zip 12 alphabet 45 concord html 171 172 concord ind 157 170 concord n 157 181 concord txt 171 cursentence grf 153 169 cursentence txt 153 170 dic 28 40 151 181 dlc n 181 alf 28 40 151 181 dlf n 181 enter pos 160 168 err 28 40 151 181 err n 181 regexp grf 158 stat_dic n 151 181 stats n 26 160 181 system_dic def 180 tagset def 177 INDEX text cod 26 160 168 text fst2 153 160 169 text fst2 bck 157 tok_by_alph txt 26 160 168 tok_by_freq txt 26 160 168 tokens txt 26 160 168 user_dic def 180 alphabet 15 23 26 37 149 155 156 159 160 formats de 161 HTML 60 106 148 texte 19 161 taille maximum 19 Filtre morphologique 47 Filtres morphologiques 57 Finesse des dictionnaires 113 Flexion automatique 40 85 156 Formats de fichiers 161 Forme canonique 31 fl chie 31 GlossaNet 149 171 GPL 11 183 Grammaires alg briques 65 alg briques tendues 66 contraintes 90 de d coupage en phrases 22 86 de flexion 40 de lev e d ambiguit
26. es ou mixtes 3 1 1 Format des DELAF Syntaxe d une entr e Une entr e d un DELAF est une ligne de texte termin e par un retour la ligne qui respecte le sch ma suivant mercantiles mercantile A zl mp fp ceci est un exemple Les diff rents l ments qui forment cette ligne sont les suivants mercantiles est la forme fl chie de l entr e Cette forme fl chie est obligatoire mercantile est la forme canonique de l entr e Pour les noms et les adjectifs il s agit en g n ral de la forme au masculin singulier pour les verbes la forme canonique est l infinitif Cette information peut tre omise comme dans l exemple suivant bo te merveilles N zl fs 31 32 CHAPITRE 3 DICTIONNAIRES Cela signifie alors que la forme canonique est identique a la forme fl chie La forme canonique est s par e de la forme fl chie par une virgule A z1 est la s quence d informations grammaticales et s mantiques Dans notre exemple A d signe un adjectif et z1 indique qu il s agit d un mot courant voir tableau 3 2 Toute entr e doit comporter au moins un code grammatical ou s mantique s par de la forme canonique par un point S il y a plusieurs codes ceux ci doivent tre s par s par le caract re verb mp fp est la s quence d informations flexionnelles Ces informations d crivent le genre le nombre les temps et modes de conjugaisons les d clinaisons pour les langues cas
27. etc Ces informations sont facultatives Un code flexionnel est compos d un ou plusieurs caract res codant chacun une information Les codes flexionnels doivent tre s par s par le caract re Dans notre exemple m signifie masculin p pluriel et f minin voir tableau 3 3 Le caract re s interpr te comme un OU logique mp fp signifie donc masculin pluriel ou f minin pluriel Comme chaque caract re cor respond a une information il est inutile d utiliser plusieurs fois un m me caract re Ainsi coder le participe pass avec le code PP serait strictement quivalent utiliser P seul ceci est un exemple est un commentaire Les commentaires sont facultatifs et doivent tre introduits par le caract re Les commentaires sont supprim s lorsque l on comprime les dictionnaires REMARQUE IMPORTANTE il est possible d utiliser le point et la virgule dans une entr e de dictionnaire Pour cela il faut les d sp cialiser avec le caract re 3 1415 PI NOMBRE Organisation des Nations Unies O N U SIGLE ATTENTION chaque caract re est pris en compte dans une ligne de dictionnaire Par exemple si vous introduisez des espaces ceux ci seront consid r s comme faisant partie int grante des informations Dans la ligne suivante git g sir V z1 P3s voir ci git l espace qui pr c de le caract re sera consid r comme faisant partie d un code flexion nel a 4 caract res compos de P 3
28. l automate d origine est affich en haut et l automate r sultat en bas Ne soyez pas tonn si l automate du bas semble plus compliqu Cela s explique par 7 3 LEVEE D AMBIGUITES LEXICALES AVEC ELAG 123 Feras tu cela bient t FIG 7 13 R sultat de l application de la grammaire de la figure 7 12 A dash followed by il elle or on must be preceded by a verb FIG 7 14 Utilisation du point de synchronisation 124 CHAPITRE 7 AUTOMATE DU TEXTE Est il done si rare que les meilleurs marcheurs des lignes transoc aniennes prouv mt des retards de deux ou trois jours FIG 7 15 R sultat de l application de la grammaire de la figure 7 14 le fait que les entr es lexicales factoris es ont t explos es de fa on traiter s par ment chaque interpr tation flexionnelle Pour refactoriser ces entr es cliquez sur le bouton im plode Un clic sur le bouton explode vous donne une vue explos e de l automate du text Si vous cliquez sur le bouton replace l automate r sultat deviendra le nouvel automate du texte Ainsi si vous utilisez d autres grammaires elles s appliqueront sur l automate d j partiellement d sambiguis ce qui permet de cumuler les effets de plusieurs grammaires 1Ce sont des entr es qui regroupent plusieurs interpr tations flexionnelles diff rentes comme par exemple se PRO PpvLE 3ms 3fs 3mp 3fp 7 3 LE
29. lexicale sauf l espace lt DIC gt reconna t n importe quel mot figurant dans les dictionnaires du texte lt SDIC gt reconna t n importe quel mot simple figurant dans les dictionnaires du texte lt CDIC gt reconna t n importe quel mot compos figurant dans les dictionnaires du texte lt NB gt reconna t n importe quelle suite de chiffres contigus 1234 est reconnu mais pas 1 234 interdit la pr sence de l espace NOTE comme il a t dit en section 2 54 AUCUN des m tas ne peut tre utilis pour reconna tre le marqueur STOP pas m me lt TOKEN gt 4 3 2 Masques lexicaux La seconde sorte de motifs regroupe ceux qui font appel aux informations contenues dans les dictionnaires du texte On les appelle masques lexicaux Les quatre formes possibles sont lt lire gt reconna t toutes les entr es qui ont lire comme forme canonique lt lire V gt reconna t toutes les entr es qui ont lire comme forme canonique et qui ont le code grammatical V lt V gt reconna t toutes les entr es qui ont le code grammatical V lirons lire V ou lt lirons lire V gt reconna t toutes les entr es qui ont lirons comme forme fl chie 1ire comme forme canonique et qui ont le code gram matical V Ce type de masque n a d int r t que si l on travaille sur l automate du texte 4 3 MOTIFS 53 o sont explicit es les ambiguit s des mots Lorsque l on effe
30. lt head gt lt body gt lt font face Courier new size 3 gt 4 MAAOTRE amp nbsp L lt a href 104 109 2 gt AUTRE lt a gt amp nbsp COMM lt br gt 4 TRE amp nbsp COMME amp nbsp lt a href 116 126 2 gt DOMESTIQUE lt a gt lt br gt 4 amp nbsp amp nbsp Al tait amp nbsp lt a href 270 277 3 gt habitAl e lt a gt amp nbsp pa lt br gt f UN amp nbsp COMME amp nbsp lt a href 94 100 2 gt MAAOTRE lt a gt amp nbsp L lt br gt 4 un amp nbsp de nbsp les amp nbsp lt a href 314 321 3 gt membres lt a gt amp nbsp le lt br gt J la amp nbsp maison amp nbsp lt a href 158 165 3 gt portant lt a gt amp nbsp le lt br gt J lt font gt lt body gt lt html gt La figure 10 2 montre la page correspondant au fichier ci dessus Concordance file Ely U o amp E MAITRE L AUTRE COMM TRE COMME DOMESTIQUE tait habit e pa UN COMME MAITRE L un de les membres le la maison portant le FIG 10 2 Exemple de concordance 10 64 Le fichier diff html Le fichier diff html est une page HTML qui montre les diff rences entre deux concor dances Ce fichier est encod en UTF 8 Voici un exemple de fichier des retours la ligne ont t introduits pour la mise en page lt html gt lt head gt lt meta http equiv Content Type content text html charset UTF 8 gt lt style type text css gt a blue color blue text decoration underline a red colo
31. notent la personne de l entr e sont des codes pertinents aux pronoms mais non aux adjectifs Chaque ligne d crit un attribut flexionnel genre temps etc et est compos e du nom de l attribut suivi du signe et des valeurs qu il peut prendre Par exemple la ligne suivante d clare un attribut pers pouvant prendre les valeurs 1 20u 3 pers 1 2 3 cat cette partie d clare les attributs syntaxiques et s mantiques qui peuvent tre attribu s aux entr es appartenant la cat gorie grammaticale concern e Chaque ligne d crit un attribut et les valeurs qu il peut prendre Les codes d clar s pour un m me attri but doivent tre exclusifs les uns des autres Autrement dit une entr e ne peut pas prendre plus d une valeur pour un m me attribut En revanche il peut exister des ti quettes ne prenant aucune valeur pour un attribut donn Par exemple pour d finir l attribut niveau_de_langue pouvant prendre les valeurs z1 z2 et z3 on crira la ligne suivante niveau_de_langue z1 z2 z3 discr cette partie est constitu e de la d claration d un unique attribut La syntaxe est la m me que dans la partie cat et l attribut d crit ici ne doit pas y tre r p t Cette partie permet de diviser la cat gorie grammaticale en sous cat gories discriminantes dans lesquelles les entr es ont des attributs flexionnels similaires Pour les pronoms par exemple une indication de personne est attribu e aux entr es appartenant
32. par la s quence d entiers d crite dans le tableau suivant Indice 0 1 2 1 8 415 1161 2 7 Unit lexicale Un sou c est un sou correspondante TAB 2 1 Repr sentation du texte Un sou c est un sou Pour plus de d tails voir le chapitre 10 2 5 5 Application de dictionnaires L application de dictionnaires consiste construire le sous ensemble des dictionnaires ne contenant que les formes pr sentes dans le texte Ainsi le r sultat de l application des dictionnaires du fran ais au texte Igor mange une pomme de terre produit le dictionnaire de mots simples suivant 2 5 PRETRAITEMENT DU TEXTE 27 FIG 2 11 Unit s lexicales d un texte anglais tri es par fr quence de DET z1 de PREP z1 de XI z1 mange manger V z1 P1s P3s S1s S3s Y2s pomme A z1 ms fs mp fp pomme N z1 fs pomme pommer V z3 P1s P3s S1s S3s Y2s terre N zl fs terre terrer V z1 P1s P3s S1s S3s Y2s une N z1 fs une un DET z1 fs ainsi que le dictionnaire de mots compos s contenant l unique entr e pomme de terre N zl fs 28 CHAPITRE 2 CHARGEMENT D UN TEXTE La s quence Igor n tant ni un mot simple du francais ni une partie de mot compos a t consid r e comme mot inconnu L application de dictionnaires s effectue avec le pro gramme Dico Les trois fichiers produits d1f pour les mots simples dlc pour les mots compos s et err pour le
33. recense tous les dictionnaires bin et fst2 pr sents dans le r pertoire langue Dela de l utilisateur Les dictionnaires du syst me sont list s dans le 2 5 PRETRAITEMENT DU TEXTE 29 Lexical Resources User resources Il Il RISU NPr fst2 Suffixes fst2 Suffixes fst2 prenom s bin motsGramf bin Right click a dictionary to get information about it IGraphe dictionnaire reconnaissant les chiffres romains Ce dictionnaire reconna t les chiffres romains en majuscules depuis 1 jusqu 4999 Son avantage par rapport au dictionnaire RomNum bin est qu il ne prend pas comme chiffres romains L D M et MM dans les contextes suivants CSN FIG 2 13 Param trage de l application des dictionnaires cadre intitul System resources Utilisez lt Ctrl click gt pour s lectionner plusieurs diction naires Le bouton Set Default vous permet de d finir la s lection courante de dictionnaires comme s lection par d faut Cette s lection par d faut sera utilis e lors du pr traitement si vous choisissez l option Apply All default Dictionaries Si vous effectuez un clic droit au dessus d un nom de dictionnaire la documentation du dictionnaire si elle existe s affichera dans le cadre inf rieur 2 5 6 Analyse des mots compos s libres en allemand norv gien et russe Dans certaines langues comme le norv gien il est possible de former des mots compos s libres en soudant leur
34. rence dans l automate le programme garde ceux qui contiennent le moins de mots incon nus Par exemple la s quence aujourd hui en tant qu adverbe compos l emporte sur la d composition en aujourd suivi d une apostrophe et de hui car aujourd est un mot inconnu ce qui fait une forme non tiquet e contre z ro dans le cas de l adverbe compos La figure 7 11 montre l automate de la figure 7 9 apr s nettoyage 120 CHAPITRE 7 AUTOMATE DU TEXTE x Normalization v Apply the Normalization grammar Norm fst2 X Clean Text FST pheme Structures available Tor Korean Y Normalize according to Elag tagset def Use Following Dictionaries previously constructed The program will construct the text FST according to the DLF and DLC files previously constructed for the current text Cancel D ConstructFST FIG 7 10 Configuration de la construction de l automate du texte 7 3 Lev e d ambiguit s lexicales avec ELAG Le programme ELAG permet d appliquer des grammaires de lev e d ambiguit s sur automate du texte C est un m canisme puissant qui permet chacun d crire ses propres r gles de fa on ind pendante des r gles d j existantes Cette section pr sente rapidement le formalisme des grammaires utilis es par ELAG ainsi que le fonctionnement du programme Pour plus de d tails le lecteur pourra se reporter 3 et 35 7 3 1 Grammaires de lev e d ambiguit s Les grammaires manip
35. s et d un espace Il est possible d ins rer des lignes de commentaires dans un dictionnaire DELAF ou DELAS en faisant d buter la ligne par le caract re Exemple L entr e nominale pour par est un terme de golf par N z3 ms 3 1 LES DICTIONNAIRES DELA 33 Mots compos s avec espace ou tiret Certains mots compos s comme grand m re peuvent s crire avec des espaces ou avec des tirets Pour viter de devoir d doubler toutes les entr es il est possible d utiliser le caract re Lors de la compression du dictionnaire le programme Compress v rifie pour chaque ligne si la forme fl chie ou la forme canonique contient le caract re non prot g par le caract re de d sp cialisation Si c est le cas le programme remplace l entr e par deux entr es une o le caract re est remplac par un espace et une o il est remplac par un tiret Ainsi l entr e suivante grand m res grand m re N fp est remplac e par les deux lignes suivantes grand m res grand m re N fp grand m res grand m re N fp NOTE si vous souhaitez crire une entr e contenant le caract re d sp cialisez le avec le caract re comme dans l exemple suivant E mc2 FORMULE Cette op ration de remplacement a lieu lors de la compression du dictionnaire Une fois le dictionnaire comprim les signes d sp cialis s sont remplac s par de simples Ainsi si l on comprime un dictionnaire contenant les ligne
36. un chemin de la grammaire de la figure 2 9 reconna t la s quence compos e d un point d in terrogation et d un mot commen ant par une majuscule et ins re le symbole S entre le point d interrogation et le mot suivant Le texte suivant Quelle heure est il Huit heures deviendrait donc Quelle heure est il S Huit heures Une grammaire de d coupage peut manipuler les symboles sp ciaux suivants lt E gt mot vide ou epsilon Reconnait la s quence vide lt MOT gt reconna t n importe quelle suite de lettres lt MIN gt reconna t n importe quelle suite de lettres minuscules lt MAJ gt reconna t n importe quelle suite de lettres majuscules lt PRE gt reconna t n importe quelle suite de lettres commen ant par une majuscule lt NB gt reconna t n importe quelle suite de chiffres contigus 1234 est reconnu mais pas 1 234 lt PNC gt reconna t les symboles de ponctuation ainsique les points d ex clamation et d interrogation invers s de l espagnol et quelques signes de ponctuation asiatiques lt gt reconna t un retour la ligne interdit la pr sence de l espace 2 5 PRETRAITEMENT DU TEXTE 23 Placement des marques de s paration de phrases S ee ie L i S Cas g n ral Ponctuation J parentheses crochets Ponctuation suivie de cas particuliers sigles noms symboles S
37. windows 1257 page de codes Microsoft Windows 1257 Baltique windows 1251 page de codes Microsoft Windows 1251 Cyrillique windows 1254 page de codes Microsoft Windows 1254 Turc windows 1258 page de codes Microsoft Windows 1258 Viet Nam iso 8859 1 page de codes ISO 8859 1 Latin 1 Europe de l ouest amp USA iso 8859 15 page de codes ISO 8859 15 Latin 9 Europe de l ouest amp USA iso 8859 2 page de codes ISO 8859 2 Latin 2 Europe de l est et centrale iso 8859 3 page de codes ISO 859 3 Latin 3 Europe du sud iso 8859 4 page de codes ISO 859 4 Latin 4 Europe du nord iso 8859 5 page de codes ISO 8859 5 Cyrillique iso 8859 7 page de codes ISO 8859 7 Grec iso 8859 9 page de codes ISO 8859 9 Latin 5 Turc iso 8859 10 page de codes ISO 8859 10 Latin 6 Nordique next step page de codes NextStep LITTLE ENDIAN BIG ENDIAN NOTE il y a un mode suppl mentaire pour le param tre dest avec la valeur UTF 8 qui indique au programme qu il doit convertir les fichiers Unicode Little Endian en fichiers UTF 8 Le param tre mode sp cifie comment g rer les noms des fichiers source et destination Les valeurs possibles sont les suivantes r la conversion crase les fichiers source ps PEX les fichiers source sont renomm s avec le pr fixe PFX toto txt gt PFXtoto txt pd PEX les fichiers destination sont renomm s avec le pr fixe PFX ss SFX les fichiers source sont renomm
38. 107 Display indexed sequences A Modify text mem ES sario z0 Extract units Extract matching units Extract caballete units Concordance presentation _ Use a web browser to view the concordance better for more than 2000 matches Show differences with previous concordance Show Matching Sequences in Context Lengths of Contexts Sort According to Left Col 40 chars Center Left Col v Right Col 55 chars Build concordance FIG 6 31 Configuration de l affichage des occurrences trouv es Une fois cette op ration effectu e le fichier r sultant est une copie du texte dans laquelle les sorties ont t prises en compte Les op rations de normalisation et de d coupage en uni t s lexicales sont automatiquement appliqu es a ce fichier texte Les dictionnaires du texte existants ne sont pas modifi s Ainsi si vous avez choisi de modifier le texte courant les mo difications sont imm diatement effectives Vous pouvez alors lancer de nouvelles recherches sur le texte ATTENTION si vous avez choisi d appliquer votre graphe en ignorant les sorties toutes les occurrences seront effac es du texte 6 7 4 Extraction des occurrences Vous pouvez extraire toutes les phrases du texte qui contiennent ou non des occurrences Pour cela choisissez un nom de fichier de sortie grace au bouton Set File dans le cadre Extract units figure 6 31 C
39. 23 24 154 Fst2Unambig 137 155 Grf2Fst2 89 155 INDEX ImploseFst2 156 Inflect 42 156 Locate 45 47 156 170 MergeTextAutomaton 157 Normalize 147 157 PolyLex 29 157 Reconstrucao 118 158 Reg2Grf 158 SortTxt 38 158 163 Table2Grf 159 TagsetNormFst2 159 TextAutomaton2Mft 159 Tokenize 26 159 Txt2Fst2 160 Propri t s syntaxiques 139 R gles d application des transducteur 99 de r criture 65 R f rence aux dictionnaires 52 88 R pertoire du texte 22 147 personnel 12 R pertoire de d p t 70 R seaux de transitions r cursifs 66 Recherche de motifs 58 105 156 Reconstruction de l automate du texte 157 REPLACE 24 99 105 155 156 170 Respect des espacements 45 88 des minuscules majuscules 45 51 86 88 Respect de la casse 58 Ressources lexicales voir Dictionnaires RIN 66 Russe mots compos s libres en 157 S lection de la langue 15 S lection multiple 73 copier coller 73 S parateurs 20 de phrases 22 55 157 160 168 181 Shortest matches 59 105 156 Sortie 73 82 INDEX variables 74 101 associ e a un sous graphe 91 Symboles non terminaux 65 sp ciaux 76 terminaux 65 Symboles lexicaux 134 Tables de lexique grammaire 139 159 Taille maximum des fichiers textes 19 Taux d ambiguit 127 Text r pertoire du 147 Texte automate du 53 111 153 157 159 160 d coupage en phrases 22 d coupage en un
40. 9399 simple forms 438 10 digits Les nombres indiqu s s interpretent de la fa on suivante sentence delimiters nombre de s parateurs de phrases S tokens nombre total d unit s lexicales du texte Le nombre pr c dant diff indique le nombre d unit s diff rentes simple forms nombre total dans le texte d unit s lexicales compos es de lettres Le nombre entre parenth ses repr sente le nombre d unit s lexicales diff rentes qui son compos es de lettres digits nombre total dans le texte de chiffres Le nombre entre parenth ses indique le nombre de chiffres diff rents utilis s au plus 10 10 10 4 Fichier concord n Le fichier concord n est un fichier texte qui se trouve dans le r pertoire du texte Il contient des informations sur la derni re recherche de motifs effectu e sur ce texte et se pr sente de la mani re suivante 6 matches 6 recognized units 182 CHAPITRE 10 FORMATS DE FICHIERS 0 004 of the text is covered La premi re ligne donne le nombre d occurrences trouv es la seconde le nombre d uni t s couvertes par ces occurrences La troisi me ligne indique le rapport entre le nombre d unit s couvertes et le nombre total d unit s du texte Annexe A GNU General Public License Voir 23 pour l original de ce document Version 2 June 1991 Copyright 1989 1991 Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA E
41. Code Signification Exemples A adjectif fabuleux ADV adverbe r ellement a la longue CONJC conjonction de coordination mais CONJS conjonction de subordination puisque moins que DET d terminant ses trente six INTJ interjection adieu mille millions de mille sabords N nom prairie vie sociale PREP pr position sans a la lumi re de PRO pronom tu elle m me V verbe continuer copier coller TAB 3 1 Codes grammaticaux usuels Code Signification Exemple il langage courant blague z2 langage sp cialis s pulcre z3 langage tr s sp cialis houer Abst abstrait bon go t Anl animal cheval de race AnlColl animal collectif troupeau Conc concret abbaye ConcColl concret collectif d combres Hum humain diplomate HumColl humain collectif vieille garde t verbe transitif foudroyer i verbe intransitif fraterniser en particule pr verbale PPV obligatoire en imposer se verbe pronominal se marier ne verbe n gation obligatoire ne pas cesser de TAB 3 2 Quelques codes s mantiques Unitex Ces codes ont la m me signification pour presque toutes les langues m me si cer tains d entre eux sont propres certaines langues i e marque du neutre etc NOTE les descriptions des temps du tableau 3 3 correspondent au fran ais N anmoins 35 la plupart de ces d finitions se retrouvent dans plusieurs langues infinitif pr sent participe pass etc Malgr une base commune la plup
42. FIG 3 3 V rification automatique d un dictionnaire 3 3 Tri Unitex manipule les dictionnaires sans se soucier de l ordre des entr es Toutefois pour des raisons de pr sentation il est souvent pr f rable de trier les dictionnaires L op ration de tri varie selon plusieurs crit res commencer par la langue du texte trier Ainsi le tri d un dictionnaire tha s effectue selon un ordre diff rent de l ordre alphab tique si bien qu Unitex utilise un mode de tri d velopp sp cialement pour le tha voir chapitre 9 Pour les langues europ ennes le tri s effectue g n ralement selon l ordre lexicographique avec toutefois quelques variantes En effet certaines langues comme le fran ais consid rent certains caract res comme quivalents Par exemple la diff rence entre les caract res e et est ignor e lorsque l on veut comparer les mots manger et mang s car les contextes r et s permettent de d cider de l ordre La distinction n est faite que lorsque les contextes sont identiques ce qui est le cas si l on compare p che et p che Afin de prendre en compte ce ph nom ne le programme de tri SortTxt utilise un fi chier qui d finit des quivalences de caract res Ce fichier s appelle Alphabet_sort txt et se trouve dans le r pertoire de la langue courante de l utilisateur Voici les premi res lignes du fichier utilis par d faut pour le fran ais A Aa Bb CCEE Dd Line 1 no po
43. Gene ral Public Licenses are designed to make sure that you have the freedom to distribute copies of free software and charge for this service if you wish that you receive source code or can get it if you want it that you can change the software and use pieces of it in new free programs and that you are informed that you can do these things To protect your rights we need to make restrictions that forbid distributors to deny you these rights or to ask you to surrender these rights These restrictions translate to certain responsibilities for you if you distribute copies of the library or if you modify it For example if you distribute copies of the library whether gratis or for a fee you must give the recipients all the rights that we gave you You must make sure that they too receive 191 192 CHAPITRE 10 FORMATS DE FICHIERS or can get the source code If you link other code with the library you must provide com plete object files to the recipients so that they can relink them with the library after making changes to the library and recompiling it And you must show them these terms so they know their rights We protect your rights with a two step method 1 we copyright the library and 2 we offer you this license which gives you legal permission to copy distribute and or modify the library To protect each distributor we want to make it very clear that there is no warranty for the free library Also if the library is mo
44. Implose Replace FIG 7 18 Fen tre de l automate du texte s par e en deux Pour modifier le nom de l ensemble cliquez sur le bouton browse Dans la bo te de dia logue qui appara t alors choisissez le nom du fichier 1st que vous voulez donner votre ensemble Pour ajouter une grammaire l ensemble s lectionnez la dans l explorateur de fichiers du cadre gauche et cliquez sur le bouton gt gt Pour retirer une grammaire de l ensemble s lectionnez la dans le cadre droit et cliquez sur le bouton lt lt Une fois que vous avez s lectionn toutes vos grammaires compilez les en cliquant sur le bouton compile Cela cr era un fichier rul portant le nom indiqu en bas droite le nom du fichier est obtenu en rempla ant l extension 1st par l extension rul Vous pouvez maintenant appliquer votre ensemble de grammaires Comme expliqu plus haut cliquez sur le bouton elag dans la fen tre de l automate du texte Quand la bo te de dialogue vous demande le nom du fichier rul utiliser cliquer sur le bouton browse et s letionnez votre ensemble L automate r sultat est identique celui qui aurait t obtenu en appliquant successivement chacune des grammaires 7 3 5 Fen tre de processing d ELAG Lors de la d sambiguisation le programme Elag est lanc dans une fen tre de proces sing qui permet de voir les messages mis par le programme pendant son ex cuti
45. Les param tres INPUT FONT et OUTPUT FONT d finissent le nom le style et la taille des polices utilis es pour afficher les chemins et les transductions des graphes Les 10 param tres suivants correspondent aux param tres pr cis s dans les en t tes des graphes Le tableau 10 3 d crit ces correspondances Param tres dans le fichier Config Param tres dans un fichier grf DATE DDATE FILE NAME DF ILE PATH NAME DDIR FRAME DFRAME RIGHT TO LEFT DRIG BACKGROUND COLOR BCOLOR FOREGROUND COLOR FCOLOR AUXILIARY NODES COLOR ACOLOR COMMENT NODES COLOR SCOLOR SELECTED NODES COLOR CCOLOR TAB 10 3 Signification des param tres Le param tre PACKAGE NODES d finit la couleur des appels des sous graphes du r pertoire de d p t Le param tre CONTEXT NODES d finit la couleur des bo tes correspondant des d buts ou fins de contextes 180 CHAPITRE 10 FORMATS DE FICHIERS Le param tre CHAR BY CHAR indique si la langue courante doit tre trait e en mode caract re par caract re ou non Le param tre ANTIALIASING indique si les graphes ainsi que les automates de phrases doivent tre affich s par d faut avec l effet d antialiasing Le param tre HTML VIEWER indique le nom du navigateur a utiliser pour afficher les concordances Si aucun nom de navigateur n est pr cis les concordances sont affich es dans une fen tre d Unitex Le param tre MAX TEXT FI
46. Library uses material from a header file that is part of the Library the object code for the work may be a derivative work of the Library even though the source code is not Whether this is true is especially significant if the work can be linked without the Library or if the work is itself a library The threshold for this to be true is not precisely defined by law If such an object file uses only numerical parameters data structure layouts and acces sors and small macros and small inline functions ten lines or less in length then the use of the object file is unrestricted regardless of whether it is legally a derivative work Exe cutables containing this object code plus portions of the Library will still fall under Section 6 Otherwise if the work is a derivative of the Library you may distribute the object code for the work under the terms of Section 6 Any executables containing that work also fall under Section 6 whether or not they are linked directly with the Library itself 6 As an exception to the Sections above you may also combine or link a Work that uses the Library with the Library to produce a work containing portions of the Library and distribute that work under terms of your choice provided that the terms permit modifica tion of the work for the customer s own use and reverse engineering for debugging such modifications You must give prominent notice with each copy of the work that the Library is used in it a
47. Open Prepracess Text Apply Lexical Resources Locate Pattern Dispiay Located Sequences Construct FST Text Close Text FIG 2 6 Menu Text ply All default Dictionaries permet d appliquer au texte des dictionnaires au format DELA Dictionnaires Electroniques du LADL L option Analyse unknown words as free com pound words est utilis e en norv gien pour analyser correctement les mots compos s libres form s par soudure de mots simples Enfin l option Construct Text Automaton est utilis e pour construire l automate du texte Cette option est d sactiv e par d faut car elle entra ne une forte consommation de m moire et d espace disque si le texte est trop volumineux La construction de l automate du texte sera abord e dans le chapitre 7 NOTE si vous cliquez sur Cancel but tokenize text le programme effectuera malgr tout la normalisation des s parateurs et le d coupage en unit s lexicales cliquez sur Cancel and close text pour annuler compl tement l op ration 2 5 1 Normalisation des s parateurs Les s parateurs usuels sont l espace la tabulation et le retour la ligne On peut rencon trer plusieurs s parateurs cons cutifs dans des textes mais comme cela n est d aucune utilit pour une analyse linguistique on normalise ces s parateurs selon les r gles suivantes toute suite de s parateurs contenant au moins un retour la ligne est remplac e par un
48. Sir again passed round To Sir Athelstane of Coningsburgh TITLE Sir r shall call thee Saxon Sir Baron TITLE Sir replied Cedric o to say lady answered Sir Brian de Bois TITLE Sir Guilbert ory Sir Palmer said Sir Brian de Bois TITLE Sir Guilbert sc so unsafe the escort of Sir Brian de Bois TITLE Sir Guilbert is er to be a handmaiden to Sir Brian de Bois TITLE Sir Guilbert a ghts of the Temple and Sir Brian de BoisGuilbert TITLE 5ir wel have offended replied Sir Brian TITLE Sir I crave your pard FIG 6 26 Concordance obtenue par l application du graphe TitleName 6 6 R GLES D APPLICATION DES TRANSDUCTEURS 103 Les variables peuvent tre imbriqu es voire m me se chevaucher comme le montre la figure 6 29 104 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES ED E 0 ADJ ADJ NOUN NOUN NOUNS ADJ FIG 6 27 Inversion de mots gr ce l utilisation de deux variables stopping Which glide Y roun when his return from his captivity long had become an event rathe heir gnarled arms over a carpet thick of the most delicious green ight as it were to the chains feudal with which they were loade arance of that wild and character rustic which belonged to the gorget was engraved in characters Saxon an inscription of the nd the sufferings of the classes inferior arose from the consequ FIG 6 28 R sultat de l application du transducteur de la figure 6 27 NumeroMois JourNumero
49. Texte oia a WN BRS Se has A he eee Oh a oh eme 167 10 4 1 Fichiers nt os Le ne he a OE ae dar ct he EE 168 1042 Fichiers SmE es pa patkama D pa bn areal aa nai mb ea 168 1043 Fichier LRO a 54 one ain a eu au anal A hors 168 1044 Fichier tokens ixi 233 ce nu 6 nt bon De et dal do E aa 168 104 5 Fichiers tok_by_alph txt et tok_by_freq txt ico 2 44 2 168 1046 Fehierenterpos lt A ADA 168 10 5 Automate du texte 44 du ue da data he one 6 bd ets s 169 1051 Fighter text ist 5 2 45 Lun 40454 oe Oe eee MER ES 169 10 5 2 Facer CISC pif e Se een Beas Ree PAS ESE SG 169 105 3 FichiersentenceN gti is ss III 170 10 5 4 Fichier cursentence txt 170 10 6 Concordances o ho D DA ia Ra ew dos do a das eS 170 106 1 Fichier concord and s cia dia ee data ee ewe 170 10 6 2 Fichierconcordtxct 2 40 4 44 da ee ES 171 1065 Fichierconcord html s 444 4 essea nat taud aea ss a 171 1064 Le fichier dif hial eke de etn Lau de Bho dada sent 172 10 7 DICHOnMAIWES occiso ER RS Ee he 6 173 LOL a A AE 173 10 7 2 Fichiers AE es a a ne ae ae ee S 174 10 7 3 Fichier CHECK DICIXT esea ron a ca eons e a 175 10 8 Fichiers d ELAG o cor i ua du aa da wa a a de seda 177 108 1 Fichieftagsetdel Lis siens ad reserve 177 10 8 2 Fichiersdet oesie we ee Sehr he Ka we Eo ow wes ae do a ES 177 IAS A cee se Ne Oe oe OSL eR A A EEE OD 177 1084 Pieters ln a dore dede ua eee LA 177 10 9 F
50. a work based on the Program and copy and distribute such modifications or work under the terms of Section 1 above provided that you also meet all of these conditions a You must cause the modified files to carry prominent notices stating that you changed the files and the date of any change b You must cause any work that you distribute or publish that in whole or in part contains or is derived from the Program or any part thereof to be licensed as a whole at no charge to all third parties under the terms of this License 10 10 FICHIERS DIVERS 185 c If the modified program normally reads commands interactively when run you must cause it when started running for such interactive use in the most ordinary way to print or display an announcement including an appropriate copyright notice and a notice that there is no warranty or else saying that you provide a warranty and that users may redistribute the program under these conditions and telling the user how to view a copy of this License Exception if the Program itself is interactive but does not normally print such an announcement your work based on the Program is not required to print an announcement These requirements apply to the modified work as a whole If identifiable sections of that work are not derived from the Program and can be reasonably considered independent and separate works in themselves then this License and its terms do not apply to those sections whe
51. agrandir l image Cliquez sur Oui Vous pouvez maintenant diter l image de l cran S lectionnez la zone qui vous int resse Pour cela passez en mode s lection en cliquant sur le rectangle en pointill qui se trouve dans le coin sup rieur gauche de la fen tre Vous pouvez maintenant s lectionner une zone de l image avec la souris Une fois votre zone s lectionn e appuyez sur lt Ctrl C gt Votre s lec tion est maintenant dans le presse papier il ne vous reste plus qu aller dans votre docu ment et appuyer sur lt Ctrl V gt pour coller votre image Sous Linux Effectuez une capture d cran par exemple avec le programme xv Retaillez ensuite votre image avec un diteur graphique par exemple TheGimp et collez votre image dans votre document de la m me fa on que sous Windows 5 4 2 Impression d un graphe Vous pouvez imprimer un graphe en cliquant sur Print dans le menu FSGraph ou en appuyant sur lt Ctrl P gt ATTENTION vous devez vous assurer que le param tre d orientation de l imprimante portrait ou paysage correspond bien l orientation de votre graphe Vous pouvez d finir vos pr f rences d impression en cliquant sur Page Setup dans le menu FSGraph Vous pouvez galement imprimer tous les graphes qui sont ouverts en cliquant sur Print All Chapitre 6 Utilisation avanc e des graphes 6 1 Les types de graphes Unitex peut manipuler plusieurs types de graphes qui corre
52. au moyen de la commande make install Cr ez ensuite un alias sur le mod le suivant alias unitex cd Unitex App java jar Unitex jar 15 Premi re utilisation Si vous travaillez sous Windows le programme vous demandera de choisir un r pertoire personnel de travail que vous pourrez changer ult rieurement dans Info gt Preferences gt Directories Pour cr er un r pertoire cliquez sur l ic ne repr sentant un dossier voir figure 1 3 Sous Linux et MacOS le programme cr era automatiquement un r pertoire unitex dans votre r pertoire HOME Ce r pertoire vous permettra de stocker vos donn es person nelles Pour chaque langue que vous utiliserez le programme copiera l arborescence de la 1 6 AJOUT DE NOUVELLES LANGUES 13 langue dans votre r pertoire personnel a l exception des dictionnaires Vous pourrez ainsi modifier votre guise votre copie des donn es sans risquer d endommager les donn es du syst me CEE x Welcome paumier To use Unitex you must choose a private directory to store your data that you can change later if you want Click on OK to choose your directory K Welcome Welcome paumier Your private Unitex directory where you can store your own data is home thesards paumier unitex FIG 1 2 Premi re utilisation sous Linux 1 6 Ajout de nouvelles langues Il y a deux mani res d ajouter des langues Si vous d sir
53. complete source code means all the source code for all modules it contains plus any associated interface definition files plus the scripts used to control compilation and installation of the library Activities other than copying distribution and modification are not covered by this Li cense they are outside its scope The act of running a program using the Library is not restricted and output from such a program is covered only if its contents constitute a work based on the Library independent of the use of the Library in a tool for writing it Whether that is true depends on what the Library does and what the program that uses the Library does 1 You may copy and distribute verbatim copies of the Library s complete source code as you receive it in any medium provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice and disclaimer of warranty keep intact all the notices that refer to this License and to the absence of any warranty and distribute a copy of this License along with the Library You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee 2 You may modify your copy or copies of the Library or any portion of it thus forming a work based on the Library and copy and distribute such modifications or work under the terms of Section 1 above provided that you also meet all of these conditions a Th
54. comprim es permettant de reconstruire les lignes du dictionnaire partir des formes fl chies Cette section d crit le format de ces deux types de fichiers ainsi que le format du fichier CHECK_DIC TXT qui contient le r sultat de la v rification d un dictionnaire 10 7 1 Fichiers bin Un fichier bin est un fichier binaire repr sentant un automate Les 4 premiers octets du fichier repr sentent un entier indiquant la taille du fichier en octets Les tats de l automate sont ensuite cod s de la mani re suivante les 2 premiers octets indiquent si l tat est terminal ainsi que le nombre de transitions qui en sortent Le bit le plus fort vaut 0 si l tat est terminalet 1 sinon Les 15 autres bits codent le nombre de transitions Exemple un tat non terminal avec 17 transitions est cod e par la s quence hexad ci male 8011 si l tat est terminal les 3 octets suivants codent l indice dans le fichier inf de la forme comprim e utiliser pour reconstruire les lignes de dictionnaires pour cette forme fl chie 174 CHAPITRE 10 FORMATS DE FICHIERS Exemple si l tat renvoie la forme comprim e d indice 25133 la s quence hexad ci male correspondante est 00622D chaque transition sortante est ensuite cod e sur 5 octets Les 2 premiers octets codent le caract re tiquetant la transition et les 3 suivants codent la position en octets dans le fichier bin de l tat d arriv e Les transiti
55. contenant sept lignes voir figure 5 4 En effet le caract re sert de s parateur La bo te appara t sous la forme de lignes de texte rouge car elle n est pour l instant reli e aucune autre On utilise souvent ce type de bo tes pour ins rer des commentaires dans un graphe Pour relier une bo te une autre il faut cliquer sur la bo te de d part puis sur la bo te de destination S il y a d j une transition entre les deux bo tes celle ci est enlev e Il est possible d effectuer cette m me op ration en cliquant d abord sur la bo te de destination puis sur la bo te de d part tout en pressant sur la touche Shift Dans notre exemple une fois la bo te reli e l tat initial et l tat final du graphe on obtient le graphe de la figure 5 5 68 CHAPITRE 5 GRAMMAIRES LOCALES FIG 5 2 Graphe vierge FIG 5 3 Cr ation d une bo te NOTE si vous double cliquez sur une bo te vous relierez cette bo te elle m me voir figure 5 6 Pour annuler double cliquez une nouvelle fois sur la bo te Cliquez sur Save as dans le menu FSGraph pour sauver ce graphe Par d faut Uni tex vous propose d effectuer la sauvegarde dans le sous r pertoire Graphs de votre r per toire personnel Vous pouvez voir si le graphe a t modifi depuis la derni re sauvegarde en regardant si le titre de la fen tre contient la mention Unsaved 5 2 EDITION DE GRAPHES 69 FIG 5 5 Graphe recon
56. d en t te Les lignes suivantes donnent le contenu et la position des bo tes du graphe Les lignes suivantes correspondent un graphe reconnaissant un chiffre 34 lt E gt 84 248 1 2 4 272 248 0 Y s 1 2 3 4 5 6 7 8 9 0 172 248 1 1 4 La premiere ligne indique le nombre de bo tes du graphe imm diatement suivi d un retour a la ligne Ce nombre ne doit jamais tre inf rieur 2 car un graphe est toujours sens poss der un tat initial et un tat final Les lignes suivantes d finissent les boites du graphe Les boites sont num rot es partir de 0 Par convention l tat 0 est l tat initial et l tat 1 est l tat final Le contenu de l tat final doit toujours tre vide Chaque bo te du graphe est d finie par une ligne qui doit avoir le format suivant contenu X Y N transitions Y contenu est une cha ne de caract res entour e de guillemets qui repr sente le contenu de la bo te Cette chaine peut ventuellement tre pr c d e d un s dans le cas d un graphe Intex import ce caract re est alors ignor par Unitex Le contenu de la cha ne est le texte qui a t entr dans le contr le de texte de l diteur de graphes Le tableau suivant donne le codage des deux s quences sp ciales qui ne sont pas cod es telles quelles dans les fichiers GE Es S quence dans l diteur de graphe S quence dans le fichier gr TAB 10 2 Codage des s qu
57. de l entr e en d calant tout ce qui se trouve sa droite Si l on souhaite par exemple fl chir le mot roumain european en europani on uti lisera la s quence LDRi Le L positionnera le curseur sur la lettre a le D va supprimer le a en d calant le n puis Ri va r tablir le n et ajouter un i 42 CHAPITRE 3 DICTIONNAIRES Voici un exemple qui d crit la flexion de choose en chosen grace a la s quence d op ra teurs LLDRRn tape 0 initialisation de la pile avec la forme canonique on place le curseur apr s la derni re lettre i cihlololsle tape 1 on d cale le curseur vers la gauche LLDRRn cihlolols tape 2 on d cale une seconde fois le curseur vers la gauche LLDRRn cihlololsle tape 3 on d cale tout ce qui est droite du curseur vers la gauche LLDRRn S V RE tape 4 on d cale le curseur vers la droite LLDRRn cih olsle tape 5 on d cale encore le curseur vers la droite LLDRRn tape 6 on crit un n cihlolslelin Une fois la s quence d op rateurs puis e on prend le contenu de la pile jusqu avant le curseur pour former la forme fl chie ici chosen Le programme de flexion Inflect explore tous les chemins de la grammaire de flexion e
58. de pr traitement 22 CHAPITRE 2 CHARGEMENT D UN TEXTE r pertoire que le txt et dont le nom est mon_texte snt NOTE lorsque l on pr traite un texte depuis l interface graphique un r pertoire nomm mon_texte_snt est cr imm diatement apr s la normalisation Ce r pertoire appel r pertoire du texte contiendra toutes les donn es relatives ce texte 2 5 2 D coupage en phrases Le d coupage en phrases est une tape importante du pr traitement car elle va permettre de d finir des unit s de traitement linguistique Ce d coupage sera utilis par le programme de construction de l automate du texte Contrairement ce que l on pourrait penser la re cherche des limites de phrases n est pas un probl me trivial Consid rons le texte suivant La famille a appel le Dr Martin en urgence Le point qui suit Dr est suivi d un mot commen ant par une majuscule il pourrait donc tre consid r comme un point de fin de phrase ce qui serait faux Afin d viter les probl mes de ce genre dus des ambigu t s des symboles de ponctuation on utilise des grammaires qui d crivent les diff rents contextes o peuvent appara tre les limites de phrases La figure 2 9 montre un exemple de grammaire de d coupage en phrases Lorsqu un chemin de la grammaire reconna t une s quence dans le texte et que ce che min produit le symbole s parateur de phrases S on ins re ce symbole dans le texte Ainsi
59. des remplacements en fonction de ses besoins Toutefois il faut faire attention ce 24 CHAPITRE 2 CHARGEMENT D UN TEXTE que les formes normalis es soient non ambigu s ou ce que la disparition de l ambiguit soit sans cons quence pour l application recherch e Si l on d cide de remplacer la forme audit par le dit la phrase La cour a proc d un audit des comptes de cette soci t sera remplac e par la phrase incorrecte La cour a proc d un le dit des comptes de cette soci t Il faut donc tre tr s prudent lorsque l on manipule la grammaire de normalisation Il faut galement faire attention aux espaces En effet si l on remplace c par ce non suivi par un espace la phrase Est ce que c tait toi sera remplac e par la s quence incorrecte Est ce que ce tait toi Les symboles accept s par les grammaires de normalisation sont les m mes que ceux autoris s dans les grammaires de d coupage en phrases La grammaire utilis e se nomme Replace fst2 et se trouve dans le r pertoire suivant r pertoire personnel langue Graphs Preprocessing Replace Comme pour le d coupage en phrases cette grammaire est utilis e avec le programme Fst2Txt mais cette fois en mode REPLACE ce qui signifie que les entr es reconnues par la grammaire sont remplac es par les s quences produites par celle ci On peut voir sur la figure 2 10 une grammaire qui normalise des contractions verbales
60. distribute such a combined library provided that the separate distribution of the work based on the Library and of the other library facilities is otherwise permitted and provided that you do these two things a Accompany the combined library with a copy of the same work based on the Library uncombined with any other library facilities This must be distributed under the terms of the Sections above b Give prominent notice with the combined library of the fact that part of it is a work based on the Library and explaining where to find the accompanying uncombined form of the same work 8 You may not copy modify sublicense link with or distribute the Library except as expressly provided under this License Any attempt otherwise to copy modify sublicense link with or distribute the Library is void and will automatically terminate your rights under this License However parties who have received copies or rights from you under this License will not have their licenses terminated so long as such parties remain in full compliance 9 You are not required to accept this License since you have not signed it However no thing else grants you permission to modify or distribute the Library or its derivative works These actions are prohibited by law if you do not accept this License Therefore by mo difying or distributing the Library or any work based on the Library you indicate your acceptance of this License to do so and all its t
61. en anglais 2 5 4 D coupage du texte en unit s lexicales Certaines langues en particulier les langues asiatiques utilisent les s parateurs de fa on diff rente des langues occidentales les espaces peuvent tre interdits facultatifs ou obli gatoires Pour pouvoir g rer ces particularit s au mieux Unitex d coupe les textes d une mani re d pendante de la langue Ainsi les langues comme le fran ais sont trait es selon le principe suivant Une unit lexicale peut tre soit le s parateur de phrases 5 le marqueur STOP Contrairement au s parateur de phrases S le marqueur STOP ne peut JAMAIS tre reconnu par une grammaire de quelque fa on que ce soit Ce marqueur particulier peut tre utilis pour d limiter des l ments dans un corpus Par exemple si un corpus est constitu de d p ches de presse s par es par STOP cela vite qu une grammaire puisse accidentellement reconna tre une s quence che vauchant la fin d une d p che et le d but de la d p che suivante 2 5 PRETRAITEMENT DU TEXTE NS g Nil VANO MAN AN AN N FIG 2 10 Grammaire de normalisation de formes verbales en anglais 26 CHAPITRE 2 CHARGEMENT D UN TEXTE soit une tiquette lexicale aujourd hui ADV soit une suite contigu de lettres les lettres tant d finies par le fichier alphabet de la langue soit un caract re qui n est pas une lettre s il s
62. es _ Pathname Auxiliary Nodes Set v Frame Selected Nodes Set Comment Nodes Set Antialiasing _ Enable antialising for rendering graphs Icon Bar Position 0 West North O East South None Input Times New Roman 10 Reset to Default output _ Output _ Arial Unicode MS 12 FIG 5 27 Configuration des pr f rences par d faut 84 CHAPITRE 5 GRAMMAIRES LOCALES 5 4 Les graphes en dehors d Unitex 5 4 1 Inclusion d un graphe dans un document Pour inclure un graphe dans un document il faut en faire une image Pour cela une premi re m thode consiste sauver votre graphe en tant qu image au format PNG Pour cela allez dans le menu FSGraph et cliquez sur Save as Choisissez ensuite le type de fichier PNG Vous obtiendrez ainsi une image pr te tre int gr e dans un document ou tre dit e avec un logiciel de retouche d images Afin de rendre l image plus lisse vous pouvez activer l antialiasing pour le graphe qui vous int resse La seconde m thode consiste faire une capture d cran Sous Windows Appuyez ensuite sur la touche Imprime cran de votre clavier qui doit se trouver pr s de la touche F12 Lancez le programme Paint dans le menu Accessoires de Windows Ap puyez sur lt Ctrl V gt Paint devrait vous dire que l image contenue dans le presse papiers est trop grande et vous demander si vous voulez
63. es en fonction du contenu des cellules situ es l intersection des colonnes correspondantes et de la ligne trait e Si une cellule de la table contient le signe la variable correspondante est remplac e par lt E gt Si la cellule contient le signe la bo te contenant la variable correspondante est supprim e ce qui d truit du m me coup les chemins passant par cette bo te Dans tous les autres cas la variable est remplac e par le contenu de la cellule 8 2 2 Format de la table Les tables de lexique grammaire sont g n ralement cod es l aide d un tableur comme OpenOffice org Calc 41 Pour pouvoir tre utilis es par Unitex les tables doivent tre cod es en texte Unicode selon la convention suivante les colonnes doivent tre s par es par des tabulations et les lignes par des retours la ligne Pour convertir une table avec OpenOffice org Calc sauvegardez la au format texte ex tension csv Le programme vous propose ensuite de param trer la sauvegarde au moyen d une fen tre comme celle de la figure 8 2 Choisissez le codage Unicode s lectionnez la 8 2 CONVERSION D UNE TABLE EN GRAPHES 141 tabulation comme s parateur de colonnes et ne pr cisez pas de d limiteur de texte Export de texte x Options de champ Jeu de caract res Unicode y y Annuler S parateur de champ trab S parateur de texte D Aide FIG 8 2 Configuration de la sauvegarde d une table avec OpenOff
64. est concurrente avec ancient times C est donc la premi re qui est retenue car c est l occurrence la plus gauche et ancient times est limin e L oc currence suivante times a n est donc plus en conflit avec ancient times et peut donc appara tre dans le r sultat Don there extended in ancient times a large forest La r gle de priorit gauche s applique uniquement lorsque le texte est modifi soit lors du pr traitement soit apr s l application d un graphe syntaxique voir section 6 7 3 6 6 4 Priorit aux s quences les plus longues Lors de l application d un graphe syntaxique il est possible de choisir si la priorit doit tre donn e aux s quences les plus courtes ou les plus longues ou si toutes les s quences doivent tre retenues Lors des op rations de pr traitement la priorit est toujours donn e aux s quences les plus longues 6 6 5 Sorties variables Comme nous l avons vu la section 5 2 7 il est possible d utiliser des variables pour stocker le texte qui a t analys par une grammaire Ces variables peuvent tre utilis es dans les graphes de pr traitement et dans les graphes syntaxiques Vous devez donner des noms aux variables que vous utilisez Ces noms peuvent contenir les lettres comprises entre A et Z non accentu es minuscules ou majuscules des chiffres et le caract re _ underscore Pour d finir le d but ou la fin de la zone stock e dans une variable
65. est impossible de faire r f rence aux dictionnaires il est impossible d utiliser les filtres morphologiques il est impossible d utiliser des contextes Les figures 2 9 page 23 et 2 10 page 25 montrent des exemples de graphes de pr trai tement 6 1 LES TYPES DE GRAPHES 87 6 1 3 Graphes de normalisation de l automate du texte Les graphes de normalisation de l automate du texte permettent de normaliser des formes ambigu s En effet ils peuvent d crire plusieurs tiquettes pour une m me forme Ces ti quettes sont ensuite ins r es dans l automate du texte explicitant ainsi les ambiguit s La figure 6 3 montre un extrait du graphe de normalisation utilis pour le frangais de DET Dind zl mp fp FIG 6 3 Extrait du graphe de normalisation utilis pour le francais Les chemins d crivent les formes qui doivent tre normalis es Les variantes minuscules et majuscules sont prises en compte selon le principe suivant les lettres majuscules dans le graphe ne reconnaissent que les lettres majuscules dans l automate du texte les lettres minuscules peuvent reconna tre les lettres minuscules et majuscules Les sorties repr sentent les s quences d tiquettes qui seront ins r es dans l automate du texte Ces tiquettes peuvent tre des entr es de dictionnaires ou de simples cha nes de caract res Les tiquettes repr sentant des entr es de dictionnaire doivent respecter le format des entr es d
66. et au conditionnel avec le param tre f lip voir section 9 2 Le param tre pro d signe la grammaire de r criture des pronoms utiliser Le param tre nasalpro d signe la gram maire de r criture des pronoms nasaux utiliser res d signe le fichier grf dans lequel seront produites les r gles de normalisation 9 25 Reg2Grf Reg2Grf fic Ce programme construit un fichier gr f correspondant l expression rationnelle conte nue dans le fichier fic Le param tre fic doit repr senter le chemin d acc s complet au fichier contenant l expression rationnelle Ce fichier doit tre un fichier texte Unicode Le programme prend en compte tous les caract res jusqu au premier retour ligne Le fichier r sultat se nomme regexp grf et est sauvegard dans le m me r pertoire que fic 9 26 SortTxt SortTxt texte OPTIONS Ce programme effectue un tri lexicographique des lignes du fichier texte texte doit repr senter le chemin d acc s complet au fichier a trier Les options possibles sont 9 27 TABLE2GRF 159 y supprime les doublons n conserve les doublons r trie dans l ordre d croissant o fic trie en utilisant l alphabet de tri d fini par le fichier fic Si ce param tre est absent le tri est effectu selon l ordre des caract res en Unicode 1 fic sauvegarde le nombre de lignes du fichier r sultat dans le fichier fic thai option utiliser pour trier un texte thai
67. faut MS DOS Autre codage Options Unicode D Ins rer des sauts de ligne pasa ra ian Terminer les lignes par cr LF y Unicode UTF 8 shi a Vietnamien Windows bus I Autoriser le remplacement de caract res I Ajouter des marques bi directionnelles Apercu Saving a document in Unicode FIG 2 4 Sauvegarde en Unicode dans Office XP ainsi obtenus ne contiennent plus d informations de formatage police couleurs etc et sont pr ts tre utilis s avec Unitex 2 3 Edition de textes Vous avez galement la possibilit d utiliser l diteur de texte int gr Unitex accessible via la commande Open du menu File Edition Cet diteur vous propose des fonction nalit s de recherche et remplacement propres aux textes et dictionnaires manipul s par Uni tex Pour y acc der cliquez sur l ic ne Find jumelles Vous verrez alors appara tre une fen tre divis e en trois onglet L onglet Find correspond aux op rations de recherche ha bituelles Si vous ouvrez un texte d coup en phrases vous aurez la possibilit de faire une recherche par num ro de phrase dans l onglet Find Sentence Enfin l onglet Dictionary Search visible sur la figure 2 5 vous permet d effectuer des op rations propres aux diction naires lectroniques En particulier vous pouvez effectuer une recherche en sp cifiant si elle doit porter sur la forme fl chie le lemme les codes grammaticaux et s mantiques et o
68. grammaire 96 69 Collecionte graphes gt gt np Las Pe eee sue EME mes ER Ee 98 6 6 R gles d application des transducteurs csc eee ee 99 66 1 Insertion gauche du motif reconnu 4 5244 404 pau das a 99 662 Application en aval parks A 100 a ARI Re Rae EK ER SESS OS 100 6 64 Priorit aux s quences les plus longues 101 6 6 5 Sorties variables 101 6 7 Application des graphes aux textes gt os os c socors racc mote metata 105 67 1 Configuration de la recherche 2444 cearda wrda tisaha 105 622 Concordance an ae e dada ad EA Ba RE d E ed oui 105 6 73 Modification du texte 106 6 7 4 Extraction des occurrences 4 44 444 ee 107 6 5 Comparaison de concordances ps bee ee ee ew Eee 108 7 Automate du texte 111 Wel Poena e i502 uve geo Bee SAE ees URES eee 111 Tak Construci n id ae ee ee eee he o we ce de du he 112 7 2 1 R gles de construction de l automate du texte 113 7 2 2 Normalisation de formes ambigu s 114 7 2 3 Normalisation des pronoms clitiques en portugais 114 7 2 4 Conservation des meilleurs chemins 118 7 3 Lev e d ambigui t s lexicales avec ELAG coco ous dodo ns sue nt 120 7 3 1 Grammaires de levee d ambiguit s o oc Le de en en 120 7 3 2 Compilation des grammaires ELAG 4 444 vue
69. il est parcouru Afin d viter le risque de boucler ind finiment il ne faut pas que les s quences produites par un transducteur puissent tre r analys es par celui ci Pour cette raison quand une s quence a t introduite dans le texte l application du transducteur se poursuit apr s cette s quence Cette r gle ne concerne que les transducteurs de pr traitement car lors de l application de graphes syntaxiques les sorties ne modifient pas le texte parcouru mais un fichier de concordances distinct du texte 6 6 3 Priorit gauche Lors de l application d une grammaire locale les occurrences qui se chevauchent sont toutes index es Lors de la construction de la concordance toutes ces occurrences sont pr sent es voir figure 6 24 r Don there extended in ancient times a large forest covering iver Don there extended in ancient times a large forest cover here extended in ancient times a large forest covering the gre FIG 6 24 Occurrences se chevauchant dans une concordance En revanche si vous modifiez le texte au lieu de construire une concordance il est n ces saire de choisir parmi ces occurrences lesquelles seront prises en compte Pour cela Unitex 6 6 R GLES D APPLICATION DES TRANSDUCTEURS 101 applique la r gle de priorit suivante la s quence la plus gauche l emporte Si l on applique cette r gle aux trois occurrences de la concordance pr c dente l occur rence in ancient
70. l option File Name est s lectionn e Frame dessine un cadre autour du graphe Right to Left inverse le sens de lecture du graphe voir exemple de la figure 5 26 RightToLeft qrf FIG 5 26 Graphe se lisant de droite gauche Vous pouvez r tablir les param tres par d faut en cliquant sur le bouton Default Si vous cliquez sur le bouton OK seul le graphe courant sera modifi Pour modifier les pr f rences par d faut d une langue cliquez sur Preferences dans le menu Info et choi sissez l onglet Graph Presentation La fen tre de configuration des pr f rences poss de 5 3 OPTIONS DE PRESENTATION une option suppl mentaire concernant l antialiasing voir figure 5 27 Cette option permet d activer l antialiasing par d faut pour tous les graphes de la langue courante Il est pr f rable de ne pas activer cette option si votre machine n est pas tr s puissante Il y a une autre option suppl mentaire qui permet de d finir la position de la barre d ic nes NOTE l option Right to Left n est pas reprise dans la fen tre de configuration g n rale des graphes En effet les graphes d une langue adoptent par d faut l orientation du texte d fini pour cette langue dans l onglet Text Presentation de la fen tre de pr f rences voir figure 4 7 page 62 3 Preferences for English Graph Presentation Display Colors lv Date v File Name eee eee Foreground MR
71. le programme ElagComp qui va compiler la grammaire s lectionn e pour cr er un fichier nomm elag rul Si vous avez s lectionn votre grammaire dans le cadre droit vous pouvez rechercher les motifs qu elle reconna t en cliquant sur le bouton locate Cela ouvre la fen tre Locate Pat tern en sp cifiant automatiquement un nom de graphe se terminant par conc fst2 Ce graphe correspond la partie si de la grammaire Vous pouvez ainsi obtenir les occurrences du texte sur lesquelles la grammaire s appliquera NOTE le fichier conc fst2 utilis pour localiser la partie alors d une grammaire est g n r lors de la compilation des grammaires ELAG au moyen du bouton compile Il faut donc avoir d abord compil votre grammaire avant d utiliser la fonction de recherche du bouton locate 7 3 3 Lev e d ambiguit s Une fois que vous avez compil votre grammaire en un fichier elag rul vous pouvez l appliquer l automate du texte Dans la fen tre de l automate du texte cliquez sur le bou ton elag Une bo te de dialogue appara tra pour vous demander le nom du fichier rul utiliser voir figure 7 17 Comme le fichier d faut est bien elag rul cliquez simplement sur OK Cela lancera le programme Elag qui va effectuer la lev e d ambiguit s Une fois le programme termin vous pouvez consulter l automate r sultat en cliquant sur le bouton Elag Frame Comme on le voit sur la figure 7 18 la fen tre est s par e en deux
72. les formes fl chies et canoniques la liste des codes grammaticaux et syntaxiques ainsi que la liste des codes flexionnels utilis s Les r sultats de la v rification sont stock s dans un fichier nomm CHECK_DIC TXT 9 2 Compress Compress dictionnaire flip 147 148 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES Ce programme prend en param tre un dictionnaire DELAF et le compresse La compres sion d un dictionnaire dico dic produit deux fichiers dico bin fichier binaire contenant l automate minimal des formes fl chies du dic tionnaire dico inf fichier texte contenant des formes comprim es permettant de reconstruire les lignes du dictionnaire partir des formes fl chies contenues dans l automate Pour plus de d tails sur les formats de ces fichiers voir chapitre 10 Le param tre option nel flip indique que les formes fl chies et canoniques seront invers es dans le diction naire comprim Cette option est utilis e pour construire le dictionnaire invers n cessaire au programme Reconstrucao 9 3 Concord Concord index font fontsize left right order mode alph thai Ce programme prend en param tre un fichier d index de concordance produit par le programme Locate et produit une concordance Il peut galement produire une version du texte modifi e prenant en compte les transductions associ es aux occurrences Voici la description des param tres index nom du fichier de concordance Vou
73. ligne d bute par le caract re t et par le caract re sinon Pour chaque tat la liste des transitions est une suite ventuellement vide de couples d entiers le premier entier indique le num ro d tiquette ou de sous graphe correspondant la transition Les tiquettes sont num rot es partir de 0 Les sous graphes sont repr sent s par des entiers n gatifs ce qui explique que les num ros pr c dant les noms des graphes soient n gatifs le deuxi me entier repr sente le num ro de l tat d arriv e de la transition Dans chaque graphe les tats sont num rot s partir de 0 Par convention l tat 0 d un graphe est son tat initial Chaque ligne de d finition d tat doit se terminer par un espace La fin de chaque graphe est marqu e par une ligne contenant un suivi d un espace Les tiquettes sont d finies apr s le dernier graphe Si la ligne d bute par le caract re cela signifie que le contenu de l tiquette doit tre recherch e sans variante de casse Cette information n est utile que lorsque l tiquette est un mot Si la ligne d bute par le caract re les variantes de casse sont autoris es Si une tiquette porte une transduction les s quences d entr e et de sortie sont s par es par le caract re exemple 1e DET Par convention la premi re tiquette doit toujours tre le mot vide lt E gt et ce m me si cette tiquette n est utilis e dans aucune transit
74. matches Replace recognized sequences m limitation 2 NT Stop after 200 TA Index all utterances in text FIG 4 4 Fen tre de recherche d expressions Le cadre Locate pattern in the form of permet de choisir entre une expression ration nelle et une grammaire Cliquez sur Regular expression Le cadre Index permet de s lectionner le mode de reconnaissance Shortest matches donne la priorit aux s quences les plus courtes Longest matches donne la priorit aux s quences les plus longues C est le mode utilis par d faut All matches donne toutes les s quences reconnues Le cadre Search limitation permet de limiter ou non la recherche a un certain nombre d occurrences Par d faut la recherche est limit e aux 200 premi res occurrences Les options du cadre Grammar outputs ne concernent pas les expressions rationnelles Elles sont d crites a la section 6 7 Entrez une expression et cliquez sur Search pour lancer la recherche Unitex va trans former l expression en une grammaire au format grf Cette grammaire va ensuite tre compil e en une grammaire au format fst2 qui sera utilis e par le programme de re cherche 4 8 2 Affichage des r sultats Une fois la recherche termin e la fen tre de la figure 4 5 appara t indiquant le nombre d occurrences trouv es le nombre d unit s lexicales reconnues ainsi que le rapport entre ce 60 CHAPITRE 4 REC
75. part of the code of the Library into a pro gram that is not a library 4 You may copy and distribute the Library or a portion or derivative of it under Section 2 in object code or executable form under the terms of Sections 1 and 2 above provided that you accompany it with the complete corresponding machine readable source code which must be distributed under the terms of Sections 1 and 2 above on a medium customarily used for software interchange If distribution of object code is made by offering access to copy from a designated place then offering equivalent access to copy the source code from the same place satisfies the requirement to distribute the source code even though third parties are not compelled to copy the source along with the object code 5 A program that contains no derivative of any portion of the Library but is designed to work with the Library by being compiled or linked with it is called a work that uses the Library Such a work in isolation is not a derivative work of the Library and therefore falls 10 10 FICHIERS DIVERS 195 outside the scope of this License However linking a work that uses the Library with the Library creates an executable that is a derivative of the Library because it contains portions of the Library rather than a work that uses the library The executable is therefore covered by this License Section 6 states terms for distribution of such executables When a work that uses the
76. qui provoque l af fichage de la fen tre de la figure 5 25 Presentation x Display Colors v Date Background Esa v File Name Foreground se A _ Pathname Auxiliary Nodes gt Vi Frame Selected Nodes E Set _ Rightto Left Comment Nodes se Se Fonts a npt Times New Roman 10 o Cancer Output Times New Roman Gras 12 FIG 5 25 Configuration de l aspect d un graphe 82 CHAPITRE 5 GRAMMAIRES LOCALES Les param tres de polices sont Input police utilis e dans les bo tes ainsi que dans la zone de texte o l on dite le contenu des boites Output police utilis e pour afficher les sorties des boites Les param tres de couleur sont Background couleur de fond Foreground couleur utilis pour le texte et le dessin des boites Auxiliary Nodes couleur des boites faisant appel a des sous graphes Selected Nodes couleur utilis e pour dessiner les boites quand elles sont s lection n es Comment Nodes couleur utilis e pour dessiner les bo tes qui ne sont reli es aucune autre Les autres param tres sont Date affichage de la date courante dans le coin inf rieur gauche du graphe File Name affichage du nom du graphe dans le coin inf rieur gauche du graphe Pathame affichage du nom du graphe avec son chemin complet dans le coin inf rieur gauche du graphe Cette option n a d effet que si
77. r gles de l application des dictionnaires Le cas des graphes diction naires sera abord dans la section 3 6 3 3 6 1 Priorit s La r gle de priorit est la suivante si un mot du texte a t trouv dans un dictionnaire ce mot ne sera plus pris en compte lors de l application de dictionnaires ayant une priorit inf rieure Cela permet d liminer certaines ambiguit s lors de l application des dictionnaires Par exemple le mot par a une interpr tation nominale dans le domaine du golf Si l on ne veut 3 6 APPLICATION DE DICTIONNAIRES 45 pas envisager cet emploi il suffit de cr er un dictionnnaire filtre ne contenant que l entr e par PREP et de le sauver en lui donnant la priorit la plus haute De cette mani re m me si le dictionnaire des mots simples contient l autre entr e celle ci sera ignor e grace au jeu des priorit s Il y a trois niveaux de priorit s Les dictionnaires dont les noms sans extension se ter minent par ont la priorit la plus grande ceux dont le nom se termine par ont la priorit la plus faible les autres dictionnaires sont appliqu s avec une priorit moyenne L ordre d application de plusieurs dictionnaires ayant la m me priorit est sans importance En ligne de commande l instruction Dico ex snt alph txt States bin Topo bin PR fst2 Regions bin appliquerait donc les dictionnaires dans l ordre suivant ex snt est le texte auquel sont appliqu s les dictionnaire
78. revanche l option equivalent FST2 indique au pro gramme de laisser tels quels les appels aux sous graphes au dela de la profondeur limite Cette option garantit la stricte quivalence du r sultat avec la grammaire d origine mais neproduit pas forc ment un transducteur tats finis Cette option peut tre utilis e pour optimiser certaines grammaires Un message indique la fin du processus d approximation si le r sultat est un transduc teur tats finis ou une grammaire FST2 et dans le cas d un transducteur s il est quivalent la grammaire d origine voir figure 6 6 6 2 3 Contraintes sur les grammaires l exception des grammaires de flexion une grammaire ne peut pas avoir de chemin vide Cela signifie que le graphe principal d une grammaire ne doit pas pouvoir reconna tre le mot vide mais cela n emp che pas un sous graphe de cette grammaire de reconna tre epsilon 6 2 COMPILER UNE GRAMMAIRE 91 Compiling graph loop Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection completed Compilation has succeeded Loading D iMy UnitexiEnglishiGraphsiloop fst2 Computing grammar dependences Flattening Cleaning graph Determinisation Saving tags he resulting grammar is an equivalent finite state transducer FIG 6 6 R sultat de l approximation d une grammaire Il n
79. s avec le suffixe SFX toto txt gt totoSFX txt sd SFX les fichiers destination sont renomm s avec le suffixe SFX 9 6 DICO 151 Les param tres text_i sont les noms des fichiers convertir 9 6 Dico Dico texte alphabet dic_1 dic_2 Ce programme applique des dictionnaires a un texte Le texte doit avoir t d coup en unit s lexicales par le programme Tokenize texte repr sente le chemin d acc s complet au fichier texte sans omettre l extension ent dic_i repr sente le chemin d acc s complet a un dictionnaire Le dictionnaire doit tre soit un dictionnaire compress au format bin obtenu avec le programme Compress soit un graphe dictionnaire au format st 2 voir section 3 6 page 44 Il est possible de donner des priorit s aux dictionnaires Pour plus de d tails voir section 3 6 1 Le programme Dico produit les 4 fichiers suivants et les sauve dans le r pertoire du texte dlf dictionnaire des mots simples du texte dlc dictionnaire des mots compos s du texte err liste des mots inconnus du texte stat_dic n fichier contenant les nombres de mots simples compos s et inconnus du texte NOTE les fichiers d1f dlc et err ne sont pas tri s Utilisez le programme Sort Txt pour le faire 9 7 Elag Elag txtauto 1 lang g rules o output d dir Ce programme prend un automate de texte txt auto et lui applique des r gles de lev e d ambiguit s Les param tres s
80. sente la couleur au format RGB SCOLOR x d finit la couleur utilis e pour crire le contenu des boites de commen taires i e les bo tes qui ne sont reli es aucune autre x repr sente la couleur au format RGB CCOLOR x d finit la couleur utilis e pour dessiner les boites s lectionn es x repr sente la couleur au format RGB DBOXES x cette ligne est ignor e par Unitex Elle est conserv e par souci de compa tibilit avec les graphes Intex DFRAME x dessine ou non un cadre autour du graphe selon que x vaut y oun DDATE x affiche ou non la date en bas du graphe selon que x vaut y oun DFILE x affiche ou non le nom du fichier en bas du graphe selon que x vaut y oun DDIR x affiche ou non le chemin complet d acc s au fichier en bas du graphe selon que x vaut y ou n Cette option n est prise en compte que si la param tre DF ILE a la 10 3 GRAPHES 165 valeur y DRIG x dessine le graphe de droite gauche ou de gauche droite selon que x vaut youn DRST x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibi lit avec les graphes Intex FITS x cette ligne est ignor e par Unitex Elle est conserv e par souci de compatibi lit avec les graphes Intex PORIENT x cette ligne est ignor e par Unitex Elle est conserv e par souci de com patibilit avec les graphes Intex cette ligne est ignor e par Unitex Elle sert indiquer la fin des informations
81. source code to be distributed under the terms of Sections 1 and 2 above on a medium customa rily used for software interchange or PR A wa Accompany it with the information you received as to the offer to distribute cor responding source code This alternative is allowed only for noncommercial dis tribution and only if you received the program in object code or executable form with such an offer in accord with Subsection b above The source code for a work means the preferred form of the work for making mo difications to it For an executable work complete source code means all the source code for all modules it contains plus any associated interface definition files plus the scripts used to control compilation and installation of the executable However as a 186 CHAPITRE 10 FORMATS DE FICHIERS special exception the source code distributed need not include anything that is nor mally distributed in either source or binary form with the major components com piler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable If distribution of executable or object code is made by offering access to copy from a designated place then offering equivalent access to copy the source code from the same place counts as distribution of the source code even though third parties are not compelled to copy the source along with the object code You may not cop
82. tant concur rent avec une s quence compl tement tiquet e Ainsi dans l automate de phrase de la figure 7 8 on peut voir que l adverbe aujourd hui est concurrenc par le mot inconnu aujourd suivi d une apostrophe et du participe pass du verbe huir FST Text I i 3649 sentences Je n ai pas le temps aujourd hui Restez r pondit Fix Sentence FIG 7 8 Ambiguit due une s quence contenant un mot inconnu On trouve galement ce ph nom ne dans le traitement de certaines langues asiatiques comme le thai Quand les mots ne sont pas d limit s il n y a pas d autre solution que d en visager toutes les combinaisons possibles ce qui entraine la cr ation de nombreux chemins comportant des mots inconnus qui s entrem lent avec les chemins tiquet s La figure 7 9 montre un exemple d un tel automate de phrase en thai 7 2 CONSTRUCTION 119 FST Text 1055 sentences AAMAS muaa aran Banda Wiuumedantunnmumala Aamann sa 4 Sentence FIG 7 9 Automate d une phrase tha Il est possible de supprimer ces chemins parasites Pour cela il faut s lectionner l option Clean Text FST dans la fen tre de configuration de la construction de l automate du texte voir figure 7 10 Cette option indique au programme de construction de l automate qu il doit nettoyer chaque automate de phrase Ce nettoyage s effectue selon le principe suivant si plusieurs chemins sont en concur
83. une version de Windows g rant des comptes personnels pour les utilisateurs il vous faudra demander votre administrateur syst me d installer Java 1 3 Installation sous Windows Si vous d sirez installer Unitex sur une machine Windows multi utilisateurs il est pr f rable de demander votre administrateur de le faire Si vous tes l utilisateur unique de votre machine vous pouvez effectuer l installation vous m me D compressez le fichier Unitex_1 2 zip vous pouvez t l charger ce fichier l adresse suivante http www igm univ mlv fr unitex dans un r pertoire Unitex que vous aurez pr alablement cr de pr f rence dans Program Files Apr s la d compres sion le r pertoire Unitex contient plusieurs sous r pertoires dont un nomm App Ce der nier r pertoire contient un fichier nomm Unitex jar Ce fichier est l ex cutable Java qui lance l interface graphique Il vous suffit de double cliquer dessus pour lancer le pro gramme Pour faciliter le lancement du programme il est conseill de cr er un raccourci vers ce fichier sur le bureau 1 4 Installation sous Linux et MacOS Pour installer Unitex sous Linux et MacOS il est recommand d tre administrateur sys t me D compressez le fichier Unitex_1 2 zip dans un r pertoire nomm Unitex au moyen de la commande suivante unzip Unitex_1 2 zip d Unitex Placez vous ensuite dans le r pertoire Unitex Src C et lancez la compilation des programmes
84. valeurs possibles sont 1 les transductions ont t ignor es M les transductions ont t ins r es dans les s quences reconnues mode MERGE R les transductions ont remplac les s quences reconnues mode REPLACE 10 6 CONCORDANCES 171 Chaque occurrence est d crite par une ligne Les lignes commencent par les positions de d but et de fin de l occurrence Ces positions sont donn es en unit s lexicales Si le fichier comporte la ligne d en t te 1 la position de fin de chaque occurrence est imm diatement suivie d un retour a la ligne Dans le cas contraire elle est suivie d un espace et d une cha ne de caract res En mode REPLACE cette cha ne correspond la transduction produite pour la s quence reconnue En mode MERGE elle repr sente la s quence reconnue dans laquelle ont t ins r es les transductions En mode MERGE ou REPLACE c est cette cha ne qui est affich e dans la concordance Si les transductions ont t ignor es le contenu de l occurrence est extrait du fichier texte 10 6 2 Fichier concord txt Le fichier concord txt est un fichier texte repr sentant une concordance Chaque oc currence est cod e par une ligne compos e de 3 cha nes de caract res s par es par le ca ract re de tabulation et qui repr sentent le contexte gauche l occurrence ventuellement modifi e par des transductions et le contexte droit 10 6 3 Fichier concord html Le fichier conco
85. vous devez cr er une bo te contenant le nom de la variable encadr par les caract res et et pour la fin d une variable Pour utiliser une variable dans une sortie vous devez faire pr c der son nom du caract re voir figure 6 25 Les variables sont globales Cela signifie que vous pouvez d finir une variable dans un graphe et l appeler dans un autre comme l illustrent les graphes de la figure 6 25 Si on applique le graphe Tit leName en mode MERGE au texte Ivanhoe on obtient la concordance suivante de la figure 6 26 Les sorties a variables peuvent tre utilis es pour d placer des groupes de mots En effet l application d un transducteur en mode REPLACE n crit dans le texte que les s quences produites par des sorties Pour inverser deux groupes de mots il suffit donc de les stocker dans des variables et de produire une sortie avec ces variables dans l ordre souhait Ainsi le transducteur de la figure 6 27 appliqu en mode REPLACE au texte Ivanhoe donne la concordance de la figure 6 28 Si le d but ou la fin d une variable est mal d finie fin d une variable avant son d but absence du d but ou de la fin d une variable celle ci sera ignor e lors des sorties Il n y a aucune limitation du nombre de variables utilisables 102 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES lders and was silent 5 Prince John TITLE Prince resumed his re he hermit his name is Sir Anthony of Scrabelstone TITLE
86. 10 FORMATS DE FICHIERS Les octets de poids fort et de poids faible ont t invers s ce qui explique que le caract re d en t te soit cod par FFFE au lieu de FEFF idem pour 000D et 000A qui sont devenus ODOO et OAOO 10 2 Fichiers d alphabet Il y a deux sortes de fichiers d alphabet un fichier qui d finit les caract res d une langue et un fichier indiquant des pr f rences pour le tri Le premier est d sign sous le terme d alphabet et le second sous celui d alphabet de tri 10 2 1 Alphabet Le fichier d alphabet est un fichier texte d crivant tous les caract res d une langue ainsi que les correspondances entre lettres minuscules et majuscules Ce fichier doit s appeler Alphabet txt et doit se trouver dans la racine du r pertoire de la langue concern e Sa pr sence est obligatoire pour qu Unitex puisse fonctionner Exemple le fichier d alphabet de l anglais doit se trouver dans le r pertoire English Chaque ligne du fichier alphabet doit avoir l une des 3 formes suivantes suivie par un retour la ligne AS un di se suivi de 2 caract res X et Y indique que tous les caract res com pris entre les caract res X et Y sont des lettres Tous ces caract res sont consid r s comme tant a la fois minuscules et majuscules Ce mode est utile pour d finir les al phabets des langues asiatiques comme le cor en le chinois ou le japonais o il n y a pas de distinction de casse et o le no
87. 2Unambig construira le fichier de sortie selon les principes suivants le fichier de sortie contient une ligne par phrase toutes les phrases sauf la derni re sont termin es par S pour chaque bo te le programme crit son contenu suivi par un espace NOTE la gestion des espaces est enti rement laiss e l utilisateur Ainsi si le texte d origine est celui de l automate de phrase de la figure 7 26 le texte produit sera 2 3 cats cat N Anl p are be V P2s Plp P2p P3p white white A 138 CHAPITRE 7 AUTOMATE DU TEXTE 23 cats are white FIG 7 26 Exemple d automate de texte lin aire Chapitre 8 Lexique grammaire Les tables de lexique grammaire sont un moyen compact de repr senter les propri t s syntaxiques des l ments d une langue Il est possible de construire automatiquement des grammaires locales a partir de ces tables grace 4 un m canisme de graphes param tr s La premi re partie de ce chapitre pr sente le formalisme de ces tables La seconde par tie d crit les graphes param tr s et le m canisme de g n ration automatique de graphes a partir d une table de lexique grammaire 8 1 Les tables de lexique grammaire Le lexique grammaire est une m thodologie qui a t d velopp e par Maurice Gross et son quipe du LADL 6 7 26 28 sur le principe suivant chaque verbe a des propri t s syntaxiques quasiment uniques De ce fait ces propri t s doiven
88. 4 op rateurs sont possibles 3 4 FLEXION AUTOMATIQUE 41 E inflection Directory where inflectional FST2 are stored LE UnitexiEnglishilnflection Set ivi Add before inflectional codes if necessary i Remove class numbers Cancel inflect Dictionary FIG 3 5 Configuration de la flexion automatique matrix matrices i p FIG 3 6 Grammaire de flexion N4 L left enl ve une lettre l entr e R right r tablit une lettre de l entr e En francais beaucoup de verbes du premier groupe se conjuguent au pr sent la troisi me personne du singulier en retirant le r de l infinitif et en changeant la 4eme lettre en partant de la fin en e peler p le acheter ach te g rer g re etc Plut t que d crire un suffixe de flexion pour chaque verbe LLLL le LLLLete et LLLLere on peut utiliser l op rateur R pour n en crire qu un seul LLLLERR C copy duplique une lettre de l entr e en d calant tout ce qui se trouve sa droite Supposons par exemple que l on souhaite g n rer automatiquement des adjectifs en able partir de noms Dans des cas comme regrettableour quisitionnable on observe un doublement de la consonne finale du nom Pour viter d crire un graphe de flexion pour chaque consonne finale possible on peut utiliser l op rateur C afin de dupliquer la consonne finale quelle qu elle soit D delete supprime une lettre
89. 5 22 Les possibilit s d alignement horizontal sont Top les bo tes sont align es sur la bo te la plus haute Center les bo tes sont toutes centr es sur un m me axe Bottom les bo tes sont align es sur la bo te la plus basse Les possibilit s d alignement vertical sont Left les bo tes sont align es sur la bo te la plus gauche 80 CHAPITRE 5 GRAMMAIRES LOCALES Alignment x ree Vertical cone Co ME JE Ci Use Grid every 30 pixels Co mes FIG 5 22 Fen tre d alignement Center les bo tes sont toutes centr es sur un m me axe Right les boites sont align es sur la boite la plus a droite La figure 5 23 montre un exemple d alignement Le groupe de boites situ a droite est une copie des boites de gauche qui a t align e verticalement a gauche is more boxes ae sus FIG 5 23 Exemple d alignement vertical gauche L option Use Grid de la fen tre d alignement permet d afficher une grille en arri re plan du graphe Cela permet d aligner approximativement les bo tes 5 3 OPTIONS DE PRESENTATION Unsaved of a graph displayed with FIG 5 24 Exemple d utilisation d une grille 5 3 5 Pr sentation polices et couleurs Vous pouvez configurer l aspect d un graphe en appuyant sur lt Ctrl R gt ou en cliquant sur Presentation dans le sous menu Format du menu FSGraph ce
90. CHAPITRE 8 LEXIQUE GRAMMAIRE Chapitre 9 Utilisation des programmes externes Ce chapitre pr sente l utilisation des diff rents programmes qui composent Unitex Ces programmes qui se trouvent dans le r pertoire Unitex App sont appel s automatique ment par l interface Vous pouvez voir les commandes qui ont t ex cut es en cliquant sur Console dans le menu Info Vous pouvez galement voir les options des diff rents programmes en les s lectionnant dans le sous menu Help on commands du menu Info IMPORTANT plusieurs programmes utilisent le r pertoire du texte mon_texte_snt Ce r pertoire est cr par l interface graphique apr s la normalisation du texte Si vous tra vaillez en ligne de commande vous devrez cr er ce r pertoire vous m me apr s l ex cution du programme Normalize IMPORTANT 2 lorsqu un param tre contient des espaces vous devez l entourer de guille mets pour qu il ne soit pas consid r comme plusieurs param tres 9 1 CheckDic CheckDic dictionnaire type Ce programme effectue la v rification du format d un dictionnaire de type DELAS ou DELAF Le param tre dictionnaire correspond au nom du dictionnaire a v rifier Le param tre type peut prendre la valeur DELAS ou DELAF selon que l on souhaite v rifier un dictionnaire de l un ou l autre de ces formats Le programme teste la syntaxe des lignes du dictionnaire Il dresse galement la liste des caract res pr sents dans
91. D FITNESS FOR A PARTICULAR PURPOSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE LIBRARY IS WITH YOU SHOULD THE LIBRARY PROVE DEFECTIVE YOU ASSUME THE COST OF ALL NECESSARY SERVICING REPAIR OR CORRECTION 16 IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MO DIFY AND OR REDISTRIBUTE THE LIBRARY AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAMAGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CONSE QUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LI BRARY INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING REN DERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAI LURE OF THE LIBRARY TO OPERATE WITH ANY OTHER SOFTWARE EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DA MAGES END OF TERMS AND CONDITIONS How to Apply These Terms to Your New Libraries If you develop a new library and you want it to be of the greatest possible use to the public we recommend making it free software that everyone can redistribute and change You can do so by permitting redistribution under these terms or alternatively under the terms of the ordinary General Public License To apply these terms attach the following notices to the library It is safest to attach them to the start of each source file to most effectively convey the exclusion of warranty and each file should have at least the copyright l
92. FIG 7 4 Normalisation de la s quence 1 E 5 e NDET Dnom14 DET z1 ms fs FIG 7 5 Automate normalis avec la grammaire de la figure 7 4 Ainsi l utilisateur pourra rechercher l une ou l autre forme selon ses besoins Les figures 7 6 et 7 7 montrent l automate d une phrase avant et apr s normalisation des clitiques 116 CHAPITRE 7 AUTOMATE DU TEXTE Os benfeitores Dir se ia uma galeria de afogados todos solenes secos hirtos de l b ios finos e ar de cerim nia FIG 7 6 Automate de phrase non normalis 7 2 CONSTRUCTION 117 PRO Pes N3s V C1s C4s C3s ES Al dizer E V 11s 12s l4s 13s VER PRO Pes R4ms R4fs R4mp R4fp FIG 7 7 Automate de phrase normalis 118 CHAPITRE 7 AUTOMATE DU TEXTE Le programme Reconstrucao permet de construire dynamiquement pour chaque texte une grammaire de normalisation de ces formes La grammaire ainsi produite peut alors tre utilis e pour normaliser l automate du texte La fen tre de configuration de construction de automate propose l option Build clitic normalization grammar voir figure 7 10 Cette option lance automatiquement la construction de la grammaire de normalisation qui est ensuite utilis e pour construire l automate du texte si vous avez s lectionn l option Apply the Normalization grammar 7 2 4 Conservation des meilleurs chemins Il peut arriver qu un mot inconnu vienne parasiter l automate du texte en
93. HERCHE D EXPRESSIONS RATIONNELLES nombre et le nombre total d unit s lexicales du texte f Result Info xi 200 matches 563 recognized units 0 273 of the text is covered m FIG 4 5 R sultats de la recherche Apres avoir cliqu sur OK vous verrez apparaitre la fen tre de la figure 4 6 permettant de configurer l affichage de la liste des occurrences trouv es Vous pouvez galement faire apparaitre cette fen tre en cliquant sur Display Located Sequences dans le menu Text On appelle concordance la liste d occurrences Le cadre Modify text offre la possibilit de remplacer les occurrences trouv es par les sorties produites Cette possibilit sera examin e au chapitre 6 Le cadre Extract units vous permet de construire un fichier texte avec toutes les phrases contenant ou non des occurrences Le bouton Set File vous permet de s lectionner le fichier de sortie Cliquez ensuite sur Extract matching units ou Extract unmatching units selon que vous voulez extraire les phrases contenant les occurrences ou non Dans le cadre Show Matching Sequences in Context vous pouvez s lectionner la lon gueur en caract res des contextes gauche et droit des occurrences qui seront affich es dans la concordance Si une occurrence a une longueur inf rieure a la taille du contexte droit la ligne de concordance sera compl t e avec le nombre de caract res n cessaire Si une occur rence a une longueur sup r
94. ILBERZTEIN Les groupes nominaux productifs et les noms compos s lexicali s s Lingvistice Investigationes 27 2 405 426 1999 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 48 Carlos SUBIRATS RUGGEBERG Sentential complementation in Spanish A lexico grammatical study of three classes of verbs John Benjamins Amsterdam Philadelphia 1987 8 1 49 Thomas TREIG Compl tives en allemand classification Technical Report 7 LADL 1977 8 1 210 BIBLIOGRAPHIE 50 Lidia VARGA Classification syntaxique des verbes de mouvement en hongrois dans l optique d un traitement automatique In F Kiefer G Kiss and J Pajzs editors Papers in Computational Lexicography COMPLEX pages 257 265 Budapest Research Institute for Linguistics Hungarian Academy of Sciences 1996 8 1 51 Simoneta VIETRI On the study of idioms in italian In Sintassi e morfologia della lingua italiana Congresso internazionale della Societa di Linguistica Italiana Roma Bulzoni 1984 97 Index 32 45 56 67 Elag 178 _ 130 cat 129 complete 130 discr 129 inflex 129 t 18 STOP 24 1 54 22 52 54 88 5 74 75 56 1 32 34 45 53 sje 00 1 92 13 1 36 2 36 3 36 02 09 lt CDICS 92 lt DIC gt 52 54 lt E gt 22 52 54 56 67 86 88 lt MAJ gt 22 52 54 lt MIN gt 22 52 54 lt MOT gt 22 52 lt NB gt 22 52 54 lt PNC gt 22 lt PRE gt 22 52 54 lt SDIC gt 52 lt g
95. ITRE 3 DICTIONNAIRES 4 pr No ee 2 EF mn Fm Md SE Ho Eg o AS an Dy Py Am Cm Bk ner Sm Eu Gd Pr Nd Pm n np Np Yran La Ce Ac din Pa FIG 3 10 Graphe dictionnaire des l ments chimiques 3 7 BIBLIOGRAPHIE 47 La figure 3 10 montre un graphe reconnaissant les symboles chimiques On peut voir sur cette figure un premier avantage par rapport aux dictionnaires compress s l utilisation des guillemets permet de forcer le respect de la casse Ainsi ce graphe reconnaitra bien Fe mais pas FE alors qu il est impossible de sp cifier une telle interdiction dans un DELAF usuel Le second avantage des graphes dictionnaires est qu ils peuvent exploiter les r sultats fournis par les dictionnaires appliqu s pr c demment Ainsi on peut appliquer le diction naire g n ral puis tiqueter comme noms propres les mots inconnus commen ant par une majuscule l aide du graphe NPr de la figure 3 11 Le dans le nom du graphe lui donne une priorit basse afin qu il soit appliqu apr s le dictionnaire g n ral Pour fonctionner ce graphe se base sur les mots qui sont toujours inconnus apr s le passage du dictionnaire g n ral Les crochets correspondent une d finition de contexte Pour plus de d tails sur les contextes voir la section 6 3 H 6 NPr FIG 3 11 Graphe dictionnaire tiquetant comme n
96. Index all utterances in text FIG 6 30 Fen tre de recherche d expressions La concordance est produite sous la forme d un fichier HTML Vous pouvez param trer Unitex pour que les concordances soient lues l aide d un navigateur Web voir section 4 8 2 Si vous affichez les concordances avec la fen tre propos e par Unitex vous pouvez ac c der la s quence reconnue dans le texte en cliquant sur l occurrence Si la fen tre du texte n est pas iconifi e et que le texte n est pas trop long pour tre affich vous verrez appara tre la s quence s lectionn e voir figure 6 32 De plus si l automate du texte a t construit et que la fen tre correspondante n est pas iconifi e le fait de cliquer sur une occurrence s lectionne l automate de la phrase qui contient cette occurrence 6 7 3 Modification du texte Vous pouvez choisir de modifier le texte au lieu de construire une concordance Pour cela s lectionnez un nom de fichier dans le cadre Modify text de la fen tre de la figure 6 31 Ce fichier doit porter l extension txt Si vous souhaitez modifier le texte courant il faut choisir le fichier txt correspondant Si vous choisissez un autre nom de fichier le texte courant ne sera pas affect Cliquez sur le bouton GO pour lancer la modification du texte Les r gles de priorit s appliqu es lors de cette op rations sont d taill es a la section 3 6 2 6 7 APPLICATION DES GRAPHES AUX TEXTES
97. Investigationes 22 341 367 1998 Amsterdam Philadelphia John Benjamins Publishing Company 7 7 3 36 Ville LAURIKARI TRE home page http laurikari net tre 1 1 4 7 37 Annie MEUNIER Nominalisation d adjectifs par verbes supports 1981 Th se de doctorat Universit Paris 7 8 1 38 Sun Microsystems Java http java sun com 1 2 39 Christian MOLINIER and Francoise LEVRIER Grammaire des adverbes description des formes en ment Droz Gen ve 2000 8 1 40 Anne MONCEAUX Le dictionnaire des mots simples anglais mots nouveaux et va riantes orthographiques Technical Report 15 IGM Universit de Marne la Vall e 1995 3 7 41 OpenOffice org http www openoffice org 2 2 8 2 2 42 Dong Ho PAK Lexique grammaire compar fran ais cor en Syntaxe des constructions com pl tives PhD thesis UQAM Montr al 1996 8 1 43 Soun Nam PARK La construction des verbes neutres en cor en 1996 Th se de doctorat Universit Paris 7 8 1 44 S bastien PAUMIER and Harald ULLAND Analyse automatique de mots polylexicaux en norv gien Lingvistice Investigationes 28 2 2005 Amsterdam Philadelphia John Benjamins Publishing Company 2 5 6 45 Roger Bruno RABENNILAINA Le verbe malgache AUPELF UREF et Universit Paris 13 Paris 1991 8 1 46 Agata SAVARY Recensement et description des mots compos s m thodes et applications 2000 Th se de doctorat Universit de Marne la Vall e 3 7 47 Max S
98. LE SIZE d finit la taille maximum des fichiers texte qu Uni tex ouvre dans l interface graphique Si un fichier a une taille sup rieur cette limite l utili sateur verra le message suivant This file is too large to be displayed Use a wordprocessor to view it La valeur par d faut est 2048 Ko Le param tre ICON BAR POSITION d finit la position de la barre d ic nes dans les fe n tres de graphes Le param tre PACKAGE PATH d finit le r pertoire de d p t utiliser pour cette langue 10 9 2 Fichier system_dic def Le fichier system_dic def est un fichier texte d crivant la liste des dictionnaires du syst me appliquer par d faut Ce fichier se trouve dans le r pertoire de la langue courante Chaque ligne correspond un nom de fichier bin Les dictionnaires du syst me doivent trouver dans le r pertoire du syst me l int rieur du sous r pertoire langue courante Dela Voici un exemple de fichier delacf binY delaf binY 10 9 3 Fichier user dic def Le fichier user_dic def est un fichier texte d crivant la liste des dictionnaires de l uti lisateur appliquer par d faut Ce fichier se trouve dans le r pertoire de la langue cou rante et a le m me format que le fichier system_dic def Les dictionnaires de l utilisateur doivent se trouver dans le sous r pertoire langue courante Dela du r pertoire per sonnel de l utilisateur 10 94 Fichier user cfg Sous Linux Unitex consid re que le r
99. LISATION DES PROGRAMMES EXTERNES la langue du texte Le param tre optionnel char_by_ char indique au programme qu il doit effectuer un d coupage caract re par caract re l exception du s parateur de phrases S et des tiquettes lexicales qui seront consid r s comme des unit s Sans ce param tre le programme consid re qu une unit est soit une suite de lettres les lettres sont d finies par le fichier alphabet soit un caract re qui n est pas une lettre soit le s parateur de phrases S soit une tiquette lexicale aujourd hui ADV Le programme code chaque unit par un entier La liste des unit s est sauvegard e dans un fichier texte nomm tokens t xt La suite des codes repr sentant les unit s permet alors de coder le texte Cette suite est sauvegard e dans un fichier binaire nomm text cod Le programme produit galement les 4 fichiers suivants tok_by_freq txt fichier texte contenant la liste des unit s tri es par ordre de fr quence tok_by_alph txt fichier texte contenant la liste des unit s tri es par ordre alpha b tique stats n fichier texte contenant des informations sur le nombre de s parateurs de phrases le nombre d unit s le nombre de mots simples et le nombre de chiffres enter pos fichier binaire contenant la liste des positions des retours la ligne dans le texte La repr sentation cod e du texte ne contient pas de retours a la ligne mais des es
100. OURCE TO OPERATE WITH 206 CHAPITRE 10 FORMATS DE FICHIERS ANY OTHER SOFTWARE EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES END OF TERMS AND CONDITIONS Bibliographie 1 Free Software Foundation http www fsf org 10 10 4 2 Anna ANASTASSIADIS SYMEONIDIS Tita KYRIACOPOULOU Elsa SKLAVOUNOU Ias son THILIKOS and Rania VOSKAKI A system for analysing texts in modern greek representing and solving ambiguities In Proceedings of COMLEX 2000 Workshop on Computational Lexicography and Multimedia Dictionaries Patras 2000 3 7 3 Olivier BLANC and Anne DISTER Automates lexicaux avec structure de traits 2004 Actes RECITAL 2004 7 3 4 Xavier BLANCO Noms compos s et traduction francais espagnol Lingvistice Investi gationes 21 1 1997 Amsterdam Philadelphia John Benjamins Publishing Company of 5 Xavier BLANCO Les dictionnaires lectroniques de l espagnol DELASs et DELACs Lingvistice Investigationes 23 2 2000 Amsterdam Philadelphia John Benjamins Pu blishing Company 3 7 6 Jean Paul BOONS Alain GUILLET and Christian LECLERE La structure des phrases simples en frangais classes de constructions transitives Technical report LADL Paris 1976 8 1 7 Jean Paul BOONS Alain GUILLET and Christian LECLERE La structure des phrases simples en fran ais constructions intransitives Droz Gen ve 1976 8 1 8 Firefox Web browser http www mozilla com fir
101. Par d faut Unitex tol re que des mots avec des minuscules reconnaissent des mots crits avec des majuscules Il est possible de forcer le respect de la casse en utilisant les guillemets Ainsi pierre ne reconna t que la forme pierre et non pas Pierre ou PIERRE 51 52 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES NOTE si l on souhaite rendre la pr sence d un espace obligatoire il faut le mettre entre guillemets 43 Motifs 4 3 1 Symboles sp ciaux Il y a deux sortes de motifs La premi re cat gorie regroupe tous les symboles pr sent s la section 2 5 2 l exception de lt PNC gt qui reconna t des signes de ponctuation et du symbole lt gt qui reconna t un retour ligne Tous les retours la ligne ayant t rempla c s par des espaces ce symbole n a plus aucune utilit lors de la recherche de motifs Ces symboles galement appel s m tas sont les suivants lt E gt mot vide ou epsilon Reconna t la s quence vide lt TOKEN reconna t n importe quelle unit lexicale lt MOT gt reconna t n importe unit lexicale form e de lettres lt MIN gt reconna t n importe unit lexicale form e de lettres minuscules lt MAJ gt reconna t n importe unit lexicale form e de lettres majuscules lt PRE gt reconna t n importe unit lexicale form e de lettres et commen ant par une majuscule lt TOKEN reconna t n importe quelle unit
102. R A FAILURE OF THE PROGRAM TO 188 CHAPITRE 10 FORMATS DE FICHIERS OPERATE WITH ANY OTHER PROGRAMS EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES END OF TERMS AND CONDITIONS Appendix How to Apply These Terms to Your New Programs If you develop a new program and you want it to be of the greatest possible use to the public the best way to achieve this is to make it free software which everyone can redistri bute and change under these terms To do so attach the following notices to the program It is safest to attach them to the start of each source file to most effectively convey the exclusion of warranty and each file should have at least the copyright line and a pointer to where the full notice is found one line to give the program s name and a brief idea of what it does Copyright C yyyy name of author This program is free software you can redistribute it and or modify it under the terms of the GNU General Public License as published by the Free Software Foundation either version 2 of the License or at your option any later version This program is distributed in the hope that it will be useful but WITHOUT ANY WARRANTY without even the implied warranty of MERCHANTABI LITY or FITNESS FOR A PARTICULAR PURPOSE See the GNU General Public License for more details You should have received a copy of the GNU General Public License along with this program if not write to
103. Resource except as expressly provided under this License Any attempt otherwise to copy mo dify sublicense link with or distribute the Linguistic Resource is void and will auto matically terminate your rights under this License However parties who have recei ved copies or rights from you under this License will not have their licenses termina ted so long as such parties remain in full compliance You are not required to accept this License since you have not signed it However nothing else grants you permission to modify or distribute the Linguistic Resource or its derivative works These actions are prohibited by law if you do not accept this Li cense Therefore by modifying or distributing the Linguistic Resource or any work based on the Linguistic Resource you indicate your acceptance of this License to do so and all its terms and conditions for copying distributing or modifying the Linguis tic Resource or works based on it Each time you redistribute the Linguistic Resource or any work based on the Linguis tic Resource the recipient automatically receives a license from the original licensor to copy distribute link with or modify the Linguistic Resource subject to these terms and conditions You may not impose any further restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties with this License If as a consequence of a cour
104. ToJ oyn 235041 30 auo 1241014 AST Y Tanesq aya 30 11ed 1298216 ayy Autrzsacd 15310 shaeyT E se pue 9 NOTT A ayhtzaq YATA P UTT partos Tep pooh E 13p10 sty 09 1ad01d ssaap aToun ayy pue dseT9 Waptoh E Silom 343 2107234 24T1118 ay usqa queTTeh Yusi Al t e TS 3134N ST Pue proetd aya 09 ANMANM Jo SOTOA 321433 E BAG AVATTS UTUI Peu ay Sg Atadeip 30 39314 9118281083 e daap e S fTTTm Jo pue aheanod 30 Wotjiexs p uimi z p E TU 03 SSaUU1295 TBUOTITpPpe aaeh mn01q sty uo 1895 disp E pue SoOUBWSIUNOD STU 03 SSaUUIa S EUOL Pappe au qayoel ayq OL sanojToo quar se suoxes oThuy 291 Jo aouaqstxa 242 HI JO 2380943 SHIT 3184 s uy 293 2331 JTE Y1TM Pa129409 sem peay STH Ss arom pues Jo ahaeyo 243 UT ST PUE saatt 223n1q ay ogur uns 3493 30 sauanTyUT ayy Aq payoro UTU JAUNES PEU UOTIENITE pue uotesazjoad aTtym 9auoz09 e AuttTqmasaa yaron usado JO 55019 e q10T9 ATUM UT mM sem 313 SB Pa ATOAUT Autaq JO PIEZEU UTE1139 IU saeg pue a3ouepuag saatnhez 24 usqa uo jo pue sTeTAaqeM 123329 Jo sem m103 U JO 12UUen 243 UT S12PINOUS pue pesy au Jo zeah peay ayy 10 Heq ATTal e 10 de PauTen31 WopTas ay se pue S 123U10 10 g atiaua P340T 328493 13PpT13N0 uy ati dn Butysqes azaqge Aauanol sty uehaq oyn utaq adeys ut uotuedmoa sty Jo 1eu2 P Aq pa13409 313 Aaayted qiadns styq Jo g peor 3q3 uo SurTIaa4ex3 103 xuon que Salty QUATOUE UT papusaxa 21341 uog 13 ynog U10T2 UOSMTIJ Jo sem 4T g
105. UNITEX 1 2 MANUEL D UTILISATION Universit de Marne la Vall e http www igm univ mlv fr unitex unitexQ univ mlv fr S bastien Paumier Mai 2006 Table des mati res Introduction 1 Installation d Unitex ll Licences 2 066 24 6 Baw nes Dane es bh Ce bei ed ew ed woe HPS 1 2 Environnement d ex cution Java 1 3 Installation sous WIndows s esca 4 da pau D bw phase 1 4 Installation sous Linux et MacOS 15 Premi re utilisation eo 2 6625 2065 4 4 du du ee bas 16 Alodtdenouvelles langues os a 4 d u 4 eux sus heu dura da de ea 17 WesinstallanGas oo um De Sud do den do do de Dee we BY 2 Chargement d un texte 2 Sdlecionde la MER LL LL ess be Ee ER b Dana ER eme en 22 Format des teles olla dl he dela suit de 2S ECIION Ge textes 4 2 cca Pa ew eS mu dre doute do aoe D eee we BX 24 Ouverture d untere 26s Bok BOR Se eS ee Be Se aa 2 5 Pr traitementdutexte 0 6268 44444 84 es 25 1 Normalisation des SEPAIS oso mes de ens a beam 252 e ih soe bs bee eRe ewe ex ERE SEE OS 2 5 3 Normalisation de formes non ambigu s 62 06 04 sewed 6 ou 2 5 4 D coupage du texte en unit s lexicales 26 6 ice be ee sus x 255 Applicaton de dictionnaires sis serra ee Sd ee es 2 5 6 Analyse des mots compos s libres en allemand norv gien et russe 26 CPT d un texte Ue rectos e pau da dek EOS ae nus 3 Dictionnaires 31 Lesd
106. Unitex ne peut pas liminer 2 Ya 2 0 FIG 6 9 Boucle infinie due un appel un sous graphe reconnaissant epsilon La troisieme possibilit de boucle infinie concerne les appels r cursifs des sous graphes Consid rons les graphes Det et DetCompose de la figure 6 10 Chacun de ces graphes peut appeler l autre sans rien lire dans le texte Le fait qu aucun des deux graphes ne comporte d ti quette entre l tat initial et l appel l autre graphe est capital En effet s il y avait au moins une tiquette diff rente d epsilon entre le d but du graphe Det et l appel Det Compose cela signifierait que les programmes d Unitex explorant le graphe Det devraient lire le motif d crit par cette tiquette dans le texte avant d appeler r cursivement Det Compose Dans ce cas les programmes ne pourraient boucler ind finiment que s ils rencontraient une infinit de fois le motif dans le texte ce qui ne peut pas arriver 6 2 COMPILER UNE GRAMMAIRE 93 FIG 6 10 Boucle infinie due deux graphes s appelant mutuellement 6 24 D tection d erreurs Pour viter aux programmes de se bloquer ou de planter Unitex effectue automatique ment une d tection d erreurs lors de la compilation des graphes Le compilateur de graphes v rifie que le graphe principal ne reconna t pas le mot vide et recherche toutes les formes de boucles infinies Si une erreur est trouv e un message d erreur appara t dans la
107. VEE D AMBIGUITES LEXICALES AVEC ELAG 125 Elag Rule Compilation east browse save Look In Seas a e cl BB B Ef NewGrams E Naz fst2 A olive E normalisatio QQ AN fst2 E regle fst2 y elte fst2 E regleD fst2 E NAfst2 E regleG fst2 homefolive unitex French Elag NewGrams SEfst2 File Name Files of Type Compiled Elag rules y locate FIG 7 16 Fen tre de compilation des grammaires ELAG E FST Text La porte du car se ferme automatiquement 1 sentence Sentence 1 Rebuild FST Text Open Elag Frame Implose FIG 7 17 Fen tre de l automate du texte 7 3 4 Ensembles de grammaires Il est possible de regrouper plusieurs grammaires ELAG en un ensemble de grammaires afin de les appliquer en une seule fois Les ensembles de grammaires ELAG sont d crits dans des fichiers 1st Ils sont g r s depuis la fen tre de compilation des grammaires ELAG figure 7 16 Le label en haut gauche indique le nom de l ensemble courant par d faut elag 1st C est le contenu de cet ensemble qui est affich dans le cadre droit de la fen tre 126 CHAPITRE 7 AUTOMATE DU TEXTE B FsT Text 2 La porte du car se ferme automatiquement 1 sentence Sentence 1 Reset Sentence Graph Rebuild FST Text close elag frame Implose
108. WEGIAN et RUSSIAN Le param tre alph repr sente le fichier alphabet utiliser Le param tre dic d signe le dic tionnaire consulter pour l analyse Le param tre out d signe le fichier dans lequel seront crites les lignes de dictionnaires produites si ce fichier existe d j les lignes produites sont ajout es la fin de ce fichier Le param tre optionnel info d signe un fichier texte dans lequel sont produites des informations sur les analyses effectu es 9 24 Reconstrucao Reconstrucao alph concord dic reverse _dic pro nasalpro res Ce programme g n re une grammaire de normalisation destin e a tre appliqu e lors de la construction de l automate d un texte portugais Le param tre alph d signe le fichier al phabet a utiliser Le fichier concord repr sente une concordance qui doit avoir t produite par l application en mode MERGE au texte consid r d une grammaire extrayant toutes les formes normaliser Cette grammaire se nomme V Pro Suf et se trouve dans le r pertoire Portuguese Graphs Normalization Le param tre dic d signe le dictionnaire uti liser pour retrouver les formes canoniques associ es aux radicaux des verbes reverse_dic d signe le dictionnaire invers utiliser pour retrouver les formes au futur et au condition nel partir des formes canoniques Ces deux dictionnaires doivent tre au format bin et reverse_dic devrait avoir t obtenu en compressant le dictionnaire des verbes au futur
109. a est possible et d en construire une approximation sinon Cette fonction permet ainsi d obtenir des objets plus simples manipuler et sur lesquels peuvent s appliquer tous les algorithmes classiques sur les automates Pour compiler et transformer ainsi une grammaire s lectionnez la commande Compile 90 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES amp Flatten FST2 dans le sous menu Tools du menu FSGraph La fen tre de la figure 6 5 vous permet de configurer l op ration d approximation Compile amp Flatten x Expected result grammar format equivalent FST2 subgraph calls may remain Finite State Transducer can be just an approximation Flattening depth Maximum flattening depth 10 Cancel FIG 6 5 Configuration de l approximation d une grammaire Le cadre Flattening depth permet de pr ciser le niveau d imbrication des sous graphes Cette valeur repr sente la profondeur maximale au dela de laquelle les appels des sous graphes ne seront plus remplac s par les sous graphes eux m mes Le cadre Expected result grammar format permet de d terminer le comportement du programme au dela de la limite indiqu e Si vous s lectionnez l option Finite State Transdu cer les appels aux sous graphes seront ignor s au dela de la profondeur maximale Cette option garantit ainsi l obtention d un transducteur tats finis ventuellement non qui valent la grammaire de d part En
110. a fonction de copie int gr e a votre diteur Cr ez ensuite une boite dans votre graphe et utilisez lt Ctrl V gt ou la commande Paste du menu Edit pour la coller dans la bo te Vous verrez alors apparaitre la fen tre de la figure 5 17 Cette fen tre vous permet de d finir les contextes gauche et droit qui seront ajout s auto matiquement chaque terme de la liste Par d faut ces contextes sont vides Si l on applique les contextes lt et V gt la liste suivante eat 76 CHAPITRE 5 GRAMMAIRES LOCALES Hy Choose your left and right contexts FIG 5 17 S lection de contexte pour la copie d une liste sleep drink play read on obtient la boite de la figure 5 18 Seat V gt lt sleep V gt lt drink V gt O lt play Y gt lt read Y gt FIG 5 18 Bo te obtenue par copie d une liste avec ajout de contextes 5 2 9 Symboles sp ciaux L diteur de graphes d Unitex interpr te de fa on particuli re les symboles suivants lt gt Le tableau 5 1 r sume la signification pour Unitex de ces symboles ainsi que la ou les fa ons de reconna tre ces caract res dans des textes 5 2 10 Commandes de la barre d ic nes La barre d ic nes pr sente gauche des graphes contient des raccourcis vers certaines commandes et permet de manipuler les bo tes d un graphe en utilisant des outils Cette barre d ic nes paut tre d plac e en cliquant sur la zone rugue
111. accuser Maxgaccusegses trente ans avoir admettre He On admet 50 personnes dans cette salle avoir affecter a Ces cristaux affectent une forme g om trique avoir afficher h LIRE l Les valeurs ontgaffich gun repli avoir aimer i i Laplante aime l eau avoir approcher Cette maison approche les deux millions avoir arpenter Ce terrain arpente 30 arpents avoir atteindre lo ello fe f Maxatteint amp 80 kilos avoir avoir MaQa une soeur une voiture des sous avoir avoisiner l i Ce sac avoisine les 20 kg avoir battre Lamontre bat les secondes avoir cacher a l j lo e j i l Soncalme cache son une grande angoisse avoir caler fe ja j je j 7 dl Ce bateau cale 80 cm x 4 Mi FIG 8 1 Table de lexique grammaire 32NM 8 2 Conversion d une table en graphes 8 2 1 Principe des graphes param tr s La conversion d une table en graphes s effectue au moyen du m canisme des graphes param tr s Le principe est le suivant on construit un graphe qui d crit des constructions possibles Ce graphe fait r f rence aux colonnes de la table grace a des variables On g nere ensuite pour chaque ligne de la table une copie de ce graphe dans laquelle les variables sont remplac
112. act res P 2 et s Cependant le code Y2s de E contient bien les caract res Y et 2 Le code Y2 est inclus dans au moins un code de E le masque lexical M reconna t donc l entr e E L ordre des caract res l int rieur d un code flexionnel est sans importance 4 3 5 N gation d un motif Il est possible de faire la n gation d un motif au moyen du caract re plac imm dia tement apr s le caract re lt La n gation est possible sur les m tas lt MOT gt lt MIN gt lt MAJ gt lt PRE gt lt DIC gt ainsi que sur les masques lexicaux ne comportant que des codes gramma ticaux s mantiques ou flexionnels i e lt V z3 P3 gt Les motifs et sont la n gation l un de l autre Le m ta lt MOT gt peut reconna tre toutes les unit s lexicales qui ne sont pas form es de lettres sauf le s parateur de phrases et bien s r le marqueur STOP La n gation est sans effet sur lt NB gt lt SDIC gt lt CDIC gt et lt TOKEN gt La n gation est interpr t e d une fa on particuli re dans les m tas lt DIC gt lt MIN gt lt MAJ gt et lt PRE gt Au lieu de reconna tre toutes les formes qui ne sont pas reconnues par le m ta sans la n gation ces motifs ne donnent que des formes qui sont des s quences de lettres Ainsi le m ta lt DIC gt permet d obtenir les mots inconnus du texte Ces formes inconnues sont le plus souvent des noms propres des n ologismes et des fautes d ortho graphe La
113. anonique pour en donner la forme compl te ADN Acide D soxyriboNucl ique SIGLE LADL Laboratoire d Automatique Documentaire et Linguistique SIGLE SAV Service Apr s Vente SIGLE 3 2 V rification du format d un dictionnaire Lorsque les dictionnaires sont de taille importante il devient fastidieux de les v rifier la main Unitex contient le programme CheckDic qui v rifie automatiquement les diction 3 2 VERIFICATION DU FORMAT D UN DICTIONNAIRE 37 naires DELAF et DELAS Ce programme effectue une v rification de la syntaxe des entr es Pour chaque entr e mal form e le programme affiche le num ro de ligne le contenu de cette ligne et la nature de l erreur Les r sultats de l analyse sont sauv s dans un fichier nomm CHECK_DIC TXT qui est affich une fois la v rification termin e En plus des ventuels messages d erreurs ce fichier contient la liste de tous les caract res utilis s dans les formes fl chies et canoniques la liste des codes grammaticaux et s mantiques ainsi que la liste des codes flexionnels utilis s La liste des caract res permet de v rifier que les caract res pr sents dans le dictionnaire sont coh rents avec ceux pr sents dans le fichier alphabet de la langue Chaque caract re est suivi par sa valeur en notation hexad cimale Les listes de codes peuvent tre utilis es pour v rifier qu il n y a pas de faute de frappe dans les codes du dictionnaire Le programme fonctionne avec
114. ans le r pertoire du texte cursentence grf graphe repr sentant l automate de la phrase cursentence txt fichier texte contenant cette phrase Le param tre optionnel output fait en sorte que les noms des fichiers se sortie ne soient pas cursentence grfetcursentence txt mais output grf et output txt Le pa ram tre optionnel f font permet de sp cifier la police qui sera utilis e dans le graphe de sortie Par d faut la police utilis e est Times new Roman 9 14 Fst2List Fst2List o out p s f d a t s m f s a s L R sO Str v rx L R 1 line i subname 154 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES c SS 0xxxx fname Ce programme prend un fichier fst2 et produit la liste des s quences reconnues par cette grammaire Les param tres sont les suivants fname nom de la grammaire avec l extension fst2 o out pr cise le nom du fichier de sortie Par d faut ce fichier se nomme 1st t xt a t s m pr cise si l on tient compte t ou non a des ventuelles sorties de la grammaire s indique qu il n y a qu un seul tat initial tandis que m indique qu il y en a plusieurs ce mode est utile en cor en Par d faut ce param tre vaut a s 1 line nombre maximum de lignes crire dans le fichier de sortie i subname indique que l on doit arr ter l exploration r cursive lorsque l on ren contre le graphe subname Ce param tre peut
115. ans omettre l extension gr f Le param tre y n est optionnel il indique au programme s il doit ou non effectuer une recherche d erreur sur la grammaire Par d faut le programme effectue cette recherche d er reur Le param tre alph sp cifie le fichier d alphabet utiliser pour faire le d coupage en uni t s lexicales du contenu des boites de la grammaire Si ce param tre vaut char_by_char le d coupage se fait caract re par caract re S il est omis le d coupage s effectue en prenant des suites de lettres Unicode Le param tre optionnel d repository permet de d finir le r pertoire de d p t a uti liser pour compiler la grammaire voir section 5 2 4 page 70 Le r sultat est un fichier portant le m me nom que le graphe pass en param tre mais avec l extension st 2 Ce fichier est sauvegard dans le m me r pertoire que graphe 156 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES 9 18 ImploseFst2 ImploseFst2 txtauto o out Ce programme calcule et stocke dans out la forme compacte de l automate de texte txtauto 9 19 Inflect Inflect delas resultat dir a k Ce programme effectue la flexion automatique d un dictionnaire DELAS Le param tre delas indique le nom du dictionnaire fl chir Le param tre resultat indique le nom du dictionnaire qui sera g n r Le param tre dir indique le chemin d acc s complet au r pertoire dans lequel sont suppos s se trouver les transducteurs de flexion a
116. any the work with a written offer valid for at least three years to give the same user the materials specified in Subsection 6a above for a charge no more than the cost of performing this distribution 196 CHAPITRE 10 FORMATS DE FICHIERS d If distribution of the work is made by offering access to copy from a designated place offer equivalent access to copy the above specified materials from the same place e Verify that the user has already received a copy of these materials or that you have already sent this user a copy For an executable the required form of the work that uses the Library must include any data and utility programs needed for reproducing the executable from it However as a special exception the materials to be distributed need not include anything that is normally distributed in either source or binary form with the major components compiler kernel and so on of the operating system on which the executable runs unless that component itself accompanies the executable It may happen that this requirement contradicts the license restrictions of other proprie tary libraries that do not normally accompany the operating system Such a contradiction means you cannot use both them and the Library together in an executable that you distri bute 7 You may place library facilities that are a work based on the Library side by side in a single library together with other library facilities not covered by this License and
117. ars sayuanbas puarayp p yng repus pay sasuanbas Teaquapt 3N g JU UIRQUS SOYURAR Sd IO USHBU N SUN ANG 09Uep 10909 7 FIG 6 33 Exemple de comparaison de concordances 110 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Chapitre 7 Automate du texte Les langues naturelles contiennent beaucoup d ambiguit s lexicales L automate du texte est un moyen efficace et visuel de repr senter ces ambiguit s Chaque phrase du texte est repr sent e par un automate dont les chemins expriment toutes les interpr tations possibles Ce chapitre pr sente les automates de texte le d tail de leur construction ainsi que les op rations qui peuvent leur tre appliqu es en particulier la lev e d ambiguit s au moyen du programme ELAG 35 Il n est pour l instant pas possible d effectuer de recherche de motifs sur l automate du texte 7 1 Pr sentation L automate du texte permet d exprimer toutes les interpr tations lexicales possibles des mots Ces diff rentes interpr tations sont les diff rentes entr es pr sentes dans les diction naires du texte La figure 7 1 montre l automate de la quatri me phrase du texte Ivanhoe On peut voir sur la figure 7 1 que le mot Here poss de ici trois interpr tations adjectif adverbe et nom haunted deux adjectif et verbe etc Toutes les combinaisons possibles sont exprim es car chaque interpr tation de chaque mot est reli e toutes les interpr ta tions des mots
118. art des langues les dictionnaires contiennent des particularit s de codage propres a chaque langue Ainsi les codes de d clinaisons variant beaucoup d une langue a une autre n ont pas t d crits ici Pour une description exhaustive 36 CHAPITRE 3 DICTIONNAIRES de tous les codes utilis s dans un dictionnaire nous vous recommandons de vous adresser directement l auteur du dictionnaire Code Signification masculin f minin neutre singulier pluriel 1 ere Jeme 3eme LA 3 WwW personne pr sent de l indicatif imparfait de l indicatif pr sent du subjonctif imparfait du subjonctif pr sent de l imp ratif pr sent du conditionnel pass simple infinitif participe pr sent participe pass futur HR OLS GG Q RK Hu HImINITluls TAB 3 3 Codes flexionnels usuels Les codes pr sent s ne sont absolument pas limitatifs Chaque utilisateur peut introduire ces propres codes et cr er ses propres dictionnaires Par exemple on pourrait dans un but p dagogique introduire dans les dictionnaires anglais des marques indiquant les faux amis fran ais bless V faux ami b nir cask N faux ami tonneau journey N faux ami voyage Il est galement possible d utiliser les dictionnaires pour stocker des informations parti culi res Ainsi on pourrait utiliser la forme fl chie d une entr e pour d crire un sigle et la forme c
119. as appliqu les dic tionnaires les automates de phrase que vous obtiendrez ne seront constitu s que d un seul chemin ne comportant que des mots inconnus 7 2 CONSTRUCTION 113 N NPN z1 p PREP FIG 7 2 Concurrence entre un mot compos et une combinaison de mots simples 7 2 1 R gles de construction de l automate du texte Les automates de phrase sont construits partir des dictionnaires du texte Le degr d ambiguit obtenu est donc directement li a la finesse de description des dictionnaires utilis s Sur l automate de phrase de la figure 7 3 on peut voir que le mot which a t cod deux fois comme d terminant dans deux sous cat gories de la cat gorie DET Cette finesse de description ne sera d aucune utilit si l on ne s int resse qu la cat gorie grammaticale de ce mot Il faut donc adapter la finesse des dictionnaires l utilisation recherch e DET DetQ s p D P3p PRO RelQ s p FIG 7 3 Double entr e pour which en tant que d terminant Pour chaque unit lexicale de la phrase Unitex recherche toutes ses interpr tations pos 114 CHAPITRE 7 AUTOMATE DU TEXTE sibles dans le dictionnaire des mots simples du texte On recherche ensuite toutes les suites d unit s lexicales qui ont une interpr tation dans le dictionnaire des mots compos s du texte Toutes les combinaisons de ces interpr tations forment l automate de la phrase NOTE quand le texte contient des tique
120. as oblig d utiliser le m me r pertoire pour plusieurs langues Supposons que l on ait une arborescence comme celle de la figure 5 10 Si l on souhaite faire appel au graphe DET qui se trouve dans le sous r pertoire Johnson on utilisera l appel Det Johnson DET voir figure 5 11 1 ASTUCE si vous voulez viter de mettre dans vos graphes un chemin compliqu comme Det Johnson DET vous pouvez cr er un graphe nomm DET que vous placerez la racine du r pertoire de d p t ici D repository DET grf Ce graphe contiendra sim plement un appel au graphe Det Johnson DET Vous pourrez alors mettre dans vos graphes un simple appel DET Cela permet 1 de ne pas avoir de noms compliqu s et 2 de pouvoir modifier les graphes du r pertoire de d p t sans avoir modifier tous vos graphes En effet il vous suffira de mettre jour le graphe situ la racine du r pertoire de d p t Les appels des sous graphes sont repr sent s dans les bo tes par des lignes dont l arri re plan est soit gris soit marron dans le cas de sous graphes rechercher dans le r pertoire de d p t Sous Windows vous pouvez ouvrir un sous graphe en cliquant sur la ligne gris e Dans un souci de clart les appels des graphes du r pertoire de d p t sont en marron au lieu de gris 72 CHAPITRE 5 GRAMMAIRES LOCALES FIG 5 9 Configuration du r pertoire de d p t SC repository FIG 5 10 Exempl
121. briques sont appel s langages alg briques 5 1 2 Grammaires alg briques tendues Les grammaires alg briques tendues sont des grammaires alg briques o les membres droits des r gles ne sont plus des suites de symboles mais des expressions rationnelles Ainsi la grammaire reconnaissant une suite quelconque de a peut se r crire en une gram maire tendue d une seule r gle S a Ces grammaires galement appel es r seaux de transitions r cursifs RTN en anglais ou diagrammes de syntaxe se pr tent une repr sentation graphique conviviale En effet le membre droit d une r gle peut tre repr sent par un graphe dont le nom est le membre gauche de la r gle Toutefois les grammaires Unitex ne sont pas exactement des grammaires alg briques tendues car elles int grent la notion de transduction Cette notion emprunt e aux auto mates tats finis signifie qu une grammaire peut produire des sorties Dans un souci de clart nous utiliserons malgr tout les termes grammaire ou graphe Quand une grammaire produira des sorties nous utiliserons le terme transducteur par extension de la d finition d un transducteur dans le domaine des automates tats finis 5 2 Edition de graphes 5 2 1 Importation d un graphe Intex Pour pouvoir utiliser des graphes Intex dans Unitex il faut les convertir en Unicode Le proc d de conversion est le m me que pour les textes voir section 2 2 ATTENTION u
122. canonique Les grammaires de flexion doivent avoir t compil es voir chapitre 5 Dans l exemple ci dessus toutes les entr es seront fl chies avec une grammaire nomm e N4 Pour lancer la flexion cliquez sur Inflect dans le menu DELA La fen tre de la figure 3 5 vous permet d indiquer au programme de flexion le r pertoire dans lequel se trouvent vos grammaires de flexion Par d faut le sous r pertoire Inflection du r pertoire de la langue courante est utilis L option Add before inflectional codes if necessary ins re automatiquement le caract re avant les codes flexionnels dans le cas o ceux ci ne d buteraient pas par ce caract re L option Remove class numbers permet de remplacer les codes avec num ros utilis s dans le DELAS par des codes sans num ros pr ts tre utilis s Exemple V17 et N4 Hum seront remplac s respectivement par V et N Hum La figure 3 6 pr sente un exemple de grammaire de flexion Les chemins d crivent les suffixes ajouter ou retrancher pour obtenir la forme fl chie partir de la forme canonique et les sorties texte en gras sous les bo tes donnent les codes flexionnels ajouter l entr e du dictionnaire Dans notre exemple deux chemins sont possibles Le premier ne modifie pas la forme canonique et ajoute le code flexionnel s Le second retranche une lettre gr ce l op rateur L ajoute ensuite le suffixe ces et ajoute le code flexionnel p
123. caract res quelconque suivi par s lt lt ss tt gt gt contient ss ou tt lt lt aeiouy gt gt contient une voyelle non accentu e lt lt aeiouy 3 5 gt gt contient une s quence de voyelles non accentu es de lon gueur comprise entre 3 et 5 lt lt e gt gt contient suivi par un e facultatif lt lt st aeiouy gt gt contient st suivi par un caract re qui n est pas une voyelle Il est possible de combiner ces filtres l mentaires pour former des filtres plus complexes lt lt ai ble gt gt finit par able ou ible lt lt anti pro gt gt commence par anti ou pro suivi par un tiret facultatif lt lt rst aeiouy 2 gt gt mot form de 2 ou plus s quences commen ant par un r s ou t suivi d une voyelle non accentu e lt lt 1 1 e gt gt ne commence pas par 1 ou alors la deuxi me lettre n est pas un e c est dire n importe quel mot sauf ceux qui commencent par le De telles contraintes peuvent tre exprim es plus simplement en utilisant des contextes voir 6 3 Par d faut un filtre morphologique tout seul est consid r comme s appliquant au m ta lt TOKEN gt c est dire n importe quelle unit lexicale sauf l espace et le marqueur STOP En revanche lorsqu un filtre suit imm diatement un motif il s applique ce qui reconnu par le motif Voici quelques exemples de telles combinaisons lt V K gt lt lt i gt gt
124. ctions as part of a whole which is a work based on the Library the distribution of the whole must be on the terms of this License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distribution of derivative or collective works based on the Library In addition mere aggregation of another work not based on the Library with the Library or with a work based on the Library on a volume of a storage or distribution medium does not bring the other work under the scope of this License 3 You may opt to apply the terms of the ordinary GNU General Public License instead of this License to a given copy of the Library To do this you must alter all the notices that refer to this License so that they refer to the ordinary GNU General Public License version 2 instead of to this License If a newer version than version 2 of the ordinary GNU General Public License has appeared then you can specify that version instead if you wish Do not make any other change in these notices Once this change is made in a given copy it is irreversible for that copy so the ordinary GNU General Public License applies to all subsequent copies and derivative works made from that copy This option is useful when you wish to copy
125. ctue une recherche sur le texte ce masque reconna t la m me chose que la simple unit lexicale lirons 4 3 3 Contraintes grammaticales et s mantiques Les masques lexicaux des exemples ci dessus sont simples Il est possible d exprimer des motifs plus complexes en indiquant plusieurs codes grammaticaux ou s mantiques s par s par le caract re Une entr e de dictionnaire ne sera alors reconnue que si elle poss de tous les codes pr sents dans le masque Le masque lt N z1 gt reconna t ainsi les entr es broderies broderie N z1 fp capitales europ ennes capitale europ enne N NA Conc HumColl z1 fp mais pas Descartes Ren Descartes N Hum NPropre ms habitu A zl ms Il est possible d exclure des codes en les faisant pr c der du caract re au lieu de Pour tre reconnue une entr e doit contenir tous les codes autoris s par le masque et aucun des codes interdits Le masque lt A z3 gt reconna t donc tous les adjectifs qui ne poss dent pas le code z3 voir tableau 3 2 Si l on souhaite faire r f rence un code contenant le caract re il faut d sp cialiser ce caract re en le faisant pr c der du caract re Ainsi le masque lt N faux ami gt pourra reconna tre toutes les entr es de dictionnaires contenant les codes Net faux ami L ordre dans lequel les codes apparaissent dans le masque n a aucune importance Les trois masques lexicaux suivants sont quivalents lt N Hum z1 gt l
126. cubes ssh 122 Fe Levee d AMDI AUIRS s sa sas et bag AR A 122 7 34 Ensembles de grammaires coo o he eG eee Eee EES 125 fon enewede processing CEUA tebe ee be be Le pe 126 7 3 6 Description du jeu d tiquettes 7 3 7 Optimiser les grammaires Manipulation de l automate du texte Affichage des automates de phrases 7 4 2 Modifier manuellement l automate du texte 74 3 Param tres de pr sentation 7 5 Convertir l automate du texte en texte lin aire Lexique grammaire 8 1 Les tables de lexique grammaire 8 2 Conversion d une table en graphes Principe des graphes param tr s Format de la table Les graphes param tr s G n ration automatique de graphes Utilisation des programmes externes MergeTextAutomaton TagsetNormFst2 TABLE DES MATIERES TABLE DES MATIERES 7 10 O29 TexrtAumtomaton2 ME 224 4 224 4 Saw Se Oe A ade ods be eS 159 930 Tokenize coa aes a ake fe ye da BE Pe ae ae Be e i 159 OL ABS his es Lies oS ow oa a ee tah Be aoe 160 Formats de fichiers 161 10 1 Codage Unicode Little Endian s gt gt aca da ha auk dok Re dia ee ee eS 161 10 2 Fichiers d alphabet lt ecc e motapa po eee pao E uA a tee RE apa 162 EL Alphabets s es to NE LAN A E Re eed ee ES 162 1022 Alphabetde ti 25 cia fbi es Hie a due RE MAR HSE 163 ee s soere ens s is moie e EROS E a eee a aT a i ao auai a a te 163 ISA Pomma a rs ke CLARE ORES OR Ee eS 163 10 32 Fomati eek hee hE dt A ee BAS OE eS 166 ROA
127. dance qui vient d tre calcul e avec la concordance pr c dente si elle existe Pour cela le programme ConcorDiff construit les deux concordances dans l ordre du texte puis com pare leurs lignes Le r sultat est une page HTML qui montre les occurrences dans deux co lonnes Une ligne en bleu indique qu une m me occurrence apparait dans les deux concor dances Une ligne en rouge indique qu une occurrence appara t de facon plus longue dans une concordance que dans l autre Enfin une ligne en vert indique une occurrence qui n ap partient qu a une seule concordance La figure 6 33 montre un exemple de comparaison de concordances NOTE contrairement une concordance normale on ne peut pas cliquer sur les occurrences dans une comparaison de concordances 109 6 7 APPLICATION DES GRAPHES AUX TEXTES LEELA EEE EEL ETE EEE EE EEE EEE EEE EEE CEE EEE EEE EEE EEE EEE EE EEE EEE EEE EEE EEE EEE SNA sen yousas az0us ulg SASW SWS SW ut pexsattap aaan O O O O O Se A REO e e asom 241 UNOYS PEU 3587 UBMION Sy Jo syoreuom ayy rre axem 150 aya nous Peu 2981 WEMION sq Jo sU21EUON aya TT aya Jo quaaa am Aq A1TTTQOU UNION 391 Jo spuey ya ut pa A 1232316 ayy UTI2409 JE831037 3D1ET E SONT JUSTIUE UT STITY Tngtaneaq ayy JO TIA 191091025 1318315 sty furiaaos 152107 afi zed 1338316 ayy Suriaaoo 183107 DIET SONT quatoue UT pa SIJUEPIOIUO OM IY JO GUO ATUO UT INIIO pey sasuanbas ua
128. dans la fen tre Cette remarque concerne tous les fichiers texte liste des unit s lexicales diction naires etc Pour modifier cette limite allez dans le menu Info gt Preferences et modifiez la valeur Maximum Text File Size dans l onglet Text Presentation voir figure 4 7 page 62 2 5 Pr traitement du texte Une fois le texte s lectionn Unitex vous propose de le pr traiter Le pr traitement du texte consiste lui appliquer les op rations suivantes normalisation des s parateurs d coupage en unit s lexicales normalisation de formes non ambigu s d coupage en phrases et application des dictionnaires Si vous refusez le pr traitement le texte sera n anmoins normalis et d coup en unit s lexicales car ces op rations sont indispensables au fonc tionnement d Unitex Il vous sera toujours possible d effectuer le pr traitement plus tard en cliquant sur Preprocess text dans le menu Text Si vous acceptez le pr traitement Unitex vous proposera de le param trer gr ce la fen tre de la figure 2 8 L option Apply FST2 in MERGE mode sert effectuer le d coupage du texte en phrases L option Apply FST2 in REPLACE mode est utilis e pour effectuer des remplacements dans le texte le plus souvent des normalisations de formes non ambigu s L option Ap 20 CHAPITRE 2 CHARGEMENT D UN TEXTE ES Unitex 1 2 current language is English DELA FSGraph Lexicon Grammar Edit File Edition Windows Info
129. de chaque l ment de lexique d o le nom de lexique grammaire Unitex permet de construire des grammaires partir de telles tables Unitex est un moteur permettant d exploiter ces ressources linguistiques Ses caract ris tiques techniques sont la portabilit la modularit la possibilit de g rer des langues pos s dant des syst mes d critures particuliers comme certaines langues asiatiques et l ouver ture gr ce une distribution en logiciel libre Ses caract ristiques linguistiques sont celles qui ont motiv l laboration des ressources la pr cision l exhaustivit et la prise en compte des ph nom nes de figement notamment en ce qui concerne le recensement des mots com pos s 10 TABLE DES MATIERES Le premier chapitre d crit l installation et le lancement d Unitex Le chapitre 2 pr sente les diff rentes tapes du traitement d un texte Le chapitre 3 d crit le formalisme des dictionnaires lectroniques DELA ainsi que les diff rentes op rations qui peuvent leur tre appliqu es Les chapitres 4 et 5 pr sentent les diff rents moyens d effectuer des recherches de motifs dans des textes Le chapitre 5 d crit en d tail l utilisation de l diteur de graphes Le chapitre 6 est consacr aux diff rentes utilisations possibles des grammaires Les particu larit s de chaque type de grammaires y sont pr sent es Le chapitre 7 introduit le concept d automate du texte et d crit les particular
130. des dictionnaires non comprim s c est dire sous forme de fichiers texte La convention g n ralement appliqu e est de donner l extension dic ces dictionnaires Pour v rifier le format d un dictionnaire il faut tout d abord l ouvrir en cliquant sur Open dans le menu DELA Unitex 1 2 current language is English FSGraph Lexicon Grammar Edit File Edition Windows Info Check Format Sort Dictionary Infect Compress into FST Morph Var amp Der Append Suffixes to Stems FIG 3 1 Menu DELA Chargeons le dictionnaire de la figure 3 2 Pour lancer la v rification automatique cli quez sur Check Format dans le menu DELA la fen tre de la figure 3 3 appara t alors Cette fen tre vous permet de choisir le type du dictionnaire que vous voulez v rifier Les r sultats de la v rification du dictionnaire de la figure 3 2 sont pr sent s sur la figure 3 4 La premi re erreur est due au fait que le programme n ait pas trouv de point Le se conde au fait qu il n ait pas trouv de virgule marquant la fin de la forme fl chie La troi si me erreur indique que le programme n a trouv aucun code grammatical ou s mantique 38 CHAPITRE 3 DICTIONNAIRES agreeably ADV agreed INTJ agreed agree V i kK T1s 12 8 138 11p 120 T30 FIG 3 2 Exemple de dictionnaire 3 Check Dictionary Format Dictionary Type Check Dictionary O DELAS DELAC 8 DELAF DELACF Cancel
131. dified by someone else and passed on the recipients should know that what they have is not the original version so that the original author s reputation will not be affected by problems that might be introduced by others Finally software patents pose a constant threat to the existence of any free program We wish to make sure that a company cannot effectively restrict the users of a free program by obtaining a restrictive license from a patent holder Therefore we insist that any patent license obtained for a version of the library must be consistent with the full freedom of use specified in this license Most GNU software including some libraries is covered by the ordinary GNU General Public License This license the GNU Lesser General Public License applies to certain desi gnated libraries and is quite different from the ordinary General Public License We use this license for certain libraries in order to permit linking those libraries into non free programs When a program is linked with a library whether statically or using a shared library the combination of the two is legally speaking a combined work a derivative of the original library The ordinary General Public License therefore permits such linking only if the entire combination fits its criteria of freedom The Lesser General Public License permits more lax criteria for linking other code with the library We call this license the Lesser General Public License because it doe
132. e 2 13 31 32 33 italien 19 20 51 espagnol 5 4 TAB 3 4 Quelques r f rences bibliographiques sur les dictionnaires lectroniques 49 50 CHAPITRE 3 DICTIONNAIRES Chapitre 4 Recherche d expressions rationnelles Nous allons voir dans ce chapitre comment rechercher des motifs simples dans un texte au moyen des expressions rationnelles 4 1 D finition Le but de ce chapitre n est pas de faire une introduction aux langages formels mais de montrer comment utiliser les expressions rationnelles dans Unitex pour rechercher des motifs simples Le lecteur int ress par une pr sentation plus formelle pourra se reporter aux nombreux ouvrages qui traitent du sujet Une expression rationnelle peut tre une unit lexicale livre ou un masque lexical lt manger V gt la concat nation de deux expressions rationnelles je mange l union de deux expressions rationnelles Pierre Paul l toile de Kleene d une expression rationnelle t r s 4 2 Unit s lexicales Dans une expression rationnelle l unit lexicale a la m me d finition qu en 2 5 4 page 24 Notons que les symboles point plus toile inf rieur ainsi que les parenth ses ouvrantes et fermantes ont une signification particuli re il faut donc les d sp cialiser avec le caract re si l on souhaite les rechercher Voici quelques exemples d unit s lexicales valides chat Ne lt N ms gt S
133. e ELAG n exprimant aucune contrainte Le r sultat de l application de cette grammaire est que l automate d origine est nettoy de tous les codes qui ne sont soit pas d crits dans le fichier tagset def soit non conformes cette description cause de cat gories grammaticales inconnues ou de combinaisons in valides de traits flexionnels En rempla ant alors l automate du texte par l automate ainsi normalis on peut tre sur que les modifications ult rieures de l automate seront unique ment dues aux effets des grammaires ELAG 3Ce code indique que l adjectif doit appara tre gauche du nom auquel il se rapporte comme c est le cas pour bel 7 3 LEVEE D AMBIGUITES LEXICALES AVEC ELAG 133 7 3 7 Optimiser les grammaires La compilation des grammaires effectu e par le programme ElagComp consiste construire un automate dont le langage est l ensemble des s quences d entr es lexicales ou interpr tation lexicale d une phrase qui ne sont pas rejet es par les grammaires Cette tache est complexe et peut prendre beaucoup de temps il est toutefois possible de l acc l rer sensi blement en observant certains principes lors de l criture des grammaires Limiter le nombre de branches alors Il est recommand de r duire au minimum le nombre de parties alors d une grammaire Cela peut r duire consid rablement le temps de compilation des grammaires Le plus sou vent une grammaire poss dant beaucoup de parties a
134. e de r pertoire de d p t HD FIG 5 11 Appel un graphe du r pertoire de d p t 5 2 EDITION DE GRAPHES 73 tout en appuyant sur la touche Alt Sous Linux la combinaison lt Alt Click gt est intercept e par le syst me Pour ouvrir un sous graphe cliquez sur son nom en pressant simultan ment les boutons gauche et droit de la souris 5 2 5 Manipulation des bo tes Vous pouvez s lectionner plusieurs bo tes au moyen de la souris Pour cela cliquez et d placez la souris sans rel cher le bouton Lorsque vous rel cherez le bouton toutes les bo tes touch es par le rectangle de s lection seront s lectionn es et s afficheront alors en blanc sur fond bleu Mister Mr FIG 5 12 S lection de plusieurs bo tes Letter Lorsque des bo tes sont s lectionn es vous pouvez les d placer en cliquant et en d pla ant le curseur sans rel cher le bouton Pour annuler la s lection cliquez sur une zone vide du graphe si vous cliquez sur une bo te toutes les bo tes de la s lection seront reli es celle ci Vous pouvez effectuer un copier coller sur plusieurs bo tes Pour cela s lectionnez les et appuyez sur lt Ctrl C gt ou cliquez sur Copy dans le menu Edit Votre s lection multiple est maintenant dans le presse papiers d Unitex Vous pouvez alors coller cette s lection en pressant lt Ctrl V gt ou en cliquant sur Paste dans le menu Edit NOTE vous pouvez coller une s lectio
135. e est sauvegard sous le nom sentenceN grf o N repr sente le num ro de la phrase 10 5 4 Fichier cursentence txt Lors de l extraction de l automate de phrase le texte de la phrase est sauvegard dans le fichier texte cursentence txt Ce fichier est utilis par Unitex pour afficher le texte de la phrase au dessus de l automate Ce fichier contient le texte de la phrase suivi par un retour a la ligne 10 6 Concordances 10 6 1 Fichier concord ind Le fichier concord ind est l index des occurrences trouv es par le programme Locate lors de l application d une grammaire C est un fichier texte qui contient les positions de d but et de fin de chaque occurrence ventuellement accompagn es d une cha ne de carac t res si la concordance a t obtenue en prenant en compte les ventuelles transductions de la grammaire Voici un exemple de fichier M9 3036 3040 le ADJ petit salonY 3071 3075 Le nouveau domestiqueY 5600 5604 le jeune Lord 6052 6056 le second tage 6123 6127 le premier tage 6181 6185 le m me instantY 6461 6465 le m thodique gentlemanY 7468 7472 le grand salon 7520 7524 le laborieux d pliage 7675 7679 le grand salon 8590 8594 le fait plus 10990 10994 le mauvais temps 13719 13723 le brave gar on 13896 13900 le modeste sac 15063 15067 le m me compartiment La premi re ligne indique dans quel mode de transduction la concordance a t calcul e Les 3
136. e modified work must itself be a software library b You must cause the files modified to carry prominent notices stating that you changed the files and the date of any change c You must cause the whole of the work to be licensed at no charge to all third parties under the terms of this License 194 CHAPITRE 10 FORMATS DE FICHIERS d If a facility in the modified Library refers to a function or a table of data to be supplied by an application program that uses the facility other than as an argument passed when the facility is invoked then you must make a good faith effort to ensure that in the event an application does not supply such function or table the facility still operates and performs whatever part of its purpose remains meaningful For example a function in a library to compute square roots has a purpose that is en tirely well defined independent of the application Therefore Subsection 2d requires that any application supplied function or table used by this function must be optional if the application does not supply it the square root function must still compute square roots These requirements apply to the modified work as a whole If identifiable sections of that work are not derived from the Library and can be reasonably considered independent and separate works in themselves then this License and its terms do not apply to those sections when you distribute them as separate works But when you distribute the same se
137. ecipients all the rights that you have You must make sure that they too receive or can get the source code And you must show them these terms so they know their rights 183 184 CHAPITRE 10 FORMATS DE FICHIERS We protect your rights with two steps 1 copyright the software and 2 offer you this license which gives you legal permission to copy distribute and or modify the software Also for each author s protection and ours we want to make certain that everyone un derstands that there is no warranty for this free software If the software is modified by someone else and passed on we want its recipients to know that what they have is not the original so that any problems introduced by others will not reflect on the original authors reputations Finally any free program is threatened constantly by software patents We wish to avoid the danger that redistributors of a free program will individually obtain patent licenses in effect making the program proprietary To prevent this we have made it clear that any patent must be licensed for everyone s free use or not licensed at all The precise terms and conditions for copying distribution and modification follow TERMS AND CONDITIONS FOR COPYING DISTRIBUTION AND MODIFICATION 0 This License applies to any program or other work which contains a notice placed by the copyright holder saying it may be distributed under the terms of this General Public License The Program
138. efox 4 8 2 9 Netscape Web browser http www netscape com 4 8 2 10 Folker CAROLI Les verbes transitifs compl ment de lieu en allemand Lingvistice In vestigationes 8 2 225 267 1984 Amsterdam Philadelphia John Benjamins Publishing Company 8 1 11 A CHROBOT B COURTOIS M HAMMANI MC CARTHY M GROSS and K ZELLA GUI Dictionnaire electronique DELAC anglais noms compos s Technical Report 59 LADL Universit Paris 7 1999 3 7 12 Unicode Consortium http www unicode org 2 2 13 Matthieu CONSTANT and Anastasia YANNACOPOULOU Le dictionnaire lectronique du grec moderne Conception et d veloppement d outils pour son enrichissement et sa validation In Studies in Greek Linguistics Proceedings of the 23rd annual meeting of the Department of Linguistics Faculty of Philosophy Aristotle University of Thessaloniki 2002 3 7 207 208 BIBLIOGRAPHIE 14 Blandine COURTOIS Formes ambigu s de la langue fran aise Lingvistice Investi gationes 20 1 167 202 1996 Amsterdam Philadelphia John Benjamins Publishing Company 3 7 15 Blandine Courtois and Max Silberztein editors Les dictionnaires lectroniques du francais Larousse Langue frangaise vol 87 1990 3 7 16 Anne DISTER Nathalie FRIBURGER and Denis MAUREL Am liorer le d coupage en phrases sous INTEX In Anne Dister editor Revue Informatique et Statistique dans les Sciences Humaines volume Actes des 3 mes Journ es INTEX page
139. ences sp ciales 166 CHAPITRE 10 FORMATS DE FICHIERS NOTE les caract res compris entre lt et gt ou entre et ne sont pas interpr t s Ainsi le caract re contenu dans la cha ne le lt A Conc gt n est pas interpr t comme un s pa rateur de lignes car le motif lt A Conc gt est interpr t en priorit X et Y repr sentent les coordonn es de la bo te en pixels La figure 10 1 montre comment ces coordonn es sont interpr t es par Unitex 0 0 CSA Y Y FIG 10 1 Interpr tation des coordonn es des bo tes N repr sente le nombre de transitions qui sortent de la bo te Ce nombre doit toujours valoir 0 pour l tat final Les transitions sont d finies par les num ros des bo tes vers lesquelles elles pointent Chaque ligne de d finition de bo te doit se terminer par un espace suivi d un retour la ligne 10 3 2 Format fst2 Un fichier st 2 est un fichier texte qui d crit un ensemble de graphes Voici un exemple de fichier fst2 00000000024 1 GNG 10 4 TEXTES 167 ts 9 lt E gt Y le DETY lt A gt ADJ4 lt N gt Y Sbeauq joli Spetity q La premi re ligne repr sente le nombre de graphes cod s dans le fichier Le d but de chaque graphe est identifi par une ligne indiquant le num ro et le nom du graphe 1 GN et 2 Adj dans le fichier ci dessus Les lignes suivantes d crivent les tats du graphe Si l tat est terminal la
140. endant possible de faire appel a des sous graphes Les sorties sont concat n es pour produire une chaine de caract res Cette chaine est ensuite concat n e a la ligne de dictionnaire produite Les sorties 4 variables n ont pas de sens dans un graphe de flexion Le contenu d un graphe de flexion est manipul sans aucune variante de casse les lettres minuscules restent minuscules idem pour les majuscules En outre la liaison de deux bo tes est strictement quivalente la concat nation de leurs contenus munie de la concat nation de leurs sorties voir figure 6 2 FIG 6 2 Deux chemins quivalents dans une grammaire de flexion Les graphes de flexion doivent tre compil s avant de pouvoir tre utilis s par le pro gramme de flexion Pour plus de d tails voir section 3 4 6 1 2 Graphes de pr traitement Les graphes de pr traitement sont destin s tre appliqu s aux textes avant que ceux ci soient d coup s en unit s lexicales Ces graphes peuvent tre utilis s pour ins rer ou remplacer des s quences dans les textes Les deux utilisations usuelles de ces graphes sont la normalisation de formes non ambigu s et le d coupage en phrases L interpr tation de ces graphes dans Unitex est tr s proche de celle des graphes syn taxiques utilis s pour la recherche de motifs Les diff rences sont les suivantes on peut utiliser le symbole sp cial lt gt qui reconna t un retour la ligne il
141. ependant So that Unitex can handle languages with special spacing rules Lexical Parsing Apply All default Dictionaries 9 O C Analyse unknown worils as free compound words z E Cancel but tokenize text this option is available only for German Norwegian amp Russian C Construct Text Automaton Cancel and close text FIG 2 14 Preprocessing d un texte taggu Chapitre 3 Dictionnaires 3 1 Les dictionnaires DELA Les dictionnaires lectroniques utilis s par Unitex utilisent le formalisme des DELA Dic tionnaires Electroniques du LADL Ce formalisme permet de d crire les entr es lexicales simples et compos es d une langue en leur associant de fa on optionnelle des informations grammaticales s mantiques et flexionnelles On distingue deux sortes de dictionnaires lec troniques Le type que l on utilise le plus couramment est le dictionnaire de formes fl chies appel DELAF DELA de formes Fl chies ou encore DELACF DELA de formes Compos es Fl chies lorsqu il s agit d un dictionnaire de mots compos s Le second type est le diction naire de formes non fl chies appel DELAS DELA de formes Simples ou DELAC DELA de formes Compos es Les programmes d Unitex ne font pas de distinction entre les diction naires de formes simples et compos es Nous utiliserons donc les termes DELAF et DELAS pour d signer les deux sortes de dictionnaires que leurs entr es soit simples compos
142. ermera s il y en a toutes les fen tres relatives au texte courant La langue courante est indiqu e sur la barre de titre de l interface graphique 2 2 Format des textes Unitex manipule des textes Unicode Unicode est un standard qui d crit un codage uni versel des caract res Chaque caract re se voit attribuer un num ro unique ce qui permet 15 16 CHAPITRE 2 CHARGEMENT D UN TEXTE User spaumier Choose the language you want to work on English v FIG 2 1 S lection de la langue au lancement d Unitex de repr senter des textes sans avoir tenir compte des codages propres aux diff rentes ma chines et ou syst mes d exploitation Unitex utilise une repr sentation cod e sur deux oc tets du standard Unicode 3 0 appel e Unicode Little Endian pour plus de d tails voir 12 Les textes fournis avec Unitex sont d j au format Unicode Si vous essayez d ouvrir un texte qui n est pas au format Unicode le programme vous proposera de le convertir au tomatiquement voir figure 2 2 Cette conversion se base sur la langue courante si vous travaillez en fran ais Unitex vous proposera de convertir votre texte en supposant qu il est cod avec une page de codes fan aise Par d faut Unitex vous propose soit de remplacer le texte original soit de renommer le fichier d origine en ins rant old avant son exten sion Par exemple si l on dispose d un fichier ASCII nomm balzac txt le process
143. erms and conditions for copying distributing or modifying the Library or works based on it 10 Each time you redistribute the Library or any work based on the Library the reci pient automatically receives a license from the original licensor to copy distribute link with or modify the Library subject to these terms and conditions You may not impose any further restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties with this License 11 If as a consequence of a court judgment or allegation of patent infringement or for any other reason not limited to patent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do 10 10 FICHIERS DIVERS 197 not excuse you from the conditions of this License If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other pertinent obligations then as a consequence you may not distribute the Library at all For example if a patent license would not permit royalty free redistribution of the Library by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Library If any portion of this section is held invalid or unenforceable under any particular cir cumstance the balance o
144. ers grf localis s par rapport au r pertoire ELAG de la langue courante Voici le fichier elag 1st fourni pour le frangais PPVs PpvIL grff PPVs PpvLE grf PPVs PpvLUI grff PPVs PpvPR grtY PPVs PpvSeq grf PPVs SE grff PPVs postpos grff 10 8 3 Fichiers elg Les fichiers elg contiennent des r gles ELAG compil es Ces fichiers sont au format fst2 10 8 4 Fichiers rul LES FICHIERS RUL NE SONT PAS CODES EN UNICODE Ces fichiers listent les diff rents fichiers e lg qui compose un ensemble de r gles ELAG Un fichier rul est constitu d autant de parties qu il y a de fichiers e1g Chaque partie est compos e de la liste des grammaires ELAG qui correspondent un fichier e1g o chaque 178 CHAPITRE 10 FORMATS DE FICHIERS nom de fichier est pr c d par une tabulation suivi par une ligne contenant le nom du fichier elg entre angles Les lignes commen ant par une tabulation ont valeur de commentaire et sont ignor es par le programme Elag Voici le fichier elag rul fourni par d faut pour le fran ais PPVs PpvIL elgf PPVs PpvLE elg PPVs PpvLUI elg lt elag rul 0 elg gt 4 PPVs PpvPR elg PPVs PpvSeq elg PPVs SE elg PPVs postpos elgq lt elag rul 1 elg gt 4 10 9 Fichiers de configuration 10 9 1 Fichier Config Lorsque l utilisateur modifie ses pr f rences pour une langue donn e celles ci sont sau vergard es dans un fichier texte nomm Config qui se trouve dans le r pertoire de la langue cou
145. espace soit un tiret soit une s quence de caract res ne contenant ni espace ni tiret Ce mode de d coupage permet de prendre efficacement en compte les flexions des mots compos s Si les formes fl chie et canonique ne comportent pas le m me nombre d unit s le pro gramme code la forme canonique par le nombre de caract res retrancher de la forme fl chie suivi des caract res ajouter Ainsi la premi re ligne du fichier ci dessus correspond la ligne de dictionnaire 10 7 DICTIONNAIRES 175 James Bond 007 N Comme la s quence James Bond contient trois unit s et 007 seulement une la forme canonique est cod e par _10 0 0 7 Le caract re _ indique que les deux formes n ont pas le m me nombre d unit s Le nombre qui suit ici 10 indique le nombre de caract res retrancher La s quence 0 0 7 qui suit ce nombre indique que l on doit ensuite ajouter la s quence 007 Les chiffres sont pr c d s du caract re pour ne pas tre confondus avec le nombre de caract res retrancher Lorsque les deux formes ont le m me nombre d unit s les unit s sont comprim es deux deux Si les deux unit s sont compos es d un espace ou d un tiret la forme comprim e de l unit est l unit elle m me comme c est le cas dans la ligne suivante 1 1 N Hum mp Cela permet de conserver une certaine visibilit dans le fichier inf lorsque le diction naire contient des mots compos s Lorsqu au moins une de
146. eurs du texte Les s parateurs sont l espace la tabulation et le retour la ligne Toute suite de s parateurs contenant au moins un retour la ligne est remplac e par un unique retour la ligne Toute autre suite de s pa rateurs est remplac e par un espace Ce programme v rifie galement la syntaxe des tiquettes lexicales pr sentes dans le texte Toute s quence entre accolades doit tre soit le d limiteur de phrase S soit une ligne de DELAF valide aujourd hui ADV Si le programme d tecte des accolades employ es diff remment il met un message d avertissement et remplace ces accolades par des crochets et Le param tre txt doit repr senter le chemin d acc s complet au fichier du texte Le programme produit une version modifi e du texte qui est sauv dans un fichier portant l extension snt Le param tre optionnel no_CR remplace toute s quence de s parateur par un espace 9 23 PolyLex PolyLex lang alph dic liste out info Ce programme prend en param tre un fichier de mots inconnus liste et essaye d ana lyser chacun d eux comme un mot compos obtenu par soudure de mots simples Les mots 158 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES qui ont au moins une analyse sont retir s du fichier de mots inconnus et les lignes de dic tionnaire correspondant aux analyses sont ajout es au fichier out Le param tre lang d termine la langue de travail Les valeurs possibles sont GERMAN NOR
147. exionnels Afin de pr venir des erreurs de codage le pro gramme signale les codes qui contiennent des espaces des tabulations ou des caract res non ASCII Ainsi si un dictionnaire grec contient le code ADV ot le caract re A est le A grec au lieu du A latin le programme signalera l avertissement suivant ADV warning 1 suspect char 1 non ASCII char 0391 D V Les caract res non ASCII sont indiqu s par leur num ro de caract re en hexad cimal Dans l exemple ci dessus le code 0391 repr sente le A grec Les espaces sont indiqu s par la s quence SPACE Km s warning 1 suspect char 1 space K m SPACE s Lorsqu on v rifie le dictionnaire suivant 1 2 et 3 INTJ abracadrabra INTJ saperlipopette INTJ zut INTJ on obtient le fichier CHECK_DIC TXT suivant Line 1 unprotected comma in lemmaJ 1 2 et 3 INTI Line 2 no point found ah INTJ s All chars used in forms 4 q 5 D TOMH A H N H gt 10 8 FICHIERS D ELAG 177 s 0073 q t 0074 u 0075 4 z OO7A 4 q 2 grammatical semantic codes used in dictionary Y1 al INTIY INTJ warning 1 suspect char 1 space SPACE I N T J al gt O inflectional code used in dictionary 4 al 10 8 Fichiers d ELAG 10 8 1 Fichier tagset def Voir section 7 3 6 page 127 10 8 2 Fichiers lst LES FICHIERS LST NE SONT PAS CODES EN UNICODE Un fichier 1st contient une liste de noms de fichi
148. ez ajouter une nouvelle langue accessible tous les utilisateurs il vous faut copier le r pertoire correspondant cette langue dans le r pertoire Unitex du syst me ce qui n cessite d avoir les droits d acc s ce r per toire il vous faudra peut tre demander votre administrateur syst me de le faire En revanche si la langue ne concerne qu un seul utilisateur celui ci peut copier le r pertoire en question dans son r pertoire personnel Il pourra ainsi travailler sur cette langue sans qu elle soit propos e aux autres utilisateurs 14 CHAPITRE 1 INSTALLATION D UNITEX EEE co Slows a Creation ofa new folder File Name EADatalMy Unitex Files of Type All Files Open Cancel FIG 1 3 Cr ation du dossier personnel 1 7 D sinstallation Quelque soit le syst me sous lequel vous travaillez il vous suffit de supprimer le r per toire Unitex pour effacer tous les fichiers du syst me Sous Windows vous devrez ensuite supprimer le raccourci vers Unitex jar si vous en avez cr un m me chose sous Linux ou MacOS si vous avez cr un alias Chapitre 2 Chargement d un texte Une des principales fonctionnalit s d Unitex est la recherche d expressions dans des textes Pour cela les textes doivent subir plusieurs op rations de pr traitement telles que la normalisation de formes non ambigu s et le d coupage du texte en phrases Une fois ces op rations effectu es des d
149. f the section is intended to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other pro perty right claims or to contest validity of any such claims this section has the sole purpose of protecting the integrity of the free software distribution system which is implemented by public license practices Many people have made generous contributions to the wide range of software distributed through that system in reliance on consistent application of that sys tem it is up to the author donor to decide if he or she is willing to distribute software through any other system and a licensee cannot impose that choice This section is intended to make thoroughly clear what is believed to be a consequence of the rest of this License 12 If the distribution and or use of the Library is restricted in certain countries either by patents or by copyrighted interfaces the original copyright holder who places the Library under this License may add an explicit geographical distribution limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License 13 The Free Software Foundation may publish revised and or new versions of the Les ser General Public License from time to time Such new versions will be similar
150. fen tre de compilation La figure 6 11 montre le message obtenu lorsqu on tente de compiler le graphe Det de la figure 6 10 Compiling graph Det Compiling graph DetCompose Recursion detection started Resolving lt E gt conditions Checking lt E gt dependancies Looking for lt E gt loops Looking for infinite recursions Recursion detection completed ERROR Det calls DetCompose that recalls the graph Det FIG 6 11 Message d erreur obtenu en compilant le graphe Det Si vous avez lanc une recherche de motifs en s lectionnant un graphe au format grfet 94 CHAPITRE 6 UTILISATION AVANC E DES GRAPHES qu Unitex y d c le une erreur l op ration de recherche sera automatiquement interrompue 6 3 Contextes Les graphes d Unitex sont des grammaires alg briques Elles sont galement appel es grammaires hors contexte car lorsque l on souhaite reconna tre une s quence A on ne tient pas compte du contexte dans lequel appara t Par exemple il est impossible de recher cher avec un graphe normal toutes les occurrences du mot pr sident sauf celles qui sont suivies par de la r publique Il est toutefois possible de tenir compte du contexte dans les graphes syntaxiques Dans ce cas les graphes ne sont plus des grammaires alg briques mais des grammaires contex tuelles qui n ont pas les m mes propri t s th oriques On d finit un contexte en d limitant une zone du graphe avec des bo tes contenant et
151. fichier fst2 sp cial qui repr sente l automate du texte Dans ce fichier chaque sous graphe repr sente un automate de phrase Les emplacements r serv s aux noms des sous graphes sont utilis s pour stocker les phrases partir desquelles ont t construits les automates de phrases l exception de la premi re tiquette qui doit toujours tre epsilon lt E gt les tiquettes doivent tre soit des unit s lexicales soit des entr es de DELAF encadr es par des accolades Exemple Voici le fichier correspondant au texte I mange une pomme de terre 00000000014 1 Il mange une pomme de terre Y 2 0 O1 NN FP Oe WN FR Hh ct q q lt E gt Y 11 11 PRO z1 3ms Y mange manger V z1 P1s P3s S1s S3s Y2s 4 une une N z1 fs 4 une un DET z1 fs 4 pomme pomme A zl ms fs mp fp 4 pomme pomme N z1 fs pomme pommer V z3 P1s P3s S1s S3s Y2s de de DET z1 de de PREP z1 terre terre N zl fs terre terrer V z1 P1s P3s S1s S3s Y2s f 1 o AP AP A A X AL AL AL AL V h 4 10 5 2 Fichier cursentence grf Le fichier cursentence gr f est g n r par Unitex lors de l affichage d un automate de phrase Le programme Fst2Grf construit un fichier grf repr sentant l automate d une phrase partir du fichier text fst2 170 CHAPITRE 10 FORMATS DE FICHIERS 10 5 3 Fichier sentenceN grf Lorsque l utilisateur modifie l automate d une phrase cet automat
152. grammar indiquez le nom de la grammaire produite ATTENTION ne placez pas la grammaire de sortie dans l arborescence que vous voulez explorer car dans ce cas le programme va cher Cher lire et crire simultan ment dans ce fichier ce qui provoquera un plantage 6 6 R GLES D APPLICATION DES TRANSDUCTEURS 99 Lorsque vous cliquerez sur OK le programme recopiera les graphes dans le r per toire de la grammaire de sortie et cr era des sous graphes correspondant aux diff rents sous r pertoires comme on peut le voir sur la figure 6 21 qui montre le graphe de sor tie engendr pour notre exemple On peut constater qu une bo te contient les appels des sous graphes correspondant des sous r pertoires ici les r pertoires Banque et Nourriture et que l autre bo te fait appel tous les graphes qui se trouvaient dans le r pertoire ici le graphe truc grf Grammars corresponding to sub directories Banque dir Nourriture dir Grammars corresponding to graphs FIG 6 21 Graphe principal d une collection de graphes 6 6 R gles d application des transducteurs Cette section d crit les r gles d application des transducteurs lors des op rations de pr traitement et de recherche de motifs Les graphes de flexion et de normalisation de formes ambigu s ne sont pas concern s par ce qui suit 6 6 1 Insertion gauche du motif reconnu Lorsqu un transducteur est appliqu en mode REPLACE le
153. har_with_space 9 16 FSTZUNAMBIG 155 Ce programme applique un transducteur a un texte en phase de pr traitement quand le texte n est pas encore d coup en unit s lexicales Les param tres de ce programme sont les suivants texte le fichier texte modifier avec l extension snt fst2 le transducteur appliquer alph le fichier alphabet de la langue du texte mode le mode d application du transducteur Les deux valeurs possibles sont merge et replace char_by_ char ce param tre facultatif permet d appliquer le transducteur en mode caract re par caract re Cette option doit tre utilis e pour les textes en langues asia tiques char_by_char_with_ space ce param tre facultatif permet d appliquer le trans ducteur en mode caract re par caract re en autorisant la reconnaissance de s quences commengant par un espace Ce programme a pour effet de modifier le fichier texte pass en param tre 9 16 Fst2Unambig Fst2Unambig fst2 output Ce programme prend un automate de texte fst2 et produit un fichier texte quivalent output si l automate est lin aire sans ambigu t Pour plus de d tails voir section 7 5 page 137 9 17 Grf2Fst2 Grf2Fst2 graphe y n alph d repository Ce programme compile une grammaire en un fichier fst 2 pour plus de d tails voir section 6 2 Le param tre graphe d signe le chemin d acc s complet au graphe principal de la grammaire s
154. he library If this is what you want to do use the GNU Library General Public License instead of this License 190 CHAPITRE 10 FORMATS DE FICHIERS Annexe B GNU Lesser General Public License Voir 24 pour l original de ce document GNU LESSER GENERAL PUBLIC LICENSE Version 2 1 February 1999 Copyright C 1991 1999 Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA Everyone is permitted to copy and distribute verbatim copies of this license document but changing it is not allowed This is the first released version of the Lesser GPL It also counts as the successor of the GNU Library Public License version 2 hence the version number 2 1 Preamble The licenses for most software are designed to take away your freedom to share and change it By contrast the GNU General Public Licenses are intended to guarantee your freedom to share and change free software to make sure the software is free for all its users This license the Lesser General Public License applies to some specially designated soft ware packages typically libraries of the Free Software Foundation and other authors who decide to use it You can use it too but we suggest you first think carefully about whether this license or the ordinary General Public License is the better strategy to use in any parti cular case based on the explanations below When we speak of free software we are referring to freedom of use not price Our
155. hes Show differences with previous concordance Show Matching Sequences in Context Lengths of Contexts Sort According to Left Col 40 chars Center Left Col v Right Col 55 chars Build concordance FIG 4 6 Configuration de l affichage des occurrences trouv es Pour cela cochez la case Use a web browser to view the concordance voir figure 4 6 Cette option est activ e par d faut lorsque le nombre d occurrences est sup rieur 3000 Pour d finir le navigateur qui sera utilis cliquez sur Preferences dans le menu Info Cliquez sur l onglet Text Presentation et s lectionnez le programme utiliser dans le cadre Html Viewer voir figure 4 7 Si vous choisissez d ouvrir la concordance l int rieur d Unitex vous verrez une fen tre comme celle de la figure 4 8 L option Enable links activ e par d faut permet de consid rer les occurrences comme des liens hypertextes Ainsi quand on clique sur une occurrence cela ouvre la fen tre du texte et y s lectionne la s quence reconnue De plus si l automate du texte est construit et que cette fen tre n est pas r duite sous forme d ic ne l automate de la phrase contenant l occurrence cliqu e est charg Si l on s lectionne l option Allow concordance edition on ne peut pas cliquer ainsi sur les occurrences mais l on peut diter la concordance comme du texte Cela permet entre autres de s y d placer a
156. ice org Calc Lors de la g n ration des graphes Unitex saute la premi re ligne consid r e comme donnant les en t tes des colonnes Vous devez donc vous assurer que les en t tes des co lonnes occupent exactement une ligne S il n y a pas de ligne d en t te la premiere ligne de la table sera ignor e et s il y a plusieurs lignes d en t te elles seront interpr t es partir de la deuxi me comme des lignes de la table 8 2 3 Les graphes param tr s Les graphes param tr s sont des graphes dans lesquels apparaissent des variables fai sant r f rence aux colonnes d une table de lexique grammaire On utilise g n ralement ce m canisme avec des graphes syntaxiques mais rien n emp cherait de construire des graphes param tr s de flexion de pr traitement ou de normalisation Les variables qui font r f rence aux colonnes sont form es du caract re arrobas suivi d un nom de colonne en lettres majuscules les colonnes sont num rot es en partant de A Exemple C fait r f rence la troisi me colonne de la table Lorsqu une variable doit tre remplac e par un ou un le signe correspond la sup pression du chemin passant par cette variable Il est possible d effectuer l op ration contraire en faisant pr c der le caract re d un point d exclamation Dans ce cas c est lorsque la va riable renvoie un signe que le chemin est supprim Si la variable ne renvoie ni un signe ni
157. ichiers de cOn USO caia Saves eo a OES BPS Se SEG eR ent 178 10 9 1 FichierConig lt s ss ccosa e maa ea eee ade hectare dos 178 10 92 PME SSL gt seek phies gaans i Paua RE e 180 1093 Fichier user dicd ef o 2 222 2 4 5 88e dk D mue O Bu 180 109 4 Fichierusercde ms sisi leds es tetes EYEE ESSE ESE ES 180 tanto re A 181 10 10 1 Fichiers dlfn dlc n et errn 181 8 TABLE DES MATIERES 10102 Meher SEM 2 52 Le Sheed yd bE ahd cel a ae 181 104108 Fichier states 2 Lu Lu ba Baw Besa wae So Emi baba 181 10 10 4 Fichier concordn s so se smera a ea aE aa aa a 181 Annexe A GNU General Public License 183 Annexe B GNU Lesser General Public License 191 Annexe C Lesser General Public License For Linguistic Resources 201 Introduction Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles en utilisant des ressources linguistiques Ces ressources se pr sentent sous la forme de dic tionnaires lectroniques de grammaires et de tables de lexique grammaire Elles sont issues de travaux initi s sur le frangais par Maurice Gross au Laboratoire d Automatique Docu mentaire et Linguistique LADL Ces travaux ont t tendus a d autres langues au travers du r seau de laboratoires RELEX Les dictionnaires lectroniques d crivent les mots simples et compos s d une langue en leur associant un lemme ainsi qu une s rie de codes grammaticaux s mantiques et fle
158. ictionnaires lectroniques sont appliqu s aux textes On peut alors effectuer des recherches sur ces textes en leur appliquant des grammaires Ce chapitre d crit les diff rentes tapes du pr traitement des textes 2 1 S lection de la langue Lors du lancement d Unitex le programme vous demande de choisir la langue dans laquelle vous allez travailler voir figure 2 1 Les langues propos es sont celles qui sont pr sentes dans le r pertoire syst me Unitex ainsi que celles ventuellement install es dans votre r pertoire personnel Si vous utilisez une langue pour la premi re fois Unitex recopie le r pertoire syst me de cette langue dans votre r pertoire personnel l exception des dic tionnaires afin d conomiser de l espace disque Attention si vous avez d j un r pertoire utilisateur pour une langue donn e Unitex n essaiera pas de recopier les donn es syst me dedans Ainsi si une mise jour a modifi un fichier de ressource autre qu un dictionnaire il vous faudra soit faire une mise jour manuelle du fichier dans votre r pertoire utilisateur soit supprimer votre r pertoire pour la langue concern e et laisser Unitex le soin de le recr er Le choix de la langue permet d indiquer Unitex o trouver certaines donn es comme par exemple le fichier alphabet Vous pouvez tout moment changer de langue en cliquant sur Change Language dans le menu Text Si vous changez de langue le programme f
159. ictionnaires DELA a 22 04 88 24364 LE L a bees etwas 3 1 1 Formatdes DELAFP 2 6 44 046 bed Se de ee o 312 PFormatdes DELAS oros Lu caca a de nas woe 3 1 3 Contenu des dictionnaires 3 2 V rification du format d un dictionnaire ee gA PICMOMAUIOMAHGUG s boss ELSE ERE rodri eus a III Less Van es BS OE SS a ns 96 Application dedictionnaires dra Oe OA D KE S 11 11 11 12 12 12 13 14 Recherche d expressions rationnelles 41 D finition 4 2 4 3 44 4 5 4 6 4 7 4 8 3 6 1 3 6 3 434 Contraintes flexionnelles 43 5 N gation d un motif Concat nation Union toile de Kleene Filtres morphologiques Recherche 4 8 1 Configuration de la recherche 4 8 2 Affichage des r sultats PADEIES ios s posa hee res 3 6 2 R gles d application des dictionnaires Graphes dictionnaires 3 7 Bibliographie Symboles sp ciaux Masques lexicaux 24 234428 4 Contraintes grammaticales et s mantiques Grammaires locales 5 1 Formalisme des grammaires locales ne 5 3 5 4 5 1 1 Grammaires alg briques 5 1 2 Grammaires alg briques tendues Edition de graphes sua 340d e248 5 2 1 Importation d un graphe Intex 522 Cr ation d un graphe oc 5 23 Sousgraphes s r es osios 5 24 R pertoire de depot 2 44454 5s 5 2 5 Manipulation des boites 5 26 DOME boc eee ew AA 5 2 7 Utili
160. ier texte contenant la liste de toutes les unit s lexicales du texte La premi re ligne de ce fichier indique le nombre d unit s contenus dans le fichier Les unit s sont s par es par des retours la ligne Quand une s quence est trouv e dans le texte avec des variantes de casse chaque variante est cod e par une unit e distincte NOTE les retours la ligne ventuellement pr sents dans le fichier snt sont cod s comme des espaces Il n y a donc jamais d unit codant le retour la ligne 10 45 Fichiers tok_by_alph txt et tok_by_freq txt Ces deux fichiers sont des fichiers texte qui contiennent la liste des unit s lexicales tri e par ordre alphab tique ou par ordre de fr quence Dans le fichier tok_by_alph txt chaque ligne est compos e d une unit suivie par le caract re tabulation et le nombre d occurrences de cette unit dans le texte Les lignes du fichier tok_by_freq txt sont form es sur le m me principe mais le nombre d occurrences appara t avant le caract re tabulation et l unit 10 4 6 Fichier enter pos Ce fichier est un fichier binaire contenant la liste des positions des retours la ligne dans le fichier snt Chaque position est l indice dans le fichier text cod d un retour la ligne ayant t remplac par un espace Ces positions sont des entiers cod s sur 4 octets 10 5 AUTOMATE DU TEXTE 169 10 5 Automate du texte 10 5 1 Fichier text fst2 Le fichier text fst2 est un
161. ieure la taille du contexte droit elle est affich e en entier NOTE en thai la taille des contextes est mesur e en caract res affichables et non en caract res r els Cela permet de conserver l alignement des lignes de concordance malgr la pr sence des caract res diacritiques qui se combinent d autres lettres au lieu de s afficher comme des caract res normaux Vous pouvez s lectionner le mode de tri appliquer dans la liste Sort According to Le mode Text Order affiche les occurrences dans l ordre o elles apparaissent dans le texte Les six autres modes permettent de trier en colonnes Les trois zones d une ligne sont le contexte gauche l occurrence et le contexte droit Les occurrences et les contextes droits sont tri s de gauche droite Les contextes gauches sont tri s de droite gauche Le mode utilis par d faut est Center Left Col La concordance est produite sous la forme d un fichier HTML Lorsque les concordances atteignent plusieurs milliers d occurrences il est pr f rable de les afficher avec un navigateur web Firefox 8 Netscape 9 Internet Explorer etc 4 8 RECHERCHE 61 Display indexed sequences Modify text Resulting snt file Set File GO Extract units Set File Extract matching units Extract unmatching units Concordance presentation _ Use a web browser to view the concordance better for more than 2000 matc
162. ifica tions and or translated straightforwardly into another language Hereinafter trans lation is included without limitation in the term modification Legible form for a linguistic resource means the preferred form of the resource for making modifications to it Activities other than copying distribution and modification are not covered by this License they are outside its scope The act of running a program using the Linguis tic Resource is not restricted and output from such a program is covered only if its 201 202 CHAPITRE 10 FORMATS DE FICHIERS contents constitute a work based on the Linguistic Resource independent of the use of the Linguistic Resource in a tool for writing it Whether that is true depends on what the program that uses the Linguistic Resource does You may copy and distribute verbatim copies of the Linguistic Resource as you receive it in any medium provided that you conspicuously and appropriately publish on each copy an appropriate copyright notice and disclaimer of warranty keep intact all the notices that refer to this License and to the absence of any warranty and distribute a copy of this License along with the Linguistic Resource You may charge a fee for the physical act of transferring a copy and you may at your option offer warranty protection in exchange for a fee You may modify your copy or copies of the Linguistic Resource or any portion of it thus forming a work based o
163. iful hills and field and the pleasant town of Doncaster The remains of this extensive wood are still to be be seen at the noble seats of Wentworth of Warncliffe Park and around Rotherham 5 Here hau e seats of Wentworth of Warncliffe Park and around Rotherham 5 Here haunted of yore the fab of Warncliffe Park and around Rotherham 5 Here haunted of yore the fabulous Dragon of Wantle d of yore the fabulous Dragon of Wantley 5 here were fought many of the most desperate battle ttles during the Civil Wars of the Roses 5 and here also flourished in ancient times those ba ent times those bands of gallant outlaws whose deeds have been rendered so popular in English been rendered so popular in English song Such being our chief scene the date of our story lish song 5 Such being our chief scene the date of our story refers to a period towards the owards the end of the reign of Richard I when his return from his long captivity had become a FIG 4 2 R sultat de la recherche du m ta lt MOT gt 56 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES 4 4 Concat nation On peut concat ner des expressions rationnelles de trois fa ons La premi re consiste a utiliser l op rateur de concat nation repr sent par le point Ainsi l expression lt DET gt lt N gt reconna t un d terminant suivi par un nom L espace peut galement servir concat ner L expression de l exemple suivant le lt A gt chat rec
164. illing to distribute software through any other system and a licensee cannot impose that choice This section is intended to make thoroughly clear what is believed to be a consequence of the rest of this License If the distribution and or use of the Program is restricted in certain countries either by patents or by copyrighted interfaces the original copyright holder who places the Program under this License may add an explicit geographical distribution limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License The Free Software Foundation may publish revised and or new versions of the Gene ral Public License from time to time Such new versions will be similar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Program specifies a ver sion number of this License which applies to it and any later version you have the option of following the terms and conditions either of that version or of any later ver sion published by the Free Software Foundation If the Program does not specify a version number of this License you may choose any version ever published by the Free Software Foundation If you wish to incorporate parts of the Program into other free programs whose dis tribu
165. in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Library specifies a version number of this License which applies to it and any later version you have the option of following the terms and conditions either of that version or of any later version published by the Free Software Foundation If the Library does not specify a license version number you may choose any version ever published by the Free Software Foundation 14 If you wish to incorporate parts of the Library into other free programs whose distri bution conditions are incompatible with these write to the author to ask for permission For software which is copyrighted by the Free Software Foundation write to the Free Software Foundation we sometimes make exceptions for this Our decision will be guided by the two goals of preserving the free status of all derivatives of our free software and of promoting the sharing and reuse of software generally NO WARRANTY 15 BECAUSE THE LIBRARY IS LICENSED FREE OF CHARGE THERE IS NO WAR RANTY FOR THE LIBRARY TO THE EXTENT PERMITTED BY APPLICABLE LAW EX CEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PROVIDE THE LIBRARY AS IS WITHOUT WARRANTY OF ANY KIND 198 CHAPITRE 10 FORMATS DE FICHIERS EITHER EXPRESSED OR IMPLIED INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AN
166. ine and a pointer to where the full notice is found lt one line to give the library s name and a brief idea of what it does gt Copyright C lt year gt lt name of author gt This library is free software you can redistribute it and or modify it under the terms of the GNU Lesser General Public License as published by the Free Software Foundation either version 2 1 of the License or at your option any later version This library is distributed in the hope that it will be useful but WITHOUT ANY WAR RANTY without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE See the GNU Lesser General Public License for more details You should have received a copy of the GNU Lesser General Public License along with this library if not write to the Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA Also add information on how to contact you by electronic and paper mail You should also get your employer if you work as a programmer or your school if any to sign a copyright disclaimer for the library if necessary Here is a sample alter the names Yoyodyne Inc hereby disclaims all copyright interest in the library Frob a library for tweaking knobs written by James Random Hacker 10 10 FICHIERS DIVERS 199 lt signature of Ty Coon gt 1 April 1990 Ty Coon President of Vice That s all there is to it 200 CHAPITRE 10 FORMATS DE FICHIERS Annexe C Les
167. int found agreeably ADV Line 2 no comma found agreed INTJ Line 4 no grammatical code FIG 3 4 R sultats d une v rification automatique 39 40 CHAPITRE 3 DICTIONNAIRES EEEERe 6 Les caract res pr sents sur une m me ligne sont consid r s comme quivalents quand le contexte le permet Lorsqu il faut comparer deux caract res quivalents on les compare selon l ordre dans lequel ils apparaissent de gauche droite sur la ligne On peut voir sur l extrait ci dessus qu on ne fait pas de diff rence entre minuscules et majuscules et qu on ignore les accents ainsi que la c dille Pour trier un dictionnaire ouvrez le puis cliquez sur Sort Dictionary dans le menu DELA Par d faut le programme cherche toujours utiliser le fichier Alphabet_sort txt Si ce fichier est absent le tri se fait selon l indice des caract res dans le codage Unicode En modifiant ce fichier vous pouvez d finir vos propres pr f rences de tri Remarque apr s l application des dictionnaires sur un texte les fichiers d1f dlc et err sont automatiquement tri s avec ce programme 3 4 Flexion automatique Comme d crit dans la section 3 1 2 une ligne de DELAS se compose g n ralement d une forme canonique et d une s quence de codes grammaticaux ou s mantiques aviatrix N4 Hum matrix N4 Math radix N4 Le premier code rencontr est interpr t comme le nom de la grammaire utiliser pour fl chir la forme
168. ion La fin du fichier est indiqu e par une ligne contenant le caract re suivi d un retour la ligne 10 4 Textes Cette section pr sente les diff rents fichiers utilis s pour repr senter des textes 168 CHAPITRE 10 FORMATS DE FICHIERS 10 4 1 Fichiers txt Les fichiers t xt doivent tre des fichiers texte cod s en Unicode Little Endian Ces fi chiers ne doivent pas contenir d accolade ouvrante ou fermante moins qu elles soient utili s es pour crire un s parateur de phrase S ou une tiquette lexicale valide aujourd hui ADV Les retours la ligne doivent tre cod s par les deux caract res sp ciaux de valeurs hexad cimales 000D et 000A 10 4 2 Fichiers snt Les fichiers snt sont des fichiers txt qui ont t pr trait s par Unitex Ces fichiers ne doivent pas contenir de tabulation Ils ne doivent pas non plus contenir plusieurs espaces ou retours a la ligne cons cutifs Les seules accolades autoris es dans des fichiers snt sont celles du s parateur de phrases S et celles des tiquettes lexicales aujourd hui ADV 10 4 3 Fichier text cod Le fichier text cod est un fichier binaire contenant une suite d entiers repr sentant le texte Chaque entier 7 renvoie au token d indice i dans le fichier tokens txt Ces entiers sont cod s sur 4 octets NOTE les tokens sont num rot s a partir de 0 10 4 4 Fichier tokens txt Le fichier tokens txt est un fich
169. ion and modification follow Pay close attention to the difference between a work based on the library and a work that uses the library The former contains code derived from the library whereas the latter must be 10 10 FICHIERS DIVERS 193 combined with the library in order to run GNU LESSER GENERAL PUBLIC LICENSE TERMS AND CONDITIONS FOR COPYING DISTRIBUTION AND MODIFICATION 0 This License Agreement applies to any software library or other program which contains a notice placed by the copyright holder or other authorized party saying it may be distribu ted under the terms of this Lesser General Public License also called this License Each licensee is addressed as you A library means a collection of software functions and or data prepared so as to be conveniently linked with application programs which use some of those functions and data to form executables The Library below refers to any such software library or work which has been distri buted under these terms A work based on the Library means either the Library or any derivative work under copyright law that is to say a work containing the Library or a por tion of it either verbatim or with modifications and or translated straightforwardly into another language Hereinafter translation is included without limitation in the term mo dification Source code for a work means the preferred form of the work for making modifications to it For a library
170. ions d crites par la grammaire sont ins r es dans l automate du texte La figure 7 4 montre l extrait de la grammaire utilis e pour le fran ais qui explicite l ambigu t de la s quence 1 Si l on applique cette grammaire une phrase fran aise contenant la s quence 1 on obtient un automate de phrase similaire celui de la figure 7 5 Dans l automate obtenu on peut voir que les quatre r gles de r criture de la s quence 1 ont t appliqu es ce qui a ajout quatre tiquettes dans l automate Ces tiquettes sont concurrentes avec les deux chemins pr existants pour la s quence 1 La normalisation la construction de l automate du texte permet d ajouter des chemins l automate pas d en supprimer Lorsque la fonctionnalit de lev e d ambiguit s sera disponible elle permettra d liminer les chemins qui sont devenus superflus 7 2 3 Normalisation des pronoms clitiques en portugais En portugais les verbes au futur et au conditionnel peuvent tre modifi s par l inser tion d un ou deux pronoms clitiques entre le radical et le suffixe du verbe Par exemple la s quence dir me o ils me diront correspond la forme verbale compl te dir o associ e au pronom me En vue de pouvoir effectuer des manipulations sur cette forme r crite il est n cessaire de l introduire dans l automate du texte en parall le de la s quence d origine 7 2 CONSTRUCTION 115 la le PRO PpvLE 21 3fs
171. it s de cet objet Il d crit galement les op rations que l on peut effectuer sur cet objet notamment la lev e d ambiguit s lexicales au moyen du programme ELAG Le chapitre 8 est constitu d une introduction aux tables de lexique grammaire suivie par la description de la m thode permettant de construire des grammaires a partir de ces tables Le chapitre 9 d crit en d tail les diff rents programmes externes qui constituent Unitex Le chapitre 10 donne la description de tous les formats des fichiers utilis s par le syst me Le lecteur trouvera en annexe les licences GPL et LGPL qui prot gent les codes sources d Unitex ainsi que la licence LGPLLR qui couvre les donn es linguistiques distribu es avec Unitex Chapitre 1 Installation d Unitex Unitex est un systeme multi plateformes capable de fonctionner aussi bien sous Win dows que sous Linux ou MacOS Ce chapitre d crit l installation et le lancement d Unitex pour chacun de ces syst mes Il pr sente galement les proc dures d ajout de nouvelles langues et de d sinstallation 1 1 Licences Unitex est un logiciel libre Cela signifie que les sources des programmes sont distribu es avec le logiciel et que chacun peut les modifier et les redistribuer Le code des programmes d Unitex est sous licence LGPL 24 l exception de la biblioth que de manipulation d ex pressions r guli res TRE de Ville Laurikari 36 qui est sous licence GPL 23
172. it s lexicales 24 159 format 15 modification 106 148 normalisation 20 157 normalisation de l automate du 87 114 pr traitement 19 86 r pertoire du 22 Tokens voir Unit s lexicales Transducteur 66 r gles d application 99 Transduction 66 Tri 158 d un dictionnaire 38 des concordances 60 105 148 des lignes d une bo te 78 Types de graphes 85 Underscore 74 101 Unicode 15 66 78 149 161 Union d expressions rationnelles 51 56 Unit s lexicales 51 160 d coupage en 24 159 UTF 8 149 150 171 172 V rification du format d un dictionnaire 36 147 Variables dans les graphes 74 101 dans les graphes param tr s 141 Zoom 78 217
173. la sous cat gorie des pronoms personnels mais non aux pronoms relatifs Ces d pen dances sont d crites dans la partie complete 130 CHAPITRE 7 AUTOMATE DU TEXTE complete Dans cette partie est explicit l tiquetage morphologique des mots appartenant la cat gorie grammaticale courante Chaque ligne d crit une combinaison valide de codes flexionnels en fonction de leur sous cat gorie discriminante si une telle cat go rie a t d clar e Lorsqu un nom d attribut appara t entre angles lt et gt cela signifie que n importe quelle valeur de cet attribut peut convenir Il est galement possible de d clarer qu une entr e ne prend aucun trait flexionnel au moyen d une ligne ne conte nant que le caract re _ underscore Ainsi par exemple si nous consid rons les lignes suivantes extraites de la section concernant la description des verbes W K lt genre gt lt nombre gt Elles permettent de d clarer que les verbes l infinitif d not par le code W n ont pas d autres traits flexionnels positionn s tandis que les formes participe pass code K sont galement attribu es d un genre et d un nombre Description des codes flexionnels La principale fonction de la partie discr est de diviser les tiquettes en sous cat gories ayant un comportement morphologique similaire Ces sous cat gories sont ensuite utilis es pour faciliter l criture de la partie complete Pour la lisibilit des gram
174. liquez ensuite sur un des boutons Extract matching units ou Extract unmatching units selon que vous voulez extraire les phrases contenant les occur rences ou non 108 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES D My Unitex English Corpus ivanhoe snt 2343 sentence delimiters 186614 9300 diff tokens 83776 9274 simple forms 25 9 digits Ivanhoe by Sir Walter Scott 5 IN THAT PLEASANT DISTRICT of merry England which is watered y the river Don there extended in ancient times a large forest covering the greater part of the beautiful hills and alleys which lie between Sheffield and the pleasant town of Doncaster S The remains of this extensive wood are still to e seen at the noble seats of Wentworth of Warncliffe Park and around Rotherham 5 Here haunted of yore the fabulous Dragon of Wantley 5 here were fought many of the most desperate battles during the Civil Wars of the Roses 5 and here also flourished in ancient times those bands of gallant outlaws whose deeds have been rendered so popular in English song S Such being our chief scene the date of our story refers to a period towards the end of the reign of Richard I when his return from his long captivity had become an event rather wished than hoped for by his despairing subjects who FIG 6 32 S lection d une occurrence dans le texte 6 7 5 Comparaison de concordances L option Show differences with previous concordance permet de comparer la concor
175. llivan et Samuel Fallentin le brasseur Thomas Flanagan Gauthier Ralph et Samuel Fallentin le brasseur Thomas Flanagan Gauthier Ralph un des administrateurs de la nance Eh bien Ralph demanda Thomas Flanagan o en est cette affaire de vol _ Eh bien r iles ont t envoy s en Am rique et en Europe dans tous les principaux ports d embarquement e oustrait cinquante cing mille livres en bank notes 1 million 375 000 francs _ Non r pondit k C est donc un industriel dit John Sullivan Le Morning Chronicle assure que c est un ge O PSP ee NG SUEZ PE CNE PA i A A DE AAEN one te Lanas FIG 4 1 R sultat de la recherche du m ta lt DIC gt lt lire V P F gt le verbe lire au pr sent ou au futur lt suis suivre V gt le mot suis en tant que forme conjugu e du verbe suivre par opposition la forme du verbe tre lt facteur N Hum gt toutes les entr es nominales ayant facteur comme forme cano nique et ne poss dant pas le code s mantique Hum lt ADV gt tous les mots qui ne sont pas des adverbes lt MOT gt tous les caract res qui ne sont pas des lettres sauf le s parateur de phrases voir figure 4 2 Concordance E My UnitexiEnglishiCorpus ivanhoe_snticoncord html 8 Enable links Allow concordance edition ngland which is watered by the river Don there extended in ancient times a large forest cover extended in ancient times a large forest covering the greater part of the beaut
176. lors peut tre r crite avec une ou deux parties alors sans perte de lisibilit C est par exemple le cas de la grammaire de la figure 7 21 qui impose une contrainte entre un verbe et le pronom qui le suit 5 postpos bad grf Z gt Y lt PRO PpvIL 2s gt H lt gt L3s gt lt gt lt oros PH lt j lt PRo Ppwl lt PRO PpvLE gt lt PRO PpvLUl gt lt PRO PpvPR gt FIG 7 21 Grammaire ELAG v rifiant l accord entre verbe et pronom Comme on peut le voir sur la figure 7 22 on peut crire une grammaire quivalente en factorisant toutes les parties alors en une seule Les deux grammaires auront exactement le m me effet sur l automate du texte mais la seconde sera compil e beaucoup plus rapide ment 134 CHAPITRE 7 AUTOMATE DU TEXTE E postpos good grf Unsaved DD formes interrogatives lt PRO PpviL 3s gt lt PRO PpviL 1p gt lt PRO PpviL 2p gt lt PRO PpvIL 3p gt lt PRO PpvyLUI gt lt PRO PpvPR gt lt PRO Ton gt lt PRO PpvLE gt FIG 7 22 Grammaire ELAG optimis e v rifiant l accord entre verbe et pronom Utilisation des symboles lexicaux Il vaut mieux n utiliser les lemmes que lorsque c est absolument n cessaire Cela est particuli rement vrai pour les mots grammaticaux lorsque leurs sous cat gories portent presque autant d inf
177. lt boule gt lt boule gt lt boule gt lt boule gt lt boule gt lt boule gt lt boule gt lt boule gt lt boule gt de de de de de de de de de glace la pistache glace la fraise glace la vanille glace vanille glace fraise glace pistache pistache fraise vanille la pistache la fraise la vanille vanille fraise pistache 98 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES FIG 6 19 Exemple de graphe 6 5 Collection de graphes Il peut arriver que l on souhaite appliquer plusieurs grammaires situ es dans un m me r pertoire Pour cela il est possible de construire automatiquement une grammaire partir d une arborescence de fichiers Supposons par exemple que l on ait l arborescence suivante Dicos Banque carte grf Nourriture eau grf pain grf truc grf Si l on veut rassembler toutes ces grammaires en une seule on peut le faire avec la com mande Build Graph Collection dans le sous menu FSGraph gt Tools On configure cette op ration au moyen de la fen tre de la figure 6 20 Building Graph Collection P x Source directory Po Set Resulting GRF grammar sa a FIG 6 20 Construction d une collection de graphes Dans le champ Source directory s lectionnez le r pertoire racine que vous voulez ex plorer dans notre exemple le r pertoire Dicos Dans le champ Resulting GRF
178. maires ELAG il est souhaitable que les l ments d une m me sous cat gorie aient tous le m me comporte ment flexionnel dans ce cas la partie complete est compos e d une seule ligne par sous cat gorie Consid rons par exemple les lignes suivantes extraites de la description des pronoms Pdem lt genre gt lt nombre gt PpvIl lt genre gt lt nombre gt lt pers gt PpvPr Ces lignes signifient tous les pronoms d monstratifs lt PRO Pdem gt ont des indications de genre et de nombre et aucune autre les pronoms personnels nominatifs lt PRO Ppv11 gt sont tiquet s morphologique ment par une personne un genre et nombre les pronoms pr positionnels en y n ont aucun trait flexionnel Toutes les combinaisons des traits flexionnels et discriminants qui apparaissent dans les dictionnaires doivent tre d crits dans le fichier tagset def faute de quoi les entr es correspondantes seront rejet es par ELAG Dans le cas o des mots d une m me sous cat gorie diff rent par leurs traits flexionnels il est n cessaire d crire plusieurs lignes dans la partie complete L inconv nient de cette m thode de description est qu il devient difficile de faire la distinction entre de tels mots dans une grammaire ELAG Si l on consid re la description donn e pr c demment en exemple certains adjectifs du fran ais prennent un genre et un nombre alors que d autres n ont aucun trait flexionnel
179. mbole lt gt dans la partie alors Ces symboles forment un point de synchronisation Cela permet d crire des r gles dans lesquelles les contraintes si et alors ne sont pas n cessairement align es comme c est par exemple le cas sur la figure 7 14 Cette grammaire s interpr te de la mani re suivante si on trouve un tiret suivi par il elle ou on alors ce tiret doit tre pr c d par un verbe ventuellement suivi de t Ainsi si l on considere la phrase de la figure 7 15 commen ant par Est il on peut voir que toutes les interpr tations non verbales de Est ont t supprim es 122 CHAPITRE 7 AUTOMATE DU TEXTE If tu follows a verb in the 2nd person singular and a dash then itis a pronoun and not the past participle of taire FIG 7 12 Exemple de grammaire ELAG 7 3 2 Compilation des grammaires ELAG Avant de pouvoir tre appliqu e un automate de texte une grammaire ELAG doit tre compil e en un fichier rul Cette op ration s effectue via la commande Elag Rules dans le menu Text qui fait appara tre la fen tre de la figure 7 16 Si le cadre droite contient d j des grammaires que vous ne souhaitez pas utiliser vous pouvez les retirer au moyen du bouton lt lt S lectionnez ensuite votre grammaire dans l ex plorateur de fichiers situ dans le cadre gauche et cliquez sur le bouton gt gt pour I ajouter la liste du cadre droit Cliquez alors sur le bouton compile Ceci lancera
180. mbre de caract res rendrait tr s fastidieuse une num ration compl te E8 2 caract res X et Y indiquent que X et Y sont des lettres et que X est l quivalent en majuscule de la lettre Y WN un unique caract re X d finit X comme une lettre la fois minuscule et majuscule Ce mode est utile pour d finir un caract re asiatique de mani re ponctuelle Pour certaines langues comme le fran ais il arrive qu une lettre minuscule corres pondent plusieurs majuscules comme c est le cas pour le qui peut avoir comme majuscule soit E soit Pour exprimer cela il suffit d utiliser plusieurs lignes L inverse est galement vrai une majuscule peuvent correspondre plusieurs minuscules Ainsi le E peut tre la majuscule de e ou e Voici l extrait du fichier alphabet du francais qui d finit les diff rentes lettres e Eeq E Y EeY EeY E8Y 10 3 GRAPHES 163 feq E8SY EsY 10 2 2 Alphabet de tri L alphabet de tri est un fichier texte qui d finit les priorit s des lettres d une langue lors du tri l aide du programme SortTxt Chaque ligne de ce fichier d finit un groupe de lettres Si un groupe de lettres A est d fini avant un groupe de lettres B n importe quelle lettre de A sera inf rieure n importe quelle lettre de B Les lettres d un m me groupe ne sont distingu es que si n cessaire Par exemple si l on a d fini le groupe de lettre e le mot bahi se
181. ms per mit modification of the package for the customer s own use and reverse engineering for debugging such modifications You must give prominent notice with each copy of the package that the Linguistic Resource is used in it and that the Linguistic Resource and its use are covered by this License You must supply a copy of this License If the package during execution displays copyright notices you must include the copyright notice for the Linguistic Resource among them as well as a reference directing the user to the copy of this License Also you must do one of these things a Accompany the package with the complete corresponding machine readable le gible form of the Linguistic Resource including whatever changes were used in the package which must be distributed under Sections 1 and 2 above and if the package contains an encrypted form of the Linguistic Resource with the complete machine readable work that uses the Linguistic Resource as object code and or source code so that the user can modify the Linguistic Resource and then encrypt it to produce a modified package containing the modified Linguistic Resource g Use a suitable mechanism for combining with the Linguistic Resource A sui table mechanism is one that will operate properly with a modified version of the Linguistic Resource if the user installs one as long as the modified version is interface compatible with the version that the package was made with
182. n gation d un masque lexical comme lt V G gt reconna t tous les mots sauf ceux qui peuvent tre reconnus par ce masque Ainsi le masque lt V G gt ne reconnaitra pas la forme anglaise being m me s il existe dans les dictionnaires du texte des entr es non verbales pour ce mot being A being N Abst s being N Hum s Voici plusieurs exemples de motifs m langeant les diff rentes sortes de contraintes lt A Hum f s gt adjectif non humain au f minin singulier 4 3 MOTIFS 55 Concordance E My Unitex FrenchiCorpus 80jours_snt concord html la lecturi de ce a onai occupa Phileas Fogg ju ogg jusqu trois Paces quarante cing et seis du 3t le d jeuner avec adjonction de royal british sauce S A six heures moins vingt le gentle d salon et s absorba dans la lecture du Morning Chronicle 5 Une demi heure plus tard divers et s absorba dans la lecture du Morning Chronicle 5 Ume demi heure plus tard divers membres demi heure plus tard divers membres du Reform Club faisaient leur entr e et s approchaient de C taient les partenaires habituels de Mr Phileas Fogg comme lui enrag s joueurs de whist taient les partenaires habituels de Mr Phileas Fogg comme lui enrag s joueurs de whist l in es partenaires habituels de Mr Phileas Fogg comme lui enrag s joueurs de whist l ing nieur nieur Andrew Stuart les banquiers John Sullivan et Samuel Fallentin le brasseur Thomas Flanag les banquiers John Su
183. n engendrant toutes les formes fl chies possibles Afin d viter de devoir remplacer les noms des grammaires de flexion par de vrais codes grammaticaux dans le dictionnaire ob tenu le programme remplace ces noms par leurs plus longs pr fixes compos s de lettres Ainsi N4 est remplac par N En choisissant judicieusement les noms des grammaires de flexion on peut donc engendrer directement un dictionnaire pr t l emploi Voici le dictionnaire obtenu apr s flexion du DELAS de notre exemple 3 5 COMPRESSION 43 D iMy Unitex English Dela delasflx dic aviatrices aviatrix N Hum p aviatrix aviatrix N Hum s atrices matrix N Math p atrix matrix N Math s radices radix N p radix radix N s FIG 3 7 R sultat de la flexion automatique 3 5 Compression Unitex applique aux textes des dictionnaires comprim s La compression permet de r duire la taille des dictionnaires et d en acc l rer la consultation Cette op ration s effectue avec le programme Compress Celui ci prend en entr e un dictionnaire sous forme de fi chier texte par exemple mon_dico dic et produit deux fichiers mon_dico bin contient l automate minimal des formes fl chies du dictionnaires mon_dico inf contient des codes qui permettent de reconstruire le dictionnaire d ori gine partir des formes fl chies contenues dans mon_dico bin L automate minimal contenu dans mon_dico bin est une repr sentation des formes fl chies o tou
184. n graphe converti en Unicode qui a t utilis avec Unitex ne peut plus tre utilis avec Intex Pour pouvoir l utiliser nouveau avec Intex vous devez le convertir en texte ASCII puis l ouvrir avec un traitement de texte et remplacer la premi re ligne Unigraph par la ligne suivante FSGraph 4 0 5 2 EDITION DE GRAPHES 67 5 2 2 Cr ation d un graphe Pour cr er un graphe cliquez sur New dans le menu FSGraph Vous voyez alors appara tre la fen tre de la figure 5 2 Le symbole en forme de fl che est l tat initial du graphe Le symbole rond contenant un carr est l tat final du graphe La grammaire ne reconnaitra que les expressions d crites par des chemins reliant l tat initial l tat final ES Unitex 1 2 current language is French Text DELA Lexicon Grammar Edit File Edition Windows Info FIG 5 1 Menu FSGraph Pour cr er une bo te cliquez sur la fen tre tout en appuyant sur la touche Ctrl Vous verrez alors appara tre un carr bleu symbolisant la bo te vide cr e voir figure 5 3 Lors de la cr ation d une bo te celle ci est automatiquement s lectionn e Vous voyez donc le contenu de la bo te s afficher dans la zone de texte situ e en haut de la fen tre La bo te cr e contient le symbole lt E gt qui repr sente le mot vide epsilon Remplacez ce symbole par le texte I you he she it we they et validez en appuyant sur la touche Entr e Vous venez de cr er une bo te
185. n multiple dans un autre graphe que celui dans lequel vous avez effectu la copie Pour supprimer des boites s lectionnez les et supprimez le texte qu elles contiennent Pour cela supprimez le texte pr sent dans la zone de texte situ e en haut de la fen tre et validez avec la touche Entr e L tat initial et l tat final ne peuvent pas tre supprim s 5 2 6 Sortie Il est possible d associer une sortie une bo te Pour cela utilisez le caract re sp cial Tous les caract res situ s droite de celui ci seront consid r s comme faisant partie de la sortie Ainsi le texte one two three number donne la bo te de la figure 5 14 La sortie associ e une bo te est repr sent e en texte gras sous celle ci 74 CHAPITRE 5 GRAMMAIRES LOCALES F Unsaved FIG 5 13 Copier coller d une s lection multiple one k two m three number FIG 5 14 Exemple de sortie 5 2 7 Utilisation des variables Il est possible de s lectionner des parties du texte reconnu par une grammaire au moyen de variables Pour associer une variable var1 une partie d une grammaire utilisez les symboles sp ciaux var1 et var1 pour d finir respectivement le d but et la fin de la zone stocker Cr ez deux bo tes contenant l une var1 et l autre var1 Ces bo tes ne doivent rien contenir d autre que le nom de la variable pr c d de et suivi d une pa renth se Reliez ensuite ces bo tes la z
186. n the Linguistic Resource and copy and distribute such modifications or work under the terms of Section 1 above provided that you also meet all of these conditions a The modified work must itself be a linguistic resource b You must cause the files modified to carry prominent notices stating that you changed the files and the date of any change c You must cause the whole of the work to be licensed at no charge to all third parties under the terms of this License These requirements apply to the modified work as a whole If identifiable sections of that work are not derived from the Linguistic Resource and can be reasonably considered independent and separate works in themselves then this License and its terms do not apply to those sections when you distribute them as separate works But when you distribute the same sections as part of a whole which is a work based on the Linguistic Resource the distribution of the whole must be on the terms of this License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distribution of derivative or collective works based on the Linguistic Re source In addition mere aggregation of another work not based on the Linguistic Re source with the Ling
187. n you distribute them as separate works But when you distribute the same sections as part of a whole which is a work based on the Program the distribution of the whole must be on the terms of this License whose permissions for other licensees extend to the entire whole and thus to each and every part regardless of who wrote it Thus it is not the intent of this section to claim rights or contest your rights to work written entirely by you rather the intent is to exercise the right to control the distri bution of derivative or collective works based on the Program In addition mere aggregation of another work not based on the Program with the Pro gram or with a work based on the Program on a volume of a storage or distribution medium does not bring the other work under the scope of this License 3 You may copy and distribute the Program or a work based on it under Section 2 in object code or executable form under the terms of Sections 1 and 2 above provided that you also do one of the following a Accompany it with the complete corresponding machine readable source code which must be distributed under the terms of Sections 1 and 2 above on a medium customarily used for software interchange or g Accompany it with a written offer valid for at least three years to give any third party for a charge no more than your cost of physically performing source distri bution a complete machine readable copy of the corresponding
188. naissant des pronoms anglais 5 2 3 Sous graphes Pour faire appel un sous graphe il faut indiquer son nom dans une bo te en le faisant pr c der du caract re Si vous entrez dans une bo te le texte suivant alpha beta gamma E greek delta grf 70 CHAPITRE 5 GRAMMAIRES LOCALES FIG 5 6 Boite reli e a elle m me vous obtiendrez une boite similaire a celle de la figure 5 7 alpha beta gamma Engreekidelta arf FIG 5 7 Graphe faisant appel aux sous graphes beta et delta Vous pouvez indiquer le nom complet du graphe E greek delta grf ou simple ment le nom sans le chemin d acces beta dans ce cas le sous graphe est suppos se trouver dans le m me r pertoire que le graphe qui y fait r f rence Il est d conseill d utili ser des noms de graphes comportant des chemins absolus car cela nuit leur portabilit Si vous utilisez un nom de graphe absolu comme c est ici le cas pour E greek delta grf le compilateur de graphe mettra un avertissement voir figure 5 8 Pour les m mes raisons de portabilit il est d conseill d utiliser ou comme s pa rateur dans les noms de graphes la place il vaut mieux utiliser le caract re qui joue le r le de s parateur universel valable quel que soit le syst me sous lequel vous travaillez On peut d ailleurs voir sur la figure 5 8 que c est ce s parateur qui est utilis en interne par le compilateur de graphe E greek delta grf
189. nce interdite l inverse si 6 3 CONTEXTES 95 28 2 FIG 6 13 Utilisation d un contexte n gatif la fin de contexte ne peut tre atteinte le programme Locate reviendra la position pos dans le texte et continuera l exploration de la grammaire partir la fin du contexte Les contextes peuvent tre plac s n importe o dans le graphe y compris au d but La figure 6 14 montre ainsi un graphe qui reconna t un adjectif dans le contexte de quelque chose qui n est pas un participe pass Autrement dit ce graphe reconna t tous les adjectifs qui ne sont pas ambigus avec des participes pass s Have He FIG 6 14 Recherche d un adjectif non ambigu avec un participe pass Gr ce ce m canisme on peut formuler des requ tes complexes A nsi la figure 6 15 montre un graphe qui reconna t toutes les s quences de deux noms simples qui ne sont pas ambigu s avec des mots compos s En effet le motif lt CDIC gt lt lt gt gt re conna t un mot compos contenant exactement un espace et le motif lt N gt lt lt gt gt reconna t un nom sans espace c est dire un nom simple Ainsi dans la phrase Black cats should like the town hall ce graphe reconnaitra Black cats mais pas town hall qui est un mot compos ts lt N gt lt lt ff lt N gt lt lt Y gt gt FIG 6 15 Utilisation avanc e des contextes Il est possible d imbriquer des con
190. nd that the Library and its use are covered by this License You must supply a copy of this License If the work during execution displays copyright notices you must include the copyright notice for the Library among them as well as a reference directing the user to the copy of this License Also you must do one of these things a Accompany the work with the complete corresponding machine readable source code for the Library including whatever changes were used in the work which must be distribu ted under Sections 1 and 2 above and if the work is an executable linked with the Library with the complete machine readable work that uses the Library as object code and or source code so that the user can modify the Library and then relink to produce a modi fied executable containing the modified Library It is understood that the user who changes the contents of definitions files in the Library will not necessarily be able to recompile the application to use the modified definitions b Use a suitable shared library mechanism for linking with the Library A suitable me chanism is one that 1 uses at run time a copy of the library already present on the user s computer system rather than copying library functions into the executable and 2 will ope rate properly with a modified version of the library if the user installs one as long as the modified version is interface compatible with the version that the work was made with c Accomp
191. nfiguration de l apparence du graphe Les 6 autres ic nes correspondent des commande d dition des bo tes La premi re en forme de fl che blanche correspond au mode d dition normal des bo tes Les 5 autres correspondent des outils Pour utiliser un outil cliquez sur l ic ne correspondante le curseur de la souris changera alors de forme et les clics de la souris seront alors interpr t s de fa on particuli re Voici la description des outils de gauche droite cr ation de bo tes cr e une bo te vide l endroit du clic suppression de bo tes supprime la bo te sur laquelle vous cliquez relier des bo tes une autre bo te cet outil permet de s lectionner une ou plusieurs bo tes et de la ou les relier une autre la diff rence du mode normal la ou les transitions qui vont tre cr es sont affich es pendant le d placement du pointeur de la souris 78 CHAPITRE 5 GRAMMAIRES LOCALES relier des bo tes une autre bo te en sens inverse cet outil effectue la m me chose que le pr c dent mais en reliant en sens inverse les bo tes s lectionn es la bo te cliqu e ouvrir un sous graphe ouvre un sous graphe lorsque vous cliquez sur la ligne gris e correspondante dans une bo te 5 3 Options de pr sentation 5 3 1 Tri des lignes d une bo te Vous pouvez trier le contenu d une bo te en la s lectionnant et en cliquant sur Sort Node Label dans le sous me
192. nu Tools du menu FSGraph Ce tri ne fait pas appel au programme SortTxt Il s agit d un tri basique qui trie les lignes de la bo te selon l ordre des caract res dans le codage Unicode 5 3 2 Zoom Le sous menu Zoom vous permet de choisir l chelle laquelle sera affich le graphe Fit in screen Fit in window 60 80 FIG 5 20 Sous menu Zoom L option Fit in screen tire ou r tr cit le graphe pour lui donner la taille de l cran L option Fit in window ajuste le graphe pour qu il soit enti rement affich dans la fen tre 5 3 3 Antialiasing L antialiasing est un effet de rendu qui permet d viter l effet de pixellisation Vous pou vez activer cet effet en cliquant sur Antialiasing dans le sous menu Format La fi gure 5 21 montre deux graphes affich s normalement graphe du haut et avec antialiasing graphe du bas Cet effet ralentit l ex cution d Unitex Nous vous conseillons de ne pas l utiliser si votre machine est peu puissante 5 3 OPTIONS DE PRESENTATION 79 FIG 5 21 Exemple d antialiasing 5 34 Alignement des bo tes Afin d obtenir des graphes harmonieux il est utile de pouvoir aligner les bo tes aussi bien horizontalement que verticalement Pour cela s lectionnez les bo tes aligner et cli quez sur Alignment dans le sous menu Format du menu FSGraph ou appuyez sur lt Ctrl M gt Vous voyez alors appara tre la fen tre de la figure
193. oms propres les mots inconnus com men ant par une majuscule Comme les graphes dictionnaires sont appliqu s par le moteur du programme Locate ils peuvent utiliser tout ce que Locate autorise En particulier il est possible d utiliser les filtres morphologiques Ainsi le graphe de la figure 3 12 utilise ces filtres pour reconna tre les nombres en chiffres romains Notons qu il utilise galement des contextes afin d viter par exemple que C ne soit pris comme chiffre romain quand il est suivi par une apostrophe 3 7 Bibliographie Le tableau 3 4 donne quelques r f rences relatives aux dictionnaires lectroniques de mots simples et compos s Pour plus de d tails consultez la page de r f rences sur le site web d Unitex http www igm univ mlv fr unitex CHAPITRE 3 DICTIONNAIRES 48 yO lt lt 4 GcTIMTLAITTAILALALATIINIDE oxbooxTbocTbThitxbooxkxbo dnalossadloodloalalaalasalaalo GalnAIIALALALIAIALIDU gt gt 666 0001 lt lt QcTIILAILAILALALATIIMNIDeCoxbooxrTbociixThitixboxxkxboaralossdlosalodlalaalasalaalaw gt 666 001 lt lt 2GTITILAITAILALALATIIMIDOxbooeTbOCTE MARRON gt gt 66 01 lt lt GCTILAILAILALAL ATID gt gt 61 FIG 3 12 Graphe dictionnaire reconnaissant les nombres en chiffres romains 3 7 BIBLIOGRAPHIE Langue Mots simples Mots compos s anglais 30 40 11 46 francais 14 15 34 15 25 47 27 grec modern
194. on Par exemple lorsque l automate du texte contient des symboles qui ne correspondent pas au jeu d tiquettes d ELAG voir section suivante un message indique la nature de 7 3 LEVEE D AMBIGUITES LEXICALES AVEC ELAG 127 l erreur rencontr e De m me lorsqu une phrase est rejet e toutes les analyses possibles ont t limin es par les grammaires un message indique le num ro de la phrase Cela permet de localiser rapidement la source des probl mes Evaluation de la lev e d ambiguit s L valuation du taux d ambiguit ne se base pas uniquement sur le nombre moyen d in terpr tations par mot Afin d avoir une mesure plus repr sentative le syst me prend gale ment en compte les diff rentes combinaisons de mots Durant la lev e d ambiguit s le programme Elag calcule le nombre d analyses pos sibles dans l automate du texte avant et apr s modification cela correspond au nombre de chemins possibles dans l automate En se basant sur cette valeur le programme calcule l ambigu t moyenne par phrase et par mot C est cette derni re mesure qui est utilis e pour repr senter le taux d ambiguit s du texte car elle ne varie pas avec la taille du corpus ni avec le nombre de phrases de celui ci La formule appliqu e est log nombre de chemins taux d ambiguit s exp longueur du texte Le rapport entre le taux d ambiguit s avant et apr s l application des grammaires donne une mesure de le
195. on 65 D tection d erreurs dans les graphes 93 156 Degr d ambiguit 113 DELA 20 31 DELAC 31 DELACE 31 DELAF 31 34 45 173 DELAS 31 34 Diagrammes de syntaxe 66 Dictionnaires application de 26 44 151 codes utilis s dans les 34 commentaires dans les 32 213 compression 43 147 158 contenu des 34 DELAC 31 DELACE 31 DELAF 31 34 45 147 156 173 DELAS 31 34 156 du texte 28 52 111 filtres 45 finesse 113 flexion automatique 40 156 format 31 priorit s 44 r f rence aux 52 88 s lection par d faut 29 tri 38 v rification 36 147 Editeur de texte int gr 18 ELAG 88 120 Ensembles de grammaires 125 Entr es lexicales 31 Entr es lexicales factoris es 124 Epsilon voir lt E gt Equivalence de caract res 38 Erreurs dans les graphes 93 155 Espace interdit 52 obligatoire 52 Etat final 67 initial 67 Etiquettes lexicales 114 157 160 168 Etoile de Kleene 51 56 Evaluation du taux d ambiguit 127 Exclusion de codes grammaticaux et s man tiques 53 Exploration des chemins d une grammaire 96 Expression rationnelle 51 66 158 Expressions r guli res 57 Extraire les occurrences 60 107 Fen tre de concordance 61 Fen tre de processing d ELAG 126 Fichier 214 conc fst2 122 fst2 151 1st 125 126 Tu l 12 126 151 152 tagset def 127 130 132 bin 43 147 151 173 180 cfg 180 dic 37 43 147
196. on d clar s ces entr es deviendront indistinguables par le programmes et seront donc unifi es en une seule entr e dans l au tomate r sultat Ainsi le jeu d tiquettes d crit dans le fichier tagset def peut suffire a r duire l ambiguit en factorisant des mots qui ne diff rent que par des codes non d clar s et ceci ind pendamment des grammaires appliqu es Par exemple dans la version la plus compl te du dictionnaire du fran ais chaque emploi distinct d un verbe est caract ris par une r f rence vers la table du lexique grammaire qui le caract rise Nous avons consid r jusqu a pr sent que ces informations rel vent plus de la syntaxe que de l analyse lexicale et nous ne les avons donc pas int gr dans la description du jeu d tiquettes Celle ci sont donc automatiquement limin es lors du chargement de l automate du texte ce qui r duit sont taux d ambiguit s Afin de bien distinguer les effets li s au jeu d tiquettes de ceux de des grammaires ELAG il est conseill de proc der une tape pr alable de normalisation de l automate du texte avant de lui appliquer les grammaires de d sambiguisation Cette normalisation s effectue en appliquant l automate du texte une grammaire n imposant aucune contrainte comme celle de la figure 7 20 Notez que cette grammaire est normalement pr sente dans la distribution d Unitex et pr compil e dans le fichier norm rul FIG 7 20 Grammair
197. one de la grammaire voulue Dans le graphe de la figure 5 15 on reconna t une s quence commen ant par un nombre que l on stocke dans une variable nomm e var1 suivi de dollar ou dollars Les noms de variables peuvent contenir des lettres latines non accentu es minuscules ou majuscules ainsi que des chiffres et le caract re _ underscore Unitex fait la diff rence entre les lettres minuscules et majuscules Quand une variable a ainsi t d finie on peut l utiliser dans les sorties en encadrant 5 2 EDITION DE GRAPHES 75 mh a varl varl varl FIG 5 15 Utilisation d une variable var 1 son nom avec le caract re Si l on souhaite crire en sortie le caract re il faut le doubler comme c est le cas dans la figure 5 15 La grammaire de la figure 5 16 reconna t une date form e d un mois et d une ann e et produit en sortie la m me date mais dans l ordre ann e mois A year month month year year November December FIG 5 16 Inversion du mois et de l ann e dans une date 5 2 8 Copie de listes Il peut tre pratique d effectuer un copier coller d une liste de mots ou d expressions depuis un diteur de texte vers une boite dans un graphe Afin d viter de devoir copier manuellement chaque terme Unitex propose un m canisme de copie de listes Pour l utili ser s lectionnez votre liste dans votre diteur de texte et copiez la au moyen de lt Ctrl C gt ou de l
198. onna t l unit lexicale le suivie d un adjectif et de l unit lexicale chat Enfin il est possible d omettre le point et l espace avant une parenth se ouvrante ou le caract re lt ainsi qu apr s une parenth se fermante ou le caract re gt Les parenth ses servent d limiter une expression rationnelle Toutes les expressions suivantes sont quivalentes le lt A gt chat le lt A gt chat le lt A gt chat le lt A gt chat le lt A gt chat 45 Union L union d expressions rationnelles se fait en les s parant par le caract re L expression je tu il telle on tnous vous ils telles lt V gt reconna t un pronom suivi par un verbe Si l on veut rendre un l ment facultatif dans une expression il suffit de faire l union de cet l ment avec le mot vide epsilon Exemples le petit lt E gt chat reconna t les s quences le chat et le petit chat lt E gt franco anglais belge reconna t anglais belge franco anglais et franco belge 4 6 Etoile de Kleene L toile de Kleene repr sent e par le caract re permet de reconnaitre z ro une ou plu sieurs occurrences d une expression L toile doit tre plac e droite de l l ment concern L expression il fait tr s froid 4 7 FILTRES MORPHOLOGIQUES 57 reconna t il fait froid il fait tr s froid il fait tres tr s froid etc L toile est prioritaire sur les autres op rateurs Il faut utiliser les parenth ses po
199. ons d un tat sont cod es les unes la suite des autres Exemple une transition tiquet e par le caract re A pointant vers l tat dont la des cription d bute au 50106 octet sera repr sent e par la s quence hexad cimale 004100C3BA Par convention le premier tat de l automate est l tat initial 10 7 2 Fichiers inf Un fichier inf est un fichier texte d crivant les formes comprim es associ es un fi chier bin Voici un exemple de fichier inf 00000000064 _10 0 0 7 N4 PREP _3 PREP4 PREP _3 PREP4 1 1 N Hum mp 3er 1 N AN Hum fs La premi re ligne du fichier indique le nombre de formes comprim es qu il contient Chaque ligne peut contenir une ou plusieurs formes comprim es S il y a plusieurs formes celles ci doivent tre s par es par des virgules Chaque forme comprim e est form e d une s quence permettant de retrouver une forme canonique a partir d une forme fl chie suivie par la s quence de codes grammaticaux s mantiques et flexionnels associ s l entr e Le mode de compression de la forme canonique varie en fonction de la forme fl chie Si les deux formes sont exactement identiques la forme comprim e se r sume aux informa tions grammaticales s mantiques et flexionnelles comme c est le cas dans la ligne suivante N Hum ms Si les formes sont diff rentes le programme de compression d coupe les deux formes en unit s Ces unit s peuvent tre soit un
200. ont les suivants txtauto l automate du texte au format fst2 lang le fichier de configuration ELAG pour la langue consid r e rules le fichier de r gles compil es au format rul output l automate du texte de sortie dir ce param tre optionnel indique le r pertoire dans lequel se trouvent les r gles ELAG 9 8 ElagComp ElagComp r ruleslist g grammar 1 lang o output d rulesdir 152 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES Ce programme compile une grammaire ELAG dont le nom est grammar ou toutes les grammaires sp cifi es dans le fichier ruleslist Le resultat est stock dans un fichier output qui pourra tre utilis par le programme Elag ruleslist fichier listant des grammaires ELAG lang le fichier de configuration ELAG pour la langue consid r e output optionnel nom du fichier de sortie Par d faut le fichier de sortie est iden tique ruleslist sauf pour l extension qui est rul rulesdir ce param tre optionnel indique le r pertoire dans lequel se trouvent les r gles ELAG 9 9 Evamb Evamb imp exp o fstname n sentenceno Ce programme calcule un taux d ambiguit moyen sur tout l automate du texte f stname ou juste sur la phrase sp cifi e par sentenceno Si le param tre imp est sp cifi le pro gramme effectue le calcul sur une forme dite compacte de l automate dans laquelle les ambi guit s flexionnelles ne son
201. ormation que les lemmes eux m mes Si vous utilisez malgr tout un lemme dans un symbole il est recommand de pr ciser le plus possible ses traits syn taxiques s mantiques et flexionnels Par exemple avec les dictionnaires fournis pour le fran ais il est pr f rable de rempla cer des symboles comme lt je PRO 1s gt lt je PRO PpvIL 1s gt et lt je PRO gt par le sym bole lt PRO PpvIl 1s gt En effet tous ces symboles sont identiques dans la mesure o ils ne peuvent reconna tre que l unique entr e de dictionnaire je PRO PpvIL 1ms 1fs Cependant comme le programme ne peut pas d duire automatiquement cette information si l on ne pr cise pas tous ces traits le programme considerera en vain des tiquettes non existantes telles lt je PRO 3p gt lt je PRO PronQ etc 7 4 MANIPULATION DE L AUTOMATE DU TEXTE 135 7 4 Manipulation de l automate du texte 74 1 Affichage des automates de phrases Comme nous l avons vu pr c demment l automate d un texte est en r alit l ensemble des automates des phrases de ce texte Cette structure peut tre repr sent e gr ce au format fst2 utilis pour repr senter les grammaires compil es Cependant ce format ne permet pas d afficher directement les automates de phrases Il faut donc utiliser un programme Fst2Grf pour convertir un automate de phrase en un graphe pour qu il puisse tre affich Ce programme est appel automatiquement quand vous s lectionnez une phra
202. paces Comme un retour la ligne compte pour 2 caract res et l espace pour un seul il faut savoir o se trouvent les retours la ligne dans le texte si l on veut synchroniser les positions des occurrences calcul es par le programme Locate avec le fichier texte Le fichier enter pos est utilis cette fin par le programme Concord C est gr ce cela que lorsque l on clique sur une occurrence dans une concordance celle ci est correctement s lectionn e dans le texte Tous les fichiers produits sont sauvegard s dans le r pertoire du texte 9 31 Txt2Fst2 Txt2Fst2 texte alphabet clean norm Ce programme construit l automate du texte Le param tre texte doit repr senter le chemin d acc s complet au fichier texte sans omettre l extension snt Le param tre alphabet doit repr senter le chemin d acc s complet au fichier alphabet de la langue du texte Le para m tre optionnel clean indique au programme qu il doit appliquer le principe de conser vation des meilleurs chemins voir section 7 2 4 Si le param tre norm est pr cis il est interpr t comme le nom d une grammaire de normalisation appliquer l automate du texte Si le texte a t d coup en phrases le programme construit un automate pour chaque phrase Si ce n est pas le cas le programme d coupe arbitrairement le texte en s quences de 2000 unit s lexicales et construit un automate pour chacune de ces s quences Le r
203. pal de la grammaire explorer Les options suivantes concernent la gestion des sorties de la grammaire ainsi que le mode d exploration Ignore outputs les sorties sont ignor es Separate inputs and outputs les sorties sont affich es group es apr s les entr es b amp ABC Merge inputs and outputs chaque sortie est affich e imm diatement apr s l entr e qui lui correspond a A b B c C Only paths les appels aux sous graphes sont explor s r cursivement Do not explore subgraphs recursively les appels aux sous graphes sont affich s sans tre explor s r cursivement Sil option Maximum number of sequences est coch e le nombre sp cifi sera le nombre maximum de chemins g n r s Si l option n est pas s lectionn e tous les chemins seront g n r s 6 4 EXPLORATION DES CHEMINS D UNE GRAMMAIRE 97 Explore graph paths Graph D iMy UnitexiEnglish Graphsiglace grq Ignore outputs Separate inputs and outputs Merge inputs and outputs O T E Ontypaths Do not explore subgraphs recursively FIG 6 18 Exploration des chemins d une grammaire Voici ce que l on obtient pour le graphe de la figure 6 19 avec les param tres par d faut ignorer les sorties limite 100 chemins lt NB gt lt NB gt lt NB gt lt NB gt lt NB gt lt NB gt lt NB gt lt NB gt lt NB gt glace glace glace glace glace glace
204. pers gt lui elle moi en y o qui que quoi rien adjectifs mi E Il u ue lt genre gt lt nombre gt POS V inflex temps pers genre nombre complete W G C lt pers gt pour de bonne humeur A au bord des larmes A par exemple IJ KPS TWYGX 3 ll nSsrFAa F 2 f P lt nombre gt Pind Pdem PpvIL PpvLUI PpvLE Ton PpvPR PronQ Dnom Ppossls 7 3 LEVEE D AMBIGUITES LEXICALES AVEC ELAG lt pers gt lt pers gt lt pers gt lt pers gt lt pers gt lt pers gt lt nom lt nom lt nom lt nom lt nom lt nom bre gt bre gt bre gt bre gt bre gt bre gt ANKK KAW UD QG H YY S euss duss puiss fuss je 1 p 2 lt nombre gt lt genre gt lt nombre gt Le symbole indique que le reste de la ligne est en commentaire Un commentaire peut appara tre n importe quel endroit dans le fichier Le fichier commence toujours par le mot NAME suivi par un identifiant fran ais dans l exemple La suite du fichier est constitu e de sections POS pour Part Of Speech une pour chaque cat gorie grammaticale Chaque section d crit la structure des tiquettes des entr es lexicales appartenant la cat gorie grammaticale concern e Chaque section se compose de 4 parties qui sont toutes option nelles inflex cette partie num re les codes flexionnels relatifs la cat gorie gramma ticale Par exemple les codes 1 2 3 qui d
205. pertoire personnel de l utilisateur se nomme unitex et qu il se trouve dans son r pertoire racine SHOME Sous Windows il n est pas toujours possible d associer un r pertoire par d faut un utilisateur Pour rem dier cela Unitex cr e pour chaque utilisateur un fichier cfg contenant le chemin de son r pertoire per sonnel Ce fichier est sauvegard sous le nom login de l utilisateur cfgdansle sous r pertoire du syst me Unitex Users 10 10 FICHIERS DIVERS 181 ATTENTION CE FICHIER N EST PAS EN UNICODE ET LE CHEMIN DU REPER TOIRE PERSONNEL N EST PAS SUIVI PAR UN RETOUR LA LIGNE 10 10 Fichiers divers Pour chaque texte Unitex cr e plusieurs fichiers contenant des informations destin es tre affich e dans l interface graphique Cette section d crit ces diff rents fichiers 10 10 1 Fichiers dlf n dlc n et err n Ces trois fichiers sont des fichiers texte se trouvant dans le r pertoire du texte Ils contiennent respectivement les nombres de lignes des fichiers d1 dlc et err Ces nombres sont suivis par un retour a la ligne 10 10 2 Fichier stat_dic n Ce fichier est un fichier texte se trouvant dans le r pertoire du texte Il est form de trois lignes contenant les nombres de lignes des fichiers d1f d1c et err 10 10 3 Fichier stats n Ce fichier texte se trouve dans le r pertoire du texte et contient une ligne de la forme suivante 3949 sentence delimiters 169394 9428 diff tokens 73788
206. ption doit tre utilis e lorsque l on souhaite modifier le texte au lieu de construire une concordance Pour plus de d tails sur ces mode de tri voir la section 4 8 2 9 4 CONCORDIFF 149 mode indique sous quel format la concordance doit tre produite Les 4 modes pos sibles sont html produit une concordance au format HTML cod e en UTF 8 text produit une concordance au format texte unicode glossanet produit une concordance pour GlossaNet au format HTML Le fichier HTML produit est cod en UTF 8 nom_de_fichier indique au programme qu il doit produire une version modi fi e du texte et la sauver dans un fichier nomm nom_de_fichier voir section 6 7 3 alph fichier alphabet utilis pour le tri La valeur NULL indique l absence de fichier d alphabet thai ce param tre est facultatif Il indique au programme qu il manipule du texte tha Cette option est n cessaire au bon fonctionnement du programme sur des textes en tha Le r sultat de l application de ce programme est un fichier concord txt si la concor dance a t construite en mode texte un fichier concord html pour les modes html et glossanet et un fichier texte dont le nom a t d fini par l utilisateur si le programme a construit une version modifi e du texte En mode html l occurrence est cod e comme un lien La r f rence associ e ce lien est de la forme lt a href X Y Z gt X et Y repr sen
207. r red text decoration underline a green color green text decoration underline lt style gt lt head gt lt body gt 10 7 DICTIONNAIRES 173 lt h4 gt lt font color blue gt Blue lt font gt identical sequences lt br gt lt font color red gt Red lt font gt similar but different sequences lt br gt lt font color green gt Green lt font gt sequences that occur in only one of the two concordances lt br gt lt table border 1 cellpadding 0 style font family Courier new font size 12 gt lt tr gt lt td width 450 gt lt font color blue gt ed in ancient times lt u gt a large forest lt u gt covering the greater par lt font gt lt td gt lt td width 450 gt lt font color blue gt ed in ancient times lt u gt a largeforest lt u gt covering the greater par lt font gt lt td gt lt tr gt lt tr gt lt td width 450 gt lt font color green gt ge forest covering lt u gt the greater part lt u gt amp nbsp of the beautiful hills lt font gt lt td gt lt td width 450 gt lt font color green gt lt font gt lt td gt lt tr gt lt table gt lt body gt lt html gt 10 7 Dictionnaires La compression des dictionnaires DELAF par le programme Compress produit 2 fi chiers un fichier bin qui repr sente l automate minimal des formes fl chies du diction naire et un fichier inf qui contient les formes
208. ra consid r comme plus petit que estuaire lui m me plus petit que t Comme les lettres qui suivent e et permettaient de classer les mots on n a pas cherch comparer les lettres e et car elles sont du m me groupe En revanche si l on compare les mots chant s et chantes chantes sera consid r comme plus petit En effet il faut comparer les lettres e et pour distinguer ces mots Comme la lettre e appara t en premier dans le groupe e e s elle est consid r e comme inf rieure Le mot chantes sera donc consid r comme plus petit que le mot chant s Le fichier d alphabet de tri permet de d finir des quivalences de caract res On peut donc ignorer les diff rences de casse et d accent Par exemple si l on veut ordonner les lettres b c et d sans tenir compte de la casse ni de la c dille on peut crire les lignes suivantes Bb Carved Da Ce fichier est facultatif Lorsqu aucun alphabet de tri n est sp cifi au programme Sort Txt celui ci effectue un tri dans l ordre d apparition des caract res dans le codage Unicode 10 3 Graphes Cette section pr sente les deux formats de graphes le format graphique grf et le format compil fst2 10 3 1 Format grf Un fichier grf est un fichier texte contenant des informations de pr sentation en plus des informations repr sentant les contenus des boites et les transitions du graphe Un fichier grf commence par les lignes suivantes
209. rante Ce fichier a la syntaxe suivante l ordre des lignes peut varier Unitex configuration file of paumier for English Y Tue Jan 31 11 21 32 CET 20069 TEXT FONT NAME Courier New TEXT FONT STYLE 04 TEXT FONT SIZE 104 CONCORDANCE FONT NAME Courier new CONCORDANCE FONT HTML SIZE 124 INPUT FONT NAME Times New Roman INPUT FONT STYLE 04 INPUT FONT SIZE 104 OUTPUT FONT NAME Arial Unicode MS OUTPUT FONT STYLE 14 OUTPUT FONT SIZE 124 DATE trueY FILE NAME truefYf PATH NAME falseY FRAME trueq RIGHT TO LEFT falsef BACKGROUND COLOR 14 FOREGROUND COLOR 167772164 AUXILIARY NODES COLOR 32896514 COMMENT NODES COLOR 65536 10 9 FICHIERS DE CONFIGURATION 179 SELECTED NODES COLOR 167769614 PACKAGE NODES COLOR 23029764 CONTEXT NODES COLOR 16711936 CHAR BY CHAR falseY ANTIALIASING falseY HTML VIEWER Y MAX TEXT FILE SIZE 20971524 ICON BAR POSITION West PACKAGE PATH D repository Les deux premi res lignes sont des lignes de commentaires Les trois lignes suivantes indiquent le nom le style et la taille de la police utilis e pour afficher les textes les diction naires les unit s lexicales les phrases de l automate du texte etc Les param tres CONCORDANCE FONT NAME et CONCORDANCE FONT HTML SIZE d fi nissent le nom et la taille de la police a utiliser pour afficher les concordances en HTML La taille de la police doit tre comprise entre 1 et 7
210. rd html est un fichier html qui repr sente une concordance Ce fi chier est cod en UTF 8 Le titre de la page est le nombre d occurrences qu elle d crit Les lignes de la concor dance sont cod es par des lignes o les occurrences sont consid r es comme des liens hy pertextes La r f rence associ e chacun de ces liens est de la forme lt a href X Y Z gt X et Y repr sentent les positions de d but et de fin de l occurrence en caract res dans le fi chier nom_du_texte snt Z repr sente le num ro de la phrase dans laquelle apparait cette occurrence Tous les espaces sont cod s comme des espaces ins cables amp nbsp en HTML ce qui permet de conserver l alignement des occurrences m me si l une d elles se trouvant en d but de fichier a un contexte gauche compl t avec des espaces NOTE dans le cas d une concordance construite avec le param tre glossanet le fi chier HTML obtenu a la m me structure sauf en ce qui concerne les liens Dans ces concor dances les occurrences sont des liens r els renvoyant vers le serveur web de l application GlossaNet Pour plus d information sur GlossaNet consulter les liens sur le site web d Uni tex http www igm univ mlv fr unitex Voici un exemple de fichier lt html lang en gt Y4 lt head gt lt meta http equiv Content Type content text html charset UTF 8 gt lt title gt 6 matches lt title gt q 172 CHAPITRE 10 FORMATS DE FICHIERS
211. re utilis la place du r pertoire _snt utilis par d faut Le chemin du r pertoire doit se terminer par un s parateur de fichiers ou thai param tre optionnel n cessaire pour une recherche dans un texte tha 9 21 MERGETEXTAUTOMATON 157 space param tre optionnel indiquant au programme qu il peut d marrer les re cherches de motifs sur les espaces Ce param tre ne doit tre employ que pour effec tuer des recherches de motifs morphologiques Ce programme sauvegarde les r f rences des occurrences trouv es dans un fichier nomm concord ind Le nombre d occurrences le nombre d unit s couvertes par ces occurrences ainsi que le pourcentage d unit s reconnues dans le texte sont sauvegard s dans un fichier nomm concord n Ces deux fichiers sont sauvegard s dans le r pertoire du texte 9 21 MergeTextAutomaton MergeTextAutomaton automaton Ce programme reconstruit l automate du texte automaton en prenant en compte les modifications manuelles qui ont t faites Ainsi si le programme trouve un fichier sentenceN grf dans le m me r pertoire que automaton il va remplacer l automate de la phrase N par ce lui qui est repr sent par sentenceN grf Le fichier automaton est remplac par le nou vel automate du texte L ancien automate du texte est sauvegard dans un fichier nomm text fst2 bck 9 22 Normalize Normalize txt no_ CR Ce programme effectue une normalisation des s parat
212. recherche dans un texte avec ce graphe vous appliquerez ainsi simultan ment tous les graphes g n r s Le cadre Name of produced subgraphs permet de pr ciser le nom des graphes qui seront g n r s Afin d tre certain que tous les graphes auront des noms distincts il est conseill d utiliser la variable cette variable sera remplac e pour chaque entr e par le num ro de celle ci garantissant ainsi que tous les graphes auront un nom diff rent Par exemple si l on remplit ce cadre avec le nom TestGraph_ grf le graphe g n r partir de la 16 ligne sera nomm TestGraph_0016 grf Les figures 8 8 et 8 9 montrent deux graphes g n r s en appliquant le graphe param tr de la figure 8 3 la table 31H La figure 8 10 montre le graphe principal obtenu 144 CHAPITRE 8 LEXIQUE GRAMMAIRE Compile Lexicon Grammar to GRF Reference Graph in GRF format po Resulting GRF grammar Set Name of produced subgraphs FIG 8 7 Configuration de la g n ration automatique de graphes NO tre V ant le verbe n 7 ne v rifie pas la propri t de la colonne A FIG 8 8 Graphe g n r pour le verbe archaiser le verbe n 11 v rifie la propri t de la colonne A lt badauder V gt NO V vers N FIG 8 9 Graphe g n r pour le verbe badauder 8 2 CONVERSION D UNE TABLE EN GRAPHES 145 FIG 8 10 Graphe principal appelant tous les graphes g n r s 146
213. rmet galement de forcer le respect des espacements En effet Unitex considere par d faut qu un espace est possible entre deux bo tes Pour forcer la pr sence d un espace il faut le mettre entre guillemets Pour interdire la pr sence d un espace il faut utiliser le symbole sp cial Les graphes syntaxiques peuvent faire appel des sous graphes voir section 5 2 3 Ils g rent galement les sorties y compris les sorties variables Les s quences produites sont interpr t es comme des cha nes de caract res qui seront ins r es dans les concordances ou dans le texte si vous voulez modifier celui ci voir section 6 7 3 Les symboles sp ciaux support s par les graphes syntaxiques sont les m mes que ceux utilisables dans les expressions rationnelles voir section 4 3 1 Les graphes syntaxiques peuvent utiliser des contextes voir section 6 3 Il n est pas obligatoire de compiler les graphes syntaxiques avant de les utiliser pour la recherche de motifs Si un graphe n est pas compil le syst me le compilera automatique ment 6 1 6 Grammaires ELAG La syntaxe des grammaires de lev e d ambiguit s est pr sent e a la section 7 3 1 page 120 6 1 7 Graphes param tr s Les graphes param tr s sont des m ta graphes permettant de g n rer une famille de graphes partir d une table de lexique grammaire Il est possible de construire des graphes param tr s pour n importe quel type de graphe La construction et l
214. ropose galement de convertir automatiquement les graphes et dictionnaires qui ne sont pas en Unicode Little Endian 2 2 FORMAT DES TEXTES 17 D My Unitex English Corpusinovel txt is not a Unicode Little Endian one Do you want to transcode it from ENGLISH to Unicode Little Endian a Replace C Rename source with suffix old Eras ra a a FIG 2 2 Conversion automatique d un texte non Unicode Transcode Files Source encoding Destination encoding Replace 71 O Rename source with prefix Rename source with suffix 8 Name destination with prefix O Name destination with suffix Prefix suffix lunicode Selected files Add Files E My D A Sena ove Files E My Unitex FrenchiCorpusichimie txt E My UnitexFrenchiCorpuslessai txt Transcode FIG 2 3 Conversion de fichiers document au format Texte unicode Sous Office XP il faut choisir le format Texte brut txt et ensuite s lectionner le codage Unicode dans la fen tre de configuration pr sent e sur la figure 2 4 Par d faut le codage propos sur un PC est toujours Unicode Little Endian Les textes 18 CHAPITRE 2 CHARGEMENT D UN TEXTE Conversion de fichier Saving a document in Unicode txt xj Avertissement l enregistrement du fichier au format texte entra nera la perte de la mise en forme des images et des objets que contient le fichier Codage de texte C Windows par d
215. s l ments Par exemple le mot aftenblad signifiant journal du soir est obtenu en combinant les mots aften soir et blad journal Le programme PolyLex 44 explore la liste des mots inconnus apr s application des dictionnaires au texte et essaye d analyser chacun de ces mots comme un mot compos Si un mot poss de au moins une analyse il est retir de la liste des mots inconnus et les lignes de dictionnaires produites pour ce mot sont ajout es au dictionnaire des mots simples du texte 30 CHAPITRE 2 CHARGEMENT D UN TEXTE 2 6 Ouverture d un texte taggu Un texte taggu est un texte contenant des entr es lexicales entre accolades comme par exemple I do not like the square bracket N sign S De tels tags permettent de lever des ambiguit s en interdisant tout autre interpr tation Dans notre exemple on ne pourra pas reconnaitre square bracket comme combinaison de deux mots simples Toutefois la pr sence de ces tags peut perturber l application des graphes de pr traite ment L utilisateur dispose donc de la commande Open Tagged Text dans le menu Text gr ce laquelle il peut ouvrir un texte contenant des tags sans que les graphes de pr traite ments ne soient appliqu s comme on le voit sur la figure 2 14 Preprocessing amp Lexical parsing x Preprocessing Sentence and Replace graphs should not be applied on tagged texts The text is automatically tokenized This operation is language d
216. s 120 de normalisation de formes non ambigu s 23 86 de l automate du texte 87 ELAG 88 ensembles de 125 formalisme 65 hors contexte 65 locales 88 Graphe alignement des bo tes 79 antialiasing 78 83 appel un sous graphe 69 approximation par un transducteur tats finis 89 153 INDEX commentaire dans un 67 compilation 89 155 cr ation d une boite 67 d tection d erreurs 93 155 de flexion 85 dictionnaire 88 format 163 impression 84 inclusion dans un document 84 Intex 66 param tr 88 140 patron 159 pr sentation 78 pr sentation polices et couleurs 81 relier des boites 67 sauvegarde 68 suppression de boites 73 syntaxique 88 types de 85 variables dans un 74 zoom 78 Graphes dictionnaires 45 Grille 80 Importer un graphe Intex 66 Imprimer un automate de phrase 137 un graphe 84 Inclure un graphe dans un document 84 Informations flexionnelles 32 grammaticales 32 s mantiques 32 Installation sous Linux et MacOS 12 sous Windows 12 Java Runtime Environment 11 Jeu d tiquettes ELAG 127 JRE 11 Kleene voir Etoile de Kleene LADL 9 31 139 Langages alg briques 66 Lev e d ambiguit s 122 215 Lev e d ambiguit s lexicales 120 Lexique grammaire 139 LGPL 11 191 LGPLLR 11 201 Licence GPL 11 183 LGPL 11 191 LGPLLR 201 Limiter les branches alors 133 Longest matches 59 105 156 M tas 22 52 76 Machine virtuelle Java 11 Ma
217. s et alph txt est le fichier alphabet utilis Topo bin Regions bin PR fst2 D mr States bin 3 6 2 R gles d application des dictionnaires Outre la r gle de priorit s l application des dictionnaires s effectue en respectant les majuscules et les espaces La r gle du respect des majucules est la suivante s il y a une majuscule dans le dictionnaire alors il doit y avoir une majuscule dans le texte s il y a une minuscule dans le dictionnaire il peut y avoir soit une minuscule soit une majuscule dans le texte Ainsi l entr e pierre N fs reconnaitra les mots pierre Pierre et PIERRE alors que Pierre N Pr nom ne reconnaitra que Pierre et PIERRE Les lettres minuscules et majuscules sont d finies par le fichier alphabet pass en param tre au programme Dico Le respect des espacements est une r gle tr s simple pour qu une s quence du texte soit reconnue par une entr e de dictionnaire elle doit avoir exactement les m mes espaces Par exemple si le dictionnaire contient aujourd hui ADV la s quence Aujourd hui ne sera pas reconnue cause de l espace qui suit l apostrophe 3 6 3 Graphes dictionnaires Le programme Di co est capable d appliquer des graphes dictionnaires Il s agit de graphes qui respectent la r gle suivante si on les applique avec le programme Locate en mode MERGE ils doivent produire des s quences correspondant des lignes de DELAF 46 CHAP
218. s 181 199 2000 2 5 2 17 Anibale ELIA Le verbe italien Les compl tives dans les phrases un compl ment Schena Nizet Fasano Paris 1984 8 1 18 Anibale ELIA Lessico grammatica dei verbi italiani a completiva Tavole e indice generale Liguori Napoli 1984 8 1 19 Anibale ELIA and Simoneta VIETRI Electronic dictionaries and linguistic analysis of italian large corpora In Actes des 5es Journ es internationales d Analyse statistique des Donn es Textuelles Ecole Polytechnique f d rale de Lausanne 2000 3 7 20 Anibale ELIA and Simoneta VIETRI L analisi automatica dei testi e i dizionari elettro nici In E Burattini and R Cordeschi editors Manuale di Intelligenza Artificiale per le Scienze Umane Roma Carocci 2002 3 7 21 Jacqueline GIRY SCHNEIDER Les nominalisations en fran ais L op rateur faire dans le lexique Droz Gen ve Paris 1978 8 1 22 Jacqueline GIRY SCHNEIDER Les pr dicats nominaux en fran ais Les phrases simples verbe support Droz Gen ve Paris 1987 8 1 23 GNU General Public License http www gnu org licenses gpl html 1 1 10 10 4 24 GNU Lesser General Public License http www gnu org licenses 1gp1 html 1 1 10 10 4 25 Gaston GROSS Les expressions fig es en francais Ophrys Paris 1996 3 7 26 Maurice GROSS M thodes en syntaxe Hermann Paris 1975 8 1 27 Maurice GROSS Grammaire transformationnelle du francais 3 Syntaxe de l adverbe ASS TRIL
219. s Less to protect the user s freedom than the ordinary General Public License It also provides other free software developers Less of an advantage over competing non free programs These disadvantages are the reason we use the ordinary General Public License for many libraries However the Lesser license provides advantages in certain special circumstances For example on rare occasions there may be a special need to encourage the widest possible use of a certain library so that it becomes a de facto standard To achieve this non free programs must be allowed to use the library A more frequent case is that a free library does the same job as widely used non free libraries In this case there is little to gain by limiting the free library to free software only so we use the Lesser General Public License In other cases permission to use a particular library in non free programs enables a greater number of people to use a large body of free software For example permission to use the GNU C Library in non free programs enables many more people to use the whole GNU operating system as well as its variant the GNU Linux operating system Although the Lesser General Public License is Less protective of the users freedom it does ensure that the user of a program that is linked with the Library has the freedom and the wherewithal to run that program using a modified version of the Library The precise terms and conditions for copying distribut
220. s devez indiquer le chemin d acc s com plet ce fichier car Unitex s en sert pour d terminer sur quel texte la concordance doit tre calcul e font nom de la police de caract res utiliser si la concordance doit tre produite au format HTML Si la concordance n est pas au format HTML ce param tre est ignor fontsize taille de la police si la concordance est au format HTML Comme le para m tre font celui ci est ignor si la concordance n est pas au format HTML left nombre de caract res du contexte gauche des occurrences En mode thai il s agit du nombre de caract res non diacritiques right nombre de caract res du contexte droit non diacritiques dans le cas du thai Si l occurrence a une longueur inf rieure cette valeur la ligne de concordance est compl t e pour que le contexte droit ait une longueur gale right Si l occurrence a une longueur de plus de right caract res elle est n anmoins affich e en entier order indique le mode de tri utiliser pour ordonner les lignes de la concordance Les valeurs possibles sont TO ordre dans lequel les occurrences apparaissent dans le texte LC contexte gauche occurrence LR contexte gauche context droit CL occurrence contexte gauche CR occurrence contexte droit RL contexte droit contexte gauche RC contexte droit occurrence NULL ne pr cise aucun ordre de tri Cette o
221. s les pr fixes et suffixes communs sont factoris s Par exemple l automate minimal des mots me te se ma ta et sa peut tre repr sent par le graphe de la figure 3 8 FIG 3 8 Repr sentation d un exemple d automate minimal Pour comprimer un dictionnaire ouvrez le puis cliquez sur Compress into FST dans le menu DELA La compression est ind pendante de la langue et du contenu du dictionnaire Les messages produits par le programme sont affich s dans une fen tre qui ne se ferme pas automatiquement Vous pouvez ainsi voir la taille du fichier bin obtenu le nombre de 44 CHAPITRE 3 DICTIONNAIRES lignes lues ainsi que le nombre de codes flexionnels produits La figure 3 9 montre le r sultat de la compression d un dictionnaire de mots simples 73 completed Binary file 859660 bytes 156915 lines read 24205 INF entries created 78724 states 127271 transitions FIG 3 9 R sultat d une compression A titre indicatif les taux de compression g n ralement observ s sont d environ 95 pour les dictionnaires de mots simples et 50 pour ceux de mots compos s 3 6 Application de dictionnaires Unitex peut manipuler soit des dictionnaires compress s bin soit des graphes dic tionnaires fst 2 Ces dictionnaires peuvent tre appliqu s soit lors du pr traitement soit explicitement en cliquant sur Apply Lexical Resources dans le menu Text Nous allons maintenant d tailler les
222. s mots inconnus sont plac s dans le r pertoire du texte On ap pelle dictionnaires du texte les fichiers d1f et dlc Une fois l application des dictionnaires effectu e Unitex pr sente par ordre alphab tique les mots simples compos s et inconnus trouv s dans une fen tre La figure 2 12 montre les r sultats pour un texte frangais Word Lists in E My UnitexiFrenchiCorpusiLa peau de chagrin_snt DLF 18456 simple word lexical entries ERR 314 unknown simple words a N 21 ms mp PREP 21 a XI 21 a avoir V 21 P3s a N PR Hyd ms aa N 23 m3 mp abaissa abaisser V 21 J35 abaissait abaisser V 21 13 4 abaissent abaisser V 21 P3p abaiss rent abaisser V z1 abandon N 21 ms abandonna ab DLC 1179 compound lexical entries bas prix aDV PaCc z21 bon compte ADV PAC 21 ces mots ADV PDETC 21 chaque instant ADV PDETQ coups de PREP PCDN 21 d faut de PREP PCDN 21 d faut de d faut PREP F d faut ADV Advconjs 4 deux ADV PC 21 distance ADV PC 21 fond ADV PC 21 force de force alia FIG 2 12 R sultats de l application de dictionnaires sur un texte francais Il est galement possible d appliquer des dictionnaires en dehors du pr traitement du texte Pour cela il faut cliquer sur Apply Lexical Resources dans le menu Text Unitex affiche alors une fen tre voir figure 2 13 qui permet de choisir la liste des dictionnaires appliquer La liste User resources
223. s sorties remplacent les s quences lues dans le texte En mode MERGE les sorties sont ins r es gauche des s quences reconnues Consid rons le transducteur de la figure 6 22 Aq FIG 6 22 Exemple de transducteur 100 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Si l on applique ce transducteur au roman Ivanhoe de Sir Walter Scott en mode MERGE on obtient la concordance suivante de la figure 6 23 Concordance D My UnitexEnglish Corpus ivanhoe_snticoncord html 8 Enable links Allow concordance edition of pointed beans which the Adj adjacent forest supplied defe f the outlaws with whom the Adj adjacent forest abounded or b es may be still seen in the di antique Colleges of Oxford or insolence fellow said the Adj armed rider breaking in on hi an 5 take a turn round the Adj back o the hill to gain the w ring the greater part of the Adj beautiful hills and valleys wh mantle and hood were of the Adj best Flanders cloth and fell dest wine cask 5 place the Adj best mead the mightiest ale Then sad relief from the Adj bleak coast that hears The Ger e bring to the shrine of the Ad Blessed Virgin Well you ha the son of Beowulph is the Adj born thrall of Cedric of Rothe FIG 6 23 Concordance obtenue en mode MERGE avec le transducteur de la figure 6 22 6 6 2 Application en avan ant Pendant les op rations de pr traitement le texte est modifi au fur et mesure qu
224. s suivantes E mc2 FORMULE grand m re N fs et que l on applique ce dictionnaire au texte Ma grand m re m a expliqu la formule E mc2 on obtiendra les lignes suivantes dans le dictionnaire de mots compos s du texte E mc2 FORMULE grand m re N fs Factorisation d entr es Plusieurs entr es ayant les m mes formes fl chie et canonique peuvent tre regroup es en une seule condition qu elle aient les m mes codes grammaticaux et s mantiques Cela permet entre autres de regrouper des conjugaisons identiques pour un m me verbe glace glacer V z1 Pl1s P3s S1s S3s Y2s 34 CHAPITRE 3 DICTIONNAIRES Si les informations grammaticales et s mantiques diff rent il faut cr er des entr es dis tinctes glace N z1 fs glace glacer V z1 P1s P3s Sl1s S3s Y2s Certaines entr es ayant les m mes codes grammaticaux et s mantiques peuvent avoir des sens diff rents comme c est le cas pour le mot po le qui d signe un appareil de chauffage ou un voile au masculin et un instrument de cuisine au f minin On peut donc distinguer les entr es dans ce cas po le N z1 fs po le frire po le N z1 ms voile linceul appareil de chauffage NOTE dans la pratique cette distinction n a pas d autre cons quence qu une augmenta tion du nombre d entr es du dictionnaire Les diff rents programmes qui composent Unitex donneront exactement les m mes r sultats si l on fusionne ces entr es en po le
225. s unit s n est ni un espace ni un tiret la forme comprim e est compos e du nombre de caract res retrancher suivi de la s quence de caract res ajouter Ainsi la ligne de dictionnaire premi re partie premier parti N AN Hum fs est cod e par la ligne 3er 1 N AN Hum fs Le code 3er indique que l on doit retrancher 3 caract res la s quence premi re et lui ajouter les caract res er pour obtenir premier Le 1 indique que l on doit simplement reti rer un caract re partie pour obtenir la s quence parti Le nombre 0 est utilis lorsqu on veut indiquer que l on ne doit supprimer aucun caract re 10 7 3 Fichier CHECK _DIC TXT Ce fichier est produit par le programme de v rification de dictionnaire CheckDic Il s agit d un fichier texte qui donne des informations sur le dictionnaire analys et se d com pose en 4 parties La premi re partie donne la liste ventuellement vide de toutes les erreurs de syntaxe trouv es dans le dictionnaire absence de la forme fl chie ou de la forme canonique absence de code grammatical ligne vide etc Chaque erreur est d crite par le num ro de la ligne concern e un message d crivant la nature de l erreur ainsi que le contenu de la ligne Voici un exemple de message Line 12451 no point found jardin N ms 176 CHAPITRE 10 FORMATS DE FICHIERS Les deuxi me et troisi me parties donnent respectivement les listes de codes gramma ticaux et ou s mantiques et fl
226. sation des variables 5 28 Coplede stes 4 64 50 4 04 5 2 9 Symbolessp ciaux i due 5 2 10 5 9 1 5 3 2 5 3 3 5 3 4 5 3 5 Commandes de la barre d ic nes Options de pr sentation Tri des lignes d une bo te LOO e e ok oe BRE Re eR Antalasing os es seemai Alignement des bo tes Pr sentation polices et couleurs Les graphes en dehors d Unitex 5 4 1 Inclusion d un graphe dans un document TABLE DES MATI RES TABLE DES MATIERES 5 5 4 2 Impression d un graphe 2 2 6S eee Sd be Bee EEG Eee 84 6 Utilisation avanc e des graphes 85 61 Lestypes de AMIENS o ns ES ed Era pa SE RATER RTE 85 DEL Graphesde A ee kos doa ata ae perse 85 612 EPs de D S Levis yes me eue Pb es 86 6 13 Graphes de normalisation de l automate du texte 87 614 Graphesdictionnaires 12 due bn OTE ES OY OY 88 Glo Sees Sy eae ee ok s BS ERE KAREN ERE OES ES 88 61 6 Grammaires ELAG 4 3 44 eb ue ewe eee dre de ew 88 Oils Graphes PAS iem s somme ERS Eee KE Sie 88 6 2 Compiler Une grammaire lt lt oe pate da we De ae 89 621 Compilation d un graph lt s eres ede stress 89 6 2 2 Approximation par un transducteur tats finis 89 6 2 3 Contraintes sur les grammaires ssi seen ue a aoi ee 90 6 2 4 D tection d erreurs 93 Ga Commeres eas eo ew ew wee Ee a OO A De due e 94 6 4 Exploration des chemins d une
227. se pour g n rer le fichier grf correspondant Les fichiers grf g n r s ne sont pas interpr t s de la m me mani re que les fichiers grf qui repr sentent des graphes construits par l utilisateur En effet dans un graphe nor mal les lignes d une bo te sont s par es par le symbole Dans un graphe de phrase chaque bo te est soit une unit lexicale sans tiquette soit une entr e de dictionnaire encadr e par des accolades Si la bo te ne contient qu une unit sans tiquette celle ci appara t seule dans la bo te Si la bo te contient une entr e de dictionnaire la forme fl chie est affich e suivie de sa forme canonique si celle ci est diff rente Les informations grammaticales et flexionnelles sont affich es sous la bo te comme dans les transductions La figure 7 23 montre le graphe obtenu pour la premi re phrase d Ivanhoe Les mots Ivanhoe Walter et Scott sont consid r s comme des mots inconnus Le mot by corres pond deux entr es dans le dictionnaire Le mot Sir correspond galement deux entr es du dictionnaire mais comme la forme canonique de ces entr es est sir elle est affich e puisqu elle diff re de la forme fl chie par une minuscule V W Pls P2s Plp P2p P3p FIG 7 23 Automate de la premi re phrase d Ivanhoe 7 4 2 Modifier manuellement l automate du texte Il est possible de modifier manuellement les automates de phrase sauf ceux qui appa raissent dans le cadre r serv
228. ser General Public License For Linguistic Resources Cette licence a t labor e par l Universit de Marne la Vall e et a obtenu l approbation de la Free Software Foundation 1 Preamble The licenses for most data are designed to take away your freedom to share and change it By contrast this License is intended to guarantee your freedom to share and change free data to make sure the data are free for all their users This license the Lesser General Public License for Linguistic Resources applies to some specially designated linguistic resources typically lexicons grammars thesauri and textual corpora TERMS AND CONDITIONS FOR COPYING DISTRIBUTION AND MODIFICATION 0 This License Agreement applies to any Linguistic Resource which contains a notice placed by the copyright holder or other authorized party saying it may be distributed under the terms of this Lesser General Public License for Linguistic Resources also called this License Each licensee is addressed as you A linguistic resource means a collection of data about language prepared so as to be used with application programs The Linguistic Resource below refers to any such work which has been distributed under these terms A work based on the Linguistic Resource means either the Lin guistic Resource or any derivative work under copyright law that is to say a work containing the Linguistic Resource or a portion of it either verbatim or with mod
229. spondent aux utilisations suivantes flexion automatique de dictionnaires pr traitement des textes normalisation des automates de texte graphes dictionnaires recherche de motifs lev e d ambiguit s et g n ration automatique de graphes Ces diff rents types de graphes ne sont pas interpr t s de la m me fa on par Unitex Certaines choses comme les sorties sont permises pour certains types et interdites pour d autres De plus les symboles sp ciaux ne sont pas les m mes en fonction du type de graphe Cette section pr sente donc chacun des types de graphes en d taillant leurs particularit s 6 1 1 Graphes de flexion Un graphe de flexion d crit les variations morphologiques associ es une classe de mots en associant chaque variante des codes flexionnels Les chemins d un tel graphe d crivent les modifications appliquer aux formes canoniques tandis que les sorties contiennent les informations flexionnelles qui seront produites matrix matrices FIG 6 1 Exemple de grammaire de flexion 85 86 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Les chemins peuvent contenir des op rateurs et des lettres Les op rateurs possibles sont repr sent s par les caract res L R C et D Les lettres sont tous les caract res qui ne sont pas des op rateurs Le seul symbole sp cial autoris est le mot vide lt E gt Il n est pas possible de faire r f rence aux dictionnaires dans un graphe de flexion Il est cep
230. sque lexical 51 52 Matrices 139 MERGE 23 45 99 105 155 156 170 Modification du texte 106 148 Modifier le texte 60 Motif 52 Mots compos s 27 52 avec espace ou tiret 33 libres 29 libres en allemand 157 libres en norv gien 157 libres en russe 157 inconnus 28 54 simples 26 52 N gation 54 N gation de motif 54 Navigateur web 61 106 Nom de variable 74 Normalisation de formes ambigu s 87 114 160 de formes non ambigu s 23 de l automate du texte 87 114 160 des clitiques en portugais 114 158 des s parateurs 20 157 Norv gien mots compos s libres en 157 Occurrences extraction 107 nombre d 59 105 156 Op rateur 216 C 40 86 D 40 86 L 40 86 R 40 86 de concat nation 56 de disjonction 56 de Kleene 56 Optimisation des grammaires ELAG 133 Parenth ses 56 Pixellisation 78 Point de synchronisation 121 Polices configuration des 81 Portugais normalisation des clitiques 114 158 POSIX 57 Pr f rences 82 Priorit a gauche 100 aux s quences les plus longues 101 des dictionnaires 44 Programme externe Elag 122 126 127 178 ElagComp 127 133 ConcorDiff 108 Programmes externes ElagComp 122 CheckDic 36 147 175 Compress 33 43 147 173 ConcorDiff 149 Concord 148 Convert 149 Dico 28 45 88 151 Elag 151 ElagComp 151 Evamb 152 ExploseFst2 152 Extract 152 Flatten 89 153 Fst2Grf 135 153 169 Fst2List 153 Fst2Txt
231. suivant et pr c dent En cas de concurrence entre un mot compos et une s quence de mots simples l au tomate contient un chemin tiquet par le mot compos parall le aux chemins exprimant les combinaisons de mots simples Ceci est illustr e par la figure 7 2 o le mot compos courts of law est concurrent avec une combinaison de mots simples Par construction l automate du texte ne contient pas de boucle On dit que l automate du texte est acyclique NOTE le terme automate du texte est un abus de langage En effet il y a en r alit un automate pour chaque phrase du texte Cependant la concat nation de tous ces automates correspondrait l automate de tout le texte On utilise donc le terme automate du texte m me si l on ne manipule pas r ellement cet objet pour des raisons pratiques 111 112 CHAPITRE 7 AUTOMATE DU TEXTE 2344 sentences Here haunted of yore the fabulous Dragon of Wantle Sentence FIG 7 1 Exemple d automate de phrase 7 2 Construction Pour construire l automate d un texte vous devez ouvrir ce texte puis cliquer sur Construct FST Text dans le menu Text Il est recommand d avoir d coup le texte en phrases et de lui avoir appliqu les dictionnaires Si vous n avez pas d coup le texte en phrases le programme de construction d coupera arbitrairement le texte en s quences de 2000 unit s lexicales au lieu de construire un automate par phrase Si vous n avez p
232. sultat est un fichier nomm text fst2 qui est sauvegard dans le r pertoire du texte Chapitre 10 Formats de fichiers Ce chapitre pr sente les formats des diff rents fichiers lus ou g n r s par Unitex Les formats des dictionnaires DELAS et DELAF sont d ja pr sent s aux sections 3 1 1 et 3 1 2 NOTE dans ce chapitre le symbole Y repr sentera le retour la ligne Sauf indication contraire tous les fichiers texte d crits dans ce chapitre sont cod s en Unicode Little Endian 10 1 Codage Unicode Little Endian Tous les fichiers textes manipul s par Unitex doivent tre en Unicode Little Endian Ce codage permet de repr senter 65536 caract res en les codant chacun sur 2 octets En Little Endian les octets sont dans l ordre poids faible poids fort Quand cet ordre est invers on parle de codage Big Endian Un fichier texte cod en Unicode Little Endian commence par le caract re sp cial de valeur hexad cimale FEFF Les retours a la ligne doivent tre cod s par les deux caract res 000D et 000A Consid rons le texte suivant Unitex B version Voici la repr sentation en Unicode Little Endian de ce texte en t te U n i t e x q B FFFE 5500 6E00 6900 7400 6500 7800 0D000A00 B203 v e r s i o n q 2D00 7600 6500 7200 7300 6900 6F00 6E00 0D000A00 TAB 10 1 Repr sentation hexad cimale d un texte Unicode 161 162 CHAPITRE
233. t 22 86 33 141 141 A 35 ADV 35 211 Abst 35 Anl 35 AnlColl 35 C 36 40 86 CONJC 35 CONJS 35 CheckDic 36 147 175 Compress 33 43 147 173 Conc 35 ConcCol1 35 ConcorDiff 108 149 Concord 148 Convert 149 D 40 86 DET 35 Dico 28 45 88 151 Elag 151 ElagComp 151 Evamb 152 ExploseFst2 152 Extract 152 F 36 Flatten 89 153 Fst2Grf 135 153 169 Fst2List 153 Fst2Txt 23 24 154 Fst2Unambig 137 155 G 36 Grf2Fst2 89 155 Hum 35 HumCo11 35 I 36 INTJ 35 ImploseFst2 156 Inflect 42 156 J 36 K 36 212 L 40 86 Locate 45 47 156 170 MergeTextAutomaton 157 N 35 Normalize 147 157 P 36 PREP 35 PRO 35 PolyLex 29 157 R 40 86 Reconstrucao 118 158 Reg2Grf 158 S 36 SortTxt 38 158 163 T 36 Table2Grf 159 TagsetNormFst2 159 TextAutomaton2Mft 159 Tokenize 26 159 Txt2Fst2 160 V 35 W 36 Y 36 02 51 102 Maroa 33 _ 74 en 35 36 1 30 m 36 n 36 ne 35 p 36 s 36 se 35 E 30 z1 35 z2 35 23 099 STOP 52 58 S 22 55 157 160 168 181 Ajout de nouvelles langues 13 INDEX Alignement des boites 79 All matches 59 105 156 Alphabet 23 149 155 156 159 160 162 de tri 38 163 Analyse des mots compos s libre en alle mand 157 Analyse des mots compos s libre en nor v gien 157 Analyse des mots compos s libre en russe 157
234. t tre syst matiquement d crites car il est impossible de pr voir le comportement pr cis d un verbe Ces descrip tions syst matiques sont repr sent es au moyen de matrices o les lignes correspondent aux verbes et les colonnes aux propri t s syntaxiques Les propri t s consid r es sont des propri t s formelles telles que le nombre et la nature des compl ments admis par le verbe et les diff rentes transformations que ce verbe peut subir passivation nominalisation extra position etc Les matrices plus souvent appel es tables sont binaires un signe appara t l intersection d une ligne et d une colonne d une propri t si le verbe v rifie la propri t un signe sinon Ce type de description a galement t appliqu aux adjectifs 37 aux noms pr dicatifs 1211 22 aux adverbes 27 39 ainsi qu aux expressions fig es et ce dans plusieurs langues 10 17 18 42 43 45 48 49 50 La figure 8 1 montre un exemple de table de lexique grammaire Cette table concerne les verbes admettant un compl ment num rique 139 140 CHAPITRE 8 LEXIQUE GRAMMAIRE Y Table32NM xls _ Of x E Z 2 a Y Exemple Z gt Ti r accepter 1 Cesalon accepte vingt personnes avoir accueillir le l CesalonSaccueillegvingt personnes avoir accuser ll J i le l Maxgaccuseg80 kilos avoir
235. t d ins rer les s quences produites par les sorties Le mode Replace recognized sequences permet de remplacer les s quences reconnues par les s quences pro duites Le troisi me mode ignore les sorties Ce dernier mode est utilis par d faut Une fois vos param tres fix s cliquez sur SEARCH pour lancer la recherche 6 7 2 Concordance Le r sultat de la recherche est un fichier d index contenant les positions de toutes les oc currences trouv es La fen tre de la figure 6 31 vous propose de construire une concordance de modifier le texte ou de comparer le r sultat de la recherche a la recherche pr c dente sur le m me texte Pour afficher une concordance vous devez cliquer sur le bouton Build concordance Vous pouvez param trer la taille des contextes gauche et droit en caract res Vous pouvez galement choisir le mode de tri qui sera appliqu aux lignes de la concordance grace au menu Sort According to Pour plus de d tails sur les param tres de construction de la concordance reportez vous la section 4 8 2 106 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Locate Pattern Locate pattern in the form of Regular expression ei Graph set Index Grammar outputs Shortest matches Are not taken into account Longest matches gt Merge with input text gt All matches O Replace recognized sequences Search limitation Stop after 200 acne SEARCH O
236. t judgment or allegation of patent infringement or for any other reason not limited to patent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do not excuse you from the conditions of this License If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other pertinent obligations then as a consequence you may not distribute the Linguistic Resource at all For example if a patent license would not permit royalty free redistribution of the Linguistic Resource by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Linguistic Resource If any portion of this section is held invalid or unenforceable under any particular circumstance the balance of the section is intended to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other pro perty right claims or to contest validity of any such claims this section has the sole purpose of protecting the integrity of the free resource distribution system which is implemented by public license practices Many people have made generous contribu tions to the wide range of data distributed through that system in reliance on consistent application of
237. t pas prises en compte Si c est le param tre exp qui est sp cifi toutes les ambiguit s flexionnelles sont consid r es on parle alors de la forme d velopp e de l automate du texte Ainsi l entr e aimable A ms fs ne comptera qu une seule fois avec imp et deux fois avec exp Les r sultats du calcul sont affich s sur la sortie standard L automate du texte n est pas modifi par ce programme 9 10 ExploseFst2 ExploseFst2 txtauto o out Ce programme calcule et stocke dans out la forme d velopp e de l automate de texte txtauto 9 11 Extract Extract yes no texte concordance resultat Ce programme prend en param tre un texte et un fichier de concordance Si le premier param tre vaut yes le programme extrait de ce texte toutes les phrases qui contiennent au moins une des occurrences de la concordance Si ce param tre vaut no le programme extrait toutes les phrases qui ne contiennent aucune des occurrences Le param tre texte doit repr senter le chemin d acc s complet au fichier texte sans omettre l extension snt Le param tre concordance doit repr senter le chemin d acc s complet au fichier de concordance sans omettre l extension ind 9 12 FLATTEN 153 Le param tre resultat repr sente le nom du fichier dans lequel seront sauv es les phrases extraites Le fichier resultat est un fichier texte contenant toutes les phrases extraites raison d une phrase par ligne 9 12 Flatten Fla
238. t z1 N Hum gt lt Hum z1 N gt NOTE il n est pas possible d utiliser un masque n ayant que des codes interdits lt N gt et lt A z1 gt sont donc des masques incorrects Il est toutefois possible d exprimer de telles contraintes en utilisant des contextes voir section 6 3 4 3 4 Contraintes flexionnelles On peut galement sp cifier des contraintes portant sur les codes flexionnels Ces contraintes doivent obligatoirement tre pr c d es par au moins un code grammatical ou s mantique Elles se pr sentent comme les codes flexionnels pr sents dans les dictionnaires Voici quelques exemples de masques lexicaux utilisant des contraintes flexionnelles lt A m gt reconna t un adjectif au masculin lt A mp f gt reconna t un adjectif qui est soit au masculin pluriel soit au f minin 54 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES lt V 2 3 gt reconna t un verbe la 2 ou 3 personne cela exclut tous les temps qui n ont ni 2 ni 3 personne infinitif participe pass et participe pr sent ainsi que les temps conjugu s a la premi re personne Pour qu une entr e de dictionnaire E soit reconnue par un masque M il faut qu au moins un code flexionnel de E contienne tous les caract res d un code flexionnel de M Consid rons l exemple suivant E s pare s parer V z1 P1s P3s S1s S3s Y2s M lt V P2s Y2 gt Aucun code flexionnel de E ne contient la fois les car
239. tent issues conditions are imposed on you whether by court order agreement or otherwise that contradict the conditions of this License they do not excuse you from the conditions of this License If you cannot distribute so as to satisfy simultaneously your obligations under this License and any other per tinent obligations then as a consequence you may not distribute the Program at all For example if a patent license would not permit royalty free redistribution of the Program by all those who receive copies directly or indirectly through you then the only way you could satisfy both it and this License would be to refrain entirely from distribution of the Program If any portion of this section is held invalid or unenforceable under any particular circumstance the balance of the section is intended to apply and the section as a whole is intended to apply in other circumstances It is not the purpose of this section to induce you to infringe any patents or other pro perty right claims or to contest validity of any such claims this section has the sole purpose of protecting the integrity of the free software distribution system which is implemented by public license practices Many people have made generous contri butions to the wide range of software distributed through that system in reliance on consistent application of that system it is up to the author donor to decide if he or 10 10 FICHIERS DIVERS 187 10 11 12 she is w
240. tent les positions de d but et de fin de l occurrence en caract res dans le fichier nom_du_texte snt Z repr sente le num ro de la phrase dans laquelle appara t l occurrence 9 4 ConcorDiff ConcorDiff concorl concor2 out font size Ce programme prend 2 fichiers de concordance et produit une page HTML montrant les diff rences entre ces 2 concordances voir section 6 7 5 page 108 Les param tres sont les suivants concorl et concor2 fichiers de concordance ind Les noms des fichiers doivent tre absolus car Unitex en d duit le texte sur lequel elles ont t calcul es out page HTML de sortie font police utiliser dans le page HTML de sortie size taille de police utiliser dans le page HTML de sortie 95 Convert Convert src dest mode text_1 text_2 text_3 Ce programme permet de changer le codage de fichiers texte Le param tre src indique le codage d entr e Le param tre optionnel dest indique le codage de sortie Par d faut le 150 CHAPITRE 9 UTILISATION DES PROGRAMMES EXTERNES codage de sortie est LITTLE ENDIAN Les valeurs possibles pour ces param tres sont les suivantes FRENCH ENGLISH GREEK THAI CZECH GERMAN SPANISH PORTUGUESE ITALIAN NORWEGIAN LATIN page de codes latine par d fault windows 1252 page de codes Microsoft Windows 1252 Latin I Europe de l ouest z USA windows 1250 page de codes Microsoft Windows 1250 Europe centrale
241. textes Par exemple le graphe de la figure 6 16 recon na t un nombre qui n est pas suivi par un point sauf si ce point est suivi par un nombre Ainsi dans le texte 5 0 7 12 ce graphe reconnaitra 5 0 et 12 96 CHAPITRE 6 UTILISATION AVANCEE DES GRAPHES Haj H te FIG 6 16 Imbrication de contextes Les sorties qui se trouvent dans des bo tes l int rieur d un contexte sont ignor es En revanche il est possible d utiliser une variable qui a t d finie dans un contexte comme c est le cas sur la figure 6 17 Si l on applique ce graphe en mode MERGE au texte the cat is white on obtient en sortie the lt pet name cat color white gt is white me __ a green m u color C gt EH 7 lt pet name FIG 6 17 Variable d finie dans un contexte 6 4 Exploration des chemins d une grammaire Il est possible de g n rer les chemins reconnus par une grammaire par exemple pour v rifier qu elle engendre correctement les formes attendues Pour cela ouvrez le graphe principal de votre grammaire et assurez que la fen tre du graphe est bien la fen tre active la fen tre active poss de une barre de titre bleu tandis que les fen tres inactives ont une barre de titre grise Allez ensuite dans le menu FSGraph puis dans le sous menu Tools et cliquez sur Explore graph paths La fen tre de la figure 6 18 appara t alors Le cadre sup rieur contient le nom du graphe princi
242. that system it is up to the author donor to decide if he or she is willing to distribute resources through any other system and a licensee cannot impose that choice 10 10 FICHIERS DIVERS 205 This section is intended to make thoroughly clear what is believed to be a consequence of the rest of this License 9 If the distribution and or use of the Linguistic Resource is restricted in certain coun tries either by patents or by copyrighted interfaces the original copyright holder who places the Linguistic Resource under this License may add an explicit geographical distribution limitation excluding those countries so that distribution is permitted only in or among countries not thus excluded In such case this License incorporates the limitation as if written in the body of this License 10 The Free Software Foundation may publish revised and or new versions of the Lesser General Public License for Linguistic Resources from time to time Such new versions will be similar in spirit to the present version but may differ in detail to address new problems or concerns Each version is given a distinguishing version number If the Linguistic Resource spe cifies a version number of this License which applies to it and any later version you have the option of following the terms and conditions either of that version or of any later version published by the Free Software Foundation If the Linguistic Resource does not specify a license version n
243. the Free Software Foundation Inc 59 Temple Place Suite 330 Boston MA 02111 1307 USA Also add information on how to contact you by electronic and paper mail If the program is interactive make it output a short notice like this when it starts in an interactive mode Gnomovision version 69 Copyright C yyyy name of author Gnomovision comes with ABSOLUTELY NO WARRANTY for details type show w This is free software and you are welcome to redistribute it under certain condi tions type show c for details The hypothetical commands show wand show c should show the appropriate parts of the General Public License Of course the commands you use may be called something other than show wand show c they could even be mouse clicks or menu items whatever suits your program You should also get your employer if you work as a programmer or your school if any to sign a copyright disclaimer for the program if necessary Here is a sample alter the names 10 10 FICHIERS DIVERS 189 Yoyodyne Inc hereby disclaims all copyright interest in the program Gnomovision which makes passes at compilers written by James Hacker signature of Ty Coon 1 April 1989 Ty Coon President of Vice This General Public License does not permit incorporating your program into proprie tary programs If your program is a subroutine library you may consider it more useful to permit linking proprietary applications with t
244. tion conditions are different write to the author to ask for permission For soft ware which is copyrighted by the Free Software Foundation write to the Free Software Foundation we sometimes make exceptions for this Our decision will be guided by the two goals of preserving the free status of all derivatives of our free software and of promoting the sharing and reuse of software generally No WARRANTY BECAUSE THE PROGRAM IS LICENSED FREE OF CHARGE THERE IS NO WARRANTY FOR THE PROGRAM TO THE EXTENT PERMITTED BY APPLICABLE LAW EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PROVIDE THE PROGRAM AS IS WITHOUT WARRANTY OF ANY KIND EITHER EXPRES SED OR IMPLIED INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU SHOULD THE PROGRAM PROVE DEFECTIVE YOU ASSUME THE COST OF ALL NECESSARY SERVICING REPAIR OR CORRECTION IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE PROGRAM AS PERMITTED ABOVE BE LIABLE TO YOU FOR DA MAGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CONSEQUENTIAL DA MAGES ARISING OUT OF THE USE OR INABILITY TO USE THE PROGRAM INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES O
245. tten fst2 type depth Ce programme prend en param tre une grammaire quelconque et essaye de la transfor mer en un transducteur tats finis Le param tre fst2 d signe la grammaire transfor mer Le param tre type indique le type de grammaire attendue en r sultat Si ce param tre vaut FST la grammaire sera d pli e jusqu la profondeur maximum et sera tronqu e s il reste des appels des sous graphes Le r sultat sera une grammaire au format fst2 ne contenant qu un seul transducteur tats finis Si le param tre vaut RIN les appels aux sous graphes qui pourraient rester apr s tranformation sont laiss s tels quels Le r sultat est donc un transducteur tats finis dans les cas favorables et une grammaire optimis e stric tement quivalente la grammaire d origine sinon Le param tre optionnel depth indique la profondeur maximum d imbrication des sous graphes qui sera g r e par le programme La valeur par d faut est 10 9 13 Fst2Grf Fst2Grf automate du _ texte phrase output f font Ce programme extrait de l automate d un texte l automate d une phrase au format grf Le param tre automate_du_texte repr sente le chemin d acc s complet a l automate du texte duquel on veut extraire une phrase Ce fichier s appelle text fst2 et se trouve dans le r pertoire du texte Le param tre phrase indique le num ro de la phrase extraire Ce programme produit les 2 fichiers suivants et les sauve d
246. ttes lexicales i e aujourd hui ADV ces tiquettes sont reproduites l identique dans l automate sans que le programme essaye de d composer les s quences qu elles repr sentent Dans chaque bo te la 1 ligne contient la forme fl chie trouv e dans le texte et la 2 ligne contient la forme canonique si elle est diff rente Les autres informations sont cod es sous la bo te voir section 7 4 1 Les espaces s parant les unit s lexicales ne sont pas retranscrits dans l automate l ex ception des espaces l int rieur de mots compos s La casse des unit s lexicales est conserv e Par exemple si l on trouve le mot Here on conserve la majuscule voir figure 7 1 Ce choix permet de ne pas perdre cette information lors du passage l automate du texte ce qui pourra tre utile pour des applications o la casse est importante telle que la reconnaissance des noms propres 7 2 2 Normalisation de formes ambigu s Lors de la construction de l automate il est possible d effectuer une normalisation de formes ambigu s en appliquant une grammaire de normalisation Cette grammaire doit se nommer Norm fst2 et doit tre plac e dans votre r pertoire personnel dans le sous r pertoire Graphs Normalization de la langue voulue Les grammaires de normalisa tion de formes ambigu s sont d crites la section 6 1 3 Si une s quence du texte est reconnue par la grammaire de normalisation toutes les interpr tat
247. u les codes flexionnels Ainsi si vous voulez rechercher tous les verbes qui ont le trait s mantique t marquant la transitivit il vous suffit de chercher t en cochant Grammatical code Vous obtiendrait ainsi les entr es voulues sans ambiguit s avec toutes les autres occurrences de la lettre t 2 4 OUVERTURE D UN TEXTE 19 Dictionary Search Find what it Find Next Replace Replace Next Occurrences 0 Replace Options Count occurrences Search from begining v Grammatical code _ Canonical form Replace All Search up C Inflected form C Flexional code Close Search down FIG 2 5 Recherche du trait s mantique t dans un dictionnaire lectronique 2 4 Ouverture d un texte Unitex propose d ouvrir deux types de fichiers texte Les fichiers portant l extension snt sont des fichiers textes pr trait s par Unitex qui sont pr ts a tre manipul s par les dif f rentes fonctions du syst me Les fichiers portant l extension txt sont des fichiers textes bruts Pour utiliser un texte il faut donc commencer par ouvrir le fichier txt correspon dant en cliquant sur Open dans le menu Text Choisissez le type de fichier Raw Unicode Texts et s lectionnez votre texte Les fi chiers texte d passant 2 m ga octets ne sont pas affich s le message This file is too large to be displayed Use a wordprocessor to view it s affiche
248. uistic Resource or with a work based on the Linguistic Re source on a volume of a storage or distribution medium does not bring the other work under the scope of this License 3 A program that contains no derivative of any portion of the Linguistic Resource but is designed to work with the Linguistic Resource or an encrypted form of the Linguistic Resource by reading it or being compiled or linked with it is called a work that uses the Linguistic Resource Such a work in isolation is not a derivative work of the Linguistic Resource and therefore falls outside the scope of this License However combining a work that uses the Linguistic Resource with the Linguistic Resource or an encrypted form of the Linguistic Resource creates a package that is 10 10 FICHIERS DIVERS 203 a derivative of the Linguistic Resource because it contains portions of the Linguistic Resource rather than a work that uses the Linguistic Resource If the package is a derivative of the Linguistic Resource you may distribute the package under the terms of Section 4 Any works containing that package also fall under Section 4 4 As an exception to the Sections above you may also combine a work that uses the Linguistic Resource with the Linguistic Resource or an encrypted form of the Lin guistic Resource to produce a package containing portions of the Linguistic Resource and distribute that package under terms of your choice provided that the ter
249. ul es par ELAG ont une syntaxe particuli re Elles comportent deux parties que nous appelerons partie si et partie alors La partie si d une grammaire ELAG se divise en deux zones d limit es par des bo tes contenant le symbole lt gt La partie alors est divis e de la m me fa on au moyen du symbole lt gt La signification d une gram maire est la suivante dans l automate du texte si l on trouve une s quence reconnue par la partie si alors elle doit aussi tre reconnue par la partie alors de la grammaire faute de quoi elle sera retir e de l automate du texte La figure 7 12 montre un exemple de grammaire La partie si reconnait un verbe la deuxi me personne du singulier suivi par un tiret et tu soit en tant que pronom soit en tant que participe pass du verbe taire La partie alors impose que tu soit alors consid r comme pronom La figure 7 13 monter le r sultat de l application de cette grammaire sur la phrase Feras tu cela bient t On peut voir sur l automate du bas que le chemin correspondant tu participe pass a t limin 7 3 LEVEE D AMBIGUITES LEXICALES AVEC ELAG 121 FST Text 1055 sentences auna aran Banda Wiuumedantunnmumala Aamann sa 4 Sentence FIG 7 11 Automate de la figure 7 9 apr s nettoyage Point de synchronisation Les parties si et alors d une grammaire ELAG sont divis es en deux par le deuxi me symbole lt gt dans la partie si et par le deuxi me sy
250. umber you may choose any version ever publi shed by the Free Software Foundation 11 If you wish to incorporate parts of the Linguistic Resource into other free programs whose distribution conditions are incompatible with these write to the author to ask for permission NO WARRANTY 12 BECAUSE THE LINGUISTIC RESOURCE IS LICENSED FREE OF CHARGE THERE IS NO WARRANTY FOR THE LINGUISTIC RESOURCE TO THE EXTENT PERMITTED BY APPLICABLE LAW EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PRO VIDE THE LINGUISTIC RESOURCE AS IS WITHOUT WARRANTY OF ANY KIND EITHER EXPRESSED OR IMPLIED INCLUDING BUT NOT LIMITED TO THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE LINGUISTIC RESOURCE IS WITH YOU SHOULD THE LINGUISTIC RESOURCE PROVE DEFECTIVE YOU ASSUME THE COST OF ALL NECESSARY SERVICING REPAIR OR CORRECTION 13 INNO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING WILL ANY COPYRIGHT HOLDER OR ANY OTHER PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE LINGUISTIC RESOURCE AS PERMITTED ABOVE BE LIABLE TO YOU FOR DAMAGES INCLUDING ANY GENERAL SPECIAL INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LINGUISTIC RE SOURCE INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE LINGUISTIC RES
251. un signe elle est remplac e par le contenu de la cellule Il existe galement une variable sp ciale qui est remplac e par le num ro de la ligne dans la table Le fait que sa valeur soit diff rente pour chaque ligne permet de l utiliser pour caract riser facilement une ligne Cette variable n est pas affect e par la pr sence d un point d exclamation a sa gauche La figure 8 3 montre un exemple de graphe param tr con u pour tre appliqu la table de lexique grammaire 31H pr sent e sur la figure 8 4 142 CHAPITRE 8 LEXIQUE GRAMMAIRE NO V vers N FIG 8 3 Exemple de graphe param tr S Table31H xls E Ezemple D o o 4 o D ET Ts lavoir abandonner ssif j Paul aSabandonne avoir abuser lo lol lo lo lolo l l Max abuse lavoir acquiescer tt Max aSacquiesc S E de la t te avoir jadouber Je le PaulSadoube checs lavoir lagioter j j j fo j Max agiote sur les changes lavoir agoniser j j j Max agonise lavoir archaiser l l j l jj Cet auteurgarchaisegvolontiers avoir arquer gt la la J l l Max a arqu toute la journ e tre arriver L Max est arriv 111 avoir atermoyer jo tie le l Max atermoie avoir badauder j badaud Max badaude HA c31H ido O 1
252. unique retour la ligne toute autre suite de s parateurs est remplac e par un espace La distinction entre espace et retour a la ligne est conserv e a cette tape car la pr sence de retours a la ligne peut intervenir dans le d coupage du texte en phrases Le r sultat de la normalisation d un fichier appel mon_texte txt est un fichier situ dans le m me 2 5 PRETRAITEMENT DU TEXTE 21 E co Semmes E CA ETSunic_snt Py ETSunic txt C htaprSep94_snt D htaprsep94 1xt C3 ivanhoe_snt 0 ivanhoe txt J NElasvegassundef_snt IN NElasvegassundef txt C res_snt Ey res txt C tempcorpus_snt ETSconc txt File Name ivanhoe bd Files of Type Raw Unicode Texts v gt e FIG 2 7 Ouverture d un texte Unicode Preprocessing amp Lexical parsing x Preprocessing v Apply FST2 in MERGE mode E My UnitexiF rench Graphs Preprocessing Sentence A v Apply FST2 in REPLACE mo Ey UnitextFrenchiGraphs Preprocessing Replace R Set Tokenizing The text is automatically tokenized This operation is language dependant so that Unitex can handle languages with special s with special spacing rules Lexical time vi Apply All default Dictionaries C Analyse unknown words as free compound words Cancel but tokenize text this option is available only for German Norwegian amp Russian _ Construct Text Automaton Cancel and close text FIG 2 8 Fen tre
253. ur appliquer l toile une expression complexe L expression 0 0 1 2 3 4 5 6 7 8 9 reconna t un z ro suivie d une virgule et d une suite ventuellement vide de chiffres ATTENTION il est interdit de rechercher le mot vide avec une expression rationnelle Si l on essaye de chercher 0 1 2 3 4 5 6 7 8 9 le programme signalera une erreur comme le montre la figure 4 3 Expression converted Compiling graph regexp Recursion detection started Resolving lt E gt conditions Recursion detection completed ERROR the main graph regexp recognizes lt E gt FIG 4 3 Erreur lors de la recherche d une expression reconnaissant le mot vide 4 7 Filtres morphologiques Il est possible d appliquer des filtres morphologiques aux unit s lexicales recherch es Pour cela il faut faire suivre imm diatement l unit lexicale consid r e par un filtre entre doubles angles motif lt lt motif morphologique gt gt Les filtres morphologiques s expriment sous la forme d expressions r guli res au format POSIX voir 36 pour une syntaxe d taill e Voici quelques exemples de filtres l men taires lt lt ss gt gt contient ss lt lt a gt gt commence par a 58 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES lt lt ez gt gt finit par ez lt lt a s gt gt contient a suivi par un caract re quelconque suivi par s lt lt a s gt gt contient a suivi par un nombre de
254. ur efficacit Toutes ces informations sont affich es dans le fen tre de processing d ELAG 7 3 6 Description du jeu d tiquettes Les programmes Elag et ElagComp n cessitent une description formelle du jeu d ti quettes des dictionnaires utilis s Cette description consiste grosso modo en une num ration de toutes les cat gories grammaticales pr sentes dans les dictionnaires avec pour chacune d elle la liste des codes syntaxiques et flexionnels qui leur sont associ es et une description de leurs possibles combinaisons Ces informations sont d crites dans le fichier nomm tagset def Fichier tagset def Voici un extrait du fichier tagset def utilis pour le fran ais NAME francais POS ADV POS PRO inflex pers 12 3 128 genre nombre discr subcat complete Pind Pdem Ppossis Pposslp Pposs2s Pposs2p Pposs3s Pposs3p PpvIL PpvLE PpvLUI Ton PpvPR PronQ Dnom POS A inflex genre nombre cat gauche droite complete CHAPITRE 7 AUTOMATE DU TEXTE m S p lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt genre gt lt nombre gt lt pers gt lt genre gt lt nombre gt lt pers gt lt genre gt lt nombre gt lt pers gt lt genre gt lt nombre gt lt
255. urs et polices de caract res ainsi que l utilisation de l effet d antialiasing Pour configurer l apparence des automates de phrase vous devez modifier la configuration g n rale en cliquant sur Preferences dans le menu Info Pour plus de d tails reportez vous a la section 5 3 5 7 5 CONVERTIR L AUTOMATE DU TEXTE EN TEXTE LINEAIRE 137 Vous pouvez galement imprimer un automate de phrase en cliquant sur Print dans le menu FSGraph ou en appuyant sur lt Ctrl P gt Assurez vous que le param tre d orien tation de l imprimante est bien r gl sur le mode paysage Pour r gler ce param tre cliquez sur Page Setup dans le menu FSGraph 7 5 Convertir l automate du texte en texte lin aire Si l automate du texte ne contient plus la moindre ambigu t il est possible de construire un fichier texte correspondant a l unique chemin repr sent par cet automate Pour cela allez dans le menu Text et cliquez sur Convert FST Text to Text La fen tre de la figure 7 25 vous permet alors de d finir le fichier texte de sortie Convert Text Automaton to Text Output text file Damy UnitexiEnglishiCorpusiinear snt Set Cancel FIG 7 25 Choix du fichier de sortie pour la lin arisation de l automate du texte Si l automate n est pas compl tement lin aire un message d erreur vous indiquera le nu m ro de la premi re phrase contenant une ambigu t Sinon le programme Fst
256. us de conversion va cr er une copie de ce fichier ASCII nomm e balzac old txt et va rem placer le contenu de balzac txt par son quivalent en Unicode Si le codage propos par d faut n est pas le bon ou si vous voulez renommer le fichier autrement qu avec le suffixe old vous pouvez utiliser la commande Transcode Files dans le menu File Edition Cette commande vous permet de choisir les codages d ori gine et de destination des documents convertir voir figure 2 3 Par d faut le codage source propos est celui qui correspond la langue courante et le codage de destination est Unicode Little Endian Vous pouvez modifier ces choix en s lectionnant n importe quels codages de source et destination Ainsi vous pouvez si vous le souhaitez convertir vos don n es dans d autres codages comme par exemple UTF 8 si vous voulez en faire des pages web Le bouton Add Files vous permet de s lectionner les fichiers convertir Le bouton Remove Files permet de retirer de la liste des fichiers s lectionn s par erreur Le bouton Transcode lancera la conversion de tous les fichiers Si une erreur survient lors du traite ment d un fichier par exemple un fichier qui serait d j en Unicode le traitement continue avec le fichier suivant Pour obtenir du texte au bon format vous pouvez galement utiliser un traitement de texte comme le logiciel libre OpenOffice org 41 ou Microsoft Word et sauvegarder votre IUnitex p
257. use Elle peut m me tre dissoci e du graphe et appara tre alors comme une fen tre s par e voir figure 5 19 Dans 5 2 EDITION DE GRAPHES 77 Caract re Signification Codage i les guillemets d limitent des s quences qui ne F doivent ni tre interpr t es par Unitex ni subir de va riantes de casse le s pare les diff rentes lignes des bo tes maT le sert introduire un appel un sous graphe ou le indique le d but de la sortie dans une bo te NZ lt le lt indique le d but d un motif ou d un m ta lt ou lt gt le gt indique la fin d un motif ou d un m ta gt ou gt le sert interdire la pr sence de l espace 4 le sert d sp cialiser la plupart des caract res sp ciaux TAB 5 1 Codage des symboles sp ciaux dans l diteur de graphes ce cas le fait de fermer cette fen tre replace la barre d ic nes sa position initiale Chaque graphe poss de sa propre barre d ic nes Tools ale ole CIS FIG 5 19 Barre d ic nes Les deux premi res ic nes sont des raccourcis permettant de sauver et de compiler le graphe Les trois suivantes correspondent aux op rations Copier Couper et Coller Les deux suivantes correspondent aux op rations Redo et Undo qui permettent de refaire ou d faire des op rations La derni re ic ne en forme de cl est un raccourci vers la fen tre de co
258. uxquels le dictionnaire delas fait r f rence Le param tre optionnel a indique que le caract re doit tre ins r quand la s quence produite par le graphe de flexion ne commence pas par Le param tre optionnel k indique que les codes grammaticaux doivent reprendre exactement les noms des graphes de flexion N32 ne sera pas transform en N Le r sultat de la flexion est un dictionnaire DELAF sauvegard sous le nom indiqu par le param tre resultat 9 20 Locate Locate texte fst2 alphabet s l a i m r n dir thai space Ce programme applique une grammaire a un texte et construit un fichier d index des occurrences trouv es Ses param tres sont les suivants texte chemin d acc s complet au fichier texte sans omettre l extension snt fst2 chemin d acc s complet la grammaire sans omettre l extension fst2 alphabet chemin d acc s complet au fichier alphabet s 1 a param tre indiquant si la recherche doit se faire en mode shortest matches s longest matches 1 ou all matches a 1 m r param tre indiquant le mode d application des transductions mode MERGE m ou mode REPLACE r i indique que le programme ne doit pas tenir compte des transductions n param tre indiquant le nombre d occurrences rechercher La valeur a11 indique au programme qu il doit rechercher toutes les occurrences dir param tre optionnel d signant un r pertoire devant t
259. vec un curseur ce qui peut tre pratique si l on travaille sur une concordance avec de grands contextes 62 CHAPITRE 4 RECHERCHE D EXPRESSIONS RATIONNELLES Courier New 10 FIG 4 7 S lection d un navigateur pour l affichage des concordances 63 4 8 RECHERCHE 334 pey Yotym Saks Sty 10 300 03 Wotssaidxs 1338TUTS E STU umop Aen JTEU pa2qo9ea1 ATa01805 yotym HEOIO J10Y8 E Ya MeETTTIM Jo wAtar 2341 09 quanbasqns syTdosd 21818098 E om 334 115 qayoel 293 IHEU OL TepueTuPTY Yetaqoos E 243 YOTYM PUTA 1992 J0 1N3 YTN paosey de9 1371895 E mosaq anq s fameu uoxes aay Aq s o ays SAETE UOXES E AO 242 YATA 18829409 e Autmz0y AN0T09 par Haep A418n1 E 09 pTnos ay Yyotym aaueuaqumnos STU 1340 Puemios Ape31 E uo UMOP 1133 Pue 11 UTYITM moaz asorze beq psehuojtord E 3 18 2eu paTesouca aqoa aaddn styl 103 WtThoed E 393 30 UOTITQUE ayy UO0TITpadxa yser 134323eqn UT 2318d E Ag quemAolua Jo 133328 samoo2q ay u yn gweu UENION E e3s usaq peu qeyoel sty s aoueaeadde ITIS81083 310 E n punog sTepues s Yraqney quetoue 10 JITUS UISpON E aey des aya Jo 21ed stu 09 sem 31 WeSsny Upon PISUO2 aq AYATM pumos 243 ainqsod ames ya UT pnu E Y aTAutep e 4uen TT are 30qq7 ue 3q 09 eT A em y TU aptsaq ssea5 ya uodn Ae yotym JJ298 139118n5 DuoT E a3Taeos fhutaq 1n0109 ayy ang g araen 9T3S8euo0n DuoT E pumo1 ayq 03 471894 pPaysear qotqa 49012 13001 Huot E FUTET 243 UT pamoT
260. veryone is permitted to copy and distribute verbatim copies of this license document but changing it is not allowed Preamble The licenses for most software are designed to take away your freedom to share and change it By contrast the GNU General Public License is intended to guarantee your free dom to share and change free software to make sure the software is free for all its users This General Public License applies to most of the Free Software Foundation s software and to any other program whose authors commit to using it Some other Free Software Founda tion software is covered by the GNU Library General Public License instead You can apply it to your programs too When we speak of free software we are referring to freedom not price Our General Public Licenses are designed to make sure that you have the freedom to distribute copies of free software and charge for this service if you wish that you receive source code or can get it if you want it that you can change the software or use pieces of it in new free programs and that you know you can do these things To protect your rights we need to make restrictions that forbid anyone to deny you these rights or to ask you to surrender the rights These restrictions translate to certain responsi bilities for you if you distribute copies of the software or if you modify it For example if you distribute copies of such a program whether gratis or for a fee you must give the r
261. xion nels La pr sence de ces dictionnaires constitue une diff rence majeure par rapport aux outils usuels de recherche de motifs car on peut faire r f rence aux informations qu ils contiennent et ainsi d crire de larges classes de mots avec des motifs tr s simples Ces dictionnaires sont repr sent s selon le formalisme DELA et ont t labor s par des quipes de linguistes pour plusieurs langues fran ais anglais grec italien espagnol allemand tha cor en polonais norv gien portugais etc Les grammaires sont des repr sentations de ph nom nes linguistiques par r seaux de transitions r cursifs RTN un formalisme proche de celui des automates tats finis De nombreuses tudes ont mis en vidence l ad quation des automates aux probl mes linguis tiques et ce aussi bien en morphologie qu en syntaxe ou en phon tique Les grammaires manipul es par Unitex reprennent ce principe tout en reposant sur un formalisme encore plus puissant que les automates Ces grammaires sont repr sent es au moyen de graphes que l utilisateur peut ais ment cr er et mettre jour Les tables de lexique grammaire sont des matrices d crivant les propri t s de certains mots De telles tables ont t labor es pour tous les verbes simples du fran ais dont elles d crivent les propri t s syntaxiques L exp rience ayant montr que chaque mot a un com portement quasi unique ces tables permettent de donner la grammaire
262. y modify sublicense or distribute the Program except as expressly provided under this License Any attempt otherwise to copy modify sublicense or distribute the Program is void and will automatically terminate your rights under this License However parties who have received copies or rights from you under this License will not have their licenses terminated so long as such parties remain in full compliance You are not required to accept this License since you have not signed it However no thing else grants you permission to modify or distribute the Program or its derivative works These actions are prohibited by law if you do not accept this License Therefore by modifying or distributing the Program or any work based on the Program you indicate your acceptance of this License to do so and all its terms and conditions for copying distributing or modifying the Program or works based on it Each time you redistribute the Program or any work based on the Program the reci pient automatically receives a license from the original licensor to copy distribute or modify the Program subject to these terms and conditions You may not impose any further restrictions on the recipients exercise of the rights granted herein You are not responsible for enforcing compliance by third parties to this License If as a consequence of a court judgment or allegation of patent infringement or for any other reason not limited to pa

Download Pdf Manuals

image

Related Search

Related Contents

DeLonghi EAM4000 Espresso Maker User Manual  MANUAL DEL USUARIO SERVICE MANUAL MANUEL D  Rimage PrismPlus! User Guide  Manuel_module_Fax_MF9300.fr  バッテリーレスキュー販売。  Premier Mounts CTM-4200 flat panel wall mount  2 - アルインコ  i.Sound Pyramid  

Copyright © All rights reserved.
Failed to retrieve file