Home
        Manuel d`utilisation d`Unitex - LIPN
         Contents
1.               NumeroMois       FIG  6 29     Chevauchement de variables    6 7  APPLICATION DES GRAPHES AUX TEXTES 105  6 7 Application des graphes aux textes    Cette section concerne uniquement les graphes syntaxiques     6 7 1 Configuration de la recherche    Pour appliquer un graphe a un texte  vous devez ouvrir le texte  puis cliquer sur  Locate  Pattern     dans le menu  Text  ou appuyer sur  lt Ctrl L gt   Vous pouvez alors configurer votre  recherche grace a la fen  tre de la figure 6 30     Dans le cadre intitul    Locate pattern in the form of   choisissez  Graph  et s  lectionnez  votre graphe en cliquant sur le bouton  Set   Vous pouvez choisir un graphe au format   grf   Unicode Graphs  ou un graphe compil   au format  fst2  Unicode Compiled Graphs   Si  votre graphe est au format  grf  Unitex le compilera automatiquement avant de lancer la  recherche     Le cadre  Index  permet de s  lectionner le mode de reconnaissance           Shortest matches    donne la priorit   aux s  quences les plus courtes          Longest matches    donne la priorit   aux s  quences les plus longues  C   est le mode  utilis   par d  faut         All matches    donne toutes les s  quences reconnues     Le cadre  Search limitation  permet de limiter ou non la recherche a un certain nombre  d   occurrences  Par d  faut  la recherche est limit  e aux 200 premi  res occurrences     Le cadre  Grammar outputs  concerne le mode d utilisation des sorties  Le mode  Merge  with input text  perme
2.           FIG  7 19     Grammaire ELAG v  rifiant l accord en genre et en nombre entre un nom et l ad   jectif qui le suit    Codes optionnels    Les codes syntaxiques et s  mantiques optionnels sont d  clar  s dans la partie cat  Ils  peuvent   tre utilis  s dans les grammaires ELAG comme les autres codes  La diff  rence est  que ces codes n interviennent pas pour d  cider si une   tiquette doit   tre rejet  e comme inva   lide ou non  lors du chargement de l automate du text  Ce sont des codes facultatifs  qui sont  ind  pendants des autres codes  comme par exemple l attribut de niveau de langue  z1  z2        Cette grammaire n   est pas compl  tement correcte  car elle   limine par exemple l analyse correcte de la  phrase   J ai re  u des coups de fil de ma m  re hallucinants     132 CHAPITRE 7  AUTOMATE DU TEXTE    ou z3   De la m  me mani  re que pour les codes flexionnels  il est   galement possible de nier  un attribut flexionnel en   crivant le caract  re   juste avant le nom de l   attribut  Ainsi  avec  notre fichier d   exemple  le symbole  lt A  gauche  f gt  reconnait tous les adjectifs au f  minin  qui ne poss  dent pas le code g      Tous les codes qui ne sont pas d  clar  s dans le fichier tagset  def sont ignor  s par  ELAG  Si une entr  e de dictionnaire contient un tel code  ELAG produira un avetissement  et retirera le code de l entr  e  En cons  quence  si deux entr  es concurrentes ne diff  raient  dans l automate du texte d   origine que par des codes n
3.       5 24 R  pertoire de d  p  t    Lorsqu on souhaite r  utiliser une grammaire X dans une grammaire Y  la m  thode  usuelle est de recopier tous les graphes de X dans le r  pertoire o   se trouve les graphes  de Y  ce qui pose deux probl  mes         le nombre de graphes dans le r  pertoire devient vite tr  s important         deux graphes ne peuvent pas avoir le m  me nom     Afin d   viter cela  il est possible de stocker la grammaire X dans un r  pertoire particu   lier  appel   r  pertoire de d  p  t  Ce r  pertoire est une sorte de biblioth  que dans laquelle on  peut ranger des graphes  et faire ensuite appel    ces graphes au moyen de     au lieu de     Pour utiliser ce m  canisme  il faut tout d   abord d  finir le r  pertoire de d  p  t dans le menu    5 2  EDITION DE GRAPHES 71    Compiling graph alpha   Compiling graph beta   Compiling graph E  greek delta grf  Recursion detection started  Resolving  lt E gt  conditions  Checking  lt E gt  dependancies  Looking for  lt E gt  loops   Looking for infinite recursions    Recursion detection completed  Compilation has succeeded    Absolute path name detected  windows    E   greek  delta  git  Absolute path names are not portable     ok   Can      FIG  5 8     Avertissement pour un nom de graphe non portable        Info gt Preferences    gt Directories   voir figure 5 9   Choisissez votre r  pertoire dans le cadre   Graph repository     Le r  pertoire de d  p  t est propre    la langue de travail  vous n   tes donc  p
4.       FIG  8 4     Table de lexique grammaire 31H    8 24 G  n  ration automatique de graphes    Pour pouvoir g  n  rer des graphes    partir d   un graphe param  tr   et d   une table  il faut  tout d   abord ouvrir la table en cliquant sur  Open     dans le menu  Lexicon Grammar   voir  figure 8 5   La table doit avoir   t   pr  alablement convertie en texte Unicode     La table s  lectionn  e est alors affich  e dans une fen  tre  voir figure 8 6    Pour g  n  rer automatiquement des graphes    partir d   un graphe param  tr    cliquez sur   Compile to GRF     dans le menu  Lexicon Grammar   La fen  tre de la figure 8 7 appara  t    alors     Dans le cadre  Reference Graph  in GRF format    indiquez le nom du graphe param  tr       utiliser  Dans le cadre  Resulting GRF grammar   indiquez le nom du graphe principal qui    8 2  CONVERSION D   UNE TABLE EN GRAPHES 143    Edit File Edition Windows Info    Open     Compile to GRF     Close       FIG  8 5     Menu  Lexicon Grammar           acquie d j   adouber  agioter  agoniser  archaiser  arquer  jarriver  atermoyer  badauder  baisser  Ibambocher  bander  barouder  batifo ler  b  cher  b  tifier  bigler  boiter  boitiller    lEaussa SEO le                  Tilt                REE                                                                   HE EEE       FIG  8 6     Affichage d   une table    sera g  n  r    Ce graphe principal est un graphe faisant appel    tous les graphes qui auront    t   g  n  r  s  En lan  ant une 
5.       fUnigraphY  SIZE 1313 9504  FONT Times New Roman  124    164    OFONT T  BCOLOR  FCOLOR  ACOLOR  SCOLOR  CCOLOR  DBOXES  DF RAME  DDATE y  DFILE y  DDIR y   DRIG n4  DRST n4  FITS 10  PORIENT      dl    imes New Roman B 124  167772154   04  126322564  167116804  2554   v4   y   q   q       09  LI    CHAPITRE 10  FORMATS DE FICHIERS    La premi  re ligne  Unigraph est une ligne de commentaire  Les lignes suivantes d  fi   nissent les valeurs des param  tres de pr  sentation du graphe         SIZE x y  d  finit la largeur x et la hauteur y du graphe en pixels        FONT name  xyz   d  finit la police utilis  e pour afficher le contenu des bo  tes  name    repr  sente le nom de la police  x indique si la police doit   tre en gras ou non  Si x vaut  B  cela indique que la police doit   tre en gras  Pour une police normale  x doit   tre un  espace  De la m  me mani  re  y vaut I si la police doit   tre en italique  un espace sinon   z repr  sente la taille de la police    OFONT name  xyz   d  finit la police utilis  e pour afficher les transductions  Les para   m  tres name  x  y et z sont d  finis de la m  me mani  re que pour FONT     BCOLOR x   d  finit la couleur de l arri  re plan du graphe  x repr  sente la couleur au  format RGB    FCOLOR x  d  finit la couleur de dessin du graphe  x repr  sente la couleur au format  RGB         ACOLOR x  d  finit la couleur utilis  e pour dessiner les lignes des bo  tes qui corres     pondent a des appels a des sous graphes  x repr 
6.      7 3  LEV  E D   AMBIGUITES LEXICALES AVEC ELAG 131    C   est par exemple le cas de s  quences fig  es comme de bonne humeur  qui ont un comporte   ment syntaxique tr  s proche de celui des adjectifs  De telles s  quence ont ainsi   t   int  gr  es  dans le dictionnaire du fran  ais en tant qu   adjectifs invariables et donc sans trait flexionnel   Le probl  me est que si l   on veut faire r  f  rence exclusivement    ce type d   adjectifs dans une  grammaire de d  sambiguisation  le symbole  lt A gt  ne convient pas  puisqu il donnera tous  les adjectifs    Pour contourner cette difficult    il est possible de nier un attribut flexionnel  en   cri   vant le caract  re   juste avant une des valeurs possibles pour cet attribut  Ainsi  le symbole   lt A   m p gt  reconna  t tous les adjectifs qui n   ont ni genre ni nombre  A l   aide de cet op     rateur  il est maintenant possible d   crire des grammaires comme celles de la figure 7 19   qui imposent l accord en genre et en nombre entre un nom et l adjectif qui le suit    Cette  grammaire conservera l analyse correcte de phrases comme   Les personnes de bonne humeur  m insupportent    Il est toutefois recommand   de limiter l usage de l op  rateur      car cela nuit    la lisibilit    des grammaires  Il est pr  f  rable de distinguer les   tiquettes qui acceptent diff  rentes com   binaisons flexionnelles au moyen de sous cat  gories discriminantes d  finies dans la partie  discr            lt N gt      lt   gt          
7.      Sigles  pr  noms  anthroponymes    cas2    Mots compos  s ou suivis d une lettre majuscule  symboles    Cas particuliers  Graphe r  alis   par   Nathalie Friburger  LI Tours   Anne Dister  Univ  de Li  ges   Denis Maurel  LI Tours     FIG  2 9   Grammaire de d  coupage en phrases pour le fran  ais    Par d  faut  l   espace est facultatif entre deux bo  tes  Si l on veut interdire la pr  sence de  ce s  parateur  il faut utiliser le symbole sp  cial       l inverse  si vous souhaitez forcer la pr     sence de l   espace  vous devez utiliser la s  quence      Les lettres minuscules et majuscules  sont d  finies par un fichier alphabet  voir chapitre 10   Pour plus de d  tails sur les graphes   voir le chapitre 5  Pour plus de d  tails sur le d  coupage d   un texte en phrases  voir  16   La  grammaire utilis  e se nomme Sentence fst2 et se trouve dans le r  pertoire suivant         r  pertoire personnel    langue   Graphs Preprocessing Sentence       L application de cette grammaire    un texte s effectue gr  ce au programme Fst2Txt en  mode MERGE  Cela signifie que les sorties produites par la grammaire  en l occurrence le  symbole  S   sont ins  r  es dans le texte  Ce programme prend en entr  e un fichier   snt et  le modifie     2 5 3 Normalisation de formes non ambigu  s    Certaines formes pr  sentes dans les textes peuvent   tre normalis  es  par exemple  la  s  quence fran  aise l on est   quivalente    la forme on   Chaque utilisateur peut donc vouloir  effectuer
8.     below  refers to any such program or work  and a     work based on the Program    means either the Program or any derivative work under  copyright law   that is to say  a work containing the Program or a portion of it  either  verbatim or with modifications and or translated into another language   Hereinafter   translation is included without limitation in the term    modification      Each licensee is  addressed as    you      Activities other than copying  distribution and modification are not covered by this  License   they are outside its scope  The act of running the Program is not restricted   and the output from the Program is covered only if its contents constitute a work based  on the Program  independent of having been made by running the Program   Whether  that is true depends on what the Program does     1  You may copy and distribute verbatim copies of the Program   s source code as you  receive it  in any medium  provided that you conspicuously and appropriately publish  on each copy an appropriate copyright notice and disclaimer of warranty   keep intact  all the notices that refer to this License and to the absence of any warranty   and give  any other recipients of the Program a copy of this License along with the Program   You may charge a fee for the physical act of transferring a copy  and you may at your  option offer warranty protection in exchange for a fee     2  You may modify your copy or copies of the Program or any portion of it  thus forming 
9.     repr  sentant respectivement les d  but et fin de contexte qui sont repr  sent  s dans le  graphe par des crochets verts  Le d  but et la fin d   un contexte doivent appara  tre dans le  m  me graphe        Ho    FIG  6 12     Utilisation d un contexte    La figure 6 12 montre un exemple simple de contexte  Ce graphe reconnait tous les  nombres qui sont suivis par l euro  la livre ou le dollar  mais sans que le symbole d unit    n   apparaisse dans les occurrences trouv  es     Les contextes s interpretent de la fa  on suivante  Supposons que l   on rencontre un d  but  de contexte lors de l application d une grammaire    un texte  et notons pos la position cou   rante dans le texte    cet instant  Le programme Locate va ensuite chercher    reconna  tre  l expression d  crite dans le contexte  S il   choue  il n   y aura pas de match  S il r  ussit  c est      dire s   il peut atteindre la fin du contexte  le programme reviendra    la position pos dans le  texte et continuera l exploration de la grammaire    partir la fin du contexte     On peut   galement d  finir des contextes n  gatifs  en utilisant      comme d  but de  contexte  La figure 6 13 montre un graphe reconnaissant des nombres qui ne sont pas suivis  par th  La diff  rence avec les contextes positifs est que lorsque Locate essaie de recon   na  tre l expression d  crite dans le contexte  le fait d atteindre la fin du contexte est consid  r    comme un   chec  car cela signifie que l   on a reconnu une s  que
10.    ELAG  cadre du bas   Vous pouvez ajouter ou supprimer des    136 CHAPITRE 7  AUTOMATE DU TEXTE    boites ou des transitions  Lorsqu   un graphe est modifi    il est sauvegard   dans le r  pertoire  du texte sous le nom sentenceN grf o   N repr  sente le num  ro de la phrase    Lorsque vous s  lectionnez une phrase  si un graphe modifi   existe pour cette phrase   celui ci est affich    Vous pouvez alors r  initialiser l automate de cette phrase en cliquant sur  le bouton  Reset Sentence Graph   voir figure 7 24      FST Text          Ivanhoe by Sir Walter Scott    2344 sentences  Sentence   13       Reset Sentence Graph    Rebuild FST Text        Elag Frame                         Explode    rn  5  Eva            N ProperNoun PREP N ProperNoun             FIG  7 24     Automate de phrase modifi      Lors de la construction de l   automate d un texte  tous les graphes de phrase modifi  s  pr  sents dans le r  pertoire du texte sont effac  s     NOTE   vous pouvez reconstruire l   automate du texte en prenant en compte vos modi   fications manuelles  Pour cela  cliquez sur le bouton  Rebuild FST Text   Toutes les phrases  pour lesquelles des modifications ont   t   faites sont alors remplac  es dans l automate du  texte par leur version modifi  e  Le nouvel automate du texte est ensuite recharg   automati   quement     7 4 3 Param  tres de pr  sentation    Les automates de phrase sont soumis aux m  mes options de pr  sentation que les graphes   Ils partagent les m  mes coule
11.    L op  ration de tri modifie le fichier texte  Par d  faut  le tri est effectu   dans l   ordre des  caract  res en Unicode  en supprimant les doublons     9 27 Table2Grf    Table2Grf table graphe resultat  sousgraphe     Ce programme g  n  re automatiquement des graphes a partir de la table de lexique   grammaire table et du graphe patron graphe  Le nom du graphe principal de la gram   maire obtenue est resultat  Les noms des sous graphes produits sont g  n  r  s a partir du  mod  le sousgraphe  Si ce param  tre est omis  les noms des graphes g  n  r  s sont form  s a  partir du param  tre resultat auquel s   ajoute un nombre     9 28 TagsetNormFst2  TagsetNormFst2  1 tagset fst2    Ce programme normalise l automate de texte fst 2 en fonction du jeu d   tiquettes ELAG  tagset  Il supprime toutes les entr  es de dictionnaires contenant des codes non conformes  au fichier tagset     9 29 TextAutomaton2Mft  TextAutomaton2Mft text fst2    Ce programme prend en param  tre un automate du texte text  fst2 et construit un    quivalent au format  mft d Intex  Le fichier produit a pour nom text  mft et est cod   en  Unicode     9 30 Tokenize    Tokenize texte alphabet   char_by_char     Ce programme d  coupe le texte en unit  s lexicales  Le param  tre texte doit repr  senter  le chemin d   acc  s complet au fichier texte  sans omettre l extension  snt  Le param  tre  alphabet doit repr  senter le chemin d   acc  s complet au fichier d  finissant l alphabet de    160 CHAPITRE 9  UTI
12.    La licence  LGPL est plus permissive que la licence GPL  car elle permet d   utiliser du code LGPL dans  des logiciels non libres  Du point de vue de l utilisateur  il n   y a pas de diff  rence  car dans  les deux cas  le logiciel peut   tre librement utilis   et distribu       Toutes les donn  es linguistiques distribu  es avec Unitex sont soumises    la licence LG   PLLR   29       Le texte complet des licences GPL  LGPL et LGPLLR se trouve dans les annexes 4 la fin  de ce manuel     1 2 Environnement d   ex  cution Java    Unitex est compos   d   une interface graphique   crite en Java et de programmes externes    crits en C C    Ce m  lange de langages de programmation permet d   avoir une appli   cation rapide et portable sous diff  rents systemes d   exploitation  Afin de pouvoir utiliser  l interface graphique  il faut pr  alablement installer un environnement d ex  cution  com   mun  ment appel   machine virtuelle Java ou JRE  Java Runtime Environment     Pour fonctionner en mode graphique  Unitex n  cessite une version 1 4  ou plus r  cente   de Java  Si vous avez une version trop ancienne de Java  Unitex se bloquera apr  s que vous  ayez choisi votre langue de travail  Vous pouvez t  l  charger librement la machine virtuelle    11    12 CHAPITRE 1  INSTALLATION D UNITEX    correspondant    votre syst  me d   exploitation sur le site de Sun Microsystems  38     l adresse  suivante   http   java sun com  Si vous travaillez sous Linux ou MacOS  ou si vous  utilisez
13.    N z1 fs ms    L int  r  t de cette distinction est donc laiss  e a l   appr  ciation des personnes qui construisent  des dictionnaires     3 1 2 Format des DELAS    Le format des DELAS est tr  s similaire    celui des DELAF  La diff  rence est qu   on ne  mentionne qu   une forme canonique suivie de codes grammaticaux et ou s  mantiques  La  forme canonique est s  par  e des diff  rents codes par une virgule  Voici un exemple d   entr  e      cheval N4 Anl1    Le premier code grammatical ou s  mantique sera interpr  t   par le programme de flexion  comme le nom de la grammaire    utiliser pour fl  chir l entr  e  L entr  e de l exemple ci   dessus indique que le mot cheval doit   tre fl  chi avec une grammaire nomm  e N4  Il est  possible d ajouter des codes flexionnels aux entr  es  mais la nature de l   op  ration de flexion  limite l int  r  t de cette possibilit    Pour plus de d  tails  voir plus loin dans ce chapitre la  section 3 4     3 13 Contenu des dictionnaires    Les dictionnaires fournis avec Unitex contiennent des descriptions des mots simples et  compos  s  Ces descriptions indiquent la cat  gorie grammaticale de chaque entr  e  ses   ven   tuels codes de flexion  ainsi que des informations s  mantiques diverses  Les tableaux sui   vants donnent un aper  u des diff  rents codes utilis  s dans les dictionnaires fournis avec                                                                                                             3 1  LES DICTIONNAIRES DELA 
14.    agit d   un retour    la ligne  il est remplac    par un espace     Pour les autres langues  le d  coupage est effectu   caract  re par caract  re     l exception du  s  parateur de phrases  S   le marqueur  STOP  et des   tiquettes lexicales  Ce d  coupage  basique garantit le fonctionnement d   Unitex  mais limite l optimisation des op  rations de  recherche de motifs  Quelque soit le mode de d  coupage  les retours    la ligne pr  sents  dans un texte sont remplac  s par des espaces  Ce d  coupage est effectu   par le programme  Tokenize  Ce programme produit plusieurs fichiers  stock  s dans le r  pertoire du texte         tokens txt contient la liste des unit  s lexicales dans l   ordre o   elles ont   t   trouv  es  dans le texte         text cod contient un tableau d   entiers   chaque entier correspondant    l indice d une  unit   lexicale dans le fichier tokens txt        tok_by_freq txt contient la liste des unit  s lexicales tri  e par ordre de fr  quence        tok_by_alph txt contient la liste des unit  s lexicales tri  e par ordre alphab  tique        stats n contient quelques statistiques sur le texte                    Le d  coupage du texte    Un sou c est un sou   donne la liste d unit  s lexicales suivantes   Un ESPACE sou c     est un    On peut remarquer qu il est tenu compte de la casse  Un et un sont deux unit  s dis     tinctes   mais que chaque unit   n est cod  e qu   une fois  En num  rotant ces unit  s de 0    7   ce texte peut   tre repr  sent 
15.    est pas possible d   associer une sortie 4 un appel a un sous graphe  De telles sorties  sont ignor  es par Unitex  Il faut donc utiliser une bo  te vide situ  e imm  diatement    gauche  de l   appel au sous graphe pour porter la sortie  voir figure 6 7      DET is ignored on this path       DET    but not on this one    FIG  6 7   Comment associer une sortie    un appel de sous graphe    92 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Les grammaires ne doivent pas non plus comporter de boucles infinies  car les pro   grammes d   Unitex ne pourraient jamais terminer l exploration de telles grammaires  Ces  boucles peuvent   tre dues    des transitions   tiquet  es par le mot vide epsilon ou    des ap   pels de sous graphes r  cursifs     Les boucles dues    des transitions par le mot vide peuvent avoir deux origines  dont la  premi  re est illustr  e par la figure 6 8        FIG  6 8     Boucle infinie due    une transition par le mot vide avec sortie    Ce type de boucle est du au fait qu   une transition par le mot vide ne peut pas   tre   limi   n  e automatiquement par Unitex lorsqu elle est munie d   une sortie  Ainsi  la transition par  le mot vide de la figure 6 8 ne sera pas supprim  e et provoquera une boucle infinie     La seconde cat  gorie de boucle par epsilon concerne les appels    des sous graphes pou   vant reconna  tre le mot vide  Ce cas de figure est illustr   par la figure 6 9   si le sous graphe  Adj reconnait epsilon  on a une boucle infinie qu   
16.    participe pass   finissant par i       lt CDIC gt  lt  lt   gt  gt    mot compos   contenant un tiret       lt CDIC gt  lt  lt      gt  gt   mot compos   contenant deux espaces       lt A  fs gt  lt  lt  pro gt  gt    adjectif f  minin singulier commen  ant par pro       lt DET gt  lt  lt     u     u  n              gt  gt   d  terminant diff  rent de un       lt  DIC gt  lt  lt es  gt  gt   mot qui n   est pas dans le dictionnaire et qui se termine par es       lt V S T gt  lt  lt uiss gt  gt   verbe au subjonctif pass   ou pr  sent  contenant uiss    NOTE   par d  faut  les filtres morphologiques sont soumis aux m  me variations de casse  que les masques lexicaux  Ainsi  le filtre  lt  lt     gt  gt  va reconna  tre tous les mots commen  ant  par     mais   galement ceux qui commencent par E ou     Pour forcer le respect exact de la  casse du filtre  il faut ajouter _f_ imm  diatement apr  s celui ci  Exemple    lt A gt  lt  lt     gt  gt _f_    48 Recherche    4 8 1 Configuration de la recherche    Pour pouvoir rechercher une expression  il faut tout d   abord ouvrir un texte  voir cha   pitre 2   Cliquez ensuite sur  Locate Pattern     dans le menu  Text   La fen  tre de la figure  4 4 appara  t alors     4 8  RECHERCHE 59    E Locate Pattern  Locate pattern in the form of     O Regular expression     hm 2       Graph                      Index 7   Grammar outputs     O Shortest matches e Are not taken into account    8  Longest matches    Merge with input text   O All
17.    tre utilis   plusieurs fois  afin de sp  ci   fier plusieurs graphes d arr  t       p s f d  s produit l affichage des chemins de chaque sous graphe de la gram   maire  f  d  faut  affiche les chemins de la grammaire globale  d affiche les chemins  en ajoutant des indications sur les imbrications d appels de sous graphes          c SS 0xXXXX   remplace le symbole SS quand il appara  t entre entre angles par le  caract  re unicode de code hexad  cimal 0xXXXX       s  L  R   sp  cifie les d  limiteurs gauche  L  et droit  R  qui entoureront les items   Par d  faut  ces d  limiteurs sont nuls        s0  Str   sil   on tient compte des sorties de la grammaire  ce param  tre sp  cifie la  s  quence Str qui s  parera une entr  e de sa sortie  Par d  faut  il n   y a pas de s  para   teur        f a s   si l on tient compte des sorties de la grammaire  ce param  tre sp  cifie le  format des lignes g  n  r  es  in0 inl out0 outl s oubienin0 out0 inl outl   a   La valeur par d  faut est s          v   ce param  tre produit l affichage de messages d informations        rx  L   R     ce param  tre sp  cifie comment les cycles doivent   tre pr  sent  s  L  et R d  signent des d  limiteurs  Si l   on consid  re le graphe de la figure 9 1  voici les  r  sultats que l   on obtient si l   on pose L      et R           il fait  tr  s tr  s    il fait tr  s beau    za  Lu  50  9    FIG  9 1     Graphe avec cycle       9 15 Fst2Txt       Fst2Txt texte fst2 alph mode   char_by_char  char_by_c
18.    un DELAF et   tre encadr  es par les symboles   et    Les sorties     variables n   ont pas de sens dans ce type de graphe     88 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    Il est possible de faire appel    des sous graphes  Il n   est pas possible de faire r  f  rence  aux dictionnaires pour d  crire les formes    normaliser  L unique symbole sp  cial reconnu  dans ce type de graphe est le mot vide  lt E gt   Les graphes de normalisation de formes ambi   gu  s doivent   tre compil  s avant de pouvoir   tre utilis  s     6 14 Graphes dictionnaires    Les graphes dictionnaires  d  j   pr  sent  s    la section 3 6 3  sont des graphes syntaxiques  qui sont appliqu  s par le programme Dico de fa  on    g  n  rer des entr  es de dictionnaires     tant donn   que Di co utilise le moteur du programme Locate pour appliquer ces graphes   ils ont exactement les m  mes propri  t  s que les graphes syntaxiques     6 1 5 Graphes syntaxiques    Les graphes syntaxiques    galement appel  s grammaires locales  permettent de d  crire  des motifs syntaxiques qui pourront ensuite   tre recherch  s dans des textes  De tous les  types de graphe  ceux ci poss  dent la plus grande puissance d expressions  car ils per   mettent de faire r  f  rence aux dictionnaires    Les variantes minuscules majuscules sont autoris  es selon le principe d  crit plus haut   Il est toutefois possible de forcer le respect de la casse en encadrant une expression avec des  guillemets  L emploi des guillemets pe
19.    utilisation des graphes  param  tr  s seront d  velopp  es dans le chapitre 8     6 2  COMPILER UNE GRAMMAIRE 89  6 2 Compiler une grammaire    6 2 1 Compilation d un graphe    La compilation est l op  ration qui permet de passer du format  grf    un format plus  facile    manipuler par les programmes d Unitex  Pour compiler un graphe  vous devez l ou   vrir puis cliquer sur  Compile FST2  dans le sous menu  Tools  du menu  FSGraph   Unitex  lance alors le programme Grf2Fst2 dont vous pouvez suivre l ex  cution dans une fen  tre   voir figure 6 4      Compiling graph DetN  Compiling graph DetSimple  Recursion detection started  Resolving  lt E gt  conditions  Checking  lt E gt  dependancies  Looking for  lt E gt  loops   Looking for infinite recursions  Recursion detection completed    Compilation has succeeded       Cannot open the graph DetSimple grf          FIG  6 4     Fen  tre de compilation    Si le graphe fait appel a des sous graphes  ceux ci sont automatiquement compil  s  Le  r  sultat est un fichier  fst2 qui rassemble tous les graphes qui composent la grammaire   La grammaire est alors pr  te      tre utilis  e par les diff  rents programmes d   Unitex     6 2 2 Approximation par un transducteur      tats finis    Le format FST2 conserve l architecture en sous graphes des grammaires  ce qui les dif   f  rencie des stricts transducteurs      tats finis  Le programme Flatten permet de transfor   mer une grammaire FST2 en un transducteur      tats finis quand cel
20.   Analyse des mots compos  s libres  29  Antialiasing  78  83  180  Approximation d une grammaire par un  transducteur      tats finis  89  153  Arrobas  141  Automate       tats finis  66  acyclique  111  du texte  53  87  111  153  157  159  160  forme compacte  152  156  forme d  velopp  e  152  minimal  43  Automate du texte  conversion en texte lin  aire  137  155  Axiome  65    Barre d ic  nes  76   Bo  tes  alignement  79  cr  ation  67  relier des  67  s  lection  73  suppression  73  tri des lignes  78   Boucles infinies  91    Clitiques  normalisation  114  158  Codes flexionnels  130  Collection de graphes  98  Coller  73  75  77  Commentaire  dans un dictionnaire  32  dans un graphe  67  Comparaison de concordances  108    INDEX    Compilation  des grammaires ELAG  122  Compilation d   un graphe  89  155  Compression de dictionnaires  43  147  158  Concat  nation d   expressions rationnelles   51  56  Concordance  60  105  148  comparaison  108  Conservation des meilleurs chemins  118   160  Contexte  47  Contextes  94  concordance  60  105  148  copie de liste  75  Contextes des occurrences  60  Contraintes flexionnelles  53  Contraintes sur les grammaires  90  Conversion  de l   automate du texte en texte lin  aire   137 155  Conversion de fichiers  16  Copie de listes  75  Copier  73  75  77  Corpus  voir Texte  Couleurs  configuration des  81  Couper  77  Cr  ation d   une bo  te  67    D  coupage en phrases  22   D  placer des groupes de mots  101   D  rivati
21.   Paris  1986  3 7  8 1     28  Alain GUILLET and Christian LECLERE  La structure des phrases simples en francais   les  constructions transitives locatives  Droz  Gen  ve  1992  8 1     29  IGM  Lesser General Public License for Linguistic Resources   http   igm univ mlv  unitex lgpllr html  1 1     30  Gaby KLARSFLED and Mary HAMMANI MC CARTHY  Dictionnaire   lectronique du  ladl pour les mots simples de l anglais  DELASa   Technical report  LADL  Universit    Paris 7  1991  3 7     31  Tita KYRIACOPOULOU  Les dictionnaires   lectroniques   la flexion verbale en grec moderne   1990  Th  se de doctorat  Universit   Paris 8  3 7    BIBLIOGRAPHIE 209     32  Tita KYRIACOPOULOU  Un syst  me d   analyse de textes en grec moderne   repr  senta   tion des noms compos  s  In Actes du 5  me Colloque International de Linguistique Grecque   13 15 septembre 2001  Sorbonne  Paris  2002  3 7    33  Tita KYRIACOPOULOU  Safia MRABTI  and AnastasiaYANNACOPOULOU  Le diction   naire   lectronique des noms compos  s en grec moderne  Lingvisticee Investigationes   25 1   7 28  2002  Amsterdam Philadelphia   John Benjamins Publishing Company  3 7    34  Jacques LABELLE  Le traitement automatique des variantes linguistiques en frangais    l exemple des concrets  Lingvistice Investigationes  19 1   137 152  1995  Amsterdam   Philadelphia   John Benjamins Publishing Company  3 7    35  Eric LAPORTE and Anne MONCEAUX  Elimination of lexical ambiguities by gram   mars   The ELAG system  Lingvisticee 
22.   UT  44r  980143 243 qe paansas aTquem sty    4Jaag samodaq qmq  noya se qons uamspuo  fuotatsoddo sat Aq  24e5    aauautTma au   pam103  2apnat  uoT 30 quem sqTt YTM pas  Aq peor sty wory at hutdsaams Jo 3aanseat   S  TITN Jo pue sheranod Jo U0TJ13X2 pau       apeTh STU Jo asptm aya ut    aoeds Wado syTqerteptsuos Fis   en AtTayQ apem AayQ yotym oq Jna 3    THS pauueq aya Jo pasodmoo    saaaatTs uit Jayoel 28010 E  134T3 YON s etia3en Jo pasodmos mq    Haon Uertd1iaJst3 E  3 ang utano4es    uotyoerzqqe qetaganbos 30 Ite utegi  s E    BUTS    aTAEUT  ENT mM103 38274d0tS 243 30    J0 2eu2 sem ssaap sty  gji U  IU Jo     maya Autsodstp 30 apom 243 pue sTetrzaq    Ba 298 amos 4324 PEU 212421 yatun uodn    any sTdand Gyhbtaq     Jo pauteqs usaq PEU qayoel stHis     ae  uonpa AJULPIOIUOI MOIY      SAUN AILL 8          UY PIOJUOI US aoyueansndio giysi uz xayun ANa  82Uep109U0   _     FIG  4 8     Exemple de concordance    64    CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES    Chapitre 5    Grammaires locales    Les grammaires locales sont un moyen puissant de repr  senter la plupart des ph  no   m  nes linguistiques  La premi  re section pr  sentera le formalisme sur lesquel ces gram   maires reposent  Nous verrons ensuite comment construire et pr  senter des grammaires  avec Unitex     5 1 Formalisme des grammaires locales    5 1 1 Grammaires alg  briques    Les grammaires Unitex sont des variantes des grammaires alg  briques    galement ap   pel  es grammaires hors contexte
23.   Une grammaire alg  brique est constitu  e de r  gles de r       criture  Voici une grammaire qui reconna  t n importe quel nombre de caracteres a      S     aS  S            Les symboles figurant    gauche des r  gles sont appel  s symboles non terminaux car ils  peuvent   tre r    crits  Les symboles qui ne peuvent pas   tre r    crits par des r  gles sont ap   pel  s symboles terminaux  Les membres droits des r  gles sont des suites de symboles non   terminaux et terminaux  Le symbole epsilon not       d  signe le mot vide  Dans la grammaire  ci dessus  S est un symbole non terminal et a un terminal  S peut se r    crire soit en un  a suivi d un S  soit en mot vide  L op  ration de r    criture par l application d   une r  gle est  appel  e d  rivation  On dit qu   une grammaire reconna  t un mot s   il existe une suite de d  riva   tions qui produit ce mot  Le non terminal qui sert de point de d  part a la premi  re d  rivation  est appel   axiome     La grammaire ci dessus reconnait ainsi le mot aa  car on peut obtenir ce mot depuis  l   axiome S en effectuant les d  rivations suivantes      D  rivation 1   r    criture de l   axiome en aS     S    as    D  rivation 2   r    criture du S du membre droit en aS    65    66 CHAPITRE 5  GRAMMAIRES LOCALES  S     aS   gt  aas    D  rivation 3   r    criture du S en e  S   gt  aS     aaS     aa       On appelle langage d une grammaire l ensemble des mots reconnus par celle ci  Les lan   gages reconnus par les grammaires alg  
24.   c  Accompany the package with a written offer  valid for at least three years  to give  the same user the materials specified in Subsection 4a  above  for a charge no  more than the cost of performing this distribution      d    wa    If distribution of the package is made by offering access to copy from a designated  place  offer equivalent access to copy the above specified materials from the same  place      e  Verify that the user has already received a copy of these materials or that you  have already sent this user a copy     If the package includes an encrypted form of the Linguistic Resource  the required  form of the  work that uses the Linguistic Resource  must include any data and uti   lity programs needed for reproducing the package from it  However  as a special ex   ception  the materials to be distributed need not include anything that is normally  distributed  in either source or binary form  with the major components  compiler   kernel  and so on  of the operating system on which the executable runs  unless that  component itself accompanies the executable     204    CHAPITRE 10  FORMATS DE FICHIERS    It may happen that this requirement contradicts the license restrictions of proprietary  libraries that do not normally accompany the operating system  Such a contradiction  means you cannot use both them and the Linguistic Resource together in a package  that you distribute       You may not copy  modify  sublicense  link with  or distribute the Linguistic 
25.   elg  177   fst 2 59  89  135  155  166   9r   059 93  135  155  158  163   htm1  149     ind  152    inf  43  147  174      tst  177   rule    snt  22  152  157  159 161  168   txt  106  149  161  168  Alphabet  txt  162  Alphabet_sort txt  38  CHECK_DIC TXT  37  147  175  Config  178  Replace fst2 24  Sentence fst2 23  Unitex  jar  12  14  Unitex_1 2 zip 12  alphabet  45  concord html  171 172  concord  ind  157 170  concord n  157  181  concord txt  171  cursentence grf  153  169  cursentence txt  153 170  dic  28  40  151  181   dlc n  181   alf  28  40  151  181   dlf n  181   enter  pos  160  168   err  28  40  151  181   err n  181   regexp grf  158  stat_dic n  151 181  stats n  26  160  181  system_dic def  180  tagset def  177                                  INDEX       text  cod  26  160  168  text  fst2  153  160  169  text fst2 bck  157  tok_by_alph txt  26  160  168  tok_by_freq txt  26  160  168  tokens txt  26  160  168   user_dic def  180   alphabet  15  23  26  37  149  155  156    159  160   formats de  161   HTML  60  106  148   texte  19  161   taille maximum  19   Filtre morphologique  47  Filtres morphologiques  57  Finesse des dictionnaires  113  Flexion automatique  40  85  156  Formats de fichiers  161  Forme   canonique  31   fl  chie  31                               GlossaNet  149  171  GPL  11  183  Grammaires  alg  briques  65  alg  briques   tendues  66  contraintes  90  de d  coupage en phrases  22  86  de flexion  40  de lev  e d ambiguit  
26.   es ou  mixtes     3 1 1 Format des DELAF  Syntaxe d   une entr  e    Une entr  e d   un DELAF est une ligne de texte termin  e par un retour    la ligne qui  respecte le sch  ma suivant      mercantiles mercantile A zl mp fp ceci est un exemple  Les diff  rents   l  ments qui forment cette ligne sont les suivants          mercantiles est la forme fl  chie de l entr  e  Cette forme fl  chie est obligatoire             mercantile est la forme canonique de l entr  e  Pour les noms et les adjectifs  il s   agit  en g  n  ral de la forme au masculin singulier   pour les verbes  la forme canonique est  l infinitif  Cette information peut   tre omise comme dans l exemple suivant      bo  te    merveilles   N zl fs       31    32 CHAPITRE 3  DICTIONNAIRES    Cela signifie alors que la forme canonique est identique a la forme fl  chie  La forme  canonique est s  par  e de la forme fl  chie par une virgule         A z1 est la s  quence d   informations grammaticales et s  mantiques  Dans notre exemple   A d  signe un adjectif  et z1 indique qu il s   agit d   un mot courant  voir tableau 3 2    Toute entr  e doit comporter au moins un code grammatical ou s  mantique  s  par   de  la forme canonique par un point  S   il y a plusieurs codes  ceux ci doivent   tre s  par  s  par le caract  re verb            mp fp est la s  quence d informations flexionnelles  Ces informations d  crivent le  genre  le nombre  les temps et modes de conjugaisons  les d  clinaisons pour les langues     cas
27.   etc  Ces informations sont facultatives  Un code flexionnel est compos   d   un ou  plusieurs caract  res codant chacun une information  Les codes flexionnels doivent   tre  s  par  s par le caract  re    Dans notre exemple  m signifie masculin  p pluriel et    f     minin  voir tableau 3 3   Le caract  re   s   interpr  te comme un OU logique   mp fp  signifie donc  masculin pluriel  ou  f  minin pluriel   Comme chaque caract  re cor   respond a une information  il est inutile d   utiliser plusieurs fois un m  me caract  re   Ainsi  coder le participe pass   avec le code   PP serait strictement   quivalent    utiliser   P seul          ceci est un exemple est un commentaire  Les commentaires sont facultatifs et  doivent   tre introduits par le caract  re    Les commentaires sont supprim  s lorsque  l   on comprime les dictionnaires     REMARQUE IMPORTANTE   il est possible d utiliser le point et la virgule dans une  entr  e de dictionnaire  Pour cela  il faut les d  sp  cialiser avec le caract  re        3  1415 PI NOMBRE  Organisation des Nations Unies O  N  U   SIGLE    ATTENTION   chaque caract  re est pris en compte dans une ligne de dictionnaire  Par  exemple  si vous introduisez des espaces  ceux ci seront consid  r  s comme faisant partie  int  grante des informations  Dans la ligne suivante      git g  sir V z1 P3s  voir ci git   l   espace qui pr  c  de le caract  re   sera consid  r   comme faisant partie d   un code flexion   nel a 4 caract  res compos   de P  3
28.   l      automate d   origine est affich   en haut  et l automate r  sultat en bas    Ne soyez pas   tonn   si l automate du bas semble plus compliqu    Cela s explique par    7 3  LEVEE D   AMBIGUITES LEXICALES AVEC ELAG 123    Feras tu cela bient  t               FIG  7 13     R  sultat de l   application de la grammaire de la figure 7 12    A dash followed by il  elle  or     on  must be preceded by a verb       FIG  7 14     Utilisation du point de synchronisation    124 CHAPITRE 7  AUTOMATE DU TEXTE       Est il done si rare que les meilleurs marcheurs des lignes transoc  aniennes   prouv  mt des retards de deux ou trois jours                                    FIG  7 15     R  sultat de l application de la grammaire de la figure 7 14    le fait que les entr  es lexicales factoris  es   ont   t   explos  es de fa  on    traiter s  par  ment  chaque interpr  tation flexionnelle  Pour refactoriser ces entr  es  cliquez sur le bouton im   plode  Un clic sur le bouton explode vous donne une vue explos  e de l   automate du text     Si vous cliquez sur le bouton replace  l automate r  sultat deviendra le nouvel automate  du texte  Ainsi  si vous utilisez d autres grammaires  elles s   appliqueront sur l automate d  j    partiellement d  sambiguis    ce qui permet de cumuler les effets de plusieurs grammaires        1Ce sont des entr  es qui regroupent plusieurs interpr  tations flexionnelles diff  rentes  comme par exemple     se  PRO PpvLE  3ms  3fs  3mp  3fp         7 3  LE
29.   lexicale  sauf l   espace          lt DIC gt    reconna  t n importe quel mot figurant dans les dictionnaires du texte         lt SDIC gt    reconna  t n importe quel mot simple figurant dans les dictionnaires du texte         lt CDIC gt    reconna  t n importe quel mot compos   figurant dans les dictionnaires du  texte          lt NB gt    reconna  t n importe quelle suite de chiffres contigus  1234 est reconnu mais  pas 1 234             interdit la pr  sence de l   espace     NOTE   comme il a   t   dit en section 2 54  AUCUN des m  tas ne peut   tre utilis   pour  reconna  tre le marqueur  STOP   pas m  me  lt TOKEN gt      4 3 2 Masques lexicaux    La seconde sorte de motifs regroupe ceux qui font appel aux informations contenues  dans les dictionnaires du texte  On les appelle masques lexicaux  Les quatre formes possibles  sont           lt lire gt    reconna  t toutes les entr  es qui ont lire comme forme canonique          lt lire V gt    reconna  t toutes les entr  es qui ont lire comme forme canonique et qui  ont le code grammatical V          lt V gt    reconna  t toutes les entr  es qui ont le code grammatical V          lirons lire V  ou  lt lirons lire V gt    reconna  t toutes les entr  es qui ont  lirons comme forme fl  chie  1ire comme forme canonique et qui ont le code gram   matical V  Ce type de masque n   a d int  r  t que si l   on travaille sur l automate du texte    4 3  MOTIFS 53    o   sont explicit  es les ambiguit  s des mots  Lorsque l   on effe
30.   lt  head gt     lt body gt     lt font face  Courier new  size 3 gt 4   MAAOTRE   amp nbsp L    lt a href  104 109 2  gt AUTRE lt  a gt  amp nbsp  COMM lt br gt 4  TRE amp nbsp  COMME amp nbsp  lt a href  116 126 2  gt DOMESTIQUE lt  a gt  lt br gt 4     amp nbsp    amp nbsp Al   tait   amp nbsp  lt a href  270 277 3  gt habitAl   e lt  a gt  amp nbsp  pa lt br gt f     UN amp nbsp  COMME amp nbsp   lt a href  94 100 2  gt MAAOTRE lt  a gt    amp nbsp L    lt br gt 4  un   amp nbsp de  nbsp  les amp   nbsp  lt a href  314 321 3  gt membres lt  a gt  amp nbsp  le lt br gt J  la amp nbsp maison   amp nbsp   lt a href  158 165 3  gt portant lt  a gt  amp nbsp  le lt br gt J   lt  font gt     lt  body gt     lt  html gt                 La figure 10 2 montre la page correspondant au fichier ci dessus     Concordance  file  Ely U    o     amp  E    MAITRE  L AUTRE COMM  TRE COMME DOMESTIQUE          tait habit  e pa   UN COMME MAITRE  L   un de les membres le  la maison portant le          FIG  10 2     Exemple de concordance    10 64 Le fichier diff html    Le fichier diff  html est une page HTML qui montre les diff  rences entre deux concor   dances  Ce fichier est encod   en UTF 8  Voici un exemple de fichier  des retours    la ligne  ont   t   introduits pour la mise en page        lt html gt     lt head gt    lt meta http equiv  Content Type  content  text html    charset UTF 8  gt     lt style type  text css  gt   a blue  color blue  text decoration underline    a red  colo
31.   notent la personne de l entr  e sont des  codes pertinents aux pronoms mais non aux adjectifs  Chaque ligne d  crit un attribut  flexionnel  genre  temps  etc   et est compos  e du nom de l attribut  suivi du signe   et  des valeurs qu il peut prendre    Par exemple  la ligne suivante d  clare un attribut pers pouvant prendre les valeurs 1   20u 3    pers   1 2 3  cat    cette partie d  clare les attributs syntaxiques et s  mantiques qui peuvent   tre attribu  s  aux entr  es appartenant    la cat  gorie grammaticale concern  e  Chaque ligne d  crit  un attribut et les valeurs qu il peut prendre  Les codes d  clar  s pour un m  me attri   but doivent   tre exclusifs les uns des autres  Autrement dit  une entr  e ne peut pas  prendre plus d   une valeur pour un m  me attribut  En revanche  il peut exister des   ti   quettes ne prenant aucune valeur pour un attribut donn    Par exemple  pour d  finir  l attribut niveau_de_langue pouvant prendre les valeurs z1  z2 et z3  on   crira la  ligne suivante     niveau_de_langue   z1 z2 z3  discr   cette partie est constitu  e de la d  claration d   un unique attribut  La syntaxe est la  m  me que dans la partie cat et l attribut d  crit ici ne doit pas y   tre r  p  t    Cette  partie permet de diviser la cat  gorie grammaticale en sous cat  gories discriminantes  dans lesquelles les entr  es ont des attributs flexionnels similaires  Pour les pronoms  par exemple  une indication de personne est attribu  e aux entr  es appartenant    
32.   par la s  quence d   entiers d  crite dans le tableau suivant              Indice 0  1  2  1 8 415 1161  2  7  Unit   lexicale   Un sou c         est un sou  correspondante                                                 TAB  2 1     Repr  sentation du texte Un sou c   est un sou     Pour plus de d  tails  voir le chapitre 10     2 5 5 Application de dictionnaires    L   application de dictionnaires consiste    construire le sous ensemble des dictionnaires  ne contenant que les formes pr  sentes dans le texte  Ainsi  le r  sultat de l application des  dictionnaires du fran  ais au texte Igor mange une pomme de terre produit le dictionnaire de  mots simples suivant      2 5  PRETRAITEMENT DU TEXTE 27       FIG  2 11     Unit  s lexicales d un texte anglais tri  es par fr  quence    de   DET z1   de   PREP z1   de   XI z1  mange manger V z1 P1s P3s S1s S3s Y2s  pomme   A z1 ms fs mp fp   pomme   N z1 fs  pomme pommer V z3 P1s P3s S1s S3s Y2s  terre   N zl fs   terre  terrer V z1 P1s P3s S1s S3s Y2s  une   N z1 fs   une  un DET z1 fs       ainsi que le dictionnaire de mots compos  s contenant l unique entr  e      pomme de terre   N zl fs    28 CHAPITRE 2  CHARGEMENT D   UN TEXTE    La s  quence Igor n     tant ni un mot simple du francais  ni une partie de mot compos     a   t   consid  r  e comme mot inconnu  L application de dictionnaires s effectue avec le pro   gramme Dico  Les trois fichiers produits  d1f pour les mots simples  dlc pour les mots  compos  s et err pour le
33.   recense tous les dictionnaires  bin et  fst2 pr  sents dans le  r  pertoire  langue   Dela de l utilisateur  Les dictionnaires du syst  me sont list  s dans le    2 5  PRETRAITEMENT DU TEXTE 29    Lexical Resources     User resources    Il  Il RISU   NPr fst2     Suffixes  fst2          Suffixes  fst2  prenom s bin  motsGramf  bin                   Right click a dictionary to get information about it    IGraphe dictionnaire reconnaissant les chiffres romains    Ce dictionnaire reconna  t les chiffres romains en majuscules  depuis 1 jusqu    4999  Son avantage par rapport au dictionnaire  RomNum bin est qu il ne prend pas comme chiffres romains L       D   M et MM dans les contextes suivants     CSN            FIG  2 13     Param  trage de l application des dictionnaires    cadre intitul    System resources   Utilisez  lt Ctrl click gt  pour s  lectionner plusieurs diction   naires  Le bouton  Set Default  vous permet de d  finir la s  lection courante de dictionnaires  comme s  lection par d  faut  Cette s  lection par d  faut sera utilis  e lors du pr  traitement si  vous choisissez l option  Apply All default Dictionaries   Si vous effectuez un clic droit au   dessus d   un nom de dictionnaire  la documentation du dictionnaire  si elle existe  s   affichera  dans le cadre inf  rieur     2 5 6 Analyse des mots compos  s libres en allemand  norv  gien et russe    Dans certaines langues comme le norv  gien  il est possible de former des mots compos  s  libres en soudant leur
34.   rence dans l   automate  le programme garde ceux qui contiennent le moins de mots incon   nus  Par exemple  la s  quence aujourd   hui en tant qu   adverbe compos   l emporte sur  la d  composition en aujourd suivi d   une apostrophe et de hui  car aujourd est un mot  inconnu  ce qui fait une forme non   tiquet  e contre z  ro dans le cas de l   adverbe compos       La figure 7 11 montre l automate de la figure 7 9 apr  s nettoyage     120 CHAPITRE 7  AUTOMATE DU TEXTE  x   Normalization   v  Apply the Normalization grammar  Norm fst2   X  Clean Text FST  pheme Structures available Tor Korean  Y  Normalize according to Elag tagset def    Use Following Dictionaries previously constructed     The program will construct the text FST  according to the DLF and DLC files previously  constructed for the current text          Cancel D ConstructFST               FIG  7 10     Configuration de la construction de l   automate du texte    7 3 Lev  e d ambiguit  s lexicales avec ELAG    Le programme ELAG permet d   appliquer des grammaires de lev  e d   ambiguit  s sur     automate du texte  C est un m  canisme puissant qui permet    chacun d   crire ses propres  r  gles de fa  on ind  pendante des r  gles d  j   existantes  Cette section pr  sente rapidement le  formalisme des grammaires utilis  es par ELAG ainsi que le fonctionnement du programme   Pour plus de d  tails  le lecteur pourra se reporter     3  et  35      7 3 1 Grammaires de lev  e d   ambiguit  s    Les grammaires manip
35.   s et d   un espace   Il est possible d   ins  rer des lignes de commentaires dans un dictionnaire DELAF ou DELAS     en faisant d  buter la ligne par le caract  re    Exemple        L entr  e nominale pour  par    est un terme de golf  par   N z3 ms    3 1  LES DICTIONNAIRES DELA 33    Mots compos  s avec espace ou tiret    Certains mots compos  s comme grand m  re peuvent s     crire avec des espaces ou avec  des tirets  Pour   viter de devoir d  doubler toutes les entr  es  il est possible d   utiliser le  caract  re    Lors de la compression du dictionnaire  le programme Compress v  rifie pour  chaque ligne si la forme fl  chie ou la forme canonique contient le caract  re   non prot  g    par le caract  re de d  sp  cialisation    Si c est le cas  le programme remplace l entr  e par  deux entr  es   une o   le caract  re   est remplac   par un espace  et une o   il est remplac   par  un tiret  Ainsi  l entr  e suivante      grand m  res  grand m  re N fp  est remplac  e par les deux lignes suivantes      grand m  res grand m  re N fp  grand m  res  grand m  re N fp    NOTE  si vous souhaitez   crire une entr  e contenant le caract  re    d  sp  cialisez le avec  le caract  re   comme dans l exemple suivant      E  mc2    FORMULE  Cette op  ration de remplacement a lieu lors de la compression du dictionnaire  Une fois  le dictionnaire comprim    les signes   d  sp  cialis  s sont remplac  s par de simples    Ainsi     si l   on comprime un dictionnaire contenant les ligne
36.   un chemin de la grammaire de la figure 2 9 reconna  t la s  quence compos  e d   un point d   in   terrogation et d un mot commen  ant par une majuscule et ins  re le symbole  S  entre le  point d interrogation et le mot suivant  Le texte suivant      Quelle heure est il   Huit heures   deviendrait donc   Quelle heure est il   S  Huit heures     Une grammaire de d  coupage peut manipuler les symboles sp  ciaux suivants         lt E gt    mot vide  ou epsilon  Reconnait la s  quence vide        lt MOT gt    reconna  t n importe quelle suite de lettres         lt MIN gt    reconna  t n importe quelle suite de lettres minuscules         lt MAJ gt    reconna  t n importe quelle suite de lettres majuscules         lt PRE gt   reconna  t n importe quelle suite de lettres commen  ant par une majuscule         lt NB gt    reconna  t n importe quelle suite de chiffres contigus  1234 est reconnu mais    pas 1 234          lt PNC gt    reconna  t les symboles de ponctuation           ainsique les points d ex   clamation et d interrogation invers  s de l   espagnol et quelques signes de ponctuation  asiatiques           lt   gt   reconna  t un retour    la ligne         interdit la pr  sence de l   espace     2 5  PRETRAITEMENT DU TEXTE 23    Placement des marques de s  paration de phrases  S        ee ie     L     i        S     Cas g  n  ral  Ponctuation  J                parentheses    crochets       Ponctuation suivie de cas particuliers    sigles  noms  symboles                  S
37.   windows 1257   page de codes Microsoft Windows 1257   Baltique  windows 1251   page de codes Microsoft Windows 1251   Cyrillique  windows 1254   page de codes Microsoft Windows 1254   Turc  windows 1258   page de codes Microsoft Windows 1258   Viet Nam  iso 8859 1   page de codes ISO 8859 1   Latin 1  Europe de l   ouest  amp  USA   iso 8859 15   page de codes ISO 8859 15   Latin 9  Europe de l   ouest  amp  USA   iso 8859 2   page de codes ISO 8859 2   Latin 2  Europe de l   est et centrale   iso 8859 3   page de codes ISO 859 3   Latin 3  Europe du sud   iso 8859 4   page de codes ISO 859 4   Latin 4  Europe du nord   iso 8859 5   page de codes ISO 8859 5   Cyrillique  iso 8859 7   page de codes ISO 8859 7   Grec  iso 8859 9   page de codes ISO 8859 9   Latin 5  Turc   iso 8859 10   page de codes ISO 8859 10   Latin 6  Nordique   next step   page de codes NextStep  LITTLE ENDIAN  BIG ENDIAN             NOTE   il y a un mode suppl  mentaire pour le param  tre dest avec la valeur UTF 8   qui indique au programme qu il doit convertir les fichiers Unicode Little Endian en fichiers  UTF 8     Le param  tre mode sp  cifie comment g  rer les noms des fichiers source et destination    Les valeurs possibles sont les suivantes     r   la conversion   crase les fichiers source   ps PEX   les fichiers source sont renomm  s avec le pr  fixe PFX  toto txt  gt  PFXtoto txt    pd PEX   les fichiers destination sont renomm  s avec le pr  fixe PFX   ss SFX  les fichiers source sont renomm 
38.  107    Display indexed sequences       A   Modify text        mem  ES  sario  z0       Extract units      Extract matching units   Extract caballete  units     Concordance presentation                       _  Use a web browser to view the concordance   better for more than 2000 matches              Show differences with previous concordance    Show Matching Sequences in Context   Lengths of Contexts  Sort According to     Left Col  40  chars    Center  Left Col  v    Right Col   55  chars    Build concordance                     FIG  6 31     Configuration de l affichage des occurrences trouv  es    Une fois cette op  ration effectu  e  le fichier r  sultant est une copie du texte dans laquelle  les sorties ont   t   prises en compte  Les op  rations de normalisation et de d  coupage en uni   t  s lexicales sont automatiquement appliqu  es a ce fichier texte  Les dictionnaires du texte  existants ne sont pas modifi  s  Ainsi  si vous avez choisi de modifier le texte courant  les mo   difications sont imm  diatement effectives  Vous pouvez alors lancer de nouvelles recherches  sur le texte     ATTENTION   si vous avez choisi d   appliquer votre graphe en ignorant les sorties  toutes  les occurrences seront effac  es du texte     6 7 4 Extraction des occurrences    Vous pouvez extraire toutes les phrases du texte qui contiennent ou non des occurrences   Pour cela  choisissez un nom de fichier de sortie grace au bouton  Set File  dans le cadre   Extract units   figure 6 31   C
39.  23  24  154  Fst2Unambig  137  155  Grf2Fst2  89  155             INDEX    ImploseFst2  156  Inflect  42  156  Locate  45  47  156  170  MergeTextAutomaton  157  Normalize  147  157  PolyLex  29  157  Reconstrucao  118  158  Reg2Grf  158  SortTxt  38  158  163  Table2Grf  159  TagsetNormFst2  159  TextAutomaton2Mft  159  Tokenize  26  159  Txt2Fst2  160   Propri  t  s syntaxiques  139          R  gles   d application des transducteur  99   de r    criture  65  R  f  rence aux dictionnaires  52  88  R  pertoire   du texte  22  147   personnel  12  R  pertoire de d  p  t  70  R  seaux de transitions r  cursifs  66  Recherche de motifs  58  105  156  Reconstruction de l   automate du texte  157  REPLACE  24  99  105  155  156  170  Respect   des espacements  45  88   des minuscules  majuscules  45  51  86      88   Respect de la casse  58  Ressources lexicales  voir Dictionnaires  RIN  66  Russe   mots compos  s libres en  157    S  lection de la langue  15  S  lection multiple  73  copier coller  73  S  parateurs  20  de phrases  22  55  157  160  168  181  Shortest matches  59  105  156  Sortie  73  82    INDEX       variables  74  101   associ  e a un sous graphe  91  Symboles   non terminaux  65   sp  ciaux  76   terminaux  65  Symboles lexicaux  134    Tables de lexique grammaire  139  159  Taille maximum des fichiers textes  19  Taux d   ambiguit    127  Text  r  pertoire du  147  Texte  automate du  53  111  153  157  159  160  d  coupage en phrases  22  d  coupage en un
40.  9399  simple  forms  438  10  digits     Les nombres indiqu  s s interpretent de la fa  on suivante         sentence delimiters   nombre de s  parateurs de phrases   S          tokens   nombre total d unit  s lexicales du texte  Le nombre pr  c  dant diff indique  le nombre d   unit  s diff  rentes       simple forms  nombre total dans le texte d unit  s lexicales compos  es de lettres  Le  nombre entre parenth  ses repr  sente le nombre d   unit  s lexicales diff  rentes qui son  compos  es de lettres         digits   nombre total dans le texte de chiffres  Le nombre entre parenth  ses indique  le nombre de chiffres diff  rents utilis  s  au plus 10      10 10 4 Fichier concord n    Le fichier concord n est un fichier texte qui se trouve dans le r  pertoire du texte  Il  contient des informations sur la derni  re recherche de motifs effectu  e sur ce texte et se  pr  sente de la mani  re suivante      6 matches  6 recognized units     182 CHAPITRE 10  FORMATS DE FICHIERS   0 004  of the text is covered   La premi  re ligne donne le nombre d   occurrences trouv  es  la seconde le nombre d uni     t  s couvertes par ces occurrences  La troisi  me ligne indique le rapport entre le nombre  d   unit  s couvertes et le nombre total d   unit  s du texte     Annexe A   GNU General Public  License    Voir  23  pour l original de ce document     Version 2  June 1991  Copyright    1989  1991 Free Software Foundation  Inc     59 Temple Place   Suite 330  Boston  MA 02111 1307  USA    E
41.  Code   Signification Exemples  A adjectif fabuleux  ADV   adverbe r  ellement  a la longue  CONJC   conjonction de coordination   mais  CONJS   conjonction de subordination   puisque     moins que  DET d  terminant ses  trente six  INTJ   interjection adieu  mille millions de mille sabords  N nom prairie  vie sociale  PREP   pr  position sans  a la lumi  re de  PRO   pronom tu  elle m  me  V verbe continuer  copier coller  TAB  3 1     Codes grammaticaux usuels  Code Signification Exemple  il langage courant blague  z2 langage sp  cialis   s  pulcre  z3 langage tr  s sp  cialis   houer  Abst abstrait bon go  t  Anl animal cheval de race  AnlColl   animal collectif troupeau  Conc concret abbaye  ConcColl   concret collectif d  combres  Hum humain diplomate  HumColl   humain collectif vieille garde  t verbe transitif foudroyer  i verbe intransitif fraterniser  en particule pr   verbale  PPV  obligatoire   en imposer  se verbe pronominal se marier  ne verbe    n  gation obligatoire ne pas cesser de          TAB  3 2   Quelques codes s  mantiques    Unitex  Ces codes ont la m  me signification pour presque toutes les langues  m  me si cer     tains d   entre eux sont propres    certaines langues  i e  marque du neutre  etc       NOTE   les descriptions des temps du tableau 3 3 correspondent au fran  ais  N  anmoins     35    la plupart de ces d  finitions se retrouvent dans plusieurs langues  infinitif  pr  sent  participe    pass    etc       Malgr   une base commune    la plup
42.  FIG  3 3     V  rification automatique d   un dictionnaire    3 3 Tri    Unitex manipule les dictionnaires sans se soucier de l   ordre des entr  es  Toutefois  pour  des raisons de pr  sentation  il est souvent pr  f  rable de trier les dictionnaires  L op  ration  de tri varie selon plusieurs crit  res     commencer par la langue du texte    trier  Ainsi  le  tri d un dictionnaire tha   s effectue selon un ordre diff  rent de l   ordre alphab  tique  si bien  qu Unitex utilise un mode de tri d  velopp   sp  cialement pour le tha    voir chapitre 9     Pour les langues europ  ennes  le tri s effectue g  n  ralement selon l   ordre lexicographique   avec toutefois quelques variantes  En effet  certaines langues comme le fran  ais consid  rent  certains caract  res comme   quivalents  Par exemple  la diff  rence entre les caract  res e et     est ignor  e lorsque l   on veut comparer les mots manger et mang  s  car les contextes r et  s permettent de d  cider de l   ordre  La distinction n   est faite que lorsque les contextes sont  identiques  ce qui est le cas si l   on compare p  che et p  che     Afin de prendre en compte ce ph  nom  ne  le programme de tri SortTxt utilise un fi   chier qui d  finit des   quivalences de caract  res  Ce fichier s appelle Alphabet_sort txt  et se trouve dans le r  pertoire de la langue courante de l utilisateur  Voici les premi  res lignes  du fichier utilis   par d  faut pour le fran  ais      A    Aa        Bb   CCEE   Dd    Line 1  no po
43.  Gene   ral Public Licenses are designed to make sure that you have the freedom to distribute copies  of free software  and charge for this service if you wish    that you receive source code or  can get it if you want it  that you can change the software and use pieces of it in new free  programs  and that you are informed that you can do these things    To protect your rights  we need to make restrictions that forbid distributors to deny you  these rights or to ask you to surrender these rights  These restrictions translate to certain  responsibilities for you if you distribute copies of the library or if you modify it    For example  if you distribute copies of the library  whether gratis or for a fee  you must  give the recipients all the rights that we gave you  You must make sure that they  too  receive    191    192 CHAPITRE 10  FORMATS DE FICHIERS    or can get the source code  If you link other code with the library  you must provide com   plete object files to the recipients  so that they can relink them with the library after making  changes to the library and recompiling it  And you must show them these terms so they  know their rights    We protect your rights with a two step method    1  we copyright the library  and  2  we  offer you this license  which gives you legal permission to copy  distribute and or modify  the library    To protect each distributor  we want to make it very clear that there is no warranty for  the free library  Also  if the library is mo
44.  Implose                Replace                            FIG  7 18     Fen  tre de l   automate du texte s  par  e en deux    Pour modifier le nom de l   ensemble  cliquez sur le bouton browse  Dans la bo  te de dia   logue qui appara  t alors  choisissez le nom du fichier   1st que vous voulez donner    votre  ensemble    Pour ajouter une grammaire    l   ensemble  s  lectionnez la dans l explorateur de fichiers  du cadre gauche  et cliquez sur le bouton  gt  gt     Pour retirer une grammaire de l   ensemble  s  lectionnez la dans le cadre droit  et cliquez  sur le bouton  lt  lt     Une fois que vous avez s  lectionn   toutes vos grammaires  compilez les en cliquant sur  le bouton compile  Cela cr  era un fichier  rul  portant le nom indiqu   en bas    droite  le  nom du fichier est obtenu en rempla  ant l extension   1st par l extension  rul     Vous pouvez maintenant appliquer votre ensemble de grammaires  Comme expliqu    plus haut  cliquez sur le bouton elag dans la fen  tre de l   automate du texte  Quand la bo  te  de dialogue vous demande le nom du fichier   rul    utiliser  cliquer sur le bouton browse et  s  letionnez votre ensemble  L automate r  sultat est identique    celui qui aurait   t   obtenu  en appliquant successivement chacune des grammaires     7 3 5 Fen  tre de processing d   ELAG    Lors de la d  sambiguisation  le programme Elag est lanc   dans une fen  tre de proces   sing qui permet de voir les messages   mis par le programme pendant son ex  cuti
45.  Les param  tres INPUT FONT     et OUTPUT FONT     d  finissent le nom  le style et  la taille des polices utilis  es pour afficher les chemins et les transductions des graphes     Les 10 param  tres suivants correspondent aux param  tres pr  cis  s dans les en t  tes des  graphes  Le tableau 10 3 d  crit ces correspondances                                      Param  tres dans le fichier Config   Param  tres dans un fichier   grf   DATE DDATE   FILE NAME DF ILE   PATH NAME DDIR   FRAME DFRAME   RIGHT TO LEFT DRIG  BACKGROUND COLOR BCOLOR  FOREGROUND COLOR FCOLOR  AUXILIARY NODES COLOR ACOLOR  COMMENT NODES COLOR SCOLOR  SELECTED NODES COLOR CCOLOR                TAB  10 3     Signification des param  tres    Le param  tre PACKAGE NODES d  finit la couleur des appels    des sous graphes du r     pertoire de d  p  t     Le param  tre CONTEXT NODES d  finit la couleur des bo  tes correspondant    des d  buts  ou fins de contextes     180 CHAPITRE 10  FORMATS DE FICHIERS    Le param  tre CHAR BY CHAR indique si la langue courante doit   tre trait  e en mode  caract  re par caract  re ou non     Le param  tre ANTIALIASING indique si les graphes ainsi que les automates de phrases  doivent   tre affich  s par d  faut avec l effet d antialiasing     Le param  tre HTML VIEWER indique le nom du navigateur a utiliser pour afficher les  concordances  Si aucun nom de navigateur n   est pr  cis    les concordances sont affich  es  dans une fen  tre d   Unitex     Le param  tre MAX TEXT FI
46.  Library  uses material from a header file that is part of the  Library  the object code for the work may be a derivative work of the Library even though  the source code is not  Whether this is true is especially significant if the work can be linked  without the Library  or if the work is itself a library  The threshold for this to be true is not  precisely defined by law    If such an object file uses only numerical parameters  data structure layouts and acces   sors  and small macros and small inline functions  ten lines or less in length   then the use  of the object file is unrestricted  regardless of whether it is legally a derivative work   Exe   cutables containing this object code plus portions of the Library will still fall under Section  6     Otherwise  if the work is a derivative of the Library  you may distribute the object code  for the work under the terms of Section 6  Any executables containing that work also fall  under Section 6  whether or not they are linked directly with the Library itself    6  As an exception to the Sections above  you may also combine or link a  Work that  uses the Library  with the Library to produce a work containing portions of the Library  and  distribute that work under terms of your choice  provided that the terms permit modifica   tion of the work for the customer   s own use and reverse engineering for debugging such  modifications    You must give prominent notice with each copy of the work that the Library is used in  it a
47.  Open     Prepracess Text       Apply Lexical Resources     Locate Pattern       Dispiay Located Sequences     Construct FST Text       Close Text          FIG  2 6     Menu Text    ply All default Dictionaries  permet d   appliquer au texte des dictionnaires au format DELA   Dictionnaires Electroniques du LADL   L   option  Analyse unknown words as free com   pound words  est utilis  e en norv  gien pour analyser correctement les mots compos  s libres  form  s par soudure de mots simples  Enfin  l option  Construct Text Automaton  est utilis  e  pour construire l automate du texte  Cette option est d  sactiv  e par d  faut  car elle entra  ne  une forte consommation de m  moire et d   espace disque si le texte est trop volumineux  La  construction de l   automate du texte sera abord  e dans le chapitre 7     NOTE   si vous cliquez sur  Cancel but tokenize text   le programme effectuera malgr    tout la normalisation des s  parateurs et le d  coupage en unit  s lexicales   cliquez sur  Cancel  and close text  pour annuler compl  tement l op  ration     2 5 1 Normalisation des s  parateurs    Les s  parateurs usuels sont l   espace  la tabulation et le retour    la ligne  On peut rencon   trer plusieurs s  parateurs cons  cutifs dans des textes  mais comme cela n   est d   aucune utilit    pour une analyse linguistique  on normalise ces s  parateurs selon les r  gles suivantes         toute suite de s  parateurs contenant au moins un retour    la ligne est remplac  e par   un 
48.  Sir     again passed round   To Sir Athelstane of Coningsburgh TITLE Sir   r shall call thee Saxon  Sir Baron TITLE Sir    replied Cedric  o  to say  lady   answered Sir Brian de Bois TITLE Sir  Guilbert     ory    Sir Palmer     said Sir Brian de Bois TITLE Sir  Guilbert sc  so unsafe  the escort of Sir Brian de Bois TITLE Sir  Guilbert is  er to be a handmaiden to Sir Brian de Bois TITLE Sir  Guilbert  a  ghts of the Temple   and Sir Brian de BoisGuilbert TITLE 5ir  wel  have offended   replied Sir Brian TITLE Sir    I crave your pard       FIG  6 26     Concordance obtenue par l application du graphe TitleName    6 6  R  GLES D APPLICATION DES TRANSDUCTEURS 103    Les variables peuvent   tre imbriqu  es  voire m  me se chevaucher comme le montre la  figure 6 29     104 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    ED  E  0  ADJ ADJ NOUN NOUN  NOUNS   ADJ     FIG  6 27     Inversion de mots gr  ce    l   utilisation de deux variables    stopping   Which glide Y roun  when his return from his captivity long had become an event rathe    heir gnarled arms over a carpet thick of the most delicious green  ight  as it were  to the chains feudal with which they were loade  arance  of that wild and character rustic  which belonged to the  gorget was engraved  in characters Saxon  an inscription of the  nd the sufferings of the classes inferior  arose from the consequ       FIG  6 28     R  sultat de l   application du transducteur de la figure 6 27          NumeroMois JourNumero 
49.  Texte oia a WN BRS Se has A he eee Oh a oh eme 167  10 4 1 Fichiers nt os Le    ne he a OE ae dar ct he EE 168  1042 Fichiers SmE es pa patkama D pa bn areal aa nai mb ea 168  1043 Fichier LRO  a  54     one       ain a eu au anal A hors 168  1044  Fichier tokens ixi    233 ce       nu 6    nt bon De et dal do E aa 168  104 5 Fichiers tok_by_alph txt et tok_by_freq txt ico 2  44 2  168  1046 Fehierenterpos  lt A ADA 168  10 5 Automate du texte    44 du ue da data he    one 6 bd ets   s 169  1051 Fighter text ist  5  2 45 Lun 40454 oe Oe eee MER ES 169  10 5 2 Facer CISC pif e Se een Beas Ree PAS ESE SG 169  105 3 FichiersentenceN gti  is ss III 170  10 5 4 Fichier cursentence txt                               170  10 6 Concordances o    ho D DA ia Ra ew dos do a das eS 170  106 1  Fichier concord and   s cia dia ee data ee ewe 170  10 6 2 Fichierconcordtxct 2    40 4 44                da       ee ES 171  1065 Fichierconcord html     s 444 4 essea nat taud aea ss a 171  1064 Le fichier dif hial    eke de etn Lau de Bho dada sent 172  10 7  DICHOnMAIWES occiso ER RS Ee he 6 173  LOL a A AE 173  10 7 2 Fichiers AE es a a ne ae ae ee S 174  10 7 3  Fichier CHECK DICIXT esea ron a ca eons e a 175  10 8  Fichiers d ELAG o cor i ua du aa da    wa a a de seda 177  108 1 Fichieftagsetdel    Lis  siens ad reserve 177  10 8 2 Fichiersdet  oesie we ee Sehr he Ka we Eo ow wes ae do a ES 177  IAS A cee se Ne Oe oe OSL eR A A EEE OD 177  1084 Pieters ln a    dore dede ua eee LA 177  10 9 F
50.  a work based on the Program  and copy and distribute such modifications or work  under the terms of Section 1 above  provided that you also meet all of these conditions       a  You must cause the modified files to carry prominent notices stating that you  changed the files and the date of any change    b  You must cause any work that you distribute or publish  that in whole or in part    contains or is derived from the Program or any part thereof  to be licensed as a  whole at no charge to all third parties under the terms of this License     10 10  FICHIERS DIVERS 185     c  If the modified program normally reads commands interactively when run  you  must cause it  when started running for such interactive use in the most ordinary  way  to print or display an announcement including an appropriate copyright  notice and a notice that there is no warranty  or else  saying that you provide a  warranty  and that users may redistribute the program under these conditions   and telling the user how to view a copy of this License   Exception   if the Program  itself is interactive but does not normally print such an announcement  your work  based on the Program is not required to print an announcement      These requirements apply to the modified work as a whole  If identifiable sections  of that work are not derived from the Program  and can be reasonably considered  independent and separate works in themselves  then this License  and its terms  do  not apply to those sections whe
51.  agrandir l   image  Cliquez sur  Oui   Vous  pouvez maintenant   diter l   image de l   cran  S  lectionnez la zone qui vous int  resse  Pour  cela  passez en mode s  lection en cliquant sur le rectangle en pointill   qui se trouve dans  le coin sup  rieur gauche de la fen  tre  Vous pouvez maintenant s  lectionner une zone de  l image avec la souris  Une fois votre zone s  lectionn  e  appuyez sur  lt Ctrl C gt   Votre s  lec   tion est maintenant dans le presse papier  il ne vous reste plus qu      aller dans votre docu   ment et    appuyer sur  lt Ctrl V gt  pour coller votre image     Sous Linux      Effectuez une capture d   cran  par exemple avec le programme xv   Retaillez ensuite  votre image avec un   diteur graphique  par exemple TheGimp   et collez votre image dans  votre document de la m  me fa  on que sous Windows     5 4 2 Impression d un graphe    Vous pouvez imprimer un graphe en cliquant sur  Print     dans le menu  FSGraph  ou  en appuyant sur  lt Ctrl P gt      ATTENTION   vous devez vous assurer que le param  tre d orientation de l imprimante   portrait ou paysage  correspond bien    l orientation de votre graphe     Vous pouvez d  finir vos pr  f  rences d impression en cliquant sur  Page Setup  dans le  menu  FSGraph   Vous pouvez   galement imprimer tous les graphes qui sont ouverts en  cliquant sur  Print All         Chapitre 6    Utilisation avanc  e des graphes    6 1 Les types de graphes    Unitex peut manipuler plusieurs types de graphes qui corre
52.  au moyen de la commande      make install  Cr  ez ensuite un alias sur le mod  le suivant      alias unitex    cd       Unitex App    java  jar Unitex jar       15 Premi  re utilisation    Si vous travaillez sous Windows  le programme vous demandera de choisir un r  pertoire  personnel de travail  que vous pourrez changer ult  rieurement dans  Info gt Preferences    gt   Directories   Pour cr  er un r  pertoire  cliquez sur l ic  ne repr  sentant un dossier  voir figure  1 3     Sous Linux et MacOS  le programme cr  era automatiquement un r  pertoire  unitex  dans votre r  pertoire  HOME  Ce r  pertoire vous permettra de stocker vos donn  es person   nelles  Pour chaque langue que vous utiliserez  le programme copiera l arborescence de la    1 6  AJOUT DE NOUVELLES LANGUES    13    langue dans votre r  pertoire personnel  a l   exception des dictionnaires  Vous pourrez ainsi  modifier    votre guise votre copie des donn  es sans risquer d   endommager les donn  es du    syst  me     CEE x    Welcome paumier     To use Unitex  you must choose a private  directory to store your data  that you  can change later if you want      Click on OK to choose your directory        K Welcome         Welcome paumier         Your private Unitex directory where you can  store your own data is      home thesards  paumier  unitex                       FIG  1 2     Premi  re utilisation sous Linux    1 6 Ajout de nouvelles langues    Il y a deux mani  res d   ajouter des langues  Si vous d  sir
53.  complete source code means all the source code for all modules it contains   plus any associated interface definition files  plus the scripts used to control compilation and  installation of the library    Activities other than copying  distribution and modification are not covered by this Li   cense  they are outside its scope  The act of running a program using the Library is not  restricted  and output from such a program is covered only if its contents constitute a work  based on the Library  independent of the use of the Library in a tool for writing it   Whether  that is true depends on what the Library does and what the program that uses the Library  does    1  You may copy and distribute verbatim copies of the Library   s complete source code as  you receive it  in any medium  provided that you conspicuously and appropriately publish  on each copy an appropriate copyright notice and disclaimer of warranty   keep intact all the  notices that refer to this License and to the absence of any warranty   and distribute a copy  of this License along with the Library    You may charge a fee for the physical act of transferring a copy  and you may at your  option offer warranty protection in exchange for a fee    2  You may modify your copy or copies of the Library or any portion of it  thus forming  a work based on the Library  and copy and distribute such modifications or work under the  terms of Section 1 above  provided that you also meet all of these conditions     a  Th
54.  comprim  es permettant de reconstruire les  lignes du dictionnaire    partir des formes fl  chies  Cette section d  crit le format de ces deux  types de fichiers  ainsi que le format du fichier CHECK_DIC   TXT qui contient le r  sultat de  la v  rification d un dictionnaire     10 7 1 Fichiers  bin    Un fichier  bin est un fichier binaire repr  sentant un automate  Les 4 premiers octets du  fichier repr  sentent un entier indiquant la taille du fichier en octets  Les   tats de l automate  sont ensuite cod  s de la mani  re suivante         les 2 premiers octets indiquent si l     tat est terminal ainsi que le nombre de transitions   qui en sortent  Le bit le plus fort vaut 0 si l     tat est terminalet 1 sinon  Les 15 autres  bits codent le nombre de transitions     Exemple   un   tat non terminal avec 17 transitions est cod  e par la s  quence hexad  ci   male 8011        si l     tat est terminal  les 3 octets suivants codent l indice dans le fichier  inf de la  forme comprim  e    utiliser pour reconstruire les lignes de dictionnaires pour cette  forme fl  chie     174 CHAPITRE 10  FORMATS DE FICHIERS    Exemple   si l     tat renvoie    la forme comprim  e d   indice 25133  la s  quence hexad  ci   male correspondante est 00622D        chaque transition sortante est ensuite cod  e sur 5 octets  Les 2 premiers octets codent  le caract  re   tiquetant la transition  et les 3 suivants codent la position en octets dans  le fichier   bin de l     tat d arriv  e  Les transiti
55.  contenant sept lignes  voir figure 5 4   En effet  le caract  re    sert de s  parateur  La bo  te appara  t sous la forme de lignes de texte rouge car elle n   est  pour l instant reli  e    aucune autre  On utilise souvent ce type de bo  tes pour ins  rer des  commentaires dans un graphe    Pour relier une bo  te    une autre  il faut cliquer sur la bo  te de d  part puis sur la bo  te  de destination  S il y a d  j   une transition entre les deux bo  tes  celle ci est enlev  e  Il est  possible d effectuer cette m  me op  ration en cliquant d   abord sur la bo  te de destination   puis sur la bo  te de d  part tout en pressant sur la touche Shift  Dans notre exemple  une fois  la bo  te reli  e    l     tat initial et    l     tat final du graphe  on obtient le graphe de la figure 5 5      68 CHAPITRE 5  GRAMMAIRES LOCALES       FIG  5 2   Graphe vierge       FIG  5 3     Cr  ation d   une bo  te    NOTE   si vous double cliquez sur une bo  te  vous relierez cette bo  te    elle m  me  voir  figure 5 6   Pour annuler  double cliquez une nouvelle fois sur la bo  te     Cliquez sur  Save as     dans le menu  FSGraph  pour sauver ce graphe  Par d  faut  Uni   tex vous propose d effectuer la sauvegarde dans le sous r  pertoire Graphs de votre r  per   toire personnel  Vous pouvez voir si le graphe a   t   modifi   depuis la derni  re sauvegarde  en regardant si le titre de la fen  tre contient la mention  Unsaved      5 2  EDITION DE GRAPHES 69       FIG  5 5     Graphe recon
56.  d en   t  te     Les lignes suivantes donnent le contenu et la position des bo  tes du graphe  Les lignes  suivantes correspondent    un graphe reconnaissant un chiffre      34     lt E gt   84 248 1 2 4      272 248 0 Y  s 1 2 3 4 5 6 7 8 9 0  172 248 1 1 4    La premiere ligne indique le nombre de bo  tes du graphe  imm  diatement suivi d un  retour a la ligne  Ce nombre ne doit jamais   tre inf  rieur    2  car un graphe est toujours  sens   poss  der un   tat initial et un   tat final    Les lignes suivantes d  finissent les boites du graphe  Les boites sont num  rot  es    partir  de 0  Par convention  l     tat 0 est l     tat initial et l     tat 1 est l     tat final  Le contenu de l     tat  final doit toujours   tre vide     Chaque bo  te du graphe est d  finie par une ligne qui doit avoir le format suivant    contenu X Y N transitions Y    contenu est une cha  ne de caract  res entour  e de guillemets qui repr  sente le contenu  de la bo  te  Cette chaine peut   ventuellement   tre pr  c  d  e d un s dans le cas d un graphe  Intex import    ce caract  re est alors ignor   par Unitex  Le contenu de la cha  ne est le texte  qui a   t   entr   dans le contr  le de texte de l   diteur de graphes  Le tableau suivant donne le  codage des deux s  quences sp  ciales qui ne sont pas cod  es telles quelles dans les fichiers  GE Es       S  quence dans l   diteur de graphe   S  quence dans le fichier  gr                                            TAB  10 2   Codage des s  qu
57.  de l   entr  e  en d  calant tout ce qui se trouve    sa droite   Si l   on souhaite par exemple fl  chir le mot roumain european en europani  on uti   lisera la s  quence LDRi  Le L positionnera le curseur sur la lettre a  le D va supprimer  le a en d  calant le n  puis Ri va r  tablir le n et ajouter un i              42 CHAPITRE 3  DICTIONNAIRES    Voici un exemple qui d  crit la flexion de choose en chosen grace a la s  quence d   op  ra   teurs LLDRRn          tape 0  initialisation de la pile avec la forme canonique   on place le curseur apr  s la  derni  re lettre   i                            cihlololsle                tape 1   on d  cale le curseur vers la gauche    LLDRRn       cihlolols                                     tape 2   on d  cale une seconde fois le curseur vers la gauche    LLDRRn                            cihlololsle                tape 3   on d  cale tout ce qui est    droite du curseur vers la gauche    LLDRRn       S  V  RE             tape 4   on d  cale le curseur vers la droite    LLDRRn                            cih olsle                tape 5   on d  cale encore le curseur vers la droite    LLDRRn                                        tape 6  on   crit un n       cihlolslelin                               Une fois la s  quence d op  rateurs   puis  e  on prend le contenu de la pile jusqu   avant le  curseur pour former la forme fl  chie  ici chosen      Le programme de flexion Inflect explore tous les chemins de la grammaire de flexion  e
58.  de pr  traitement             22 CHAPITRE 2  CHARGEMENT D   UN TEXTE    r  pertoire que le  txt et dont le nom est mon_texte snt     NOTE  lorsque l   on pr  traite un texte depuis l interface graphique  un r  pertoire nomm    mon_texte_snt est cr     imm  diatement apr  s la normalisation  Ce r  pertoire  appel   r     pertoire du texte  contiendra toutes les donn  es relatives    ce texte     2 5 2 D  coupage en phrases    Le d  coupage en phrases est une   tape importante du pr  traitement car elle va permettre  de d  finir des unit  s de traitement linguistique  Ce d  coupage sera utilis   par le programme  de construction de l automate du texte  Contrairement    ce que l   on pourrait penser  la re   cherche des limites de phrases n   est pas un probl  me trivial  Consid  rons le texte suivant      La famille a appel   le Dr  Martin en urgence     Le point qui suit Dr est suivi d   un mot commen  ant par une majuscule   il pourrait donc   tre  consid  r   comme un point de fin de phrase  ce qui serait faux  Afin d   viter les probl  mes  de ce genre  dus    des ambigu  t  s des symboles de ponctuation  on utilise des grammaires  qui d  crivent les diff  rents contextes o   peuvent appara  tre les limites de phrases  La figure  2 9 montre un exemple de grammaire de d  coupage en phrases     Lorsqu un chemin de la grammaire reconna  t une s  quence dans le texte et que ce che   min produit le symbole s  parateur de phrases  S    on ins  re ce symbole dans le texte  Ainsi 
59.  des remplacements en fonction de ses besoins  Toutefois  il faut faire attention    ce    24 CHAPITRE 2  CHARGEMENT D   UN TEXTE    que les formes normalis  es soient non ambigu  s  ou    ce que la disparition de l   ambiguit    soit sans cons  quence pour l application recherch  e  Si l   on d  cide de remplacer la forme  audit par    le dit  la phrase      La cour a proc  d      un audit des comptes de cette soci  t     sera remplac  e par la phrase incorrecte    La cour a proc  d      un    le dit des comptes de cette soci  t       Il faut donc   tre tr  s prudent lorsque l   on manipule la grammaire de normalisation   Il faut   galement faire attention aux espaces  En effet  si l   on remplace c    par ce non suivi  par un espace  la phrase      Est ce que c   tait toi    sera remplac  e par la s  quence incorrecte    Est ce que ce  tait toi      Les symboles accept  s par les grammaires de normalisation sont les m  mes que ceux  autoris  s dans les grammaires de d  coupage en phrases  La grammaire utilis  e se nomme  Replace fst2 et se trouve dans le r  pertoire suivant         r  pertoire personnel   langue  Graphs Preprocessing Replace    Comme pour le d  coupage en phrases  cette grammaire est utilis  e avec le programme  Fst2Txt  mais cette fois en mode REPLACE  ce qui signifie que les entr  es reconnues par  la grammaire sont remplac  es par les s  quences produites par celle ci  On peut voir sur la  figure 2 10 une grammaire qui normalise des contractions verbales
60.  distribute  such a combined library  provided that the separate distribution of the work based on the  Library and of the other library facilities is otherwise permitted  and provided that you do  these two things     a  Accompany the combined library with a copy of the same work based on the Library   uncombined with any other library facilities  This must be distributed under the terms of  the Sections above    b  Give prominent notice with the combined library of the fact that part of it is a work  based on the Library  and explaining where to find the accompanying uncombined form of  the same work    8  You may not copy  modify  sublicense  link with  or distribute the Library except as  expressly provided under this License  Any attempt otherwise to copy  modify  sublicense   link with  or distribute the Library is void  and will automatically terminate your rights  under this License  However  parties who have received copies  or rights  from you under  this License will not have their licenses terminated so long as such parties remain in full  compliance    9  You are not required to accept this License  since you have not signed it  However  no   thing else grants you permission to modify or distribute the Library or its derivative works   These actions are prohibited by law if you do not accept this License  Therefore  by mo   difying or distributing the Library  or any work based on the Library   you indicate your  acceptance of this License to do so  and all its t
61.  en anglais     2 5 4 D  coupage du texte en unit  s lexicales    Certaines langues  en particulier les langues asiatiques  utilisent les s  parateurs de fa  on  diff  rente des langues occidentales   les espaces peuvent   tre interdits  facultatifs ou obli   gatoires  Pour pouvoir g  rer ces particularit  s au mieux  Unitex d  coupe les textes d   une  mani  re d  pendante de la langue  Ainsi  les langues comme le fran  ais sont trait  es selon le  principe suivant      Une unit   lexicale peut   tre         soit le s  parateur de phrases  5         le marqueur  STOP   Contrairement au s  parateur de phrases  S    le marqueur  STOP   ne peut JAMAIS   tre reconnu par une grammaire  de quelque fa  on que ce soit  Ce  marqueur particulier peut   tre utilis   pour d  limiter des   l  ments dans un corpus   Par exemple  si un corpus est constitu   de d  p  ches de presse s  par  es par  STOP    cela   vite qu une grammaire puisse accidentellement reconna  tre une s  quence che   vauchant la fin d   une d  p  che et le d  but de la d  p  che suivante      2 5  PRETRAITEMENT DU TEXTE    NS           g     Nil  VANO  MAN      AN  AN    N    FIG  2 10   Grammaire de normalisation de formes verbales en anglais       26 CHAPITRE 2  CHARGEMENT D   UN TEXTE        soit une   tiquette lexicale  aujourd   hui   ADV         soit une suite contigu   de lettres  les lettres   tant d  finies par le fichier alphabet de la  langue          soit un caract  re qui n   est pas une lettre   s   il s
62.  es     _  Pathname Auxiliary Nodes    Set      v  Frame Selected Nodes      Set                   Comment Nodes      Set              Antialiasing       _  Enable antialising for rendering graphs           Icon Bar Position     0 West    North       O East  South     None            Input   Times New Roman 10 Reset to Default    output   _ Output _  Arial Unicode MS 12          FIG  5 27   Configuration des pr  f  rences par d  faut    84 CHAPITRE 5  GRAMMAIRES LOCALES  5 4 Les graphes en dehors d   Unitex    5 4 1 Inclusion d un graphe dans un document    Pour inclure un graphe dans un document  il faut en faire une image  Pour cela  une  premi  re m  thode consiste    sauver votre graphe en tant qu   image au format PNG  Pour  cela  allez dans le menu  FSGraph  et cliquez sur  Save as      Choisissez ensuite le type de  fichier PNG  Vous obtiendrez ainsi une image pr  te      tre int  gr  e dans un document ou       tre   dit  e avec un logiciel de retouche d images  Afin de rendre l   image plus lisse  vous  pouvez activer l antialiasing pour le graphe qui vous int  resse     La seconde m  thode consiste    faire une capture d   cran    Sous Windows      Appuyez ensuite sur la touche  Imprime   cran  de votre clavier qui doit se trouver pr  s  de la touche F12  Lancez le programme Paint dans le menu  Accessoires  de Windows  Ap   puyez sur  lt Ctrl V gt   Paint devrait vous dire que l   image contenue dans le presse papiers  est trop grande et vous demander si vous voulez
63.  es en fonction du contenu des cellules situ  es    l intersection des colonnes  correspondantes et de la ligne trait  e  Si une cellule de la table contient le signe    la variable  correspondante est remplac  e par  lt E gt   Si la cellule contient le signe    la bo  te contenant la  variable correspondante est supprim  e  ce qui d  truit du m  me coup les chemins passant  par cette bo  te  Dans tous les autres cas  la variable est remplac  e par le contenu de la cellule     8 2 2 Format de la table    Les tables de lexique grammaire sont g  n  ralement cod  es    l   aide d   un tableur comme  OpenOffice org Calc   41    Pour pouvoir   tre utilis  es par Unitex  les tables doivent   tre  cod  es en texte Unicode selon la convention suivante   les colonnes doivent   tre s  par  es  par des tabulations et les lignes par des retours    la ligne    Pour convertir une table avec OpenOffice org Calc  sauvegardez la au format texte  ex   tension   csv   Le programme vous propose ensuite de param  trer la sauvegarde au moyen  d une fen  tre comme celle de la figure 8 2  Choisissez le codage  Unicode   s  lectionnez la    8 2  CONVERSION D   UNE TABLE EN GRAPHES 141    tabulation comme s  parateur de colonnes  et ne pr  cisez pas de d  limiteur de texte     Export de texte x        Options de champ  Jeu de caract  res  Unicode y    y Annuler    S  parateur de champ  trab       S  parateur de texte D     Aide         FIG  8 2   Configuration de la sauvegarde d une table avec OpenOff
64.  est concurrente avec  ancient times  C   est donc la premi  re qui  est retenue car c   est l occurrence la plus    gauche  et  ancient times  est   limin  e  L oc   currence suivante  times a  n   est donc plus en conflit avec  ancient times  et peut  donc appara  tre dans le r  sultat         Don  there extended  in ancient   times a  large forest       La r  gle de priorit      gauche s applique uniquement lorsque le texte est modifi    soit lors  du pr  traitement  soit apr  s l application d un graphe syntaxique  voir section 6 7 3      6 6 4 Priorit   aux s  quences les plus longues    Lors de l application d un graphe syntaxique  il est possible de choisir si la priorit   doit    tre donn  e aux s  quences les plus courtes ou les plus longues  ou si toutes les s  quences  doivent   tre retenues  Lors des op  rations de pr  traitement  la priorit   est toujours donn  e  aux s  quences les plus longues     6 6 5 Sorties    variables    Comme nous l avons vu    la section 5 2 7  il est possible d utiliser des variables pour  stocker le texte qui a   t   analys   par une grammaire  Ces variables peuvent   tre utilis  es  dans les graphes de pr  traitement et dans les graphes syntaxiques    Vous devez donner des noms aux variables que vous utilisez  Ces noms peuvent contenir  les lettres comprises entre A et Z non accentu  es minuscules ou majuscules  des chiffres et le  caract  re _  underscore     Pour d  finir le d  but  ou la fin  de la zone stock  e dans une variable 
65.  est impossible de faire r  f  rence aux dictionnaires         il est impossible d utiliser les filtres morphologiques         il est impossible d utiliser des contextes    Les figures 2 9  page 23  et 2 10  page 25  montrent des exemples de graphes de pr  trai   tement     6 1  LES TYPES DE GRAPHES 87    6 1 3 Graphes de normalisation de l automate du texte    Les graphes de normalisation de l   automate du texte permettent de normaliser des formes  ambigu  s  En effet  ils peuvent d  crire plusieurs   tiquettes pour une m  me forme  Ces   ti   quettes sont ensuite ins  r  es dans l   automate du texte  explicitant ainsi les ambiguit  s  La  figure 6 3 montre un extrait du graphe de normalisation utilis   pour le frangais         de  DET Dind zl mp fp     FIG  6 3     Extrait du graphe de normalisation utilis   pour le francais    Les chemins d  crivent les formes qui doivent   tre normalis  es  Les variantes minuscules  et majuscules sont prises en compte selon le principe suivant   les lettres majuscules dans  le graphe ne reconnaissent que les lettres majuscules dans l automate du texte  les lettres  minuscules peuvent reconna  tre les lettres minuscules et majuscules    Les sorties repr  sentent les s  quences d   tiquettes qui seront ins  r  es dans l automate  du texte  Ces   tiquettes peuvent   tre des entr  es de dictionnaires ou de simples cha  nes  de caract  res  Les   tiquettes repr  sentant des entr  es de dictionnaire doivent respecter le  format des entr  es d
66.  et au conditionnel avec le param  tre  f lip  voir section 9 2   Le param  tre pro d  signe la  grammaire de r    criture des pronoms    utiliser  Le param  tre nasalpro d  signe la gram   maire de r    criture des pronoms nasaux    utiliser  res d  signe le fichier  grf dans lequel  seront produites les r  gles de normalisation     9 25 Reg2Grf   Reg2Grf fic   Ce programme construit un fichier   gr f correspondant    l expression rationnelle conte   nue dans le fichier fic  Le param  tre fic doit repr  senter le chemin d acc  s complet au  fichier contenant l expression rationnelle  Ce fichier doit   tre un fichier texte Unicode  Le    programme prend en compte tous les caract  res jusqu   au premier retour    ligne  Le fichier  r  sultat se nomme regexp grf et est sauvegard   dans le m  me r  pertoire que fic     9 26 SortTxt  SortTxt texte  OPTIONS     Ce programme effectue un tri lexicographique des lignes du fichier texte  texte doit  repr  senter le chemin d   acc  s complet au fichier a trier  Les options possibles sont      9 27  TABLE2GRF 159         y   supprime les doublons         n   conserve les doublons          r   trie dans l   ordre d  croissant       o fic  trie en utilisant l alphabet de tri d  fini par le fichier fic  Si ce param  tre est  absent  le tri est effectu   selon l   ordre des caract  res en Unicode        1 fic  sauvegarde le nombre de lignes du fichier r  sultat dans le fichier fic         thai   option    utiliser pour trier un texte thai  
67.  faut     MS DOS   Autre codage    Options   Unicode    D Ins  rer des sauts de ligne pasa ra ian     Terminer les lignes par    cr LF y  Unicode  UTF 8   shi a   Vietnamien  Windows  bus    I Autoriser le remplacement de caract  res   I Ajouter des marques bi directionnelles       Apercu    Saving a document in Unicode        FIG  2 4     Sauvegarde en Unicode dans Office XP    ainsi obtenus ne contiennent plus d informations de formatage  police  couleurs  etc   et sont  pr  ts      tre utilis  s avec Unitex     2 3 Edition de textes    Vous avez   galement la possibilit   d utiliser l   diteur de texte int  gr      Unitex  accessible  via la commande  Open     du menu  File Edition   Cet   diteur vous propose des fonction   nalit  s de recherche et remplacement propres aux textes et dictionnaires manipul  s par Uni   tex  Pour y acc  der  cliquez sur l ic  ne  Find   jumelles   Vous verrez alors appara  tre une  fen  tre divis  e en trois onglet  L onglet  Find  correspond aux op  rations de recherche ha   bituelles  Si vous ouvrez un texte d  coup   en phrases  vous aurez la possibilit   de faire une  recherche par num  ro de phrase dans l onglet  Find Sentence   Enfin  l onglet  Dictionary  Search   visible sur la figure 2 5  vous permet d effectuer des op  rations propres aux diction   naires   lectroniques  En particulier  vous pouvez effectuer une recherche en sp  cifiant si elle  doit porter sur la forme fl  chie  le lemme  les codes grammaticaux et s  mantiques et o
68.  grammaire                      96  69 Collecionte graphes    gt   gt  np Las Pe eee sue EME mes ER Ee 98  6 6 R  gles d application des transducteurs        csc eee ee 99  66 1 Insertion    gauche du motif reconnu      4 5244 404  pau das a 99   662 Application en aval       parks A 100  a ARI Re Rae EK ER SESS OS 100  6 64 Priorit   aux s  quences les plus longues                    101   6 6 5 Sorties    variables                                 101   6 7 Application des graphes aux textes     gt  os os c socors racc mote metata 105  67 1 Configuration de la recherche      2444 cearda wrda tisaha 105   622  Concordance     an ae e dada ad EA Ba RE d   E ed oui 105   6 73 Modification du texte                              106   6 7 4 Extraction des occurrences       4 44 444 ee       107   6 5 Comparaison de concordances       ps bee ee ee ew Eee 108   7 Automate du texte 111  Wel  Poena e   i502     uve geo Bee SAE ees URES eee 111  Tak  Construci  n  id ae ee ee eee he o   we ce de du he    112  7 2 1 R  gles de construction de l   automate du texte                113   7 2 2 Normalisation de formes ambigu  s                      114   7 2 3 Normalisation des pronoms clitiques en portugais                114   7 2 4 Conservation des meilleurs chemins                      118   7 3 Lev  e d    ambigui  t  s lexicales avec ELAG   coco ous dodo ns sue nt 120  7 3 1 Grammaires de levee d ambiguit  s o oc Le de en en    120   7 3 2 Compilation des grammaires ELAG   4 444  vue 
69.  il  est parcouru  Afin d     viter le risque de boucler ind  finiment  il ne faut pas que les s     quences produites par un transducteur puissent   tre r   analys  es par celui ci  Pour cette  raison  quand une s  quence a   t   introduite dans le texte  l application du transducteur se  poursuit apr  s cette s  quence    Cette r  gle ne concerne que les transducteurs de pr  traitement  car lors de l application  de graphes syntaxiques  les sorties ne modifient pas le texte parcouru mais un fichier de  concordances distinct du texte     6 6 3 Priorit      gauche    Lors de l application d une grammaire locale  les occurrences qui se chevauchent sont  toutes index  es  Lors de la construction de la concordance  toutes ces occurrences sont pr     sent  es  voir figure 6 24      r Don  there extended in  ancient times  a large forest  covering  iver Don  there extended  in ancient  times a large forest  cover  here extended in ancient  times a  large forest  covering the gre    FIG  6 24     Occurrences se chevauchant dans une concordance    En revanche  si vous modifiez le texte au lieu de construire une concordance  il est n  ces   saire de choisir parmi ces occurrences lesquelles seront prises en compte  Pour cela  Unitex    6 6  R  GLES D APPLICATION DES TRANSDUCTEURS 101    applique la r  gle de priorit   suivante   la s  quence la plus    gauche l emporte    Si l   on applique cette r  gle aux trois occurrences de la concordance pr  c  dente  l occur   rence  in ancient 
70.  l   option  File Name  est s  lectionn  e        Frame   dessine un cadre autour du graphe        Right to Left   inverse le sens de lecture du graphe  voir exemple de la figure 5 26      RightToLeft qrf             FIG  5 26     Graphe se lisant de droite    gauche    Vous pouvez r  tablir les param  tres par d  faut en cliquant sur le bouton  Default   Si  vous cliquez sur le bouton  OK   seul le graphe courant sera modifi    Pour modifier les  pr  f  rences par d  faut d une langue  cliquez sur  Preferences     dans le menu  Info  et choi   sissez l   onglet  Graph Presentation   La fen  tre de configuration des pr  f  rences poss  de    5 3  OPTIONS DE PRESENTATION    une option suppl  mentaire concernant l antialiasing  voir figure 5 27   Cette option permet  d   activer l antialiasing par d  faut pour tous les graphes de la langue courante  Il est pr  f     rable de ne pas activer cette option si votre machine n est pas tr  s puissante  Il y a une autre  option suppl  mentaire qui permet de d  finir la position de la barre d ic  nes     NOTE   l option  Right to Left  n est pas reprise dans la fen  tre de configuration g  n  rale  des graphes  En effet  les graphes d une langue adoptent par d  faut l orientation du texte  d  fini pour cette langue  dans l onglet  Text Presentation  de la fen  tre de pr  f  rences  voir    figure 4 7  page 62       3 Preferences for English    Graph Presentation          Display Colors  lv  Date   v  File Name    eee eee  Foreground  MR
71.  le programme  ElagComp qui va compiler la grammaire s  lectionn  e pour cr  er un fichier nomm   elag rul    Si vous avez s  lectionn   votre grammaire dans le cadre droit  vous pouvez rechercher  les motifs qu   elle reconna  t en cliquant sur le bouton locate  Cela ouvre la fen  tre  Locate Pat   tern  en sp  cifiant automatiquement un nom de graphe se terminant par  conc  fst2  Ce  graphe correspond    la partie si de la grammaire  Vous pouvez ainsi obtenir les occurrences  du texte sur lesquelles la grammaire s   appliquera    NOTE   le fichier  conc fst2 utilis   pour localiser la partie alors d une grammaire est  g  n  r   lors de la compilation des grammaires ELAG au moyen du bouton compile  Il faut  donc avoir d   abord compil   votre grammaire avant d utiliser la fonction de recherche du  bouton locate     7 3 3 Lev  e d   ambiguit  s    Une fois que vous avez compil   votre grammaire en un fichier elag rul  vous pouvez  l appliquer    l automate du texte  Dans la fen  tre de l automate du texte  cliquez sur le bou   ton elag  Une bo  te de dialogue appara  tra pour vous demander le nom du fichier  rul     utiliser  voir figure 7 17   Comme le fichier d  faut est bien elag rul  cliquez simplement  sur  OK   Cela lancera le programme Elag qui va effectuer la lev  e d ambiguit  s    Une fois le programme termin    vous pouvez consulter l   automate r  sultat en cliquant  sur le bouton Elag Frame  Comme on le voit sur la figure 7 18  la fen  tre est s  par  e en deux  
72.  les formes fl  chies et canoniques  la liste des codes grammaticaux    et syntaxiques ainsi que la liste des codes flexionnels utilis  s  Les r  sultats de la v  rification  sont stock  s dans un fichier nomm   CHECK_DIC TXT     9 2 Compress    Compress dictionnaire   flip     147    148 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES    Ce programme prend en param  tre un dictionnaire DELAF et le compresse  La compres   sion d   un dictionnaire dico dic produit deux fichiers      dico bin  fichier binaire contenant l automate minimal des formes fl  chies du dic   tionnaire      dico inf  fichier texte contenant des formes comprim  es permettant de reconstruire  les lignes du dictionnaire    partir des formes fl  chies contenues dans l automate     Pour plus de d  tails sur les formats de ces fichiers  voir chapitre 10  Le param  tre option   nel  flip indique que les formes fl  chies et canoniques seront invers  es dans le diction   naire comprim    Cette option est utilis  e pour construire le dictionnaire invers   n  cessaire  au programme Reconstrucao     9 3 Concord    Concord index font fontsize left right order mode alph   thai     Ce programme prend en param  tre un fichier d   index de concordance produit par le  programme Locate et produit une concordance  Il peut   galement produire une version  du texte modifi  e prenant en compte les transductions associ  es aux occurrences  Voici la  description des param  tres         index   nom du fichier de concordance  Vou
73.  ligne d  bute  par le caract  re t et par le caract  re   sinon  Pour chaque   tat  la liste des transitions est une  suite   ventuellement vide de couples d   entiers         le premier entier indique le num  ro d     tiquette ou de sous graphe correspondant    la  transition  Les   tiquettes sont num  rot  es    partir de 0  Les sous graphes sont repr     sent  s par des entiers n  gatifs  ce qui explique que les num  ros pr  c  dant les noms  des graphes soient n  gatifs         le deuxi  me entier repr  sente le num  ro de l     tat d arriv  e de la transition  Dans  chaque graphe  les   tats sont num  rot  s    partir de 0  Par convention  l     tat 0 d un  graphe est son   tat initial     Chaque ligne de d  finition d   tat doit se terminer par un espace  La fin de chaque graphe  est marqu  e par une ligne contenant un    suivi d   un espace     Les   tiquettes sont d  finies apr  s le dernier graphe  Si la ligne d  bute par le caract  re     cela signifie que le contenu de l   tiquette doit   tre recherch  e sans variante de casse  Cette  information n est utile que lorsque l   tiquette est un mot  Si la ligne d  bute par le caract  re     les variantes de casse sont autoris  es  Si une   tiquette porte une transduction  les s  quences  d entr  e et de sortie sont s  par  es par le caract  re    exemple   1e  DET   Par convention  la  premi  re   tiquette doit toujours   tre le mot vide   lt E gt    et ce  m  me si cette   tiquette n est  utilis  e dans aucune transit
74.  matches    Replace recognized sequences   m limitation  2 NT        Stop after 200   TA      Index all utterances in text             FIG  4 4     Fen  tre de recherche d expressions    Le cadre  Locate pattern in the form of  permet de choisir entre une expression ration   nelle et une grammaire  Cliquez sur  Regular expression      Le cadre  Index  permet de s  lectionner le mode de reconnaissance           Shortest matches    donne la priorit   aux s  quences les plus courtes         Longest matches    donne la priorit   aux s  quences les plus longues  C   est le mode  utilis   par d  faut         All matches    donne toutes les s  quences reconnues     Le cadre  Search limitation  permet de limiter ou non la recherche a un certain nombre  d   occurrences  Par d  faut  la recherche est limit  e aux 200 premi  res occurrences     Les options du cadre  Grammar outputs  ne concernent pas les expressions rationnelles   Elles sont d  crites a la section 6 7     Entrez une expression et cliquez sur  Search  pour lancer la recherche  Unitex va trans   former l expression en une grammaire au format  grf   Cette grammaire va ensuite   tre  compil  e en une grammaire au format  fst2 qui sera utilis  e par le programme de re   cherche     4 8 2 Affichage des r  sultats    Une fois la recherche termin  e  la fen  tre de la figure 4 5 appara  t  indiquant le nombre  d   occurrences trouv  es  le nombre d unit  s lexicales reconnues  ainsi que le rapport entre ce    60 CHAPITRE 4  REC
75.  part of the code of the Library into a pro   gram that is not a library    4  You may copy and distribute the Library  or a portion or derivative of it  under Section  2  in object code or executable form under the terms of Sections 1 and 2 above provided that  you accompany it with the complete corresponding machine readable source code  which  must be distributed under the terms of Sections 1 and 2 above on a medium customarily  used for software interchange    If distribution of object code is made by offering access to copy from a designated place   then offering equivalent access to copy the source code from the same place satisfies the  requirement to distribute the source code  even though third parties are not compelled to  copy the source along with the object code    5  A program that contains no derivative of any portion of the Library  but is designed  to work with the Library by being compiled or linked with it  is called a  work that uses the  Library   Such a work  in isolation  is not a derivative work of the Library  and therefore falls    10 10  FICHIERS DIVERS 195    outside the scope of this License    However  linking a  work that uses the Library  with the Library creates an executable  that is a derivative of the Library  because it contains portions of the Library   rather than  a  work that uses the library   The executable is therefore covered by this License  Section 6  states terms for distribution of such executables    When a  work that uses the
76.  qui provoque l af   fichage de la fen  tre de la figure 5 25     Presentation x      Display      Colors     v  Date Background         Esa    v  File Name Foreground    se A   _  Pathname Auxiliary Nodes     gt        Vi Frame Selected Nodes  E Set          _  Rightto Left Comment Nodes  se    Se                  Fonts    a    npt   Times New Roman 10  o      Cancer         Output Times New Roman Gras 12       FIG  5 25     Configuration de l aspect d un graphe    82 CHAPITRE 5  GRAMMAIRES LOCALES    Les param  tres de polices sont        Input   police utilis  e dans les bo  tes  ainsi que dans la zone de texte o   l   on   dite le  contenu des boites        Output   police utilis  e pour afficher les sorties des boites     Les param  tres de couleur sont        Background   couleur de fond    Foreground   couleur utilis   pour le texte et le dessin des boites    Auxiliary Nodes   couleur des boites faisant appel a des sous graphes    Selected Nodes   couleur utilis  e pour dessiner les boites quand elles sont s  lection   n  es        Comment Nodes   couleur utilis  e pour dessiner les bo  tes qui ne sont reli  es    aucune  autre     Les autres param  tres sont        Date   affichage de la date courante dans le coin inf  rieur gauche du graphe       File Name   affichage du nom du graphe dans le coin inf  rieur gauche du graphe        Pathame   affichage du nom du graphe avec son chemin complet dans le coin inf  rieur  gauche du graphe  Cette option n   a d effet que si
77.  r  gles de l application des dictionnaires  Le cas des graphes diction   naires sera abord   dans la section 3 6 3     3 6 1 Priorit  s    La r  gle de priorit   est la suivante   si un mot du texte a   t   trouv   dans un dictionnaire   ce mot ne sera plus pris en compte lors de l application de dictionnaires ayant une priorit    inf  rieure    Cela permet d   liminer certaines ambiguit  s lors de l application des dictionnaires  Par  exemple  le mot par a une interpr  tation nominale dans le domaine du golf  Si l   on ne veut    3 6  APPLICATION DE DICTIONNAIRES 45    pas envisager cet emploi  il suffit de cr  er un dictionnnaire filtre ne contenant que l entr  e  par    PREP et de le sauver en lui donnant la priorit   la plus haute  De cette mani  re  m  me  si le dictionnaire des mots simples contient l   autre entr  e  celle ci sera ignor  e grace au jeu  des priorit  s     Il y a trois niveaux de priorit  s  Les dictionnaires dont les noms sans extension se ter   minent par   ont la priorit   la plus grande  ceux dont le nom se termine par   ont la  priorit   la plus faible  les autres dictionnaires sont appliqu  s avec une priorit   moyenne   L   ordre d   application de plusieurs dictionnaires ayant la m  me priorit   est sans importance   En ligne de commande  l instruction      Dico ex snt alph txt States  bin Topo  bin PR fst2 Regions  bin       appliquerait donc les dictionnaires dans l   ordre suivant  ex snt est le texte auquel sont  appliqu  s les dictionnaire
78.  revanche  l option  equivalent FST2  indique au pro   gramme de laisser tels quels les appels aux sous graphes au dela de la profondeur limite   Cette option garantit la stricte   quivalence du r  sultat avec la grammaire d   origine  mais  neproduit pas forc  ment un transducteur      tats finis  Cette option peut   tre utilis  e pour  optimiser certaines grammaires    Un message indique    la fin du processus d   approximation si le r  sultat est un transduc   teur      tats finis ou une grammaire FST2  et dans le cas d   un transducteur  s   il est   quivalent     la grammaire d   origine  voir figure 6 6      6 2 3 Contraintes sur les grammaires       l exception des grammaires de flexion  une grammaire ne peut pas avoir de chemin  vide  Cela signifie que le graphe principal d une grammaire ne doit pas pouvoir reconna  tre  le mot vide  mais cela n emp  che pas un sous graphe de cette grammaire de reconna  tre  epsilon     6 2  COMPILER UNE GRAMMAIRE 91    Compiling graph loop  Recursion detection started  Resolving  lt E gt  conditions  Checking  lt E gt  dependancies  Looking for  lt E gt  loops  Looking for infinite recursions  Recursion detection completed  Compilation has succeeded  Loading D iMy UnitexiEnglishiGraphsiloop fst2     Computing grammar dependences     Flattening     Cleaning graph     Determinisation     Saving tags     he resulting grammar is an equivalent finite state transducer        FIG  6 6     R  sultat de l approximation d une grammaire    Il n
79.  s avec le suffixe SFX toto txt  gt  totoSFX txt    sd SFX   les fichiers destination sont renomm  s avec le suffixe SFX          9 6  DICO 151    Les param  tres text_i sont les noms des fichiers    convertir     9 6 Dico    Dico texte alphabet dic_1  dic_2         Ce programme applique des dictionnaires a un texte  Le texte doit avoir   t   d  coup   en  unit  s lexicales par le programme Tokenize    texte repr  sente le chemin d acc  s complet au fichier texte  sans omettre l extension     ent    dic_i repr  sente le chemin d   acc  s complet a un dictionnaire  Le dictionnaire doit   tre  soit un dictionnaire compress   au format   bin  obtenu avec le programme Compress  soit  un graphe dictionnaire au format     st 2  voir section 3 6  page 44   Il est possible de donner  des priorit  s aux dictionnaires  Pour plus de d  tails  voir section 3 6 1     Le programme Dico produit les 4 fichiers suivants et les sauve dans le r  pertoire du texte        dlf   dictionnaire des mots simples du texte        dlc  dictionnaire des mots compos  s du texte       err   liste des mots inconnus du texte     stat_dic n  fichier contenant les nombres de mots simples  compos  s et inconnus  du texte     NOTE   les fichiers d1f  dlc et err ne sont pas tri  s  Utilisez le programme Sort Txt  pour le faire     9 7 Elag    Elag txtauto  1 lang  g rules  o output   d dir     Ce programme prend un automate de texte txt auto et lui applique des r  gles de lev  e  d   ambiguit  s  Les param  tres s
80.  sente la couleur au format RGB   SCOLOR x  d  finit la couleur utilis  e pour   crire le contenu des boites de commen   taires  i e  les bo  tes qui ne sont reli  es    aucune autre   x repr  sente la couleur au  format RGB    CCOLOR x  d  finit la couleur utilis  e pour dessiner les boites s  lectionn  es  x repr     sente la couleur au format RGB     DBOXES x   cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de compa   tibilit   avec les graphes Intex    DFRAME x   dessine ou non un cadre autour du graphe selon que x vaut y oun   DDATE x  affiche ou non la date en bas du graphe selon que x vaut y oun    DFILE x  affiche ou non le nom du fichier en bas du graphe selon que x vaut y oun   DDIR x  affiche ou non le chemin complet d   acc  s au fichier en bas du graphe selon  que x vaut y ou n  Cette option n est prise en compte que si la param  tre DF ILE a la    10 3  GRAPHES 165    valeur y        DRIG x  dessine le graphe de droite    gauche ou de gauche    droite selon que x vaut  youn        DRST x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de compatibi   lit   avec les graphes Intex         FITS x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de compatibi   lit   avec les graphes Intex         PORIENT x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de com   patibilit   avec les graphes Intex             cette ligne est ignor  e par Unitex  Elle sert    indiquer la fin des informations
81.  source code  to  be distributed under the terms of Sections 1 and 2 above on a medium customa   rily used for software interchange   or     PR  A  wa    Accompany it with the information you received as to the offer to distribute cor   responding source code   This alternative is allowed only for noncommercial dis   tribution and only if you received the program in object code or executable form  with such an offer  in accord with Subsection b above      The source code for a work means the preferred form of the work for making mo   difications to it  For an executable work  complete source code means all the source  code for all modules it contains  plus any associated interface definition files  plus the  scripts used to control compilation and installation of the executable  However  as a    186    CHAPITRE 10  FORMATS DE FICHIERS    special exception  the source code distributed need not include anything that is nor   mally distributed  in either source or binary form  with the major components  com   piler  kernel  and so on  of the operating system on which the executable runs  unless  that component itself accompanies the executable    If distribution of executable or object code is made by offering access to copy from  a designated place  then offering equivalent access to copy the source code from the  same place counts as distribution of the source code  even though third parties are not  compelled to copy the source along with the object code       You may not cop
82.  tant concur   rent avec une s  quence compl  tement   tiquet  e  Ainsi  dans l   automate de phrase de la  figure 7 8  on peut voir que l adverbe aujourd hui est concurrenc   par le mot inconnu  aujourd  suivi d   une apostrophe et du participe pass   du verbe huir     FST Text    I   i  3649 sentences Je n ai pas le temps aujourd hui   Restez  r  pondit Fix     Sentence                           FIG  7 8     Ambiguit   due    une s  quence contenant un mot inconnu    On trouve   galement ce ph  nom  ne dans le traitement de certaines langues asiatiques  comme le thai  Quand les mots ne sont pas d  limit  s  il n   y a pas d   autre solution que d   en   visager toutes les combinaisons possibles  ce qui entraine la cr  ation de nombreux chemins  comportant des mots inconnus qui s   entrem  lent avec les chemins   tiquet  s  La figure 7 9  montre un exemple d   un tel automate de phrase en thai     7 2  CONSTRUCTION 119    FST Text    1055 sentences AAMAS muaa aran Banda Wiuumedantunnmumala  Aamann sa    4    Sentence         FIG  7 9     Automate d une phrase tha      Il est possible de supprimer ces chemins parasites  Pour cela  il faut s  lectionner l option   Clean Text FST  dans la fen  tre de configuration de la construction de l   automate du texte   voir figure 7 10   Cette option indique au programme de construction de l automate qu il  doit nettoyer chaque automate de phrase     Ce nettoyage s effectue selon le principe suivant   si plusieurs chemins sont en concur 
83.  une version de Windows g  rant des comptes personnels pour les utilisateurs  il vous  faudra demander    votre administrateur syst  me d installer Java     1 3 Installation sous Windows    Si vous d  sirez installer Unitex sur une machine Windows multi utilisateurs  il est pr     f  rable de demander    votre administrateur de le faire  Si vous   tes l utilisateur unique de  votre machine  vous pouvez effectuer l installation vous m  me    D  compressez le fichier Unitex_1 2 zip  vous pouvez t  l  charger ce fichier    l adresse  suivante   http    www igm univ mlv fr  unitex  dans un r  pertoire Unitex que  vous aurez pr  alablement cr      de pr  f  rence dans Program Files  Apr  s la d  compres   sion  le r  pertoire Unitex contient plusieurs sous r  pertoires dont un nomm   App  Ce der   nier r  pertoire contient un fichier nomm   Unitex  jar  Ce fichier est l ex  cutable Java  qui lance l interface graphique  Il vous suffit de double cliquer dessus pour lancer le pro   gramme  Pour faciliter le lancement du programme  il est conseill   de cr  er un raccourci  vers ce fichier sur le bureau     1 4 Installation sous Linux et MacOS    Pour installer Unitex sous Linux et MacOS  il est recommand   d     tre administrateur sys   t  me  D  compressez le fichier Unitex_1 2 zip dans un r  pertoire nomm   Unitex  au  moyen de la commande suivante      unzip Unitex_1 2 zip  d Unitex    Placez vous ensuite dans le r  pertoire Unitex Src C    et lancez la compilation des  programmes
84.  valeurs possibles sont          1  les transductions ont   t   ignor  es          M  les transductions ont   t   ins  r  es dans les s  quences reconnues  mode MERGE           R  les transductions ont remplac   les s  quences reconnues  mode REPLACE      10 6  CONCORDANCES 171    Chaque occurrence est d  crite par une ligne  Les lignes commencent par les positions de  d  but et de fin de l   occurrence  Ces positions sont donn  es en unit  s lexicales     Si le fichier comporte la ligne d en t  te  1  la position de fin de chaque occurrence est  imm  diatement suivie d   un retour a la ligne  Dans le cas contraire  elle est suivie d   un espace  et d   une cha  ne de caract  res  En mode REPLACE  cette cha  ne correspond    la transduction  produite pour la s  quence reconnue  En mode MERGE  elle repr  sente la s  quence reconnue  dans laquelle ont   t   ins  r  es les transductions  En mode MERGE ou REPLACE  c est cette  cha  ne qui est affich  e dans la concordance  Si les transductions ont   t   ignor  es  le contenu  de l occurrence est extrait du fichier texte     10 6 2 Fichier concord txt    Le fichier concord txt est un fichier texte repr  sentant une concordance  Chaque oc   currence est cod  e par une ligne compos  e de 3 cha  nes de caract  res s  par  es par le ca   ract  re de tabulation et qui repr  sentent le contexte gauche  l occurrence    ventuellement  modifi  e par des transductions  et le contexte droit     10 6 3 Fichier concord html    Le fichier conco
85.  vous devez cr  er  une bo  te contenant le nom de la variable encadr   par les caract  res   et      et   pour la  fin d   une variable   Pour utiliser une variable dans une sortie  vous devez faire pr  c  der son  nom du caract  re    voir figure 6 25     Les variables sont globales  Cela signifie que vous pouvez d  finir une variable dans un  graphe et l   appeler dans un autre  comme l illustrent les graphes de la figure 6 25    Si on applique le graphe Tit leName en mode MERGE au texte Ivanhoe  on obtient la  concordance suivante de la figure 6 26    Les sorties a variables peuvent   tre utilis  es pour d  placer des groupes de mots  En effet   l application d un transducteur en mode REPLACE n   crit dans le texte que les s  quences  produites par des sorties  Pour inverser deux groupes de mots  il suffit donc de les stocker  dans des variables et de produire une sortie avec ces variables dans l   ordre souhait    Ainsi   le transducteur de la figure 6 27 appliqu   en mode REPLACE au texte Ivanhoe donne la  concordance de la figure 6 28    Si le d  but ou la fin d   une variable est mal d  finie  fin d   une variable avant son d  but   absence du d  but ou de la fin d   une variable   celle ci sera ignor  e lors des sorties     Il n   y a aucune limitation du nombre de variables utilisables     102 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES       lders and was silent   5 Prince John TITLE Prince  resumed his re  he hermit    his name is Sir Anthony of Scrabelstone TITLE
86. 10  FORMATS DE FICHIERS    Les octets de poids fort et de poids faible ont   t   invers  s  ce qui explique que le caract  re  d   en t  te soit cod   par FFFE au lieu de FEFF  idem pour 000D et 000A qui sont devenus  ODOO et OAOO     10 2 Fichiers d   alphabet    Il y a deux sortes de fichiers d   alphabet   un fichier qui d  finit les caract  res d   une langue  et un fichier indiquant des pr  f  rences pour le tri  Le premier est d  sign   sous le terme  d alphabet  et le second sous celui d alphabet de tri     10 2 1 Alphabet    Le fichier d   alphabet est un fichier texte d  crivant tous les caract  res d   une langue  ainsi  que les correspondances entre lettres minuscules et majuscules  Ce fichier doit s   appeler  Alphabet  txt et doit se trouver dans la racine du r  pertoire de la langue concern  e  Sa  pr  sence est obligatoire pour qu   Unitex puisse fonctionner     Exemple   le fichier d   alphabet de l anglais doit se trouver dans le r  pertoire     English     Chaque ligne du fichier alphabet doit avoir l   une des 3 formes suivantes  suivie par un retour     la ligne     AS   un di  se suivi de 2 caract  res X et Y indique que tous les caract  res com   pris entre les caract  res X et Y sont des lettres  Tous ces caract  res sont consid  r  s  comme   tant a la fois minuscules et majuscules  Ce mode est utile pour d  finir les al   phabets des langues asiatiques comme le cor  en  le chinois ou le japonais o   il n   y a  pas de distinction de casse et o   le no
87. 2Unambig  construira le fichier de sortie selon les principes suivants         le fichier de sortie contient une ligne par phrase         toutes les phrases sauf la derni  re sont termin  es par  S          pour chaque bo  te  le programme   crit son contenu suivi par un espace     NOTE  la gestion des espaces est enti  rement laiss  e    l utilisateur  Ainsi  si le texte d   origine  est celui de l   automate de phrase de la figure 7 26  le texte produit sera      2 3  cats cat N Anl p   are be V P2s Plp P2p P3p   white white A     138 CHAPITRE 7  AUTOMATE DU TEXTE    23 cats are white        FIG  7 26     Exemple d   automate de texte lin  aire    Chapitre 8    Lexique grammaire    Les tables de lexique grammaire sont un moyen compact de repr  senter les propri  t  s  syntaxiques des   l  ments d   une langue  Il est possible de construire automatiquement des  grammaires locales a partir de ces tables  grace 4 un m  canisme de graphes param  tr  s     La premi  re partie de ce chapitre pr  sente le formalisme de ces tables  La seconde par   tie d  crit les graphes param  tr  s et le m  canisme de g  n  ration automatique de graphes a  partir d   une table de lexique grammaire     8 1 Les tables de lexique grammaire    Le lexique grammaire est une m  thodologie qui a   t   d  velopp  e par Maurice Gross et  son   quipe du LADL   6    7    26    28   sur le principe suivant   chaque verbe a des propri     t  s syntaxiques quasiment uniques  De ce fait  ces propri  t  s doiven
88. 4 op  rateurs sont possibles      3 4  FLEXION AUTOMATIQUE 41    E  inflection   Directory where inflectional FST2 are stored                LE UnitexiEnglishilnflection    Set          ivi Add    before inflectional codes if necessary    i Remove class numbers  Cancel   inflect Dictionary    FIG  3 5     Configuration de la flexion automatique          matrix       matrices    i      p    FIG  3 6     Grammaire de flexion N4        L  left  enl  ve une lettre    l entr  e        R  right  r  tablit une lettre de l entr  e  En francais  beaucoup de verbes du premier  groupe se conjuguent au pr  sent    la troisi  me personne du singulier en retirant le r  de l infinitif et en changeant la 4eme lettre en partant de la fin en e   peler     p  le   acheter     ach  te  g  rer     g  re  etc  Plut  t que d   crire un suffixe de flexion  pour chaque verbe  LLLL  le  LLLLete et LLLLere   on peut utiliser l op  rateur R  pour n   en   crire qu un seul   LLLLERR        C  copy  duplique une lettre de l entr  e  en d  calant tout ce qui se trouve    sa droite   Supposons par exemple que l   on souhaite g  n  rer automatiquement des adjectifs en  able    partir de noms  Dans des cas comme regrettableour  quisitionnable   on observe un doublement de la consonne finale du nom  Pour   viter d   crire un  graphe de flexion pour chaque consonne finale possible  on peut utiliser l op  rateur C  afin de dupliquer la consonne finale  quelle qu   elle soit         D  delete  supprime une lettre
89. 5 22     Les possibilit  s d   alignement horizontal sont        Top   les bo  tes sont align  es sur la bo  te la plus haute        Center   les bo  tes sont toutes centr  es sur un m  me axe        Bottom   les bo  tes sont align  es sur la bo  te la plus basse   Les possibilit  s d   alignement vertical sont        Left   les bo  tes sont align  es sur la bo  te la plus    gauche     80 CHAPITRE 5  GRAMMAIRES LOCALES    Alignment x     ree   Vertical      cone     Co       ME JE       Ci Use Grid  every 30   pixels    Co  mes         FIG  5 22     Fen  tre d   alignement      Center   les bo  tes sont toutes centr  es sur un m  me axe       Right   les boites sont align  es sur la boite la plus a droite     La figure 5 23 montre un exemple d   alignement  Le groupe de boites situ   a droite est  une copie des boites de gauche qui a   t   align  e verticalement a gauche              is   more      boxes ae     sus     FIG  5 23     Exemple d   alignement vertical gauche    L option  Use Grid  de la fen  tre d   alignement permet d afficher une grille en arri  re   plan du graphe  Cela permet d   aligner approximativement les bo  tes     5 3  OPTIONS DE PRESENTATION     Unsaved          of a graph displayed with       FIG  5 24     Exemple d utilisation d une grille    5 3 5 Pr  sentation  polices et couleurs    Vous pouvez configurer l   aspect d   un graphe en appuyant sur  lt Ctrl R gt  ou en cliquant  sur  Presentation     dans le sous menu  Format  du menu  FSGraph   ce
90. CHAPITRE 8  LEXIQUE GRAMMAIRE    Chapitre 9    Utilisation des programmes externes    Ce chapitre pr  sente l   utilisation des diff  rents programmes qui composent Unitex  Ces  programmes  qui se trouvent dans le r  pertoire Unitex App  sont appel  s automatique   ment par l interface  Vous pouvez voir les commandes qui ont   t   ex  cut  es en cliquant  sur  Console  dans le menu  Info   Vous pouvez   galement voir les options des diff  rents  programmes en les s  lectionnant dans le sous menu  Help on commands  du menu  Info      IMPORTANT   plusieurs programmes utilisent le r  pertoire du texte  mon_texte_snt    Ce r  pertoire est cr     par l interface graphique apr  s la normalisation du texte  Si vous tra   vaillez en ligne de commande  vous devrez cr  er ce r  pertoire vous m  me apr  s l ex  cution  du programme Normalize     IMPORTANT  2    lorsqu   un param  tre contient des espaces  vous devez l entourer de guille   mets pour qu il ne soit pas consid  r   comme plusieurs param  tres     9 1 CheckDic    CheckDic dictionnaire type    Ce programme effectue la v  rification du format d   un dictionnaire de type DELAS ou  DELAF  Le param  tre dictionnaire correspond au nom du dictionnaire a v  rifier  Le  param  tre type peut prendre la valeur DELAS ou DELAF selon que l   on souhaite v  rifier un  dictionnaire de l   un ou l   autre de ces formats     Le programme teste la syntaxe des lignes du dictionnaire  Il dresse   galement la liste des  caract  res pr  sents dans
91. D FITNESS FOR A PARTICULAR PURPOSE   THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE OF THE LIBRARY IS  WITH YOU  SHOULD THE LIBRARY PROVE DEFECTIVE  YOU ASSUME THE COST OF  ALL NECESSARY SERVICING  REPAIR OR CORRECTION    16  IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN  WRITING WILL ANY COPYRIGHT HOLDER  OR ANY OTHER PARTY WHO MAY MO   DIFY AND OR REDISTRIBUTE THE LIBRARY AS PERMITTED ABOVE  BE LIABLE TO  YOU FOR DAMAGES  INCLUDING ANY GENERAL  SPECIAL  INCIDENTAL OR CONSE   QUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY TO USE THE LI   BRARY  INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING REN   DERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAI   LURE OF THE LIBRARY TO OPERATE WITH ANY OTHER SOFTWARE   EVEN IF SUCH  HOLDER OR OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DA   MAGES     END OF TERMS AND CONDITIONS    How to Apply These Terms to Your New Libraries    If you develop a new library  and you want it to be of the greatest possible use to the  public  we recommend making it free software that everyone can redistribute and change   You can do so by permitting redistribution under these terms  or  alternatively  under the  terms of the ordinary General Public License     To apply these terms  attach the following notices to the library  It is safest to attach them  to the start of each source file to most effectively convey the exclusion of warranty   and each  file should have at least the  copyright  l
92. FIG  7 4   Normalisation de la s  quence 1       E  5 e        NDET Dnom14    DET z1 ms fs    FIG  7 5     Automate normalis   avec la grammaire de la figure 7 4    Ainsi  l utilisateur pourra rechercher l   une ou l   autre forme selon ses besoins  Les figures 7 6  et 7 7 montrent l automate d une phrase avant et apr  s normalisation des clitiques     116 CHAPITRE 7  AUTOMATE DU TEXTE    Os benfeitores        Dir se ia uma galeria de  afogados  todos solenes  secos  hirtos  de l  b  ios finos e ar de cerim  nia        FIG  7 6     Automate de phrase non normalis      7 2  CONSTRUCTION 117             PRO Pes N3s  V C1s C4s C3s    ES Al  dizer E V 11s 12s l4s 13s    VER PRO Pes R4ms R4fs R4mp R4fp       FIG  7 7     Automate de phrase normalis      118 CHAPITRE 7  AUTOMATE DU TEXTE    Le programme Reconstrucao permet de construire dynamiquement pour chaque texte  une grammaire de normalisation de ces formes  La grammaire ainsi produite peut alors   tre  utilis  e pour normaliser l   automate du texte  La fen  tre de configuration de construction de     automate propose l option  Build clitic normalization grammar   voir figure 7 10   Cette  option lance automatiquement la construction de la grammaire de normalisation  qui est  ensuite utilis  e pour construire l   automate du texte  si vous avez s  lectionn   l option  Apply  the Normalization grammar      7 2 4 Conservation des meilleurs chemins    Il peut arriver qu   un mot inconnu vienne parasiter l automate du texte en  
93. HERCHE D   EXPRESSIONS RATIONNELLES    nombre et le nombre total d   unit  s lexicales du texte     f Result Info xi    200 matches  563 recognized units   0 273  of the text is covered      m        FIG  4 5     R  sultats de la recherche    Apres avoir cliqu   sur  OK   vous verrez apparaitre la fen  tre de la figure 4 6 permettant  de configurer l affichage de la liste des occurrences trouv  es  Vous pouvez   galement faire  apparaitre cette fen  tre en cliquant sur  Display Located Sequences     dans le menu  Text    On appelle concordance la liste d   occurrences     Le cadre  Modify text  offre la possibilit   de remplacer les occurrences trouv  es par les  sorties produites  Cette possibilit   sera examin  e au chapitre 6     Le cadre  Extract units  vous permet de construire un fichier texte avec toutes les phrases  contenant ou non des occurrences  Le bouton  Set File  vous permet de s  lectionner le fichier  de sortie  Cliquez ensuite sur  Extract matching units  ou  Extract unmatching units  selon  que vous voulez extraire les phrases contenant les occurrences ou non     Dans le cadre  Show Matching Sequences in Context   vous pouvez s  lectionner la lon   gueur en caract  res des contextes gauche et droit des occurrences qui seront affich  es dans  la concordance  Si une occurrence a une longueur inf  rieure a la taille du contexte droit  la  ligne de concordance sera compl  t  e avec le nombre de caract  res n  cessaire  Si une occur   rence a une longueur sup  r
94. ILBERZTEIN  Les groupes nominaux productifs et les noms compos  s lexicali   s  s  Lingvistice Investigationes  27 2   405 426  1999  Amsterdam Philadelphia   John  Benjamins Publishing Company  3 7    48  Carlos SUBIRATS RUGGEBERG  Sentential complementation in Spanish  A lexico   grammatical study of three classes of verbs  John Benjamins  Amsterdam   Philadelphia   1987  8 1    49  Thomas TREIG  Compl  tives en allemand  classification  Technical Report 7  LADL   1977  8 1    210 BIBLIOGRAPHIE     50  Lidia VARGA  Classification syntaxique des verbes de mouvement en hongrois dans  l   optique d   un traitement automatique  In F  Kiefer  G  Kiss  and J  Pajzs  editors  Papers  in Computational Lexicography  COMPLEX   pages 257 265  Budapest  Research Institute  for Linguistics  Hungarian Academy of Sciences  1996  8 1    51  Simoneta VIETRI  On the study of idioms in italian  In Sintassi e morfologia della lingua  italiana  Congresso internazionale della Societa di Linguistica Italiana  Roma  Bulzoni  1984   97    Index       32  45  56  67  Elag  178  _  130  cat  129  complete  130  discr  129  inflex  129  t  18   STOP   24  1 54     22  52  54  88  5 74  75    56  1 32  34       45  53  sje  00  1 92  13  1  36  2  36  3  36     02 09   lt CDICS  92   lt DIC gt   52  54   lt E gt   22  52  54  56  67  86  88   lt MAJ gt   22  52  54   lt MIN gt   22  52  54   lt MOT  gt   22  52   lt NB gt   22  52  54   lt PNC gt   22   lt PRE gt   22  52  54   lt SDIC gt   52   lt   g
95. ITRE 3  DICTIONNAIRES          4       pr   No     ee 2     EF    mn      Fm    Md        SE   Ho    Eg     o         AS    an          Dy        Py   Am   Cm   Bk  ner     Sm   Eu   Gd         Pr   Nd   Pm    n np  Np    Yran     La   Ce    Ac  din  Pa    FIG  3 10     Graphe dictionnaire des   l  ments chimiques    3 7  BIBLIOGRAPHIE 47    La figure 3 10 montre un graphe reconnaissant les symboles chimiques  On peut voir sur  cette figure un premier avantage par rapport aux dictionnaires compress  s   l   utilisation des  guillemets permet de forcer le respect de la casse  Ainsi  ce graphe reconnaitra bien Fe mais  pas FE  alors qu il est impossible de sp  cifier une telle interdiction dans un DELAF usuel     Le second avantage des graphes dictionnaires est qu ils peuvent exploiter les r  sultats  fournis par les dictionnaires appliqu  s pr  c  demment  Ainsi  on peut appliquer le diction   naire g  n  ral  puis   tiqueter comme noms propres les mots inconnus commen  ant par une  majuscule    l   aide du graphe NPr  de la figure 3 11  Le   dans le nom du graphe lui donne  une priorit   basse afin qu il soit appliqu   apr  s le dictionnaire g  n  ral  Pour fonctionner   ce graphe se base sur les mots qui sont toujours inconnus apr  s le passage du dictionnaire  g  n  ral  Les crochets correspondent    une d  finition de contexte  Pour plus de d  tails sur  les contextes  voir la section 6 3              H   6       NPr    FIG  3 11     Graphe dictionnaire   tiquetant comme n
96. Index all utterances in text       FIG  6 30     Fen  tre de recherche d   expressions    La concordance est produite sous la forme d   un fichier HTML  Vous pouvez param  trer    Unitex pour que les concordances soient lues    l   aide d   un navigateur Web  voir section  4 8 2      Si vous affichez les concordances avec la fen  tre propos  e par Unitex  vous pouvez ac   c  der    la s  quence reconnue dans le texte en cliquant sur l occurrence  Si la fen  tre du texte  n est pas iconifi  e et que le texte n   est pas trop long pour   tre affich    vous verrez appara  tre  la s  quence s  lectionn  e  voir figure 6 32      De plus  si l automate du texte a   t   construit et que la fen  tre correspondante n est  pas iconifi  e  le fait de cliquer sur une occurrence s  lectionne l automate de la phrase qui  contient cette occurrence     6 7 3 Modification du texte    Vous pouvez choisir de modifier le texte au lieu de construire une concordance  Pour  cela  s  lectionnez un nom de fichier dans le cadre  Modify text  de la fen  tre de la figure  6 31  Ce fichier doit porter l extension   txt     Si vous souhaitez modifier le texte courant  il faut choisir le fichier   txt correspondant   Si vous choisissez un autre nom de fichier  le texte courant ne sera pas affect    Cliquez sur le  bouton  GO  pour lancer la modification du texte  Les r  gles de priorit  s appliqu  es lors de  cette op  rations sont d  taill  es a la section 3 6 2     6 7  APPLICATION DES GRAPHES AUX TEXTES
97. Investigationes  22  341 367  1998  Amsterdam   Philadelphia   John Benjamins Publishing Company  7  7 3    36  Ville LAURIKARI  TRE home page  http    laurikari net tre   1 1 4 7     37  Annie MEUNIER  Nominalisation d   adjectifs par verbes supports  1981  Th  se de doctorat   Universit   Paris 7  8 1     38  Sun Microsystems  Java  http   java sun com  1 2     39  Christian MOLINIER and Francoise LEVRIER  Grammaire des adverbes   description des  formes en  ment  Droz  Gen  ve  2000  8 1     40  Anne MONCEAUX  Le dictionnaire des mots simples anglais   mots nouveaux et va   riantes orthographiques  Technical Report 15  IGM  Universit   de Marne la Vall  e   1995  3 7    41  OpenOffice org  http   www openoffice org  2 2  8 2 2    42  Dong Ho PAK  Lexique grammaire compar   fran  ais cor  en  Syntaxe des constructions com   pl  tives  PhD thesis  UQAM  Montr  al  1996  8 1    43  Soun Nam PARK  La construction des verbes neutres en cor  en  1996  Th  se de doctorat   Universit   Paris 7  8 1    44  S  bastien PAUMIER and Harald ULLAND  Analyse automatique de mots polylexicaux  en norv  gien  Lingvistice Investigationes  28 2   2005  Amsterdam Philadelphia   John  Benjamins Publishing Company  2 5 6    45  Roger Bruno RABENNILAINA  Le verbe malgache  AUPELF UREF et Universit   Paris 13   Paris  1991  8 1     46  Agata SAVARY  Recensement et description des mots compos  s   m  thodes et applications   2000  Th  se de doctorat  Universit   de Marne la Vall  e  3 7    47  Max S
98. LE SIZE d  finit la taille maximum des fichiers texte qu   Uni   tex ouvre dans l interface graphique  Si un fichier a une taille sup  rieur    cette limite  l utili   sateur verra le message suivant    This file is too large to be displayed  Use a wordprocessor  to view it    La valeur par d  faut est 2048 Ko     Le param  tre ICON BAR POSITION d  finit la position de la barre d ic  nes dans les fe   n  tres de graphes     Le param  tre PACKAGE PATH d  finit le r  pertoire de d  p  t    utiliser pour cette langue     10 9 2 Fichier system_dic def    Le fichier system_dic def est un fichier texte d  crivant la liste des dictionnaires du  syst  me    appliquer par d  faut  Ce fichier se trouve dans le r  pertoire de la langue courante   Chaque ligne correspond    un nom de fichier  bin  Les dictionnaires du syst  me doivent  trouver dans le r  pertoire du syst  me     l   int  rieur du sous r  pertoire  langue courante   Dela   Voici un exemple de fichier      delacf binY  delaf binY    10 9 3 Fichier user dic def    Le fichier user_dic def est un fichier texte d  crivant la liste des dictionnaires de l   uti   lisateur    appliquer par d  faut  Ce fichier se trouve dans le r  pertoire de la langue cou   rante et a le m  me format que le fichier system_dic def  Les dictionnaires de l utilisateur  doivent se trouver dans le sous r  pertoire  langue courante   Dela du r  pertoire per   sonnel de l utilisateur     10 94 Fichier user cfg    Sous Linux  Unitex consid  re que le r  
99. LISATION DES PROGRAMMES EXTERNES    la langue du texte  Le param  tre optionnel  char_by_ char indique au programme qu il  doit effectuer un d  coupage caract  re par caract  re     l exception du s  parateur de phrases   S  et des   tiquettes lexicales qui seront consid  r  s comme des unit  s  Sans ce param  tre  le  programme consid  re qu   une unit   est soit une suite de lettres  les lettres sont d  finies par  le fichier alphabet   soit un caract  re qui n   est pas une lettre  soit le s  parateur de phrases   S   soit une   tiquette lexicale    aujourd   hui   ADV       Le programme code chaque unit   par un entier  La liste des unit  s est sauvegard  e dans  un fichier texte nomm   tokens  t xt  La suite des codes repr  sentant les unit  s permet alors  de coder le texte  Cette suite est sauvegard  e dans un fichier binaire nomm   text   cod  Le  programme produit   galement les 4 fichiers suivants         tok_by_freq txt   fichier texte contenant la liste des unit  s tri  es par ordre de fr     quence        tok_by_alph txt   fichier texte contenant la liste des unit  s tri  es par ordre alpha    b  tique         stats n  fichier texte contenant des informations sur le nombre de s  parateurs de  phrases  le nombre d   unit  s  le nombre de mots simples et le nombre de chiffres       enter pos  fichier binaire contenant la liste des positions des retours    la ligne dans  le texte  La repr  sentation cod  e du texte ne contient pas de retours a la ligne  mais des  es
100. OURCE TO OPERATE WITH    206 CHAPITRE 10  FORMATS DE FICHIERS    ANY OTHER SOFTWARE   EVEN IF SUCH HOLDER OR OTHER PARTY HAS  BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES     END OF TERMS AND CONDITIONS    Bibliographie     1  Free Software Foundation  http    www fsf org  10 10 4     2  Anna ANASTASSIADIS SYMEONIDIS  Tita KYRIACOPOULOU  Elsa SKLAVOUNOU  Ias   son THILIKOS  and Rania VOSKAKI  A system for analysing texts in modern greek    representing and solving ambiguities  In Proceedings of COMLEX 2000  Workshop on  Computational Lexicography and Multimedia Dictionaries  Patras  2000  3 7    3  Olivier BLANC and Anne DISTER  Automates lexicaux avec structure de traits  2004   Actes RECITAL 2004  7 3    4  Xavier BLANCO  Noms compos  s et traduction francais espagnol  Lingvistice Investi   gationes  21 1   1997  Amsterdam Philadelphia   John Benjamins Publishing Company   of    5  Xavier BLANCO  Les dictionnaires   lectroniques de l espagnol  DELASs et DELACs    Lingvistice Investigationes  23 2   2000  Amsterdam Philadelphia   John Benjamins Pu   blishing Company  3 7    6  Jean Paul BOONS  Alain GUILLET  and Christian LECLERE  La structure des phrases  simples en frangais   classes de constructions transitives  Technical report  LADL  Paris   1976  8 1    7  Jean Paul BOONS  Alain GUILLET  and Christian LECLERE  La structure des phrases  simples en fran  ais   constructions intransitives  Droz  Gen  ve  1976  8 1     8  Firefox  Web browser  http   www mozilla com fir
101. Par d  faut  Unitex tol  re que des mots avec des minuscules reconnaissent des mots   crits    avec des majuscules  Il est possible de forcer le respect de la casse en utilisant les guillemets   Ainsi   pierre  ne reconna  t que la forme pierre et non pas Pierre ou PIERRE     51    52 CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES    NOTE  si l   on souhaite rendre la pr  sence d un espace obligatoire  il faut le mettre entre  guillemets     43 Motifs    4 3 1 Symboles sp  ciaux    Il y a deux sortes de motifs  La premi  re cat  gorie regroupe tous les symboles pr  sent  s     la section 2 5 2     l exception de  lt PNC gt   qui reconna  t des signes de ponctuation  et du  symbole  lt   gt  qui reconna  t un retour    ligne  Tous les retours    la ligne ayant   t   rempla   c  s par des espaces  ce symbole n   a plus aucune utilit   lors de la recherche de motifs  Ces  symboles    galement appel  s m  tas  sont les suivants           lt E gt    mot vide  ou epsilon  Reconna  t la s  quence vide         lt TOKEN    reconna  t n importe quelle unit   lexicale          lt MOT gt    reconna  t n importe unit   lexicale form  e de lettres          lt MIN gt    reconna  t n importe unit   lexicale form  e de lettres minuscules          lt MAJ gt    reconna  t n importe unit   lexicale form  e de lettres majuscules          lt PRE gt    reconna  t n importe unit   lexicale form  e de lettres et commen  ant par une  majuscule          lt TOKEN    reconna  t n importe quelle unit 
102. R A FAILURE OF THE PROGRAM TO    188 CHAPITRE 10  FORMATS DE FICHIERS    OPERATE WITH ANY OTHER PROGRAMS   EVEN IF SUCH HOLDER OR OTHER PARTY  HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAMAGES     END OF TERMS AND CONDITIONS    Appendix   How to Apply These Terms to Your New Programs    If you develop a new program  and you want it to be of the greatest possible use to the  public  the best way to achieve this is to make it free software which everyone can redistri   bute and change under these terms    To do so  attach the following notices to the program  It is safest to attach them to the  start of each source file to most effectively convey the exclusion of warranty   and each file  should have at least the    copyright    line and a pointer to where the full notice is found     one line to give the program   s name and a brief idea of what it does   Copyright  C  yyyy name of author    This program is free software  you can redistribute it and or modify it under  the terms of the GNU General Public License as published by the Free Software  Foundation   either version 2 of the License  or  at your option  any later version   This program is distributed in the hope that it will be useful  but WITHOUT  ANY WARRANTY   without even the implied warranty of MERCHANTABI   LITY or FITNESS FOR A PARTICULAR PURPOSE  See the GNU General Public  License for more details    You should have received a copy of the GNU General Public License along with  this program  if not  write to 
103. Resource    except as expressly provided under this License  Any attempt otherwise to copy  mo   dify  sublicense  link with  or distribute the Linguistic Resource is void  and will auto   matically terminate your rights under this License  However  parties who have recei   ved copies  or rights  from you under this License will not have their licenses termina   ted so long as such parties remain in full compliance       You are not required to accept this License  since you have not signed it  However     nothing else grants you permission to modify or distribute the Linguistic Resource or  its derivative works  These actions are prohibited by law if you do not accept this Li   cense  Therefore  by modifying or distributing the Linguistic Resource  or any work  based on the Linguistic Resource   you indicate your acceptance of this License to do  so  and all its terms and conditions for copying  distributing or modifying the Linguis   tic Resource or works based on it       Each time you redistribute the Linguistic Resource  or any work based on the Linguis     tic Resource   the recipient automatically receives a license from the original licensor  to copy  distribute  link with or modify the Linguistic Resource subject to these terms  and conditions  You may not impose any further restrictions on the recipients    exercise  of the rights granted herein  You are not responsible for enforcing compliance by third  parties with this License       If  as a consequence of a cour
104. ToJ oyn 235041 30 auo    1241014 AST Y  Tanesq aya 30 11ed 1298216 ayy Autrzsacd 15310  shaeyT E  se pue  9  NOTT  A ayhtzaq YATA P  UTT    partos Tep pooh E  13p10 sty 09 1ad01d ssaap aToun ayy pue  dseT9 Waptoh E  Silom 343 2107234   24T1118 ay usqa    queTTeh Yusi Al  t  e  TS 3134N  ST   Pue proetd aya 09 ANMANM Jo SOTOA 321433  E  BAG AVATTS UTUI Peu ay  Sg  Atadeip 30 39314 9118281083 e  daap e  S fTTTm Jo pue aheanod 30 Wotjiexs p  uimi  z  p E  TU 03 SSaUU1295 TBUOTITpPpe aaeh mn01q sty uo 1895 disp E    pue  SoOUBWSIUNOD STU 03 SSaUUIa S  EUOL  Pappe au qayoel ayq OL      sanojToo quar  se suoxes oThuy 291 Jo aouaqstxa 242 HI  JO 2380943 SHIT    3184 s    uy 293 2331    JTE  Y1TM Pa129409 sem peay STH  Ss   arom pues  Jo ahaeyo 243 UT ST PUE    saatt 223n1q ay  ogur uns 3493 30 sauanTyUT ayy Aq payoro  UTU JAUNES PEU UOTIENITE pue uotesazjoad  aTtym  9auoz09 e AuttTqmasaa    yaron usado   JO 55019 e  q10T9 ATUM UT    mM sem 313  SB Pa  ATOAUT Autaq JO PIEZEU UTE1139 IU  saeg pue  a3ouepuag saatnhez 24 usqa uo  jo pue    sTeTAaqeM 123329 Jo sem  m103 U  JO 12UUen 243 UT    S12PINOUS pue pesy au  Jo zeah peay ayy 10    Heq ATTal e 10    de  PauTen31 WopTas ay se pue  S  123U10 10    g  atiaua   P340T 328493 13PpT13N0 uy    ati  dn Butysqes azaqge Aauanol sty uehaq oyn  utaq    adeys ut uotuedmoa sty Jo 1eu2 P  Aq pa13409 313 Aaayted qiadns styq Jo    g   peor 3q3 uo SurTIaa4ex3 103 xuon que  Salty QUATOUE UT papusaxa 21341    uog 13  ynog    U10T2 UOSMTIJ Jo sem 4T  g 
105. UNITEX 1 2    MANUEL D   UTILISATION       Universit   de Marne la Vall  e    http    www igm univ    mlv fr  unitex  unitexQ univ mlv fr    S  bastien Paumier   Mai 2006    Table des mati  res    Introduction  1 Installation d   Unitex  ll Licences 2 066 24 6 Baw nes Dane es bh Ce bei ed ew ed woe HPS  1 2 Environnement d   ex  cution Java                             1 3 Installation sous WIndows     s esca 4 da pau D   bw phase  1 4 Installation sous Linux et MacOS                             15 Premi  re utilisation   eo 2 6625 2065             4    4 du du    ee       bas  16  Alodtdenouvelles langues os    a 4 d u 4 eux sus heu dura da de ea  17 WesinstallanGas oo  um De    Sud    do    den do do de Dee we BY  2 Chargement d   un texte  2 Sdlecionde la MER  LL LL ess be Ee ER b Dana ER eme en  22 Format des teles  olla dl he dela suit de     2S  ECIION Ge textes      4 2 cca Pa ew eS mu dre doute do aoe D eee we BX  24 Ouverture d untere 26s Bok BOR Se eS ee Be Se aa  2 5 Pr  traitementdutexte        0 6268 44444 84 es  25 1  Normalisation des SEPAIS  oso    mes de ens a beam  252 e ih soe bs bee eRe ewe ex ERE SEE OS  2 5 3 Normalisation de formes non ambigu  s      62 06 04 sewed 6 ou  2 5 4 D  coupage du texte en unit  s lexicales     26 6 ice be ee sus x  255 Applicaton de dictionnaires sis  serra ee Sd ee es  2 5 6 Analyse des mots compos  s libres en allemand  norv  gien et russe      26  CPT d un texte Ue    rectos e pau da dek EOS ae nus  3 Dictionnaires  31 Lesd
106. Unitex ne peut pas   liminer     2  Ya   2  0    FIG  6 9     Boucle infinie due    un appel    un sous graphe reconnaissant epsilon    La troisieme possibilit   de boucle infinie concerne les appels r  cursifs    des sous graphes   Consid  rons les graphes Det et DetCompose de la figure 6 10  Chacun de ces graphes peut  appeler l autre sans rien lire dans le texte  Le fait qu aucun des deux graphes ne comporte d   ti   quette entre l     tat initial et l   appel    l   autre graphe est capital  En effet  s   il y avait au moins  une   tiquette diff  rente d   epsilon entre le d  but du graphe Det et l appel    Det Compose   cela signifierait que les programmes d   Unitex explorant le graphe Det devraient lire le motif  d  crit par cette   tiquette dans le texte avant d   appeler r  cursivement Det Compose  Dans ce  cas  les programmes ne pourraient boucler ind  finiment que s ils rencontraient une infinit    de fois le motif dans le texte  ce qui ne peut pas arriver     6 2  COMPILER UNE GRAMMAIRE 93             FIG  6 10     Boucle infinie due    deux graphes s   appelant mutuellement    6 24 D  tection d erreurs    Pour   viter aux programmes de se bloquer ou de planter  Unitex effectue automatique   ment une d  tection d   erreurs lors de la compilation des graphes  Le compilateur de graphes  v  rifie que le graphe principal ne reconna  t pas le mot vide et recherche toutes les formes de  boucles infinies  Si une erreur est trouv  e  un message d erreur appara  t dans la 
107. VEE D AMBIGUITES LEXICALES AVEC ELAG 125    Elag Rule Compilation       east    browse    save  Look In   Seas  a  e  cl  BB  B      Ef NewGrams E Naz fst2  A olive E normalisatio  QQ AN fst2 E regle fst2    y elte fst2 E regleD fst2  E NAfst2 E regleG fst2                 homefolive unitex French Elag NewGrams SEfst2                   File Name     Files of Type    Compiled Elag rules y locate                              FIG  7 16     Fen  tre de compilation des grammaires ELAG    E FST Text          La porte du car se ferme automatiquement   1 sentence    Sentence   1      Rebuild FST  Text                         Open Elag Frame             Implose                      FIG  7 17     Fen  tre de l   automate du texte    7 3 4 Ensembles de grammaires    Il est possible de regrouper plusieurs grammaires ELAG en un ensemble de grammaires   afin de les appliquer en une seule fois  Les ensembles de grammaires ELAG sont d  crits dans  des fichiers   1st  Ils sont g  r  s depuis la fen  tre de compilation des grammaires ELAG   figure 7 16   Le label en haut    gauche indique le nom de l   ensemble courant  par d  faut  elag 1st  C est le contenu de cet ensemble qui est affich   dans le cadre droit de la fen  tre     126 CHAPITRE 7  AUTOMATE DU TEXTE    B FsT Text 2          La porte du car se ferme automatiquement  1 sentence    Sentence    1        Reset Sentence Graph                   Rebuild FST  Text    close elag frame                            Implose                     
108. WEGIAN et RUSSIAN   Le param  tre alph repr  sente le fichier alphabet    utiliser  Le param  tre dic d  signe le dic   tionnaire    consulter pour l analyse  Le param  tre out d  signe le fichier dans lequel seront    crites les lignes de dictionnaires produites   si ce fichier existe d  j    les lignes produites sont  ajout  es    la fin de ce fichier  Le param  tre optionnel info d  signe un fichier texte dans  lequel sont produites des informations sur les analyses effectu  es     9 24 Reconstrucao  Reconstrucao alph concord dic reverse _dic pro nasalpro res    Ce programme g  n  re une grammaire de normalisation destin  e a   tre appliqu  e lors de  la construction de l automate d un texte portugais  Le param  tre alph d  signe le fichier al   phabet a utiliser  Le fichier concord repr  sente une concordance qui doit avoir   t   produite  par l application en mode MERGE au texte consid  r   d une grammaire extrayant toutes les  formes    normaliser  Cette grammaire se nomme V Pro Suf  et se trouve dans le r  pertoire   Portuguese Graphs Normalization  Le param  tre dic d  signe le dictionnaire    uti   liser pour retrouver les formes canoniques associ  es aux radicaux des verbes  reverse_dic  d  signe le dictionnaire invers      utiliser pour retrouver les formes au futur et au condition   nel    partir des formes canoniques  Ces deux dictionnaires doivent   tre au format  bin  et  reverse_dic devrait avoir   t   obtenu en compressant le dictionnaire des verbes au futur 
109. a est possible  et d   en  construire une approximation sinon  Cette fonction permet ainsi d   obtenir des objets plus  simples    manipuler et sur lesquels peuvent s appliquer tous les algorithmes classiques sur  les automates     Pour compiler et transformer ainsi une grammaire  s  lectionnez la commande  Compile    90 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES     amp  Flatten FST2  dans le sous menu  Tools  du menu  FSGraph   La fen  tre de la figure 6 5  vous permet de configurer l   op  ration d   approximation     Compile  amp  Flatten x      Expected result grammar format           equivalent FST2  subgraph calls may remain      Finite State Transducer  can be just an approximation   Flattening depth     Maximum flattening depth   10    Cancel    FIG  6 5     Configuration de l approximation d une grammaire    Le cadre  Flattening depth  permet de pr  ciser le niveau d   imbrication des sous graphes   Cette valeur repr  sente la profondeur maximale au dela de laquelle les appels    des sous   graphes ne seront plus remplac  s par les sous graphes eux m  mes     Le cadre  Expected result grammar format  permet de d  terminer le comportement du  programme au dela de la limite indiqu  e  Si vous s  lectionnez l   option  Finite State Transdu   cer   les appels aux sous graphes seront ignor  s au dela de la profondeur maximale  Cette  option garantit ainsi l   obtention d   un transducteur      tats finis    ventuellement non   qui   valent    la grammaire de d  part  En
110. a fonction de copie int  gr  e a votre   diteur  Cr  ez ensuite une boite dans votre graphe   et utilisez  lt Ctrl V gt  ou la commande  Paste  du menu  Edit  pour la coller dans la bo  te   Vous verrez alors apparaitre la fen  tre de la figure 5 17      Cette fen  tre vous permet de d  finir les contextes gauche et droit qui seront ajout  s auto   matiquement    chaque terme de la liste  Par d  faut  ces contextes sont vides  Si l   on applique  les contextes  lt  et   V gt     la liste suivante      eat    76 CHAPITRE 5  GRAMMAIRES LOCALES    Hy Choose your left and right contexts             FIG  5 17     S  lection de contexte pour la copie d   une liste    sleep  drink    play    read    on obtient la boite de la figure 5 18      Seat  V gt    lt sleep V gt           lt drink V gt  O     lt play Y gt    lt read  Y gt     FIG  5 18     Bo  te obtenue par copie d une liste avec ajout de contextes    5 2 9 Symboles sp  ciaux    L   diteur de graphes d   Unitex interpr  te de fa  on particuli  re les symboles suivants         lt  gt       Le tableau 5 1 r  sume la signification pour Unitex de ces symboles  ainsi que la ou les  fa  ons de reconna  tre ces caract  res dans des textes     5 2 10 Commandes de la barre d ic  nes    La barre d ic  nes pr  sente    gauche des graphes contient des raccourcis vers certaines  commandes et permet de manipuler les bo  tes d   un graphe en utilisant des  outils   Cette  barre d ic  nes paut   tre d  plac  e en cliquant sur la zone  rugue
111. accuser                                     Maxgaccusegses trente ans  avoir admettre           He       On  admet  50 personnes dans cette salle  avoir affecter      a                     Ces cristaux  affectent  une forme g  om  trique  avoir afficher  h   LIRE          l    Les valeurs ontgaffich  gun repli  avoir aimer                 i    i   Laplante  aime  l eau  avoir approcher                         Cette maison  approche  les deux millions  avoir arpenter                       Ce terrain  arpente  30 arpents  avoir atteindre      lo     ello fe f    Maxatteint amp 80 kilos  avoir avoir                             MaQa   une soeur une voiture des sous   avoir avoisiner                l        i     Ce sac  avoisine  les 20 kg   avoir battre                          Lamontre  bat  les secondes  avoir cacher a l     j  lo  e j i       l   Soncalme  cache   son une grande angoisse  avoir caler   fe   ja j    je     j  7 dl Ce bateau  cale  80 cm x  4 Mi          FIG  8 1     Table de lexique grammaire 32NM    8 2 Conversion d une table en graphes    8 2 1 Principe des graphes param  tr  s    La conversion d une table en graphes s   effectue au moyen du m  canisme des graphes  param  tr  s  Le principe est le suivant   on construit un graphe qui d  crit des constructions  possibles  Ce graphe fait r  f  rence aux colonnes de la table grace a des variables  On g  nere  ensuite pour chaque ligne de la table une copie de ce graphe dans laquelle les variables  sont remplac 
112. act  res P  2 et s  Cependant  le  code Y2s de E contient bien les caract  res Y et 2  Le code Y2 est inclus dans au moins un  code de E  le masque lexical M reconna  t donc l entr  e E  L ordre des caract  res    l   int  rieur  d un code flexionnel est sans importance     4 3 5 N  gation d un motif    Il est possible de faire la n  gation d   un motif au moyen du caract  re   plac   imm  dia   tement apr  s le caract  re  lt   La n  gation est possible sur les m  tas  lt MOT gt    lt MIN gt    lt MAJ gt     lt PRE gt    lt DIC gt   ainsi que sur les masques lexicaux ne comportant que des codes gramma   ticaux  s  mantiques ou flexionnels  i e   lt  V z3 P3 gt    Les motifs   et    sont la n  gation  l   un de l   autre  Le m  ta  lt  MOT gt  peut reconna  tre toutes les unit  s lexicales qui ne sont  pas form  es de lettres  sauf le s  parateur de phrases et  bien s  r  le marqueur  STOP   La  n  gation est sans effet sur  lt NB gt    lt SDIC gt    lt CDIC gt  et  lt TOKEN gt      La n  gation est interpr  t  e d   une fa  on particuli  re dans les m  tas  lt  DIC gt    lt  MIN gt     lt  MAJ gt  et  lt  PRE gt   Au lieu de reconna  tre toutes les formes qui ne sont pas reconnues  par le m  ta sans la n  gation  ces motifs ne donnent que des formes qui sont des s  quences  de lettres  Ainsi  le m  ta  lt  DIC gt  permet d obtenir les mots inconnus du texte  Ces formes  inconnues sont le plus souvent des noms propres  des n  ologismes et des fautes d   ortho   graphe     La 
113. anonique pour en donner la forme compl  te      ADN Acide D  soxyriboNucl  ique SIGLE  LADL  Laboratoire d   Automatique Documentaire et Linguistique SIGLE  SAV  Service Apr  s Vente SIGLE          3 2 V  rification du format d   un dictionnaire    Lorsque les dictionnaires sont de taille importante  il devient fastidieux de les v  rifier     la main  Unitex contient le programme CheckDic qui v  rifie automatiquement les diction     3 2  VERIFICATION DU FORMAT D   UN DICTIONNAIRE 37  naires DELAF et DELAS     Ce programme effectue une v  rification de la syntaxe des entr  es  Pour chaque entr  e  mal form  e  le programme affiche le num  ro de ligne  le contenu de cette ligne et la nature  de l erreur  Les r  sultats de l analyse sont sauv  s dans un fichier nomm   CHECK_DIC TXT  qui est affich   une fois la v  rification termin  e  En plus des   ventuels messages d erreurs  ce  fichier contient la liste de tous les caract  res utilis  s dans les formes fl  chies et canoniques  la  liste des codes grammaticaux et s  mantiques  ainsi que la liste des codes flexionnels utilis  s   La liste des caract  res permet de v  rifier que les caract  res pr  sents dans le dictionnaire  sont coh  rents avec ceux pr  sents dans le fichier alphabet de la langue  Chaque caract  re est  suivi par sa valeur en notation hexad  cimale  Les listes de codes peuvent   tre utilis  es pour  v  rifier qu il n   y a pas de faute de frappe dans les codes du dictionnaire     Le programme fonctionne avec 
114. ans le r  pertoire du texte        cursentence grf   graphe repr  sentant l automate de la phrase       cursentence txt   fichier texte contenant cette phrase        Le param  tre optionnel output fait en sorte que les noms des fichiers se sortie ne soient  pas cursentence grfetcursentence txt mais output grf et output txt  Le pa   ram  tre optionnel  f font permet de sp  cifier la police qui sera utilis  e dans le graphe de  sortie  Par d  faut  la police utilis  e est Times new Roman     9 14 Fst2List    Fst2List   o out    p s f d    a t  s m   f s a   s  L   R       sO  Str     v    rx  L   R      1 line     i subname       154 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES      c SS 0xxxx   fname    Ce programme prend un fichier  fst2 et produit la liste des s  quences reconnues par  cette grammaire  Les param  tres sont les suivants          fname   nom de la grammaire  avec l extension  fst2         o out  pr  cise le nom du fichier de sortie  Par d  faut  ce fichier se nomme 1st  t xt         a t  s m  pr  cise si l   on tient compte  t  ou non  a  des   ventuelles sorties de la  grammaire  s indique qu il n   y a qu un seul   tat initial  tandis que m indique qu il y en  a plusieurs  ce mode est utile en cor  en   Par d  faut  ce param  tre vaut  a s       1 line    nombre maximum de lignes      crire dans le fichier de sortie       i subname   indique que l   on doit arr  ter l exploration r  cursive lorsque l   on ren   contre le graphe subname  Ce param  tre peut
115. ans omettre l extension   gr f    Le param  tre y  n est optionnel  il indique au programme s   il doit ou non effectuer une  recherche d erreur sur la grammaire  Par d  faut  le programme effectue cette recherche d er   reur    Le param  tre alph sp  cifie le fichier d   alphabet    utiliser pour faire le d  coupage en uni   t  s lexicales du contenu des boites de la grammaire  Si ce param  tre vaut char_by_char   le d  coupage se fait caract  re par caract  re  S il est omis  le d  coupage s effectue en prenant  des suites de lettres Unicode    Le param  tre optionnel  d repository permet de d  finir le r  pertoire de d  p  t a uti   liser pour compiler la grammaire  voir section 5 2 4  page 70      Le r  sultat est un fichier portant le m  me nom que le graphe pass   en param  tre  mais  avec l extension     st 2  Ce fichier est sauvegard   dans le m  me r  pertoire que graphe     156 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES  9 18 ImploseFst2    ImploseFst2 txtauto  o out    Ce programme calcule et stocke dans out  la forme compacte de l   automate de texte  txtauto     9 19 Inflect  Inflect delas resultat dir   a    k     Ce programme effectue la flexion automatique d   un dictionnaire DELAS  Le param  tre  delas indique le nom du dictionnaire    fl  chir  Le param  tre resultat indique le nom  du dictionnaire qui sera g  n  r    Le param  tre dir indique le chemin d acc  s complet au  r  pertoire dans lequel sont suppos  s se trouver les transducteurs de flexion a
116. any the work with a written offer  valid for at least three years  to give the  same user the materials specified in Subsection 6a  above  for a charge no more than the cost  of performing this distribution     196 CHAPITRE 10  FORMATS DE FICHIERS    d  If distribution of the work is made by offering access to copy from a designated place   offer equivalent access to copy the above specified materials from the same place    e  Verify that the user has already received a copy of these materials or that you have  already sent this user a copy    For an executable  the required form of the  work that uses the Library  must include  any data and utility programs needed for reproducing the executable from it  However  as a  special exception  the materials to be distributed need not include anything that is normally  distributed  in either source or binary form  with the major components  compiler  kernel   and so on  of the operating system on which the executable runs  unless that component  itself accompanies the executable    It may happen that this requirement contradicts the license restrictions of other proprie   tary libraries that do not normally accompany the operating system  Such a contradiction  means you cannot use both them and the Library together in an executable that you distri   bute    7  You may place library facilities that are a work based on the Library side by side in a  single library together with other library facilities not covered by this License  and
117. ars    sayuanbas puarayp  p yng repus  pay  sasuanbas Teaquapt  3N g      JU UIRQUS    SOYURAR Sd IO  USHBU N SUN ANG  09Uep 10909  7        FIG  6 33     Exemple de comparaison de concordances    110 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    Chapitre 7    Automate du texte    Les langues naturelles contiennent beaucoup d   ambiguit  s lexicales  L automate du texte  est un moyen efficace et visuel de repr  senter ces ambiguit  s  Chaque phrase du texte est  repr  sent  e par un automate dont les chemins expriment toutes les interpr  tations possibles     Ce chapitre pr  sente les automates de texte  le d  tail de leur construction ainsi que les  op  rations qui peuvent leur   tre appliqu  es  en particulier la lev  e d   ambiguit  s au moyen  du programme ELAG   35    Il n   est pour l instant pas possible d effectuer de recherche de  motifs sur l automate du texte     7 1 Pr  sentation    L   automate du texte permet d   exprimer toutes les interpr  tations lexicales possibles des  mots  Ces diff  rentes interpr  tations sont les diff  rentes entr  es pr  sentes dans les diction   naires du texte  La figure 7 1 montre l   automate de la quatri  me phrase du texte Ivanhoe     On peut voir sur la figure 7 1 que le mot Here poss  de ici trois interpr  tations  adjectif   adverbe et nom   haunted deux  adjectif et verbe   etc  Toutes les combinaisons possibles  sont exprim  es  car chaque interpr  tation de chaque mot est reli  e    toutes les interpr  ta   tions des mots 
118. art des langues  les dictionnaires contiennent des  particularit  s de codage propres a chaque langue  Ainsi  les codes de d  clinaisons variant    beaucoup d   une langue a une autre  n   ont pas   t   d  crits ici  Pour une description exhaustive    36 CHAPITRE 3  DICTIONNAIRES    de tous les codes utilis  s dans un dictionnaire  nous vous recommandons de vous adresser  directement    l   auteur du dictionnaire        Code   Signification  masculin  f  minin  neutre  singulier  pluriel    1 ere Jeme 3eme  LA         3                      WwW    personne  pr  sent de l indicatif  imparfait de l indicatif  pr  sent du subjonctif  imparfait du subjonctif  pr  sent de l imp  ratif  pr  sent du conditionnel  pass   simple   infinitif   participe pr  sent  participe pass     futur                                     HR OLS  GG  Q  RK  Hu HImINITluls                  TAB  3 3     Codes flexionnels usuels    Les codes pr  sent  s ne sont absolument pas limitatifs  Chaque utilisateur peut introduire  ces propres codes  et cr  er ses propres dictionnaires  Par exemple  on pourrait dans un but  p  dagogique introduire dans les dictionnaires anglais des marques indiquant les faux amis  fran  ais      bless   V faux ami b  nir  cask   N faux ami tonneau  journey   N faux ami voyage    Il est   galement possible d   utiliser les dictionnaires pour stocker des informations parti   culi  res  Ainsi  on pourrait utiliser la forme fl  chie d une entr  e pour d  crire un sigle et la  forme c
119. as appliqu   les dic   tionnaires  les automates de phrase que vous obtiendrez ne seront constitu  s que d   un seul  chemin ne comportant que des mots inconnus     7 2  CONSTRUCTION 113       N NPN z1 p    PREP    FIG  7 2     Concurrence entre un mot compos   et une combinaison de mots simples    7 2 1 R  gles de construction de l automate du texte    Les automates de phrase sont construits    partir des dictionnaires du texte  Le degr    d ambiguit   obtenu est donc directement li   a la finesse de description des dictionnaires  utilis  s  Sur l   automate de phrase de la figure 7 3  on peut voir que le mot which a   t   cod    deux fois comme d  terminant dans deux sous cat  gories de la cat  gorie DET  Cette finesse  de description ne sera d   aucune utilit   si l   on ne s int  resse qu    la cat  gorie grammaticale  de ce mot  Il faut donc adapter la finesse des dictionnaires    l   utilisation recherch  e        DET DetQ s p  D  P3p         PRO RelQ s p    FIG  7 3     Double entr  e pour which en tant que d  terminant    Pour chaque unit   lexicale de la phrase  Unitex recherche toutes ses interpr  tations pos     114 CHAPITRE 7  AUTOMATE DU TEXTE    sibles dans le dictionnaire des mots simples du texte  On recherche ensuite toutes les suites  d   unit  s lexicales qui ont une interpr  tation dans le dictionnaire des mots compos  s du  texte  Toutes les combinaisons de ces interpr  tations forment l automate de la phrase     NOTE   quand le texte contient des   tique
120. as oblig   d utiliser le m  me r  pertoire pour plusieurs langues     Supposons que l   on ait une arborescence comme celle de la figure 5 10  Si l   on souhaite  faire appel au graphe DET qui se trouve dans le sous r  pertoire Johnson  on utilisera l appel    Det   Johnson   DET  voir figure 5 11 1      ASTUCE   si vous voulez   viter de mettre dans vos graphes un chemin compliqu   comme    Det Johnson DET  vous pouvez cr  er un graphe nomm   DET que vous placerez    la  racine du r  pertoire de d  p  t  ici D   repository DET grf   Ce graphe contiendra sim   plement un appel au graphe     Det  Johnson DET  Vous pourrez alors mettre dans vos  graphes un simple appel        DET  Cela permet 1  de ne pas avoir de noms compliqu  s et  2  de pouvoir modifier les graphes du r  pertoire de d  p  t sans avoir    modifier tous vos  graphes  En effet  il vous suffira de mettre    jour le graphe situ      la racine du r  pertoire de  d  p  t        Les appels    des sous graphes sont repr  sent  s dans les bo  tes par des lignes dont l   arri  re   plan est soit gris  soit marron dans le cas de sous graphes    rechercher dans le r  pertoire de  d  p  t  Sous Windows  vous pouvez ouvrir un sous graphe en cliquant sur la ligne gris  e          Dans un souci de clart    les appels    des graphes du r  pertoire de d  p  t sont en marron au lieu de gris     72 CHAPITRE 5  GRAMMAIRES LOCALES       FIG  5 9   Configuration du r  pertoire de d  p  t       SC repository    FIG  5 10     Exempl
121. briques sont appel  s langages alg  briques     5 1 2 Grammaires alg  briques   tendues    Les grammaires alg  briques   tendues sont des grammaires alg  briques o   les membres  droits des r  gles ne sont plus des suites de symboles mais des expressions rationnelles   Ainsi  la grammaire reconnaissant une suite quelconque de a peut se r    crire en une gram   maire   tendue d   une seule r  gle      S     a     Ces grammaires    galement appel  es r  seaux de transitions r  cursifs  RTN en anglais   ou diagrammes de syntaxe  se pr  tent    une repr  sentation graphique conviviale  En effet   le membre droit d une r  gle peut   tre repr  sent   par un graphe dont le nom est le membre  gauche de la r  gle     Toutefois  les grammaires Unitex ne sont pas exactement des grammaires alg  briques    tendues  car elles int  grent la notion de transduction  Cette notion  emprunt  e aux auto   mates      tats finis  signifie qu   une grammaire peut produire des sorties  Dans un souci de  clart    nous utiliserons malgr   tout les termes grammaire ou graphe  Quand une grammaire  produira des sorties  nous utiliserons le terme transducteur  par extension de la d  finition  d un transducteur dans le domaine des automates      tats finis     5 2 Edition de graphes    5 2 1 Importation d   un graphe Intex    Pour pouvoir utiliser des graphes Intex dans Unitex  il faut les convertir en Unicode  Le  proc  d   de conversion est le m  me que pour les textes  voir section 2 2      ATTENTION   u
122. canonique  Les grammaires de flexion doivent avoir   t   compil  es  voir  chapitre 5   Dans l   exemple ci dessus  toutes les entr  es seront fl  chies avec une grammaire  nomm  e N4    Pour lancer la flexion  cliquez sur  Inflect     dans le menu  DELA   La fen  tre de la figure  3 5 vous permet d indiquer au programme de flexion le r  pertoire dans lequel se trouvent  vos grammaires de flexion  Par d  faut  le sous r  pertoire Inflection du r  pertoire de la  langue courante est utilis    L option  Add       before inflectional codes if necessary  ins  re  automatiquement le caract  re         avant les codes flexionnels  dans le cas o   ceux ci ne d     buteraient pas par ce caract  re  L option  Remove class numbers    permet de remplacer les  codes avec num  ros utilis  s dans le DELAS par des codes sans num  ros  pr  ts      tre utilis  s   Exemple   V17 et N4 Hum seront remplac  s respectivement par V et N Hum     La figure 3 6 pr  sente un exemple de grammaire de flexion  Les chemins d  crivent les  suffixes    ajouter ou    retrancher pour obtenir la forme fl  chie    partir de la forme canonique   et les sorties  texte en gras sous les bo  tes  donnent les codes flexionnels    ajouter    l entr  e  du dictionnaire  Dans notre exemple  deux chemins sont possibles  Le premier ne modifie  pas la forme canonique et ajoute le code flexionnel   s  Le second retranche une lettre gr  ce     l op  rateur L  ajoute ensuite le suffixe ces et ajoute le code flexionnel   p     
123. caract  res quelconque  suivi par s        lt  lt ss tt gt  gt  contient ss ou tt        lt  lt  aeiouy   gt  gt   contient une voyelle non accentu  e      lt  lt  aeiouy   3 5  gt  gt    contient une s  quence de voyelles non accentu  es  de lon   gueur comprise entre 3 et 5        lt  lt   e  gt  gt    contient    suivi par un e facultatif        lt  lt st   aeiouy   gt  gt   contient st suivi par un caract  re qui n est pas une voyelle    Il est possible de combiner ces filtres   l  mentaires pour former des filtres plus complexes       lt  lt  ai ble  gt  gt   finit par able ou ible       lt  lt    anti  pro    gt  gt   commence par anti ou pro  suivi par un tiret facultatif       lt  lt    rst   aeiouy   2    gt  gt    mot form   de 2 ou plus s  quences commen  ant  par un r  s ou t suivi d une voyelle non accentu  e       lt  lt     1   1  e   gt  gt   ne commence pas par 1 ou alors la deuxi  me lettre n   est pas  un e  c   est    dire n importe quel mot sauf ceux qui commencent par le  De telles  contraintes peuvent   tre exprim  es plus simplement en utilisant des contextes  voir  6 3   Par d  faut  un filtre morphologique tout seul est consid  r   comme s appliquant au m  ta   lt TOKEN gt   c est    dire    n importe quelle unit   lexicale sauf l   espace et le marqueur  STOP    En revanche  lorsqu un filtre suit imm  diatement un motif  il s applique    ce qui reconnu par  le motif  Voici quelques exemples de telles combinaisons         lt V K gt  lt  lt i  gt  gt 
124. ctions as  part of a whole which is a work based on the Library  the distribution of the whole must  be on the terms of this License  whose permissions for other licensees extend to the entire  whole  and thus to each and every part regardless of who wrote it    Thus  it is not the intent of this section to claim rights or contest your rights to work  written entirely by you  rather  the intent is to exercise the right to control the distribution  of derivative or collective works based on the Library    In addition  mere aggregation of another work not based on the Library with the Library   or with a work based on the Library  on a volume of a storage or distribution medium does  not bring the other work under the scope of this License    3  You may opt to apply the terms of the ordinary GNU General Public License instead  of this License to a given copy of the Library  To do this  you must alter all the notices that  refer to this License  so that they refer to the ordinary GNU General Public License  version  2  instead of to this License   If a newer version than version 2 of the ordinary GNU General  Public License has appeared  then you can specify that version instead if you wish   Do not  make any other change in these notices    Once this change is made in a given copy  it is irreversible for that copy  so the ordinary  GNU General Public License applies to all subsequent copies and derivative works made  from that copy    This option is useful when you wish to copy
125. ctue une recherche sur  le texte  ce masque reconna  t la m  me chose que la simple unit   lexicale lirons     4 3 3 Contraintes grammaticales et s  mantiques    Les masques lexicaux des exemples ci dessus sont simples  Il est possible d exprimer des  motifs plus complexes en indiquant plusieurs codes grammaticaux ou s  mantiques  s  par  s  par le caract  re    Une entr  e de dictionnaire ne sera alors reconnue que si elle poss  de tous  les codes pr  sents dans le masque  Le masque  lt N z1 gt  reconna  t ainsi les entr  es      broderies broderie N z1 fp          capitales europ  ennes capitale europ  enne N NA Conc HumColl z1 fp  mais pas      Descartes Ren   Descartes N Hum NPropre ms  habitu     A zl ms    Il est possible d exclure des codes en les faisant pr  c  der du caract  re     au lieu de    Pour    tre reconnue  une entr  e doit contenir tous les codes autoris  s par le masque et aucun des  codes interdits  Le masque  lt A z3 gt  reconna  t donc tous les adjectifs qui ne poss  dent pas le  code z3  voir tableau 3 2   Si l   on souhaite faire r  f  rence    un code contenant le caract  re       il faut d  sp  cialiser ce caract  re en le faisant pr  c  der du caract  re    Ainsi  le masque   lt N faux  ami gt  pourra reconna  tre toutes les entr  es de dictionnaires contenant les codes  Net faux ami    L ordre dans lequel les codes apparaissent dans le masque n   a aucune importance  Les  trois masques lexicaux suivants sont   quivalents       lt N Hum z1 gt    l
126. cubes ssh 122   Fe  Levee d AMDI  AUIRS   s sa             sas et bag AR A       122  7 34 Ensembles de grammaires   coo o he eG eee Eee EES 125    fon enewede processing CEUA     tebe ee be be    Le pe 126    7 3 6 Description du jeu d     tiquettes  7 3 7 Optimiser les grammaires  Manipulation de l automate du texte  Affichage des automates de phrases   7 4 2 Modifier manuellement l automate du texte   74 3 Param  tres de pr  sentation  7 5 Convertir l automate du texte en texte lin  aire    Lexique grammaire   8 1 Les tables de lexique grammaire  8 2 Conversion d   une table en graphes  Principe des graphes param  tr  s  Format de la table  Les graphes param  tr  s  G  n  ration automatique de graphes    Utilisation des programmes externes    MergeTextAutomaton    TagsetNormFst2    TABLE DES MATIERES    TABLE DES MATIERES 7    10    O29    TexrtAumtomaton2 ME    224 4 224 4 Saw Se Oe A ade ods be eS    159  930 Tokenize coa aes a ake fe    ye da BE Pe ae ae Be e    i 159  OL ABS his es Lies oS ow oa a ee tah Be aoe 160  Formats de fichiers 161  10 1 Codage Unicode Little Endian  s gt   gt  aca da ha auk dok Re dia ee ee eS 161  10 2 Fichiers d alphabet  lt  ecc e motapa po eee pao E uA a tee RE apa 162  EL Alphabets  s es to NE LAN A E Re eed ee ES 162  1022 Alphabetde ti 25 cia fbi es Hie a due RE MAR HSE 163  ee s soere ens s is moie e EROS E a eee a aT a i ao auai a a te 163  ISA Pomma a rs ke CLARE ORES OR Ee eS 163  10 32 Fomati   eek hee hE dt A ee BAS OE eS 166  ROA
127. dance qui vient d   tre calcul  e avec la concordance pr  c  dente  si elle existe  Pour cela  le  programme ConcorDiff construit les deux concordances dans l   ordre du texte puis com   pare leurs lignes  Le r  sultat est une page HTML qui montre les occurrences dans deux co   lonnes  Une ligne en bleu indique qu   une m  me occurrence apparait dans les deux concor   dances  Une ligne en rouge indique qu une occurrence appara  t de facon plus longue dans  une concordance que dans l   autre  Enfin  une ligne en vert indique une occurrence qui n ap   partient qu   a une seule concordance  La figure 6 33 montre un exemple de comparaison de  concordances     NOTE   contrairement    une concordance normale  on ne peut pas cliquer sur les occurrences  dans une comparaison de concordances     109    6 7  APPLICATION DES GRAPHES AUX TEXTES    LEELA EEE EEL ETE EEE EE EEE EEE EEE EEE CEE EEE EEE EEE EEE EEE EE EEE EEE EEE EEE EEE EEE SNA          sen yousas    az0us ulg  SASW SWS SW ut pexsattap aaan   O O O O    O    Se A REO e e asom 241 UNOYS PEU 3587 UBMION Sy  Jo syoreuom ayy rre        axem 150  aya nous Peu 2981 WEMION sq  Jo sU21EUON aya TT       aya Jo quaaa am Aq    A1TTTQOU UNION 391 Jo spuey   ya ut pa        A 1232316 ayy UTI2409    JE831037 3D1ET E SONT  JUSTIUE UT      STITY Tngtaneaq ayy JO TIA 191091025 1318315 sty furiaaos    152107 afi    zed 1338316 ayy Suriaaoo    183107 DIET    SONT  quatoue UT pa       SIJUEPIOIUO  OM  IY JO GUO ATUO UT INIIO pey  sasuanbas  ua
128. dans la  fen  tre  Cette remarque concerne tous les fichiers texte  liste des unit  s lexicales  diction   naires  etc    Pour modifier cette limite  allez dans le menu  Info gt Preferences   et modifiez  la valeur  Maximum Text File Size  dans l onglet  Text Presentation   voir figure 4 7  page  62      2 5 Pr  traitement du texte    Une fois le texte s  lectionn    Unitex vous propose de le pr  traiter  Le pr  traitement du  texte consiste    lui appliquer les op  rations suivantes   normalisation des s  parateurs  d     coupage en unit  s lexicales  normalisation de formes non ambigu  s  d  coupage en phrases  et application des dictionnaires  Si vous refusez le pr  traitement  le texte sera n  anmoins  normalis   et d  coup   en unit  s lexicales  car ces op  rations sont indispensables au fonc   tionnement d   Unitex  Il vous sera toujours possible d effectuer le pr  traitement plus tard   en cliquant sur  Preprocess text     dans le menu  Text   Si vous acceptez le pr  traitement   Unitex vous proposera de le param  trer gr  ce    la fen  tre de la figure 2 8    L option  Apply FST2 in MERGE mode  sert    effectuer le d  coupage du texte en phrases   L option  Apply FST2 in REPLACE mode  est utilis  e pour effectuer des remplacements  dans le texte  le plus souvent des normalisations de formes non ambigu  s  L option  Ap     20 CHAPITRE 2  CHARGEMENT D   UN TEXTE    ES Unitex 1 2   current language is English  DELA FSGraph Lexicon Grammar Edit File Edition Windows Info 
129. de chaque   l  ment  de lexique  d   o   le nom de lexique grammaire  Unitex permet de construire des grammaires     partir de telles tables    Unitex est un moteur permettant d exploiter ces ressources linguistiques  Ses caract  ris   tiques techniques sont la portabilit    la modularit    la possibilit   de g  rer des langues pos   s  dant des syst  mes d   critures particuliers comme certaines langues asiatiques et l   ouver   ture  gr  ce    une distribution en logiciel libre  Ses caract  ristiques linguistiques sont celles  qui ont motiv   l   laboration des ressources   la pr  cision  l exhaustivit   et la prise en compte  des ph  nom  nes de figement  notamment en ce qui concerne le recensement des mots com   pos  s     10 TABLE DES MATIERES    Le premier chapitre d  crit l installation et le lancement d Unitex   Le chapitre 2 pr  sente les diff  rentes   tapes du traitement d   un texte     Le chapitre 3 d  crit le formalisme des dictionnaires   lectroniques DELA ainsi que les diff     rentes op  rations qui peuvent leur   tre appliqu  es     Les chapitres 4 et 5 pr  sentent les diff  rents moyens d   effectuer des recherches de motifs  dans des textes  Le chapitre 5 d  crit en d  tail l   utilisation de l   diteur de graphes     Le chapitre 6 est consacr   aux diff  rentes utilisations possibles des grammaires  Les particu   larit  s de chaque type de grammaires y sont pr  sent  es     Le chapitre 7 introduit le concept d   automate du texte et d  crit les particular
130. des dictionnaires non comprim  s  c   est    dire sous forme  de fichiers texte  La convention g  n  ralement appliqu  e est de donner l extension  dic     ces dictionnaires  Pour v  rifier le format d   un dictionnaire  il faut tout d   abord l ouvrir en  cliquant sur  Open     dans le menu  DELA        Unitex 1 2   current language is English    FSGraph Lexicon Grammar Edit File Edition Windows Info       Check Format     Sort Dictionary  Infect       Compress into FST    Morph Var  amp  Der     Append Suffixes to Stems       FIG  3 1     Menu  DELA     Chargeons le dictionnaire de la figure 3 2  Pour lancer la v  rification automatique  cli   quez sur  Check Format     dans le menu  DELA   la fen  tre de la figure 3 3 appara  t alors   Cette fen  tre vous permet de choisir le type du dictionnaire que vous voulez v  rifier  Les  r  sultats de la v  rification du dictionnaire de la figure 3 2 sont pr  sent  s sur la figure 3 4     La premi  re erreur est due au fait que le programme n ait pas trouv   de point  Le se   conde  au fait qu il n ait pas trouv   de virgule marquant la fin de la forme fl  chie  La troi   si  me erreur indique que le programme n   a trouv   aucun code grammatical ou s  mantique     38 CHAPITRE 3  DICTIONNAIRES    agreeably  ADV  agreed  INTJ    agreed agree V i kK T1s 12 8 138 11p 120 T30       FIG  3 2     Exemple de dictionnaire     3 Check Dictionary Format    Dictionary Type       Check Dictionary     O DELAS DELAC   8  DELAF DELACF Cancel      
131. dified by someone else and passed on  the recipients  should know that what they have is not the original version  so that the original author   s  reputation will not be affected by problems that might be introduced by others    Finally  software patents pose a constant threat to the existence of any free program  We  wish to make sure that a company cannot effectively restrict the users of a free program  by obtaining a restrictive license from a patent holder  Therefore  we insist that any patent  license obtained for a version of the library must be consistent with the full freedom of use  specified in this license    Most GNU software  including some libraries  is covered by the ordinary GNU General  Public License  This license  the GNU Lesser General Public License  applies to certain desi   gnated libraries  and is quite different from the ordinary General Public License  We use this  license for certain libraries in order to permit linking those libraries into non free programs    When a program is linked with a library  whether statically or using a shared library  the  combination of the two is legally speaking a combined work  a derivative of the original  library  The ordinary General Public License therefore permits such linking only if the entire  combination fits its criteria of freedom  The Lesser General Public License permits more lax  criteria for linking other code with the library    We call this license the  Lesser  General Public License because it doe
132. e    2    13    31   32    33   italien  19    20   51   espagnol  5   4           TAB  3 4     Quelques r  f  rences bibliographiques sur les dictionnaires   lectroniques    49    50    CHAPITRE 3  DICTIONNAIRES    Chapitre 4    Recherche d   expressions rationnelles    Nous allons voir dans ce chapitre comment rechercher des motifs simples dans un texte  au moyen des expressions rationnelles     4 1 D  finition    Le but de ce chapitre n   est pas de faire une introduction aux langages formels  mais  de montrer comment utiliser les expressions rationnelles dans Unitex pour rechercher des  motifs simples  Le lecteur int  ress   par une pr  sentation plus formelle pourra se reporter  aux nombreux ouvrages qui traitent du sujet     Une expression rationnelle peut   tre        une unit   lexicale  livre  ou un masque lexical   lt manger   V gt         la concat  nation de deux expressions rationnelles  je mange        l union de deux expressions rationnelles  Pierre Paul        l   toile de Kleene d une expression rationnelle  t r  s       4 2 Unit  s lexicales    Dans une expression rationnelle  l unit   lexicale a la m  me d  finition qu en 2 5 4  page  24   Notons que les symboles point  plus    toile  inf  rieur ainsi que les parenth  ses ouvrantes  et fermantes ont une signification particuli  re  il faut donc les d  sp  cialiser avec le caract  re    si l   on souhaite les rechercher  Voici quelques exemples d unit  s lexicales valides      chat  Ne   lt N ms gt    S     
133. e ELAG n   exprimant aucune contrainte    Le r  sultat de l application de cette grammaire est que l automate d   origine est nettoy    de tous les codes qui ne sont soit pas d  crits dans le fichier tagset  def  soit non conformes     cette description     cause de cat  gories grammaticales inconnues ou de combinaisons in   valides de traits flexionnels   En rempla  ant alors l automate du texte par l automate ainsi  normalis    on peut   tre sur que les modifications ult  rieures de l automate seront unique   ment dues aux effets des grammaires ELAG        3Ce code indique que l adjectif doit appara  tre    gauche du nom auquel il se rapporte  comme c est le cas  pour bel     7 3  LEVEE D   AMBIGUITES LEXICALES AVEC ELAG 133    7 3 7 Optimiser les grammaires    La compilation des grammaires effectu  e par le programme ElagComp consiste    construire  un automate dont le langage est l   ensemble des s  quences d entr  es lexicales  ou interpr     tation lexicale d   une phrase  qui ne sont pas rejet  es par les grammaires  Cette tache est  complexe et peut prendre beaucoup de temps  il est toutefois possible de l acc  l  rer sensi   blement en observant certains principes lors de l   criture des grammaires     Limiter le nombre de branches alors    Il est recommand   de r  duire au minimum le nombre de parties alors d une grammaire   Cela peut r  duire consid  rablement le temps de compilation des grammaires  Le plus sou   vent  une grammaire poss  dant beaucoup de parties a
134. e de r  pertoire de d  p  t      HD     FIG  5 11     Appel un graphe du r  pertoire de d  p  t    5 2  EDITION DE GRAPHES 73    tout en appuyant sur la touche Alt  Sous Linux  la combinaison  lt Alt Click gt  est intercept  e  par le syst  me  Pour ouvrir un sous graphe  cliquez sur son nom en pressant simultan  ment  les boutons gauche et droit de la souris     5 2 5 Manipulation des bo  tes  Vous pouvez s  lectionner plusieurs bo  tes au moyen de la souris  Pour cela  cliquez et    d  placez la souris sans rel  cher le bouton  Lorsque vous rel  cherez le bouton  toutes les  bo  tes touch  es par le rectangle de s  lection seront s  lectionn  es et s afficheront alors en    blanc sur fond bleu    Mister  Mr     FIG  5 12     S  lection de plusieurs bo  tes          Letter         Lorsque des bo  tes sont s  lectionn  es  vous pouvez les d  placer en cliquant et en d  pla     ant le curseur sans rel  cher le bouton  Pour annuler la s  lection  cliquez sur une zone vide  du graphe  si vous cliquez sur une bo  te  toutes les bo  tes de la s  lection seront reli  es     celle ci     Vous pouvez effectuer un copier coller sur plusieurs bo  tes  Pour cela  s  lectionnez les et  appuyez sur  lt Ctrl C gt  ou cliquez sur  Copy  dans le menu  Edit   Votre s  lection multiple  est maintenant dans le presse papiers d   Unitex  Vous pouvez alors coller cette s  lection en  pressant  lt Ctrl V gt  ou en cliquant sur  Paste  dans le menu  Edit      NOTE   vous pouvez coller une s  lectio
135. e est sauvegard   sous  le nom sentenceN grf  o   N repr  sente le num  ro de la phrase     10 5 4 Fichier cursentence txt    Lors de l extraction de l automate de phrase  le texte de la phrase est sauvegard   dans le  fichier texte cursentence txt  Ce fichier est utilis   par Unitex pour afficher le texte de la  phrase au dessus de l automate  Ce fichier contient le texte de la phrase  suivi par un retour  a la ligne     10 6 Concordances    10 6 1 Fichier concord ind    Le fichier concord  ind est l index des occurrences trouv  es par le programme Locate  lors de l application d une grammaire  C est un fichier texte qui contient les positions de  d  but et de fin de chaque occurrence    ventuellement accompagn  es d une cha  ne de carac   t  res si la concordance a   t   obtenue en prenant en compte les   ventuelles transductions de  la grammaire  Voici un exemple de fichier      M9   3036 3040 le ADJ  petit  salonY  3071 3075 Le nouveau domestiqueY  5600 5604 le jeune Lord   6052 6056 le second   tage   6123 6127 le premier   tage   6181 6185 le m  me instantY   6461 6465 le m  thodique gentlemanY  7468 7472 le grand salon   7520 7524 le laborieux d  pliage  7675 7679 le grand salon   8590 8594 le fait plus    10990 10994 le mauvais temps   13719 13723 le brave gar  on  13896 13900 le modeste sac   15063 15067 le m  me compartiment                                              La premi  re ligne indique dans quel mode de transduction la concordance a   t   calcul  e   Les 3
136. e modified work must itself be a software library    b  You must cause the files modified to carry prominent notices stating that you changed  the files and the date of any change    c  You must cause the whole of the work to be licensed at no charge to all third parties  under the terms of this License     194 CHAPITRE 10  FORMATS DE FICHIERS    d  If a facility in the modified Library refers to a function or a table of data to be supplied  by an application program that uses the facility  other than as an argument passed when the  facility is invoked  then you must make a good faith effort to ensure that  in the event an  application does not supply such function or table  the facility still operates  and performs  whatever part of its purpose remains meaningful     For example  a function in a library to compute square roots has a purpose that is en   tirely well defined independent of the application  Therefore  Subsection 2d requires that  any application supplied function or table used by this function must be optional   if the  application does not supply it  the square root function must still compute square roots     These requirements apply to the modified work as a whole  If identifiable sections of that  work are not derived from the Library  and can be reasonably considered independent and  separate works in themselves  then this License  and its terms  do not apply to those sections  when you distribute them as separate works  But when you distribute the same se
137. ecipients all the rights that you have  You must make sure that they  too   receive or can get the source code  And you must show them these terms so they know their  rights     183    184 CHAPITRE 10  FORMATS DE FICHIERS    We protect your rights with two steps    1  copyright the software  and  2  offer you this  license which gives you legal permission to copy  distribute and or modify the software    Also  for each author   s protection and ours  we want to make certain that everyone un   derstands that there is no warranty for this free software  If the software is modified by  someone else and passed on  we want its recipients to know that what they have is not the  original  so that any problems introduced by others will not reflect on the original authors     reputations    Finally  any free program is threatened constantly by software patents  We wish to avoid  the danger that redistributors of a free program will individually obtain patent licenses   in effect making the program proprietary  To prevent this  we have made it clear that any  patent must be licensed for everyone   s free use or not licensed at all    The precise terms and conditions for copying  distribution and modification follow     TERMS AND CONDITIONS FOR COPYING  DISTRIBUTION AND  MODIFICATION    0  This License applies to any program or other work which contains a notice placed   by the copyright holder saying it may be distributed under the terms of this General  Public License  The    Program 
138. efox   4 8 2   9  Netscape  Web browser  http    www netscape com  4 8 2     10  Folker CAROLI  Les verbes transitifs    compl  ment de lieu en allemand  Lingvistice In   vestigationes  8 2   225 267  1984  Amsterdam Philadelphia   John Benjamins Publishing  Company  8 1    11  A  CHROBOT  B  COURTOIS  M  HAMMANI MC CARTHY  M  GROSS  and K  ZELLA   GUI  Dictionnaire electronique DELAC anglais   noms compos  s  Technical Report 59   LADL  Universit   Paris 7  1999  3 7    12  Unicode Consortium  http    www unicode org  2 2    13  Matthieu CONSTANT and Anastasia YANNACOPOULOU  Le dictionnaire   lectronique  du grec moderne   Conception et d  veloppement d   outils pour son enrichissement et  sa validation  In Studies in Greek Linguistics  Proceedings of the 23rd annual meeting of the  Department of Linguistics  Faculty of Philosophy  Aristotle University of Thessaloniki   2002  3 7    207    208 BIBLIOGRAPHIE     14  Blandine COURTOIS  Formes ambigu  s de la langue fran  aise  Lingvistice Investi   gationes  20 1   167 202  1996  Amsterdam Philadelphia   John Benjamins Publishing  Company  3 7     15  Blandine Courtois and Max Silberztein  editors  Les dictionnaires   lectroniques du francais   Larousse  Langue frangaise  vol  87  1990  3 7     16  Anne DISTER  Nathalie FRIBURGER  and Denis MAUREL  Am  liorer le d  coupage en  phrases sous INTEX  In Anne Dister  editor  Revue Informatique et Statistique dans les  Sciences Humaines  volume Actes des 3  mes Journ  es INTEX  page
139. ences sp  ciales    166 CHAPITRE 10  FORMATS DE FICHIERS    NOTE   les caract  res compris entre  lt  et  gt  ou entre   et   ne sont pas interpr  t  s  Ainsi   le caract  re   contenu dans la cha  ne  le  lt A Conc gt   n est pas interpr  t   comme un s  pa   rateur de lignes  car le motif  lt A Conc gt  est interpr  t   en priorit       X et Y repr  sentent les coordonn  es de la bo  te en pixels  La figure 10 1 montre comment  ces coordonn  es sont interpr  t  es par Unitex      0 0           CSA          Y       Y    FIG  10 1     Interpr  tation des coordonn  es des bo  tes    N repr  sente le nombre de transitions qui sortent de la bo  te  Ce nombre doit toujours  valoir 0 pour l     tat final     Les transitions sont d  finies par les num  ros des bo  tes vers lesquelles elles pointent     Chaque ligne de d  finition de bo  te doit se terminer par un espace suivi d   un retour    la  ligne   10 3 2 Format  fst2    Un fichier     st 2 est un fichier texte qui d  crit un ensemble de graphes  Voici un exemple  de fichier  fst2     00000000024   1 GNG       10 4  TEXTES 167    ts      9     lt E gt Y   le DETY    lt A gt  ADJ4    lt N gt Y  Sbeauq   joli  Spetity      q    La premi  re ligne repr  sente le nombre de graphes cod  s dans le fichier  Le d  but de  chaque graphe est identifi   par une ligne indiquant le num  ro et le nom du graphe   1 GN  et 2 Adj dans le fichier ci dessus      Les lignes suivantes d  crivent les   tats du graphe  Si l     tat est terminal  la
140. endant possible de  faire appel a des sous graphes    Les sorties sont concat  n  es pour produire une chaine de caract  res  Cette chaine est  ensuite concat  n  e a la ligne de dictionnaire produite  Les sorties 4 variables n   ont pas de  sens dans un graphe de flexion    Le contenu d   un graphe de flexion est manipul   sans aucune variante de casse   les lettres  minuscules restent minuscules  idem pour les majuscules  En outre  la liaison de deux bo  tes  est strictement   quivalente    la concat  nation de leurs contenus munie de la concat  nation  de leurs sorties  voir figure 6 2         FIG  6 2     Deux chemins   quivalents dans une grammaire de flexion    Les graphes de flexion doivent   tre compil  s avant de pouvoir   tre utilis  s par le pro   gramme de flexion     Pour plus de d  tails  voir section 3 4     6 1 2 Graphes de pr  traitement    Les graphes de pr  traitement sont destin  s      tre appliqu  s aux textes avant que ceux   ci soient d  coup  s en unit  s lexicales  Ces graphes peuvent   tre utilis  s pour ins  rer ou  remplacer des s  quences dans les textes  Les deux utilisations usuelles de ces graphes sont  la normalisation de formes non ambigu  s et le d  coupage en phrases    L interpr  tation de ces graphes dans Unitex est tr  s proche de celle des graphes syn   taxiques utilis  s pour la recherche de motifs  Les diff  rences sont les suivantes         on peut utiliser le symbole sp  cial  lt   gt  qui reconna  t un retour    la ligne        il
141. ependant   So that Unitex can handle languages with special spacing rules      Lexical Parsing     Apply All default Dictionaries 9    O   C  Analyse unknown worils as free compound words z  E      Cancel but tokenize text     this option is available only for German  Norwegian  amp  Russian   C  Construct Text Automaton   Cancel and close text    FIG  2 14     Preprocessing d un texte taggu                           Chapitre 3    Dictionnaires    3 1 Les dictionnaires DELA    Les dictionnaires   lectroniques utilis  s par Unitex utilisent le formalisme des DELA  Dic   tionnaires Electroniques du LADL   Ce formalisme permet de d  crire les entr  es lexicales  simples et compos  es d une langue en leur associant de fa  on optionnelle des informations  grammaticales  s  mantiques et flexionnelles  On distingue deux sortes de dictionnaires   lec   troniques  Le type que l   on utilise le plus couramment est le dictionnaire de formes fl  chies   appel   DELAF  DELA de formes Fl  chies  ou encore DELACF  DELA de formes Compos  es  Fl  chies  lorsqu il s   agit d   un dictionnaire de mots compos  s  Le second type est le diction   naire de formes non fl  chies appel   DELAS  DELA de formes Simples  ou DELAC  DELA de  formes Compos  es   Les programmes d   Unitex ne font pas de distinction entre les diction   naires de formes simples et compos  es  Nous utiliserons donc les termes DELAF et DELAS  pour d  signer les deux sortes de dictionnaires que leurs entr  es soit simples  compos
142. ermera  s   il y en a  toutes les fen  tres relatives au texte courant  La langue courante est  indiqu  e sur la barre de titre de l interface graphique     2 2 Format des textes    Unitex manipule des textes Unicode  Unicode est un standard qui d  crit un codage uni   versel des caract  res  Chaque caract  re se voit attribuer un num  ro unique  ce qui permet    15    16 CHAPITRE 2  CHARGEMENT D   UN TEXTE    User  spaumier       Choose the language you want    to work on   English v           FIG  2 1     S  lection de la langue au lancement d   Unitex    de repr  senter des textes sans avoir    tenir compte des codages propres aux diff  rentes ma   chines et ou syst  mes d exploitation  Unitex utilise une repr  sentation cod  e sur deux oc   tets du standard Unicode 3 0  appel  e Unicode Little Endian  pour plus de d  tails  voir  12       Les textes fournis avec Unitex sont d  j   au format Unicode  Si vous essayez d ouvrir un  texte qui n   est pas au format Unicode  le programme vous proposera de le convertir au   tomatiquement  voir figure 2 2   Cette conversion se base sur la langue courante   si vous  travaillez en fran  ais  Unitex vous proposera de convertir votre texte   en supposant qu il  est cod   avec une page de codes fan  aise  Par d  faut  Unitex vous propose soit de remplacer  le texte original  soit de renommer le fichier d   origine en ins  rant  old avant son exten   sion  Par exemple  si l   on dispose d   un fichier ASCII nomm   balzac txt  le process
143. erms and conditions for copying  distributing  or modifying the Library or works based on it    10  Each time you redistribute the Library  or any work based on the Library   the reci   pient automatically receives a license from the original licensor to copy  distribute  link with  or modify the Library subject to these terms and conditions  You may not impose any further  restrictions on the recipients    exercise of the rights granted herein  You are not responsible  for enforcing compliance by third parties with this License    11  If  as a consequence of a court judgment or allegation of patent infringement or for  any other reason  not limited to patent issues   conditions are imposed on you  whether by  court order  agreement or otherwise  that contradict the conditions of this License  they do    10 10  FICHIERS DIVERS 197    not excuse you from the conditions of this License  If you cannot distribute so as to satisfy  simultaneously your obligations under this License and any other pertinent obligations   then as a consequence you may not distribute the Library at all  For example  if a patent  license would not permit royalty free redistribution of the Library by all those who receive  copies directly or indirectly through you  then the only way you could satisfy both it and  this License would be to refrain entirely from distribution of the Library    If any portion of this section is held invalid or unenforceable under any particular cir   cumstance  the balance o
144. ers  grf  localis  s par rapport au  r  pertoire ELAG de la langue courante  Voici le fichier elag 1st fourni pour le frangais      PPVs PpvIL grff  PPVs PpvLE grf  PPVs PpvLUI grff  PPVs  PpvPR grtY  PPVs PpvSeq grf   PPVs SE grff  PPVs postpos grff    10 8 3 Fichiers  elg  Les fichiers  elg contiennent des r  gles ELAG compil  es  Ces fichiers sont au format   fst2     10 8 4 Fichiers  rul  LES FICHIERS  RUL NE SONT PAS CODES EN UNICODE   Ces fichiers listent les diff  rents fichiers   e lg qui compose un ensemble de r  gles ELAG     Un fichier   rul est constitu   d   autant de parties qu il y a de fichiers   e1g  Chaque partie est  compos  e de la liste des grammaires ELAG qui correspondent    un fichier  e1g  o   chaque    178 CHAPITRE 10  FORMATS DE FICHIERS    nom de fichier est pr  c  d   par une tabulation  suivi par une ligne contenant le nom du fichier     elg entre angles  Les lignes commen  ant par une tabulation ont valeur de commentaire et  sont ignor  es par le programme Elag  Voici le fichier elag rul fourni par d  faut pour le  fran  ais      PPVs PpvIL elgf  PPVs PpvLE elg  PPVs PpvLUI elg    lt elag rul 0 elg gt 4  PPVs PpvPR elg   PPVs PpvSeq elg   PPVs SE elg   PPVs postpos elgq   lt elag rul 1 elg gt 4    10 9 Fichiers de configuration    10 9 1 Fichier Config    Lorsque l utilisateur modifie ses pr  f  rences pour une langue donn  e  celles ci sont sau   vergard  es dans un fichier texte nomm   Config qui se trouve dans le r  pertoire de la  langue cou
145. espace  soit un tiret  soit une s  quence de caract  res  ne contenant ni espace ni tiret  Ce mode de d  coupage permet de prendre efficacement en  compte les flexions des mots compos  s     Si les formes fl  chie et canonique ne comportent pas le m  me nombre d unit  s  le pro   gramme code la forme canonique par le nombre de caract  res    retrancher de la forme fl     chie  suivi des caract  res    ajouter  Ainsi  la premi  re ligne du fichier ci dessus correspond     la ligne de dictionnaire      10 7  DICTIONNAIRES 175    James Bond 007 N    Comme la s  quence James Bond contient trois unit  s et 007 seulement une  la forme  canonique est cod  e par _10 0 0 7  Le caract  re _ indique que les deux formes n   ont pas  le m  me nombre d unit  s  Le nombre qui suit  ici 10  indique le nombre de caract  res     retrancher  La s  quence  0 0 7 qui suit ce nombre indique que l   on doit ensuite ajouter la  s  quence 007  Les chiffres sont pr  c  d  s du caract  re   pour ne pas   tre confondus avec le  nombre de caract  res    retrancher     Lorsque les deux formes ont le m  me nombre d unit  s  les unit  s sont comprim  es deux     deux  Si les deux unit  s sont compos  es d   un espace ou d   un tiret  la forme comprim  e de  l unit   est l unit   elle m  me  comme c   est le cas dans la ligne suivante      1 1 N Hum mp    Cela permet de conserver une certaine visibilit   dans le fichier   inf lorsque le diction   naire contient des mots compos  s     Lorsqu   au moins une de
146. eurs du texte  Les s  parateurs sont  l espace  la tabulation et le retour    la ligne  Toute suite de s  parateurs contenant au moins  un retour    la ligne est remplac  e par un unique retour    la ligne  Toute autre suite de s  pa   rateurs est remplac  e par un espace    Ce programme v  rifie   galement la syntaxe des   tiquettes lexicales pr  sentes dans le  texte  Toute s  quence entre accolades doit   tre soit le d  limiteur de phrase  S   soit une  ligne de DELAF valide   aujourd   hui   ADV    Si le programme d  tecte des accolades  employ  es diff  remment  il   met un message d   avertissement et remplace ces accolades par  des crochets    et       Le param  tre txt doit repr  senter le chemin d   acc  s complet au fichier du texte  Le  programme produit une version modifi  e du texte qui est sauv   dans un fichier portant  l extension  snt    Le param  tre optionnel  no_CR remplace toute s  quence de s  parateur par un espace     9 23 PolyLex  PolyLex lang alph dic liste out  info     Ce programme prend en param  tre un fichier de mots inconnus liste et essaye d   ana   lyser chacun d   eux comme un mot compos   obtenu par soudure de mots simples  Les mots    158 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES    qui ont au moins une analyse sont retir  s du fichier de mots inconnus et les lignes de dic   tionnaire correspondant aux analyses sont ajout  es au fichier out  Le param  tre lang d     termine la langue de travail  Les valeurs possibles sont GERMAN  NOR
147. exionnels  Afin de pr  venir des erreurs de codage  le pro   gramme signale les codes qui contiennent des espaces  des tabulations ou des caract  res  non ASCII  Ainsi  si un dictionnaire grec contient le code ADV ot le caract  re A est le A grec  au lieu du A latin  le programme signalera l avertissement suivant      ADV warning  1 suspect char  1 non ASCII char    0391 D V     Les caract  res non ASCII sont indiqu  s par leur num  ro de caract  re en hexad  cimal   Dans l exemple ci dessus  le code 0391 repr  sente le A grec  Les espaces sont indiqu  s par  la s  quence SPACE      Km s warning  1 suspect char  1 space    K m SPACE s     Lorsqu   on v  rifie le dictionnaire suivant      1 2 et 3   INTJ  abracadrabra  INTJ  saperlipopette   INTJ  zut   INTJ    on obtient le fichier CHECK_DIC   TXT suivant    Line 1  unprotected comma in lemmaJ    1 2 et 3   INTI  Line 2  no point found       ah  INTJ  s       All chars used in forms     4  q                5 D TOMH A     H    N   H  gt     10 8  FICHIERS D   ELAG 177             s  0073  q  t  0074   u  0075 4  z  OO7A  4  q       2 grammatical semantic codes used in dictionary     Y1  al  INTIY  INTJ warning  1 suspect char  1 space    SPACE I N T J   al      gt  O inflectional code used in dictionary       4  al       10 8 Fichiers d ELAG    10 8 1 Fichier tagset def  Voir section 7 3 6  page 127     10 8 2 Fichiers  lst  LES FICHIERS  LST NE SONT PAS CODES EN UNICODE     Un fichier   1st contient une liste de noms de fichi
148. ez ajouter une nouvelle langue  accessible    tous les utilisateurs  il vous faut copier le r  pertoire correspondant    cette langue  dans le r  pertoire Unitex du syst  me  ce qui n  cessite d   avoir les droits d   acc  s    ce r  per   toire  il vous faudra peut   tre demander    votre administrateur syst  me de le faire   En  revanche  si la langue ne concerne qu   un seul utilisateur  celui ci peut copier le r  pertoire  en question dans son r  pertoire personnel  Il pourra ainsi travailler sur cette langue  sans  qu elle soit propos  e aux autres utilisateurs     14 CHAPITRE 1  INSTALLATION D UNITEX    EEE  co  Slows a    Creation ofa  new folder         File Name  EADatalMy Unitex    Files of Type    All Files         Open    Cancel         FIG  1 3     Cr  ation du dossier personnel    1 7 D  sinstallation    Quelque soit le syst  me sous lequel vous travaillez  il vous suffit de supprimer le r  per   toire Unitex pour effacer tous les fichiers du syst  me  Sous Windows  vous devrez ensuite  supprimer le raccourci vers Unitex  jar si vous en avez cr     un  m  me chose sous Linux  ou MacOS si vous avez cr     un alias     Chapitre 2    Chargement d   un texte    Une des principales fonctionnalit  s d   Unitex est la recherche d   expressions dans des  textes  Pour cela  les textes doivent subir plusieurs op  rations de pr  traitement telles que  la normalisation de formes non ambigu  s et le d  coupage du texte en phrases  Une fois  ces op  rations effectu  es  des d
149. f the section is intended to apply  and the section as a whole is  intended to apply in other circumstances    It is not the purpose of this section to induce you to infringe any patents or other pro   perty right claims or to contest validity of any such claims   this section has the sole purpose  of protecting the integrity of the free software distribution system which is implemented by  public license practices  Many people have made generous contributions to the wide range  of software distributed through that system in reliance on consistent application of that sys   tem   it is up to the author donor to decide if he or she is willing to distribute software  through any other system and a licensee cannot impose that choice    This section is intended to make thoroughly clear what is believed to be a consequence  of the rest of this License    12  If the distribution and or use of the Library is restricted in certain countries either by  patents or by copyrighted interfaces  the original copyright holder who places the Library  under this License may add an explicit geographical distribution limitation excluding those  countries  so that distribution is permitted only in or among countries not thus excluded  In  such case  this License incorporates the limitation as if written in the body of this License    13  The Free Software Foundation may publish revised and or new versions of the Les   ser General Public License from time to time  Such new versions will be similar 
150. fen  tre de  compilation  La figure 6 11 montre le message obtenu lorsqu on tente de compiler le graphe  Det de la figure 6 10     Compiling graph Det  Compiling graph DetCompose  Recursion detection started  Resolving  lt E gt  conditions  Checking  lt E gt  dependancies  Looking for  lt E gt  loops   Looking for infinite recursions  Recursion detection completed    ERROR  Det calls DetCompose that recalls the graph Det             FIG  6 11   Message d erreur obtenu en compilant le graphe Det    Si vous avez lanc   une recherche de motifs en s  lectionnant un graphe au format  grfet    94 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    qu Unitex y d  c  le une erreur  l op  ration de recherche sera automatiquement interrompue     6 3 Contextes    Les graphes d   Unitex sont des grammaires alg  briques  Elles sont   galement appel  es  grammaires hors contexte  car lorsque l   on souhaite reconna  tre une s  quence A  on ne tient  pas compte du contexte dans lequel    appara  t  Par exemple  il est impossible de recher   cher avec un graphe normal toutes les occurrences du mot pr  sident sauf celles qui sont  suivies par de la r  publique     Il est toutefois possible de tenir compte du contexte dans les graphes syntaxiques  Dans  ce cas  les graphes ne sont plus des grammaires alg  briques  mais des grammaires contex   tuelles qui n   ont pas les m  mes propri  t  s th  oriques     On d  finit un contexte en d  limitant une zone du graphe avec des bo  tes contenant      et 
151. fichier  fst2 sp  cial qui repr  sente l   automate du texte   Dans ce fichier  chaque sous graphe repr  sente un automate de phrase  Les emplacements  r  serv  s aux noms des sous graphes sont utilis  s pour stocker les phrases    partir desquelles  ont   t   construits les automates de phrases        l exception de la premi  re   tiquette qui doit toujours   tre epsilon   lt E gt    les   tiquettes  doivent   tre soit des unit  s lexicales  soit des entr  es de DELAF encadr  es par des accolades     Exemple   Voici le fichier correspondant au texte I  mange une pomme de terre     00000000014   1 Il mange une pomme de terre  Y    2 0  O1    NN FP  Oe WN FR       Hh ct      q  q   lt E gt Y    11 11 PRO z1 3ms Y   mange manger V z1 P1s P3s S1s S3s Y2s 4   une une N z1 fs 4   une un DET z1 fs 4    pomme  pomme  A zl ms fs mp fp 4                                 pomme  pomme  N z1 fs        pomme  pommer  V z3 P1s P3s S1s S3s Y2s   de  de DET z1    de  de PREP z1    terre terre N zl fs    terre  terrer V z1 P1s P3s S1s S3s Y2s f     1          o   AP AP A A X AL AL AL AL V          h     4    10 5 2 Fichier cursentence grf    Le fichier cursentence  gr f est g  n  r   par Unitex lors de l affichage d un automate de  phrase  Le programme Fst2Grf construit un fichier  grf repr  sentant l automate d une  phrase    partir du fichier text  fst2     170 CHAPITRE 10  FORMATS DE FICHIERS  10 5 3 Fichier sentenceN grf    Lorsque l utilisateur modifie l automate d une phrase  cet automat
152. grammar    indiquez le nom de la grammaire produite  ATTENTION   ne placez pas la grammaire de  sortie dans l arborescence que vous voulez explorer  car dans ce cas  le programme va cher   Cher lire et      crire simultan  ment dans ce fichier  ce qui provoquera un plantage     6 6  R  GLES D APPLICATION DES TRANSDUCTEURS 99    Lorsque vous cliquerez sur  OK   le programme recopiera les graphes dans le r  per   toire de la grammaire de sortie  et cr  era des sous graphes correspondant aux diff  rents  sous r  pertoires  comme on peut le voir sur la figure 6 21  qui montre le graphe de sor   tie engendr   pour notre exemple  On peut constater qu une bo  te contient les appels    des  sous graphes correspondant    des sous r  pertoires  ici les r  pertoires Banque et Nourriture    et que l   autre bo  te fait appel    tous les graphes qui se trouvaient dans le r  pertoire  ici le  graphe truc grf      Grammars corresponding  to sub directories            Banque dir  Nourriture dir         Grammars corresponding to graphs         FIG  6 21     Graphe principal d   une collection de graphes    6 6 R  gles d   application des transducteurs    Cette section d  crit les r  gles d application des transducteurs lors des op  rations de pr     traitement et de recherche de motifs  Les graphes de flexion et de normalisation de formes  ambigu  s ne sont pas concern  s par ce qui suit     6 6 1 Insertion    gauche du motif reconnu    Lorsqu un transducteur est appliqu   en mode REPLACE  le
153. har_with_space     9 16  FSTZUNAMBIG 155    Ce programme applique un transducteur a un texte en phase de pr  traitement  quand le  texte n   est pas encore d  coup   en unit  s lexicales  Les param  tres de ce programme sont les  suivants         texte  le fichier texte    modifier  avec l extension   snt         fst2  le transducteur    appliquer        alph  le fichier alphabet de la langue du texte        mode   le mode d   application du transducteur  Les deux valeurs possibles sont  merge   et  replace         char_by_ char   ce param  tre facultatif permet d appliquer le transducteur en mode  caract  re par caract  re  Cette option doit   tre utilis  e pour les textes en langues asia   tiques        char_by_char_with_ space  ce param  tre facultatif permet d appliquer le trans   ducteur en mode caract  re par caract  re  en autorisant la reconnaissance de s  quences  commengant par un espace     Ce programme a pour effet de modifier le fichier texte pass   en param  tre     9 16 Fst2Unambig  Fst2Unambig fst2 output    Ce programme prend un automate de texte fst2 et produit un fichier texte   quivalent  output si l   automate est lin  aire  sans ambigu  t     Pour plus de d  tails  voir section 7 5   page 137     9 17 Grf2Fst2  Grf2Fst2 graphe  y n   alph    d repository     Ce programme compile une grammaire en un fichier   fst 2  pour plus de d  tails  voir  section 6 2   Le param  tre graphe d  signe le chemin d   acc  s complet au graphe principal  de la grammaire  s
154. he library  If this is what you want to do  use  the GNU Library General Public License instead of this License     190 CHAPITRE 10  FORMATS DE FICHIERS    Annexe B   GNU Lesser General  Public License    Voir  24  pour l original de ce document     GNU LESSER GENERAL PUBLIC LICENSE  Version 2 1  February 1999    Copyright  C  1991  1999 Free Software Foundation  Inc  59 Temple Place  Suite 330  Boston   MA 02111 1307 USA Everyone is permitted to copy and distribute verbatim copies of this  license document  but changing it is not allowed      This is the first released version of the Lesser GPL  It also counts as the successor of the  GNU Library Public License  version 2  hence the version number 2 1      Preamble    The licenses for most software are designed to take away your freedom to share and  change it  By contrast  the GNU General Public Licenses are intended to guarantee your  freedom to share and change free software to make sure the software is free for all its users    This license  the Lesser General Public License  applies to some specially designated soft   ware packages typically libraries of the Free Software Foundation and other authors who  decide to use it  You can use it too  but we suggest you first think carefully about whether  this license or the ordinary General Public License is the better strategy to use in any parti   cular case  based on the explanations below    When we speak of free software  we are referring to freedom of use  not price  Our
155. hes              Show differences with previous concordance      Show Matching Sequences in Context   Lengths of Contexts  Sort According to     Left Col  40  chars    Center  Left Col  v    Right Col   55  chars    Build concordance                     FIG  4 6     Configuration de l affichage des occurrences trouv  es    Pour cela  cochez la case  Use a web browser to view the concordance   voir figure 4 6    Cette option est activ  e par d  faut lorsque le nombre d   occurrences est sup  rieur    3000   Pour d  finir le navigateur qui sera utilis    cliquez sur  Preferences     dans le menu  Info    Cliquez sur l onglet  Text Presentation  et s  lectionnez le programme    utiliser dans le cadre     Html Viewer   voir figure 4 7      Si vous choisissez d   ouvrir la concordance    l   int  rieur d   Unitex  vous verrez une fen  tre  comme celle de la figure 4 8  L option  Enable links  activ  e par d  faut permet de consid  rer  les occurrences comme des liens hypertextes  Ainsi  quand on clique sur une occurrence   cela ouvre la fen  tre du texte et y s  lectionne la s  quence reconnue  De plus  si l automate  du texte est construit et que cette fen  tre n est pas r  duite sous forme d ic  ne  l automate  de la phrase contenant l occurrence cliqu  e est charg    Si l   on s  lectionne l option  Allow  concordance edition   on ne peut pas cliquer ainsi sur les occurrences  mais l   on peut   diter  la concordance comme du texte  Cela permet entre autres de s   y d  placer a
156. ice org Calc    Lors de la g  n  ration des graphes  Unitex saute la premi  re ligne  consid  r  e comme  donnant les en t  tes des colonnes  Vous devez donc vous assurer que les en t  tes des co   lonnes occupent exactement une ligne  S il n   y a pas de ligne d   en t  te  la premiere ligne de  la table sera ignor  e  et s   il y a plusieurs lignes d   en t  te  elles seront interpr  t  es    partir de  la deuxi  me comme des lignes de la table     8 2 3 Les graphes param  tr  s    Les graphes param  tr  s sont des graphes dans lesquels apparaissent des variables fai   sant r  f  rence aux colonnes d   une table de lexique grammaire  On utilise g  n  ralement  ce m  canisme avec des graphes syntaxiques  mais rien n   emp  cherait de construire des  graphes param  tr  s de flexion  de pr  traitement ou de normalisation     Les variables qui font r  f  rence aux colonnes sont form  es du caract  re    arrobas  suivi  d un nom de colonne en lettres majuscules  les colonnes sont num  rot  es en partant de A      Exemple    C fait r  f  rence    la troisi  me colonne de la table    Lorsqu une variable doit   tre remplac  e par un   ou un    le signe     correspond    la sup   pression du chemin passant par cette variable  Il est possible d effectuer l op  ration contraire  en faisant pr  c  der le caract  re     d un point d exclamation  Dans ce cas  c est lorsque la va   riable renvoie    un signe   que le chemin est supprim    Si la variable ne renvoie ni    un  signe   ni    
157. ichiers de cOn USO   caia Saves eo a OES BPS Se SEG eR  ent 178  10 9 1  FichierConig  lt    s ss ccosa e maa ea eee ade hectare dos 178  10 92 PME SSL  gt  seek    phies gaans i Paua RE e 180  1093 Fichier user dicd  ef  o 2 222 2 4 5 88e dk  D   mue O Bu 180  109 4 Fichierusercde ms sisi leds es tetes EYEE ESSE ESE ES 180  tanto re A 181    10 10 1 Fichiers dlfn  dlc n et errn                           181    8 TABLE DES MATIERES    10102 Meher SEM    2    52 Le Sheed yd bE ahd cel a ae 181  104108 Fichier states  2  Lu Lu ba Baw Besa wae So Emi baba 181  10 10 4 Fichier concordn    s so se smera a ea aE aa aa a 181  Annexe A   GNU General Public License 183  Annexe B   GNU Lesser General Public License 191    Annexe C   Lesser General Public License For Linguistic Resources 201    Introduction    Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles  en utilisant des ressources linguistiques  Ces ressources se pr  sentent sous la forme de dic   tionnaires   lectroniques  de grammaires et de tables de lexique grammaire  Elles sont issues  de travaux initi  s sur le frangais par Maurice Gross au Laboratoire d   Automatique Docu   mentaire et Linguistique  LADL   Ces travaux ont   t     tendus a d   autres langues au travers  du r  seau de laboratoires RELEX    Les dictionnaires   lectroniques d  crivent les mots simples et compos  s d   une langue en  leur associant un lemme ainsi qu   une s  rie de codes grammaticaux  s  mantiques et fle
158. ictionnaires   lectroniques sont appliqu  s aux textes  On peut  alors effectuer des recherches sur ces textes en leur appliquant des grammaires     Ce chapitre d  crit les diff  rentes   tapes du pr  traitement des textes     2 1 S  lection de la langue    Lors du lancement d   Unitex  le programme vous demande de choisir la langue dans  laquelle vous allez travailler  voir figure 2 1   Les langues propos  es sont celles qui sont pr     sentes dans le r  pertoire syst  me Unitex ainsi que celles   ventuellement install  es dans  votre r  pertoire personnel  Si vous utilisez une langue pour la premi  re fois  Unitex recopie  le r  pertoire syst  me de cette langue dans votre r  pertoire personnel     l exception des dic   tionnaires  afin d   conomiser de l   espace disque  Attention  si vous avez d  j   un r  pertoire  utilisateur pour une langue donn  e  Unitex n   essaiera pas de recopier les donn  es syst  me  dedans  Ainsi  si une mise    jour a modifi   un fichier de ressource autre qu un dictionnaire   il vous faudra soit faire une mise    jour manuelle du fichier dans votre r  pertoire utilisateur   soit supprimer votre r  pertoire pour la langue concern  e et laisser    Unitex le soin de le  recr  er    Le choix de la langue permet d indiquer    Unitex o   trouver certaines donn  es  comme  par exemple le fichier alphabet  Vous pouvez    tout moment changer de langue en cliquant  sur  Change Language     dans le menu  Text   Si vous changez de langue  le programme  f
159. ictionnaires DELA  a 22 04 88  24364 LE L  a bees etwas  3 1 1 Formatdes DELAFP    2  6  44 046 bed Se de ee o  312 PFormatdes DELAS oros Lu caca a de nas woe  3 1 3 Contenu des dictionnaires                             3 2 V  rification du format d   un dictionnaire                         ee  gA PICMOMAUIOMAHGUG  s boss ELSE ERE rodri eus  a III  Less Van es BS OE SS a ns  96 Application dedictionnaires         dra Oe OA D   KE S    11  11  11  12  12  12  13  14    Recherche d   expressions rationnelles  41 D  finition    4 2  4 3    44  4 5  4 6  4 7  4 8    3 6 1    3 6 3    434 Contraintes flexionnelles  43 5 N  gation d un motif             Concat  nation    Union      toile de Kleene  Filtres morphologiques    Recherche                       4 8 1 Configuration de la recherche  4 8 2 Affichage des r  sultats               PADEIES ios s posa hee res  3 6 2 R  gles d application des dictionnaires  Graphes dictionnaires            3 7 Bibliographie    Symboles sp  ciaux                  Masques lexicaux   24 234428 4   Contraintes grammaticales et s  mantiques    Grammaires locales    5 1 Formalisme des grammaires locales    ne    5 3    5 4    5 1 1 Grammaires alg  briques   5 1 2 Grammaires alg  briques   tendues  Edition de graphes    sua 340d e248  5 2 1 Importation d un graphe Intex   522 Cr  ation d   un graphe     oc     5 23 Sousgraphes   s  r es  osios   5 24 R  pertoire de depot 2 44454 5s  5 2 5 Manipulation des boites   5 26 DOME    boc eee ew AA  5 2 7 Utili
160. ier texte contenant la liste de toutes les unit  s lexicales  du texte  La premi  re ligne de ce fichier indique le nombre d   unit  s contenus dans le fichier   Les unit  s sont s  par  es par des retours    la ligne  Quand une s  quence est trouv  e dans le  texte avec des variantes de casse  chaque variante est cod  e par une unit  e distincte     NOTE   les retours    la ligne   ventuellement pr  sents dans le fichier   snt sont cod  s  comme des espaces  Il n   y a donc jamais d unit   codant le retour    la ligne     10 45 Fichiers tok_by_alph txt et tok_by_freq txt    Ces deux fichiers sont des fichiers texte qui contiennent la liste des unit  s lexicales tri  e  par ordre alphab  tique ou par ordre de fr  quence    Dans le fichier tok_by_alph txt  chaque ligne est compos  e d   une unit    suivie par  le caract  re tabulation et le nombre d   occurrences de cette unit   dans le texte    Les lignes du fichier tok_by_freq txt sont form  es sur le m  me principe  mais le  nombre d   occurrences appara  t avant le caract  re tabulation et l unit       10 4 6 Fichier enter pos    Ce fichier est un fichier binaire contenant la liste des positions des retours    la ligne dans  le fichier   snt  Chaque position est l indice dans le fichier text   cod d un retour    la ligne  ayant   t   remplac   par un espace  Ces positions sont des entiers cod  s sur 4 octets     10 5  AUTOMATE DU TEXTE 169  10 5 Automate du texte    10 5 1 Fichier text fst2    Le fichier text  fst2 est un 
161. ieure    la taille du contexte droit  elle est affich  e en entier     NOTE   en thai  la taille des contextes est mesur  e en caract  res affichables et non en  caract  res r  els  Cela permet de conserver l alignement des lignes de concordance malgr   la  pr  sence des caract  res diacritiques qui se combinent    d   autres lettres au lieu de s afficher  comme des caract  res normaux    Vous pouvez s  lectionner le mode de tri    appliquer dans la liste  Sort According to   Le  mode  Text Order  affiche les occurrences dans l   ordre o   elles apparaissent dans le texte   Les six autres modes permettent de trier en colonnes  Les trois zones d   une ligne sont le  contexte gauche  l occurrence et le contexte droit  Les occurrences et les contextes droits  sont tri  s de gauche    droite  Les contextes gauches sont tri  s de droite    gauche  Le mode  utilis   par d  faut est  Center  Left Col    La concordance est produite sous la forme d   un  fichier HTML    Lorsque les concordances atteignent plusieurs milliers d   occurrences  il est pr  f  rable  de les afficher avec un navigateur web  Firefox  8   Netscape  9   Internet Explorer  etc       4 8  RECHERCHE 61    Display indexed sequences       Modify text     Resulting  snt file       Set File   GO       Extract units            Set File         Extract matching units   Extract unmatching units     Concordance presentation                       _  Use a web browser to view the concordance   better for more than 2000 matc
162. ifica   tions and or translated straightforwardly into another language   Hereinafter  trans   lation is included without limitation in the term  modification       Legible form  for a linguistic resource means the preferred form of the resource for  making modifications to it    Activities other than copying  distribution and modification are not covered by this  License   they are outside its scope  The act of running a program using the Linguis   tic Resource is not restricted  and output from such a program is covered only if its    201    202    CHAPITRE 10  FORMATS DE FICHIERS    contents constitute a work based on the Linguistic Resource  independent of the use  of the Linguistic Resource in a tool for writing it   Whether that is true depends on  what the program that uses the Linguistic Resource does       You may copy and distribute verbatim copies of the Linguistic Resource as you receive    it  in any medium  provided that you conspicuously and appropriately publish on each  copy an appropriate copyright notice and disclaimer of warranty   keep intact all the  notices that refer to this License and to the absence of any warranty   and distribute a  copy of this License along with the Linguistic Resource    You may charge a fee for the physical act of transferring a copy  and you may at your  option offer warranty protection in exchange for a fee       You may modify your copy or copies of the Linguistic Resource or any portion of it     thus forming a work based o
163. iful hills and  field and the pleasant town of Doncaster     The remains of this extensive wood are still to be  be seen at the noble seats of Wentworth  of Warncliffe Park  and around Rotherham   5  Here hau  e seats of Wentworth  of Warncliffe Park  and around Rotherham   5  Here haunted of yore the fab  of Warncliffe Park  and around Rotherham   5  Here haunted of yore the fabulous Dragon of Wantle  d of yore the fabulous Dragon of Wantley  5  here were fought many of the most desperate battle  ttles during the Civil Wars of the Roses  5  and here also flourished in ancient times those ba  ent times those bands of gallant outlaws  whose deeds have been rendered so popular in English  been rendered so popular in English song     Such being our chief scene  the date of our story  lish song  5  Such being our chief scene  the date of our story refers to a period towards the  owards the end of the reign of Richard I   when his return from his long captivity had become a       FIG  4 2     R  sultat de la recherche du m  ta  lt   MOT gt     56 CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES  4 4 Concat  nation    On peut concat  ner des expressions rationnelles de trois fa  ons  La premi  re consiste a  utiliser l   op  rateur de concat  nation repr  sent   par le point  Ainsi  l expression       lt DET gt   lt N gt     reconna  t un d  terminant suivi par un nom  L espace peut   galement servir    concat  ner   L expression de l exemple suivant      le  lt A gt  chat    rec
164. illing to distribute software through any other system and a licensee cannot  impose that choice     This section is intended to make thoroughly clear what is believed to be a consequence  of the rest of this License     If the distribution and or use of the Program is restricted in certain countries either  by patents or by copyrighted interfaces  the original copyright holder who places the  Program under this License may add an explicit geographical distribution limitation  excluding those countries  so that distribution is permitted only in or among countries  not thus excluded  In such case  this License incorporates the limitation as if written in  the body of this License     The Free Software Foundation may publish revised and or new versions of the Gene   ral Public License from time to time  Such new versions will be similar in spirit to the  present version  but may differ in detail to address new problems or concerns     Each version is given a distinguishing version number  If the Program specifies a ver   sion number of this License which applies to it and    any later version     you have the  option of following the terms and conditions either of that version or of any later ver   sion published by the Free Software Foundation  If the Program does not specify a  version number of this License  you may choose any version ever published by the  Free Software Foundation     If you wish to incorporate parts of the Program into other free programs whose dis   tribu
165. in spirit to  the present version  but may differ in detail to address new problems or concerns    Each version is given a distinguishing version number  If the Library specifies a version  number of this License which applies to it and  any later version   you have the option of  following the terms and conditions either of that version or of any later version published  by the Free Software Foundation  If the Library does not specify a license version number   you may choose any version ever published by the Free Software Foundation    14  If you wish to incorporate parts of the Library into other free programs whose distri   bution conditions are incompatible with these  write to the author to ask for permission  For  software which is copyrighted by the Free Software Foundation  write to the Free Software  Foundation   we sometimes make exceptions for this  Our decision will be guided by the two  goals of preserving the free status of all derivatives of our free software and of promoting  the sharing and reuse of software generally     NO WARRANTY    15  BECAUSE THE LIBRARY IS LICENSED FREE OF CHARGE  THERE IS NO WAR   RANTY FOR THE LIBRARY  TO THE EXTENT PERMITTED BY APPLICABLE LAW  EX   CEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR  OTHER PARTIES PROVIDE THE LIBRARY  AS IS  WITHOUT WARRANTY OF ANY KIND     198 CHAPITRE 10  FORMATS DE FICHIERS    EITHER EXPRESSED OR IMPLIED  INCLUDING  BUT NOT LIMITED TO  THE IMPLIED  WARRANTIES OF MERCHANTABILITY AN
166. ine and a pointer to where the full notice is found     lt one line to give the library   s name and a brief idea of what it does  gt  Copyright  C    lt year gt   lt name of author gt    This library is free software  you can redistribute it and or modify it under the terms  of the GNU Lesser General Public License as published by the Free Software Foundation   either version 2 1 of the License  or  at your option  any later version    This library is distributed in the hope that it will be useful  but WITHOUT ANY WAR   RANTY   without even the implied warranty of MERCHANTABILITY or FITNESS FOR A  PARTICULAR PURPOSE  See the GNU Lesser General Public License for more details    You should have received a copy of the GNU Lesser General Public License along with  this library   if not  write to the Free Software Foundation  Inc   59 Temple Place  Suite 330   Boston  MA 02111 1307 USA   Also add information on how to contact you by electronic and paper mail    You should also get your employer  if you work as a programmer  or your school  if  any  to sign a  copyright disclaimer  for the library  if necessary  Here is a sample  alter the  names    Yoyodyne  Inc   hereby disclaims all copyright interest in the library    Frob     a library for  tweaking knobs  written by James Random Hacker     10 10  FICHIERS DIVERS 199     lt signature of Ty Coon gt   1 April 1990 Ty Coon  President of Vice  That   s all there is to it     200 CHAPITRE 10  FORMATS DE FICHIERS    Annexe C   Les
167. int found  agreeably  ADV   Line 2  no comma found  agreed  INTJ   Line 4  no grammatical code       FIG  3 4     R  sultats d   une v  rification automatique    39    40 CHAPITRE 3  DICTIONNAIRES  EEEERe      6    Les caract  res pr  sents sur une m  me ligne sont consid  r  s comme   quivalents quand  le contexte le permet  Lorsqu   il faut comparer deux caract  res   quivalents  on les compare  selon l   ordre dans lequel ils apparaissent de gauche    droite sur la ligne  On peut voir sur  l extrait ci dessus qu   on ne fait pas de diff  rence entre minuscules et majuscules  et qu   on  ignore les accents ainsi que la c  dille     Pour trier un dictionnaire  ouvrez le  puis cliquez sur  Sort Dictionary  dans le menu   DELA   Par d  faut  le programme cherche toujours    utiliser le fichier Alphabet_sort txt   Si ce fichier est absent  le tri se fait selon l indice des caract  res dans le codage Unicode  En  modifiant ce fichier  vous pouvez d  finir vos propres pr  f  rences de tri     Remarque   apr  s l application des dictionnaires sur un texte  les fichiers d1f  dlc et err  sont automatiquement tri  s avec ce programme     3 4 Flexion automatique    Comme d  crit dans la section 3 1 2  une ligne de DELAS se compose g  n  ralement d   une  forme canonique et d   une s  quence de codes grammaticaux ou s  mantiques      aviatrix N4 Hum  matrix N4 Math  radix N4    Le premier code rencontr   est interpr  t   comme le nom de la grammaire    utiliser pour  fl  chir la forme 
168. ion     La fin du fichier est indiqu  e par une ligne contenant le caract  re    suivi d   un retour    la  ligne     10 4 Textes    Cette section pr  sente les diff  rents fichiers utilis  s pour repr  senter des textes     168 CHAPITRE 10  FORMATS DE FICHIERS  10 4 1 Fichiers  txt    Les fichiers  t xt doivent   tre des fichiers texte cod  s en Unicode Little Endian  Ces fi   chiers ne doivent pas contenir d   accolade ouvrante ou fermante     moins qu   elles soient utili   s  es pour   crire un s  parateur de phrase     S    ou une   tiquette lexicale valide    aujourd   hui   ADV     Les retours    la ligne doivent   tre cod  s par les deux caract  res sp  ciaux de valeurs hexad     cimales 000D et 000A     10 4 2 Fichiers  snt    Les fichiers   snt sont des fichiers   txt qui ont   t   pr  trait  s par Unitex  Ces fichiers ne  doivent pas contenir de tabulation  Ils ne doivent pas non plus contenir plusieurs espaces  ou retours a la ligne cons  cutifs  Les seules accolades autoris  es dans des fichiers   snt sont  celles du s  parateur de phrases  S  et celles des   tiquettes lexicales    aujourd   hui    ADV      10 4 3 Fichier text cod    Le fichier text   cod est un fichier binaire contenant une suite d   entiers repr  sentant le  texte  Chaque entier 7 renvoie au token d indice i dans le fichier tokens   txt  Ces entiers  sont cod  s sur 4 octets     NOTE   les tokens sont num  rot  s a partir de 0     10 4 4 Fichier tokens txt    Le fichier tokens   txt est un fich
169. ion and modification follow  Pay  close attention to the difference between a  work based on the library  and a  work that uses  the library   The former contains code derived from the library  whereas the latter must be    10 10  FICHIERS DIVERS 193    combined with the library in order to run     GNU LESSER GENERAL PUBLIC LICENSE  TERMS AND CONDITIONS FOR COPYING  DISTRIBUTION AND MODIFICATION    0  This License Agreement applies to any software library or other program which contains  a notice placed by the copyright holder or other authorized party saying it may be distribu   ted under the terms of this Lesser General Public License  also called  this License    Each  licensee is addressed as  you     A  library  means a collection of software functions and or data prepared so as to be  conveniently linked with application programs  which use some of those functions and  data  to form executables    The  Library   below  refers to any such software library or work which has been distri   buted under these terms  A  work based on the Library  means either the Library or any  derivative work under copyright law   that is to say  a work containing the Library or a por   tion of it  either verbatim or with modifications and or translated straightforwardly into  another language   Hereinafter  translation is included without limitation in the term  mo   dification       Source code  for a work means the preferred form of the work for making modifications  to it  For a library 
170. ions d  crites par la grammaire sont ins  r  es dans l automate du texte  La figure  7 4 montre l extrait de la grammaire utilis  e pour le fran  ais qui explicite l ambigu  t   de la  s  quence 1        Si l   on applique cette grammaire    une phrase fran  aise contenant la s  quence 1     on  obtient un automate de phrase similaire    celui de la figure 7 5    Dans l   automate obtenu  on peut voir que les quatre r  gles de r    criture de la s  quence  1    ont   t   appliqu  es  ce qui a ajout   quatre   tiquettes dans l automate  Ces   tiquettes sont  concurrentes avec les deux chemins pr  existants pour la s  quence 1     La normalisation     la construction de l automate du texte permet d ajouter des chemins    l   automate  pas d en  supprimer  Lorsque la fonctionnalit   de lev  e d   ambiguit  s sera disponible  elle permettra  d   liminer les chemins qui sont devenus superflus     7 2 3 Normalisation des pronoms clitiques en portugais    En portugais  les verbes au futur et au conditionnel peuvent   tre modifi  s par l inser   tion d   un ou deux pronoms clitiques entre le radical et le suffixe du verbe  Par exemple  la  s  quence dir me   o  ils me diront   correspond    la forme verbale compl  te dir  o  associ  e au  pronom me  En vue de pouvoir effectuer des manipulations sur cette forme r    crite  il est  n  cessaire de l introduire dans l automate du texte  en parall  le de la s  quence d   origine     7 2  CONSTRUCTION 115        la le PRO PpvLE 21 3fs     
171. it  s de cet objet   Il d  crit   galement les op  rations que l   on peut effectuer sur cet objet  notamment la lev  e    d   ambiguit  s lexicales au moyen du programme ELAG     Le chapitre 8 est constitu   d   une introduction aux tables de lexique grammaire  suivie par  la description de la m  thode permettant de construire des grammaires a partir de ces tables     Le chapitre 9 d  crit en d  tail les diff  rents programmes externes qui constituent Unitex   Le chapitre 10 donne la description de tous les formats des fichiers utilis  s par le syst  me   Le lecteur trouvera en annexe les licences GPL et LGPL qui prot  gent les codes sources    d   Unitex  ainsi que la licence LGPLLR qui couvre les donn  es linguistiques distribu  es avec  Unitex     Chapitre 1    Installation d   Unitex    Unitex est un systeme multi plateformes capable de fonctionner aussi bien sous Win   dows que sous Linux ou MacOS  Ce chapitre d  crit l installation et le lancement d   Unitex  pour chacun de ces syst  mes  Il pr  sente   galement les proc  dures d ajout de nouvelles  langues et de d  sinstallation     1 1 Licences    Unitex est un logiciel libre  Cela signifie que les sources des programmes sont distribu  es  avec le logiciel  et que chacun peut les modifier et les redistribuer  Le code des programmes  d   Unitex est sous licence LGPL   24       l   exception de la biblioth  que de manipulation d   ex   pressions r  guli  res TRE de Ville Laurikari   36    qui est sous licence GPL   23 
172. it  s lexicales  24  159  format  15  modification  106  148  normalisation  20  157  normalisation de l   automate du  87  114  pr  traitement  19  86  r  pertoire du  22  Tokens  voir Unit  s lexicales  Transducteur  66  r  gles d application  99  Transduction  66  Tri  158  d   un dictionnaire  38  des concordances  60  105  148  des lignes d une bo  te  78  Types de graphes  85    Underscore  74  101  Unicode  15  66  78  149  161  Union d expressions rationnelles  51  56  Unit  s lexicales  51  160  d  coupage en  24  159  UTF 8  149  150  171  172       V  rification du format d   un dictionnaire   36  147  Variables  dans les graphes  74  101  dans les graphes param  tr  s  141    Zoom  78    217    
173. la  sous cat  gorie des pronoms personnels mais non aux pronoms relatifs  Ces d  pen   dances sont d  crites dans la partie complete     130 CHAPITRE 7  AUTOMATE DU TEXTE        complete   Dans cette partie est explicit   l   tiquetage morphologique des mots appartenant     la cat  gorie grammaticale courante  Chaque ligne d  crit une combinaison valide de  codes flexionnels en fonction de leur sous cat  gorie discriminante  si une telle cat  go   rie a   t   d  clar  e   Lorsqu   un nom d attribut appara  t entre angles   lt  et  gt    cela signifie  que n   importe quelle valeur de cet attribut peut convenir  Il est   galement possible de  d  clarer qu   une entr  e ne prend aucun trait flexionnel au moyen d   une ligne ne conte   nant que le caract  re _  underscore   Ainsi par exemple  si nous consid  rons les lignes  suivantes extraites de la section concernant la description des verbes    W  K  lt genre gt   lt nombre gt   Elles permettent de d  clarer que les verbes    l infinitif  d  not   par le code W  n   ont pas  d   autres traits flexionnels positionn  s tandis que les formes    participe pass    code K   sont   galement attribu  es d   un genre et d   un nombre     Description des codes flexionnels    La principale fonction de la partie discr est de diviser les   tiquettes en sous cat  gories  ayant un comportement morphologique similaire  Ces sous cat  gories sont ensuite utilis  es  pour faciliter l   criture de la partie complete  Pour la lisibilit   des gram
174. liquez ensuite sur un des boutons  Extract matching units  ou   Extract unmatching units  selon que vous voulez extraire les phrases contenant les occur   rences ou non     108 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    D  My Unitex English Corpus ivanhoe snt  2343 sentence delimiters  186614  9300 diff  tokens  83776  9274  simple forms  25  9  digits    Ivanhoe by Sir Walter Scott   5  IN THAT PLEASANT DISTRICT of merry England which is watered  y the river Don  there extended in ancient times a large  forest  covering the greater part of the beautiful hills and  alleys which lie between Sheffield and the pleasant town of  Doncaster  S  The remains of this extensive wood are still to  e seen at the noble seats of Wentworth  of Warncliffe Park   and around Rotherham  5  Here haunted of yore the fabulous  Dragon of Wantley  5  here were fought many of the most  desperate battles during the Civil Wars of the Roses  5  and  here also flourished in ancient times those bands of gallant  outlaws  whose deeds have been rendered so popular in English  song  S  Such being our chief scene  the date of our story  refers to a period towards the end of the reign of Richard I    when his return from his long captivity had become an event  rather wished than hoped for by his despairing subjects  who       FIG  6 32     S  lection d   une occurrence dans le texte    6 7 5 Comparaison de concordances    L option  Show differences with previous concordance  permet de comparer la concor   
175. llivan et Samuel Fallentin  le brasseur Thomas Flanagan  Gauthier Ralph   et Samuel Fallentin  le brasseur Thomas Flanagan  Gauthier Ralph  un des administrateurs de la   nance      Eh bien  Ralph  demanda Thomas Flanagan  o   en est cette affaire de vol   _ Eh bien  r  iles  ont   t   envoy  s en Am  rique et en Europe  dans tous les principaux ports d embarquement e  oustrait cinquante cing mille livres en bank notes  1 million 375 000 francs    _ Non  r  pondit  k C est donc un industriel   dit John Sullivan  Le Morning Chronicle assure que c est un ge  O PSP ee NG SUEZ PE CNE  PA i A A DE AAEN one te Lanas          FIG  4 1     R  sultat de la recherche du m  ta  lt    DIC gt      lt lire V P F gt   le verbe lire au pr  sent ou au futur     lt suis suivre V gt    le mot suis en tant que forme conjugu  e du verbe suivre  par  opposition    la forme du verbe   tre     lt facteur N Hum gt    toutes les entr  es nominales ayant facteur comme forme cano   nique et ne poss  dant pas le code s  mantique Hum     lt  ADV gt    tous les mots qui ne sont pas des adverbes      lt  MOT gt    tous les caract  res  qui ne sont pas des lettres  sauf le s  parateur de phrases   voir figure 4 2      Concordance  E  My UnitexiEnglishiCorpus ivanhoe_snticoncord html     8  Enable links    Allow concordance edition    ngland which is watered by the river Don  there extended in ancient times a large forest  cover  extended in ancient times a large forest  covering the greater part of the beaut
176. lors peut   tre r    crite avec une ou  deux parties alors  sans perte de lisibilit    C   est par exemple le cas de la grammaire de la  figure 7 21  qui impose une contrainte entre un verbe et le pronom qui le suit     5 postpos bad grf Z            gt  Y  lt PRO PpvIL 2s gt  H  lt   gt      L3s gt   lt   gt     lt    oros     PH  lt    j  lt PRo Ppwl                                         lt PRO PpvLE gt    lt PRO PpvLUl  gt    lt PRO PpvPR gt                                   FIG  7 21   Grammaire ELAG v  rifiant l   accord entre verbe et pronom    Comme on peut le voir sur la figure 7 22  on peut   crire une grammaire   quivalente en  factorisant toutes les parties alors en une seule  Les deux grammaires auront exactement le  m  me effet sur l automate du texte  mais la seconde sera compil  e beaucoup plus rapide   ment     134 CHAPITRE 7  AUTOMATE DU TEXTE    E postpos good grf Unsaved                   DD    formes interrogatives     lt PRO PpviL 3s  gt         lt PRO PpviL  1p gt       lt PRO PpviL 2p gt               lt PRO PpvIL 3p gt         lt PRO PpvyLUI  gt    lt PRO PpvPR gt    lt PRO Ton  gt         lt PRO PpvLE gt                         FIG  7 22   Grammaire ELAG optimis  e v  rifiant l   accord entre verbe et pronom    Utilisation des symboles lexicaux    Il vaut mieux n   utiliser les lemmes que lorsque c   est absolument n  cessaire  Cela est  particuli  rement vrai pour les mots grammaticaux  lorsque leurs sous cat  gories portent  presque autant d   inf
177. lt boule gt    lt boule gt    lt boule gt    lt boule gt    lt boule gt    lt boule gt    lt boule gt    lt boule gt    lt boule gt     de  de  de  de  de  de  de  de  de    glace    la pistache  glace    la fraise  glace    la vanille  glace vanille   glace fraise   glace pistache  pistache   fraise   vanille       la pistache     la fraise     la vanille    vanille    fraise    pistache    98 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES       FIG  6 19     Exemple de graphe    6 5 Collection de graphes    Il peut arriver que l   on souhaite appliquer plusieurs grammaires situ  es dans un m  me  r  pertoire  Pour cela  il est possible de construire automatiquement une grammaire    partir    d une arborescence de fichiers  Supposons par exemple que l   on ait l arborescence suivante        Dicos          Banque        carte grf      Nourriture        eau grf      pain grf    truc grf  Si l   on veut rassembler toutes ces grammaires en une seule  on peut le faire avec la com   mande  Build Graph Collection  dans le sous menu  FSGraph  gt  Tools   On configure cette  op  ration au moyen de la fen  tre de la figure 6 20     Building Graph Collection P x     Source directory     Po Set       Resulting GRF grammar        sa      a                         FIG  6 20     Construction d une collection de graphes    Dans le champ  Source directory     s  lectionnez le r  pertoire racine que vous voulez ex   plorer  dans notre exemple  le r  pertoire Dicos   Dans le champ  Resulting GRF 
178. maires ELAG  il  est souhaitable que les   l  ments d   une m  me sous cat  gorie aient tous le m  me comporte   ment flexionnel  dans ce cas la partie complete est compos  e d   une seule ligne par sous   cat  gorie     Consid  rons par exemple les lignes suivantes  extraites de la description des pronoms      Pdem  lt genre gt   lt nombre gt   PpvIl  lt genre gt   lt nombre gt   lt pers gt   PpvPr    Ces lignes signifient         tous les pronoms d  monstratifs   lt PRO Pdem gt   ont des indications de genre et de   nombre  et aucune autre         les pronoms personnels nominatifs   lt PRO Ppv11 gt   sont   tiquet  s morphologique    ment par une personne  un genre et nombre         les pronoms pr  positionnels  en  y  n   ont aucun trait flexionnel    Toutes les combinaisons des traits flexionnels et discriminants qui apparaissent dans  les dictionnaires doivent   tre d  crits dans le fichier tagset  def  faute de quoi les entr  es  correspondantes seront rejet  es par ELAG    Dans le cas o   des mots d   une m  me sous cat  gorie diff  rent par leurs traits flexionnels   il est n  cessaire d   crire plusieurs lignes dans la partie complete  L inconv  nient de cette  m  thode de description  est qu il devient difficile de faire la distinction entre de tels mots  dans une grammaire ELAG    Si l   on consid  re la description donn  e pr  c  demment en exemple  certains adjectifs du  fran  ais prennent un genre et un nombre  alors que d   autres n   ont aucun trait flexionnel
179. mbole  lt   gt  dans la partie alors  Ces  symboles forment un point de synchronisation  Cela permet d   crire des r  gles dans lesquelles  les contraintes si et alors ne sont pas n  cessairement align  es  comme c   est par exemple le  cas sur la figure 7 14  Cette grammaire s   interpr  te de la mani  re suivante   si on trouve un  tiret suivi par il  elle ou on  alors ce tiret doit   tre pr  c  d   par un verbe    ventuellement suivi  de    t  Ainsi  si l   on considere la phrase de la figure 7 15 commen  ant par Est il  on peut voir  que toutes les interpr  tations non verbales de Est ont   t   supprim  es     122 CHAPITRE 7  AUTOMATE DU TEXTE    If    tu follows a verb in the 2nd person singular  and a dash  then itis a pronoun and not the  past participle of taire        FIG  7 12     Exemple de grammaire ELAG    7 3 2 Compilation des grammaires ELAG    Avant de pouvoir   tre appliqu  e    un automate de texte  une grammaire ELAG doit   tre  compil  e en un fichier  rul  Cette op  ration s effectue via la commande  Elag Rules   dans  le menu  Text   qui fait appara  tre la fen  tre de la figure 7 16    Si le cadre    droite contient d  j   des grammaires que vous ne souhaitez pas utiliser  vous  pouvez les retirer au moyen du bouton  lt  lt   S  lectionnez ensuite votre grammaire dans l ex   plorateur de fichiers situ   dans le cadre gauche  et cliquez sur le bouton  gt  gt  pour I    ajouter     la liste du cadre droit  Cliquez alors sur le bouton compile  Ceci lancera
180. mbre de caract  res rendrait tr  s fastidieuse une    num  ration compl  te         E8   2 caract  res X et Y indiquent que X et Y sont des lettres et que X est l   quivalent  en majuscule de la lettre Y         WN  un unique caract  re X d  finit X comme une lettre    la fois minuscule et majuscule   Ce mode est utile pour d  finir un caract  re asiatique de mani  re ponctuelle     Pour certaines langues comme le fran  ais  il arrive qu      une lettre minuscule corres   pondent plusieurs majuscules  comme c est le cas pour le     qui peut avoir comme majuscule  soit E  soit     Pour exprimer cela  il suffit d utiliser plusieurs lignes  L inverse est   galement  vrai      une majuscule peuvent correspondre plusieurs minuscules  Ainsi  le E peut   tre la  majuscule de e             ou e  Voici l extrait du fichier alphabet du francais qui d  finit les  diff  rentes lettres e      Eeq  E  Y        EeY  EeY  E8Y          10 3  GRAPHES 163  feq  E8SY  EsY    10 2 2 Alphabet de tri    L   alphabet de tri est un fichier texte qui d  finit les priorit  s des lettres d une langue lors  du tri    l   aide du programme SortTxt  Chaque ligne de ce fichier d  finit un groupe de  lettres  Si un groupe de lettres A est d  fini avant un groupe de lettres B  n importe quelle  lettre de A sera inf  rieure    n   importe quelle lettre de B    Les lettres d   un m  me groupe ne sont distingu  es que si n  cessaire  Par exemple  si  l on a d  fini le groupe de lettre e          le mot   bahi se
181. ms per   mit modification of the package for the customer   s own use and reverse engineering  for debugging such modifications     You must give prominent notice with each copy of the package that the Linguistic  Resource is used in it and that the Linguistic Resource and its use are covered by  this License  You must supply a copy of this License  If the package during execution  displays copyright notices  you must include the copyright notice for the Linguistic  Resource among them  as well as a reference directing the user to the copy of this  License  Also  you must do one of these things       a  Accompany the package with the complete corresponding machine readable le   gible form of the Linguistic Resource including whatever changes were used in  the package  which must be distributed under Sections 1 and 2 above    and  if the  package contains an encrypted form of the Linguistic Resource  with the complete  machine readable  work that uses the Linguistic Resource   as object code and or  source code  so that the user can modify the Linguistic Resource and then encrypt  it to produce a modified package containing the modified Linguistic Resource     g       Use a suitable mechanism for combining with the Linguistic Resource  A sui   table mechanism is one that will operate properly with a modified version of the  Linguistic Resource  if the user installs one  as long as the modified version is  interface compatible with the version that the package was made with    
182. n  gation d   un masque lexical comme  lt V G gt  reconna  t tous les mots sauf ceux qui  peuvent   tre reconnus par ce masque  Ainsi  le masque  lt  V G gt  ne reconnaitra pas la forme  anglaise being  m  me s il existe dans les dictionnaires du texte des entr  es non verbales  pour ce mot      being   A  being   N Abst s  being   N Hum s    Voici plusieurs exemples de motifs m  langeant les diff  rentes sortes de contraintes         lt A Hum  f s gt    adjectif non humain au f  minin singulier      4 3  MOTIFS 55    Concordance  E  My Unitex FrenchiCorpus 80jours_snt concord html    la lecturi de ce a onai occupa Phileas Fogg ju  ogg jusqu    trois Paces quarante cing  et seis du 3t  le d  jeuner  avec adjonction de   royal british sauce     S A six heures moins vingt  le gentle  d salon et s absorba dans la lecture du Morning Chronicle   5 Une demi heure plus tard  divers   et s absorba dans la lecture du Morning Chronicle   5 Ume demi heure plus tard  divers membres   demi heure plus tard  divers membres du Reform Club faisaient leur entr  e et s approchaient de   C   taient les partenaires habituels de Mr  Phileas Fogg  comme lui enrag  s joueurs de whist     taient les partenaires habituels de Mr  Phileas Fogg  comme lui enrag  s joueurs de whist   l in  es partenaires habituels de Mr  Phileas Fogg  comme lui enrag  s joueurs de whist   l ing  nieur   nieur Andrew Stuart  les banquiers John Sullivan et Samuel Fallentin  le brasseur Thomas Flanag    les banquiers John Su
183. n engendrant toutes les formes fl  chies possibles  Afin d     viter de devoir remplacer les  noms des grammaires de flexion par de vrais codes grammaticaux dans le dictionnaire ob   tenu  le programme remplace ces noms par leurs plus longs pr  fixes compos  s de lettres   Ainsi  N4 est remplac   par N  En choisissant judicieusement les noms des grammaires de  flexion  on peut donc engendrer directement un dictionnaire pr  t    l emploi     Voici le dictionnaire obtenu apr  s flexion du DELAS de notre exemple      3 5  COMPRESSION 43    D iMy Unitex English Dela delasflx dic    aviatrices aviatrix N Hum p  aviatrix aviatrix N Hum s  atrices matrix N Math p    atrix matrix N Math s  radices radix N p  radix radix N s          FIG  3 7     R  sultat de la flexion automatique    3 5 Compression    Unitex applique aux textes des dictionnaires comprim  s  La compression permet de r     duire la taille des dictionnaires et d en acc  l  rer la consultation  Cette op  ration s   effectue  avec le programme Compress  Celui ci prend en entr  e un dictionnaire sous forme de fi   chier texte  par exemple mon_dico  dic  et produit deux fichiers         mon_dico bin contient l automate minimal des formes fl  chies du dictionnaires       mon_dico inf contient des codes qui permettent de reconstruire le dictionnaire d   ori    gine    partir des formes fl  chies contenues dans mon_dico bin    L   automate minimal contenu dans mon_dico bin est une repr  sentation des formes  fl  chies o   tou
184. n graphe converti en Unicode qui a   t   utilis   avec Unitex ne peut plus    tre utilis   avec Intex     Pour pouvoir l utiliser    nouveau avec Intex  vous devez le convertir en texte ASCII  puis  l ouvrir avec un traitement de texte et remplacer la premi  re ligne       Unigraph  par la ligne suivante       FSGraph 4 0    5 2  EDITION DE GRAPHES 67  5 2 2 Cr  ation d   un graphe    Pour cr  er un graphe  cliquez sur  New  dans le menu  FSGraph   Vous voyez alors  appara  tre la fen  tre de la figure 5 2  Le symbole en forme de fl  che est l     tat initial du graphe   Le symbole rond contenant un carr   est l   tat final du graphe  La grammaire ne reconnaitra  que les expressions d  crites par des chemins reliant l     tat initial    l     tat final     ES Unitex 1 2   current language is French    Text DELA Lexicon Grammar Edit File Edition Windows Info       FIG  5 1   Menu FSGraph    Pour cr  er une bo  te  cliquez sur la fen  tre tout en appuyant sur la touche Ctrl  Vous  verrez alors appara  tre un carr   bleu symbolisant la bo  te vide cr    e  voir figure 5 3   Lors  de la cr  ation d   une bo  te  celle ci est automatiquement s  lectionn  e  Vous voyez donc le  contenu de la bo  te s afficher dans la zone de texte situ  e en haut de la fen  tre  La bo  te  cr    e contient le symbole  lt E gt  qui repr  sente le mot vide epsilon  Remplacez ce symbole  par le texte I you he she it we they et validez en appuyant sur la touche Entr  e   Vous venez de cr  er une bo  te
185. n multiple dans un autre graphe que celui dans  lequel vous avez effectu   la copie     Pour supprimer des boites  s  lectionnez les et supprimez le texte qu   elles contiennent   Pour cela  supprimez le texte pr  sent dans la zone de texte situ  e en haut de la fen  tre et  validez avec la touche Entr  e  L     tat initial et l     tat final ne peuvent pas   tre supprim  s     5 2 6 Sortie    Il est possible d associer une sortie    une bo  te  Pour cela  utilisez le caract  re sp  cial     Tous les caract  res situ  s    droite de celui ci seront consid  r  s comme faisant partie de la  sortie  Ainsi  le texte one two three number donne la bo  te de la figure 5 14     La sortie associ  e    une bo  te est repr  sent  e en texte gras sous celle ci     74 CHAPITRE 5  GRAMMAIRES LOCALES    F  Unsaved              FIG  5 13     Copier coller d une s  lection multiple    one    k two  m     three    number    FIG  5 14     Exemple de sortie    5 2 7 Utilisation des variables    Il est possible de s  lectionner des parties du texte reconnu par une grammaire au moyen  de variables  Pour associer une variable var1    une partie d une grammaire  utilisez les  symboles sp  ciaux  var1   et  var1  pour d  finir respectivement le d  but et la fin de la  zone    stocker  Cr  ez deux bo  tes contenant l   une  var1  et l   autre  var1   Ces bo  tes  ne doivent rien contenir d autre que le nom de la variable pr  c  d   de   et suivi d une pa   renth  se  Reliez ensuite ces bo  tes    la z
186. n the Linguistic Resource  and copy and distribute such  modifications or work under the terms of Section 1 above  provided that you also meet  all of these conditions       a  The modified work must itself be a linguistic resource      b  You must cause the files modified to carry prominent notices stating that you  changed the files and the date of any change      c  You must cause the whole of the work to be licensed at no charge to all third  parties under the terms of this License     These requirements apply to the modified work as a whole  If identifiable sections  of that work are not derived from the Linguistic Resource  and can be reasonably  considered independent and separate works in themselves  then this License  and  its terms  do not apply to those sections when you distribute them as separate  works  But when you distribute the same sections as part of a whole which is  a work based on the Linguistic Resource  the distribution of the whole must be  on the terms of this License  whose permissions for other licensees extend to the  entire whole  and thus to each and every part regardless of who wrote it    Thus  it is not the intent of this section to claim rights or contest your rights to  work written entirely by you  rather  the intent is to exercise the right to control  the distribution of derivative or collective works based on the Linguistic Re   source    In addition  mere aggregation of another work not based on the Linguistic Re   source with the Ling
187. n you distribute them as separate works  But when  you distribute the same sections as part of a whole which is a work based on the  Program  the distribution of the whole must be on the terms of this License  whose  permissions for other licensees extend to the entire whole  and thus to each and every  part regardless of who wrote it     Thus  it is not the intent of this section to claim rights or contest your rights to work  written entirely by you  rather  the intent is to exercise the right to control the distri   bution of derivative or collective works based on the Program     In addition  mere aggregation of another work not based on the Program with the Pro   gram  or with a work based on the Program  on a volume of a storage or distribution  medium does not bring the other work under the scope of this License     3  You may copy and distribute the Program  or a work based on it  under Section 2  in  object code or executable form under the terms of Sections 1 and 2 above provided  that you also do one of the following       a  Accompany it with the complete corresponding machine readable source code   which must be distributed under the terms of Sections 1 and 2 above on a medium  customarily used for software interchange   or     g       Accompany it with a written offer  valid for at least three years  to give any third  party  for a charge no more than your cost of physically performing source distri   bution  a complete machine readable copy of the corresponding
188. naissant des pronoms anglais    5 2 3 Sous graphes    Pour faire appel    un sous graphe  il faut indiquer son nom dans une bo  te en le faisant  pr  c  der du caract  re    Si vous entrez dans une bo  te le texte suivant      alpha  beta gamma  E  greek delta grf    70 CHAPITRE 5  GRAMMAIRES LOCALES       FIG  5 6     Boite reli  e a elle m  me    vous obtiendrez une boite similaire a celle de la figure 5 7      alpha  beta    gamma  Engreekidelta arf       FIG  5 7     Graphe faisant appel aux sous graphes beta et delta    Vous pouvez indiquer le nom complet du graphe  E    greek delta grf  ou simple   ment le nom sans le chemin d acces  beta   dans ce cas  le sous graphe est suppos   se  trouver dans le m  me r  pertoire que le graphe qui y fait r  f  rence  Il est d  conseill   d utili   ser des noms de graphes comportant des chemins absolus  car cela nuit    leur portabilit    Si  vous utilisez un nom de graphe absolu  comme c   est ici le cas pour E   greek delta grf   le compilateur de graphe   mettra un avertissement  voir figure 5 8      Pour les m  mes raisons de portabilit    il est d  conseill   d utiliser   ou   comme s  pa   rateur dans les noms de graphes     la place  il vaut mieux utiliser le caract  re   qui joue le  r  le de s  parateur universel  valable quel que soit le syst  me sous lequel vous travaillez  On  peut d   ailleurs voir sur la figure 5 8 que c   est ce s  parateur qui est utilis   en interne par le  compilateur de graphe  E   greek delta grf
189. nce interdite     l inverse  si    6 3  CONTEXTES 95     28     2          FIG  6 13     Utilisation d   un contexte n  gatif    la fin de contexte ne peut   tre atteinte  le programme Locate reviendra    la position pos  dans le texte et continuera l exploration de la grammaire    partir la fin du contexte     Les contextes peuvent   tre plac  s n   importe o   dans le graphe  y compris au d  but  La  figure 6 14 montre ainsi un graphe qui reconna  t un adjectif dans le contexte de quelque  chose qui n   est pas un participe pass    Autrement dit  ce graphe reconna  t tous les adjectifs  qui ne sont pas ambigus avec des participes pass  s             Have     He    FIG  6 14     Recherche d un adjectif non ambigu avec un participe pass      Gr  ce    ce m  canisme  on peut formuler des requ  tes complexes  A  nsi  la figure 6 15  montre un graphe qui reconna  t toutes les s  quences de deux noms simples qui ne sont pas  ambigu  s avec des mots compos  s  En effet  le motif  lt CDIC gt  lt  lt                 gt  gt  re   conna  t un mot compos   contenant exactement un espace  et le motif  lt N gt  lt  lt           gt  gt   reconna  t un nom sans espace  c est    dire un nom simple  Ainsi  dans la phrase Black cats  should like the town hall  ce graphe reconnaitra Black cats  mais pas town hall qui est un mot  compos       ts           lt N gt  lt  lt  ff  lt N gt  lt  lt  Y  gt  gt     FIG  6 15     Utilisation avanc  e des contextes    Il est possible d   imbriquer des con
190. nd that the Library and its use are covered by this License  You must supply a copy of  this License  If the work during execution displays copyright notices  you must include the  copyright notice for the Library among them  as well as a reference directing the user to the  copy of this License  Also  you must do one of these things     a  Accompany the work with the complete corresponding machine readable source code  for the Library including whatever changes were used in the work  which must be distribu   ted under Sections 1 and 2 above    and  if the work is an executable linked with the Library   with the complete machine readable  work that uses the Library   as object code and or  source code  so that the user can modify the Library and then relink to produce a modi   fied executable containing the modified Library   It is understood that the user who changes  the contents of definitions files in the Library will not necessarily be able to recompile the  application to use the modified definitions     b  Use a suitable shared library mechanism for linking with the Library  A suitable me   chanism is one that  1  uses at run time a copy of the library already present on the user   s  computer system  rather than copying library functions into the executable  and  2  will ope   rate properly with a modified version of the library  if the user installs one  as long as the  modified version is interface compatible with the version that the work was made with    c  Accomp
191. nfiguration de l apparence du graphe     Les 6 autres ic  nes correspondent    des commande d   dition des bo  tes  La premi  re   en forme de fl  che blanche  correspond au mode d   dition normal des bo  tes  Les 5 autres  correspondent    des outils  Pour utiliser un outil  cliquez sur l ic  ne correspondante   le  curseur de la souris changera alors de forme et les clics de la souris seront alors interpr  t  s  de fa  on particuli  re  Voici la description des outils  de gauche    droite         cr  ation de bo  tes   cr  e une bo  te vide    l endroit du clic        suppression de bo  tes   supprime la bo  te sur laquelle vous cliquez        relier des bo  tes    une autre bo  te   cet outil permet de s  lectionner une ou plusieurs  bo  tes  et de la ou les relier    une autre     la diff  rence du mode normal  la ou les  transitions qui vont   tre cr    es sont affich  es pendant le d  placement du pointeur de  la souris      78 CHAPITRE 5  GRAMMAIRES LOCALES        relier des bo  tes    une autre bo  te en sens inverse   cet outil effectue la m  me chose que  le pr  c  dent  mais en reliant en sens inverse les bo  tes s  lectionn  es    la bo  te cliqu  e         ouvrir un sous graphe   ouvre un sous graphe lorsque vous cliquez sur la ligne gris  e  correspondante dans une bo  te     5 3 Options de pr  sentation    5 3 1 Tri des lignes d   une bo  te    Vous pouvez trier le contenu d   une bo  te en la s  lectionnant et en cliquant sur  Sort Node  Label  dans le sous me
192. nu  Tools  du menu  FSGraph   Ce tri ne fait pas appel au programme  SortTxt  Il s   agit d un tri basique qui trie les lignes de la bo  te selon l   ordre des caract  res  dans le codage Unicode     5 3 2 Zoom    Le sous menu  Zoom  vous permet de choisir l   chelle    laquelle sera affich   le graphe        Fit in screen     Fit in window       60      80        FIG  5 20     Sous menu Zoom    L option  Fit in screen    tire ou r  tr  cit le graphe pour lui donner la taille de l   cran   L option  Fit in window  ajuste le graphe pour qu il soit enti  rement affich   dans la fen  tre     5 3 3 Antialiasing    L   antialiasing est un effet de rendu qui permet d   viter l effet de pixellisation Vous pou   vez activer cet effet en cliquant sur  Antialiasing     dans le sous menu  Format   La fi   gure 5 21 montre deux graphes affich  s normalement  graphe du haut  et avec antialiasing   graphe du bas      Cet effet ralentit l ex  cution d Unitex  Nous vous conseillons de ne pas l utiliser si votre  machine est peu puissante     5 3  OPTIONS DE PRESENTATION 79             FIG  5 21     Exemple d antialiasing    5 34 Alignement des bo  tes    Afin d obtenir des graphes harmonieux  il est utile de pouvoir aligner les bo  tes  aussi  bien horizontalement que verticalement  Pour cela  s  lectionnez les bo  tes    aligner et cli   quez sur  Alignment     dans le sous menu  Format  du menu  FSGraph  ou appuyez sur   lt Ctrl M gt   Vous voyez alors appara  tre la fen  tre de la figure 
193. oms propres les mots inconnus com   men  ant par une majuscule    Comme les graphes dictionnaires sont appliqu  s par le moteur du programme Locate   ils peuvent utiliser tout ce que Locate autorise  En particulier  il est possible d utiliser les  filtres morphologiques  Ainsi  le graphe de la figure 3 12 utilise ces filtres pour reconna  tre  les nombres en chiffres romains  Notons qu il utilise   galement des contextes afin d   viter   par exemple  que C ne soit pris comme chiffre romain quand il est suivi par une apostrophe     3 7 Bibliographie    Le tableau 3 4 donne quelques r  f  rences relatives aux dictionnaires   lectroniques de  mots simples et compos  s  Pour plus de d  tails  consultez la page de r  f  rences sur le site  web d   Unitex   http   www igm univ mlv fr  unitex    CHAPITRE 3  DICTIONNAIRES    48    yO           lt  lt  4 GcTIMTLAITTAILALALATIINIDE oxbooxTbocTbThitxbooxkxbo dnalossadloodloalalaalasalaalo GalnAIIALALALIAIALIDU gt  gt     666 0001        lt  lt    QcTIILAILAILALALATIIMNIDeCoxbooxrTbociixThitixboxxkxboaralossdlosalodlalaalasalaalaw  gt   666 001        lt  lt  2GTITILAITAILALALATIIMIDOxbooeTbOCTE MARRON  gt  gt   66 01        lt  lt  GCTILAILAILALAL ATID  gt  gt   61             FIG  3 12     Graphe dictionnaire reconnaissant les nombres en chiffres romains    3 7  BIBLIOGRAPHIE                               Langue Mots simples   Mots compos  s  anglais  30    40   11    46   francais  14    15    34     15    25    47    27   grec modern
194. on    Par exemple  lorsque l automate du texte contient des symboles qui ne correspondent  pas au jeu d   tiquettes d   ELAG  voir section suivante   un message indique la nature de    7 3  LEVEE D   AMBIGUITES LEXICALES AVEC ELAG 127    l erreur rencontr  e  De m  me  lorsqu une phrase est rejet  e  toutes les analyses possibles  ont   t     limin  es par les grammaires   un message indique le num  ro de la phrase  Cela  permet de localiser rapidement la source des probl  mes     Evaluation de la lev  e d   ambiguit  s    L     valuation du taux d   ambiguit   ne se base pas uniquement sur le nombre moyen d   in   terpr  tations par mot  Afin d   avoir une mesure plus repr  sentative  le syst  me prend   gale   ment en compte les diff  rentes combinaisons de mots    Durant la lev  e d   ambiguit  s  le programme Elag calcule le nombre d   analyses pos   sibles dans l automate du texte avant et apr  s modification  cela correspond au nombre de  chemins possibles dans l automate   En se basant sur cette valeur  le programme calcule  l ambigu  t   moyenne par phrase et par mot  C est cette derni  re mesure qui est utilis  e pour  repr  senter le taux d   ambiguit  s du texte  car elle ne varie pas avec la taille du corpus  ni  avec le nombre de phrases de celui ci  La formule appliqu  e est      log nombre de chemins     taux d   ambiguit  s  exp longueur du texte       Le rapport entre le taux d   ambiguit  s avant et apr  s l application des grammaires donne  une mesure de le
195. on  65   D  tection d erreurs dans les graphes  93    156   Degr   d   ambiguit    113   DELA  20  31   DELAC  31   DELACE  31   DELAF  31 34  45  173   DELAS  31  34   Diagrammes de syntaxe  66   Dictionnaires  application de  26  44  151  codes utilis  s dans les  34  commentaires dans les  32    213    compression  43  147  158  contenu des  34   DELAC  31   DELACE  31   DELAF  31 34  45  147  156  173  DELAS  31  34  156   du texte  28  52  111   filtres  45   finesse  113   flexion automatique  40  156  format  31   priorit  s  44   r  f  rence aux  52  88  s  lection par d  faut  29   tri  38   v  rification  36  147    Editeur de texte int  gr    18  ELAG  88  120  Ensembles de grammaires  125  Entr  es lexicales  31  Entr  es lexicales factoris  es  124  Epsilon  voir  lt E gt   Equivalence de caract  res  38  Erreurs dans les graphes  93  155  Espace   interdit  52   obligatoire  52  Etat   final  67   initial  67  Etiquettes lexicales  114  157  160  168  Etoile de Kleene  51  56  Evaluation du taux d   ambiguit    127  Exclusion de codes grammaticaux et s  man    tiques  53  Exploration des chemins d une grammaire   96   Expression rationnelle  51  66  158  Expressions r  guli  res  57  Extraire les occurrences  60  107    Fen  tre de concordance  61  Fen  tre de processing d   ELAG  126  Fichier    214     conc fst2  122   fst2 151    1st  125  126    Tu  l 12   126  151  152  tagset def  127  130  132   bin  43  147  151  173  180   cfg  180    dic  37  43  147  
196. on d  clar  s  ces entr  es deviendront  indistinguables par le programmes et seront donc unifi  es en une seule entr  e dans l au   tomate r  sultat  Ainsi  le jeu d   tiquettes d  crit dans le fichier tagset  def peut suffire a  r  duire l   ambiguit    en factorisant des mots qui ne diff  rent que par des codes non d  clar  s  et ceci ind  pendamment des grammaires appliqu  es    Par exemple  dans la version la plus compl  te du dictionnaire du fran  ais  chaque emploi  distinct d   un verbe est caract  ris   par une r  f  rence vers la table du lexique grammaire qui  le caract  rise  Nous avons consid  r   jusqu   a pr  sent que ces informations rel  vent plus de  la syntaxe que de l analyse lexicale et nous ne les avons donc pas int  gr   dans la description  du jeu d     tiquettes  Celle ci sont donc automatiquement   limin  es lors du chargement de  l      automate du texte  ce qui r  duit sont taux d   ambiguit  s    Afin de bien distinguer les effets li  s au jeu d     tiquettes de ceux de des grammaires  ELAG  il est conseill   de proc  der    une   tape pr  alable de normalisation de l automate  du texte avant de lui appliquer les grammaires de d  sambiguisation  Cette normalisation  s effectue en appliquant    l automate du texte une grammaire n   imposant aucune contrainte   comme celle de la figure 7 20  Notez que cette grammaire est normalement pr  sente dans la  distribution d   Unitex et pr   compil  e dans le fichier norm rul           FIG  7 20     Grammair
197. one de la grammaire voulue  Dans le graphe de la  figure 5 15  on reconna  t une s  quence commen  ant par un nombre que l   on stocke dans une  variable nomm  e var1  suivi de dollar ou dollars     Les noms de variables peuvent contenir des lettres latines non accentu  es  minuscules  ou majuscules  ainsi que des chiffres et le caract  re _  underscore   Unitex fait la diff  rence  entre les lettres minuscules et majuscules     Quand une variable a ainsi   t   d  finie  on peut l utiliser dans les sorties en encadrant    5 2  EDITION DE GRAPHES 75     mh      a  varl         varl varl    FIG  5 15     Utilisation d une variable var 1    son nom avec le caract  re    Si l   on souhaite   crire en sortie le caract  re    il faut le doubler   comme c est le cas dans la figure 5 15  La grammaire de la figure 5 16 reconna  t une date  form  e d un mois et d une ann  e  et produit en sortie la m  me date  mais dans l ordre ann  e   mois     A      year   month     month year year    November  December       FIG  5 16     Inversion du mois et de l   ann  e dans une date    5 2 8 Copie de listes    Il peut   tre pratique d   effectuer un copier coller d   une liste de mots ou d   expressions  depuis un   diteur de texte vers une boite dans un graphe  Afin d     viter de devoir copier  manuellement chaque terme  Unitex propose un m  canisme de copie de listes  Pour l   utili   ser  s  lectionnez votre liste dans votre   diteur de texte et copiez la au moyen de  lt Ctrl C gt  ou  de l
198. onna  t l unit   lexicale le  suivie d un adjectif et de l unit   lexicale chat  Enfin  il est  possible d   omettre le point et l   espace avant une parenth  se ouvrante ou le caract  re  lt   ainsi  qu apr  s une parenth  se fermante ou le caract  re  gt   Les parenth  ses servent    d  limiter une  expression rationnelle  Toutes les expressions suivantes sont   quivalentes      le  lt A gt  chat   le  lt A gt  chat  le  lt A gt  chat   le   lt A gt  chat   le  lt A gt     chat           45 Union  L union d expressions rationnelles se fait en les s  parant par le caract  re    L expression     je tu il telle on tnous vous ils telles   lt V gt     reconna  t un pronom suivi par un verbe  Si l   on veut rendre un   l  ment facultatif dans  une expression  il suffit de faire l union de cet   l  ment avec le mot vide epsilon     Exemples      le  petit  lt E gt   chat reconna  t les s  quences le chat et le petit chat    lt E gt  franco    anglais belge  reconna  t anglais  belge  franco anglais et franco belge    4 6 Etoile de Kleene    L     toile de Kleene  repr  sent  e par le caract  re    permet de reconnaitre z  ro  une ou plu   sieurs occurrences d une expression  L   toile doit   tre plac  e    droite de l   l  ment concern     L expression      il fait tr  s  froid    4 7  FILTRES MORPHOLOGIQUES 57    reconna  t il fait froid  il fait tr  s froid  il fait tres tr  s froid  etc  L   toile est prioritaire sur les  autres op  rateurs  Il faut utiliser les parenth  ses po
199. ons d un   tat sont cod  es les unes    la  suite des autres     Exemple   une transition   tiquet  e par le caract  re A pointant vers l     tat dont la des   cription d  bute au 50106  octet sera repr  sent  e par la s  quence hexad  cimale  004100C3BA     Par convention  le premier   tat de l   automate est l     tat initial     10 7 2 Fichiers  inf    Un fichier  inf est un fichier texte d  crivant les formes comprim  es associ  es    un fi   chier   bin  Voici un exemple de fichier   inf      00000000064  _10 0 0 7 N4     PREP   _3 PREP4     PREP  _3 PREP4  1 1 N Hum  mp   3er 1 N AN Hum fs    La premi  re ligne du fichier indique le nombre de formes comprim  es qu il contient   Chaque ligne peut contenir une ou plusieurs formes comprim  es  S   il y a plusieurs formes   celles ci doivent   tre s  par  es par des virgules  Chaque forme comprim  e est form  e d   une  s  quence permettant de retrouver une forme canonique a partir d   une forme fl  chie  suivie  par la s  quence de codes grammaticaux  s  mantiques et flexionnels associ  s    l entr  e     Le mode de compression de la forme canonique varie en fonction de la forme fl  chie   Si les deux formes sont exactement identiques  la forme comprim  e se r  sume aux informa   tions grammaticales  s  mantiques et flexionnelles  comme c   est le cas dans la ligne suivante       N Hum ms    Si les formes sont diff  rentes  le programme de compression d  coupe les deux formes en  unit  s  Ces unit  s peuvent   tre soit un 
200. ont les suivants           txtauto   l automate du texte au format  fst2       lang  le fichier de configuration ELAG pour la langue consid  r  e     rules  le fichier de r  gles compil  es au format  rul       output   l   automate du texte de sortie       dir   ce param  tre optionnel indique le r  pertoire dans lequel se trouvent les r  gles  ELAG             9 8 ElagComp    ElagComp   r ruleslist  g grammar   1 lang   o output    d rulesdir     152 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES    Ce programme compile une grammaire ELAG dont le nom est grammar  ou toutes les  grammaires sp  cifi  es dans le fichier ruleslist  Le resultat est stock   dans un fichier  output qui pourra   tre utilis   par le programme Elag       ruleslist  fichier listant des grammaires ELAG       lang  le fichier de configuration ELAG pour la langue consid  r  e       output    optionnel  nom du fichier de sortie  Par d  faut  le fichier de sortie est iden   tique    ruleslist  sauf pour l extension qui est  rul       rulesdir   ce param  tre optionnel indique le r  pertoire dans lequel se trouvent les  r  gles ELAG    9 9 Evamb       Evamb   imp  exp    o  fstname   n sentenceno     Ce programme calcule un taux d   ambiguit   moyen sur tout l automate du texte f stname   ou juste sur la phrase sp  cifi  e par sentenceno  Si le param  tre  imp est sp  cifi    le pro   gramme effectue le calcul sur une forme dite compacte de l   automate dans laquelle les ambi   guit  s flexionnelles ne son
201. ormation que les lemmes eux m  mes  Si vous utilisez malgr   tout un  lemme dans un symbole  il est recommand   de pr  ciser le plus possible ses traits syn   taxiques  s  mantiques et flexionnels     Par exemple  avec les dictionnaires fournis pour le fran  ais  il est pr  f  rable de rempla   cer des symboles comme  lt je PRO 1s gt    lt je PRO PpvIL 1s gt  et  lt je PRO gt  par le sym   bole  lt PRO PpvIl 1s gt   En effet  tous ces symboles sont identiques dans la mesure o   ils  ne peuvent reconna  tre que l unique entr  e de dictionnaire  je   PRO PpvIL 1ms 1fs    Cependant  comme le programme ne peut pas d  duire automatiquement cette information   si l   on ne pr  cise pas tous ces traits  le programme considerera en vain des   tiquettes non  existantes telles  lt je PRO 3p gt   lt je PRO PronQ    etc     7 4  MANIPULATION DE L AUTOMATE DU TEXTE 135  7 4 Manipulation de l   automate du texte    74 1 Affichage des automates de phrases    Comme nous l avons vu pr  c  demment  l automate d un texte est en r  alit   l   ensemble  des automates des phrases de ce texte  Cette structure peut   tre repr  sent  e gr  ce au format   fst2  utilis   pour repr  senter les grammaires compil  es    Cependant  ce format ne permet pas d afficher directement les automates de phrases  Il  faut donc utiliser un programme  Fst2Grf  pour convertir un automate de phrase en un  graphe pour qu il puisse   tre affich    Ce programme est appel   automatiquement quand  vous s  lectionnez une phra
202. paces  Comme un retour    la ligne compte pour 2 caract  res et l   espace pour un seul   il faut savoir o   se trouvent les retours    la ligne dans le texte si l   on veut synchroniser  les positions des occurrences calcul  es par le programme Locate avec le fichier texte   Le fichier enter  pos est utilis      cette fin par le programme Concord  C est gr  ce     cela que lorsque l   on clique sur une occurrence dans une concordance  celle ci est  correctement s  lectionn  e dans le texte                    Tous les fichiers produits sont sauvegard  s dans le r  pertoire du texte     9 31 Txt2Fst2    Txt2Fst2 texte alphabet   clean   norm     Ce programme construit l automate du texte  Le param  tre texte doit repr  senter le  chemin d acc  s complet au fichier texte  sans omettre l extension   snt  Le param  tre alphabet  doit repr  senter le chemin d   acc  s complet au fichier alphabet de la langue du texte  Le para   m  tre optionnel  clean indique au programme qu il doit appliquer le principe de conser   vation des meilleurs chemins  voir section 7 2 4   Si le param  tre norm est pr  cis    il est  interpr  t   comme le nom d une grammaire de normalisation    appliquer    l automate du  texte     Si le texte a   t   d  coup   en phrases  le programme construit un automate pour chaque  phrase  Si ce n   est pas le cas  le programme d  coupe arbitrairement le texte en s  quences de  2000 unit  s lexicales et construit un automate pour chacune de ces s  quences     Le r  
203. pal de la grammaire    explorer   Les options suivantes concernent la gestion des sorties de la grammaire ainsi que le mode  d exploration          Ignore outputs    les sorties sont ignor  es          Separate inputs and outputs    les sorties sont affich  es group  es apr  s les entr  es       b  amp    ABC        Merge inputs and outputs    chaque sortie est affich  e imm  diatement apr  s l entr  e  qui lui correspond  a A b B c C          Only paths    les appels aux sous graphes sont explor  s r  cursivement          Do not explore subgraphs recursively    les appels aux sous graphes sont affich  s sans     tre explor  s r  cursivement    Sil   option  Maximum number of sequences  est coch  e  le nombre sp  cifi   sera le nombre  maximum de chemins g  n  r  s  Si l   option n   est pas s  lectionn  e  tous les chemins seront g     n  r  s     6 4  EXPLORATION DES CHEMINS D   UNE GRAMMAIRE 97    Explore graph paths    Graph     D iMy UnitexiEnglish Graphsiglace grq      Ignore outputs       Separate inputs and outputs        Merge inputs and outputs    O T E      Ontypaths    Do not explore subgraphs recursively       FIG  6 18     Exploration des chemins d   une grammaire    Voici ce que l   on obtient pour le graphe de la figure 6 19 avec les param  tres par d  faut   ignorer les sorties  limite   100 chemins        lt NB gt    lt NB gt    lt NB gt    lt NB gt    lt NB gt    lt NB gt    lt NB gt    lt NB gt    lt NB gt   glace  glace  glace  glace  glace  glace        
204. pers gt    lui  elle  moi    en y    o   qui que quoi    rien    adjectifs      mi E    Il  u  ue      lt genre gt   lt nombre gt     POS V   inflex   temps  pers  genre  nombre   complete    W   G   C  lt pers gt       pour  de bonne humeur  A    au bord des larmes  A  par exemple    IJ KPS TWYGX  3    ll  nSsrFAa    F  2  f  P     lt nombre gt     Pind Pdem PpvIL PpvLUI PpvLE Ton PpvPR PronQ Dnom Ppossls       7 3  LEVEE D   AMBIGUITES LEXICALES AVEC ELAG     lt pers gt    lt pers gt    lt pers gt    lt pers gt    lt pers gt    lt pers gt      lt nom   lt nom   lt nom   lt nom   lt nom        lt nom       bre gt   bre gt   bre gt   bre gt   bre gt   bre gt     ANKK KAW UD QG H YY       S   euss   duss   puiss   fuss     je     1 p  2  lt nombre gt    lt genre gt   lt nombre gt     Le symbole   indique que le reste de la ligne est en commentaire  Un commentaire peut    appara  tre    n importe quel endroit dans le fichier  Le fichier commence toujours par le mot  NAME  suivi par un identifiant  fran  ais  dans l exemple   La suite du fichier est constitu  e  de sections POS  pour Part Of Speech   une pour chaque cat  gorie grammaticale  Chaque  section d  crit la structure des   tiquettes des entr  es lexicales appartenant    la cat  gorie  grammaticale concern  e  Chaque section se compose de 4 parties qui sont toutes option   nelles          inflex   cette partie   num  re les codes flexionnels relatifs    la cat  gorie gramma     ticale  Par exemple  les codes 1 2 3 qui d
205. pertoire personnel de l utilisateur se nomme unitex  et qu il se trouve dans son r  pertoire racine  SHOME   Sous Windows  il n est pas toujours  possible d associer un r  pertoire par d  faut    un utilisateur  Pour rem  dier    cela  Unitex  cr  e pour chaque utilisateur un fichier  cfg contenant le chemin de son r  pertoire per   sonnel  Ce fichier est sauvegard   sous le nom  login de l   utilisateur  cfgdansle  sous r  pertoire du syst  me Unitex Users     10 10  FICHIERS DIVERS 181    ATTENTION   CE FICHIER N   EST PAS EN UNICODE ET LE CHEMIN DU REPER   TOIRE PERSONNEL N   EST PAS SUIVI PAR UN RETOUR    LA LIGNE     10 10 Fichiers divers    Pour chaque texte  Unitex cr  e plusieurs fichiers contenant des informations destin  es       tre affich  e dans l interface graphique  Cette section d  crit ces diff  rents fichiers     10 10 1 Fichiers dlf n  dlc n et err n    Ces trois fichiers sont des fichiers texte se trouvant dans le r  pertoire du texte  Ils contiennent  respectivement les nombres de lignes des fichiers d1    dlc et err  Ces nombres sont suivis  par un retour a la ligne     10 10 2 Fichier stat_dic n    Ce fichier est un fichier texte se trouvant dans le r  pertoire du texte  Il est form   de trois  lignes  contenant les nombres de lignes des fichiers d1f d1c et err     10 10 3 Fichier stats n    Ce fichier texte se trouve dans le r  pertoire du texte et contient une ligne de la forme  suivante      3949 sentence delimiters  169394  9428 diff  tokens  73788 
206. ption doit   tre utilis  e lorsque l   on  souhaite modifier le texte au lieu de construire une concordance    Pour plus de d  tails sur ces mode de tri  voir la section 4 8 2        9 4  CONCORDIFF 149        mode   indique sous quel format la concordance doit   tre produite  Les 4 modes pos   sibles sont         html   produit une concordance au format HTML cod  e en UTF 8         text   produit une concordance au format texte unicode         glossanet   produit une concordance pour GlossaNet au format HTML  Le fichier  HTML produit est cod   en UTF 8       nom_de_fichier   indique au programme qu il doit produire une version modi   fi  e du texte et la sauver dans un fichier nomm   nom_de_fichier  voir section  6 7 3         alph  fichier alphabet utilis   pour le tri  La valeur NULL indique l absence de fichier  d   alphabet         thai   ce param  tre est facultatif  Il indique au programme qu il manipule du texte  tha    Cette option est n  cessaire au bon fonctionnement du programme sur des textes  en tha       Le r  sultat de l   application de ce programme est un fichier concord txt si la concor   dance a   t   construite en mode texte  un fichier concord html pour les modes html et  glossanet  et un fichier texte dont le nom a   t   d  fini par l utilisateur si le programme a  construit une version modifi  e du texte     En mode html  l occurrence est cod  e comme un lien  La r  f  rence associ  e    ce lien est  de la forme  lt a href  X Y Z  gt   X et Y repr  sen
207. r red  text decoration underline    a green  color green  text decoration underline     lt  style gt     lt  head gt     lt body gt                    10 7  DICTIONNAIRES 173     lt h4 gt     lt font color  blue  gt Blue  lt  font gt  identical sequences lt br gt     lt font color  red  gt Red  lt  font gt  similar but different sequences lt br gt    lt font color  green  gt Green  lt  font gt  sequences that occur in only          one of the two concordances lt br gt    lt table border  1  cellpadding  0  style  font family  Courier new                                   font size  12  gt    lt tr gt  lt td width  450  gt  lt font color  blue  gt ed in ancient times   lt u gt a large forest lt  u gt   covering the greater par lt  font gt  lt  td gt    lt td width  450  gt  lt font color  blue  gt ed in ancient times        lt u gt a largeforest lt  u gt   covering the greater par lt  font gt  lt  td gt    lt  tr gt    lt tr gt  lt td width  450  gt  lt font color  green  gt ge forest  covering   lt u gt the greater part lt  u gt    amp nbsp of the beautiful hills  lt  font gt    lt  td gt    lt td width  450  gt  lt font color  green  gt  lt  font gt  lt  td gt            lt  tr gt    lt  table gt    lt  body gt    lt  html gt        10 7 Dictionnaires    La compression des dictionnaires DELAF par le programme Compress produit 2 fi   chiers   un fichier  bin qui repr  sente l automate minimal des formes fl  chies du diction   naire  et un fichier   inf qui contient les formes
208. ra consid  r   comme plus petit que  estuaire  lui m  me plus petit que   t    Comme les lettres qui suivent e et    permettaient  de classer les mots  on n   a pas cherch      comparer les lettres e et    car elles sont du m  me  groupe    En revanche  si l   on compare les mots chant  s et chantes  chantes sera consid  r    comme plus petit  En effet  il faut comparer les lettres e et    pour distinguer ces mots   Comme la lettre e appara  t en premier dans le groupe e  e  s  elle est consid  r  e comme  inf  rieure        Le mot chantes sera donc consid  r   comme plus petit que le mot chant  s     Le fichier d   alphabet de tri permet de d  finir des   quivalences de caract  res  On peut  donc ignorer les diff  rences de casse et d   accent  Par exemple  si l   on veut ordonner les lettres  b  c et d sans tenir compte de la casse ni de la c  dille  on peut   crire les lignes suivantes      Bb    Carved  Da    Ce fichier est facultatif  Lorsqu   aucun alphabet de tri n est sp  cifi   au programme Sort Txt   celui ci effectue un tri dans l   ordre d   apparition des caract  res dans le codage Unicode     10 3 Graphes    Cette section pr  sente les deux formats de graphes   le format graphique  grf et le  format compil    fst2     10 3 1 Format  grf    Un fichier   grf est un fichier texte contenant des informations de pr  sentation en plus  des informations repr  sentant les contenus des boites et les transitions du graphe  Un fichier   grf commence par les lignes suivantes
209. rante  Ce fichier a la syntaxe suivante  l   ordre des lignes peut varier        Unitex configuration file of  paumier    for  English Y   Tue Jan 31 11 21 32 CET 20069   TEXT  FONT  NAME Courier New   TEXT  FONT  STYLE 04   TEXT  FONT  SIZE 104   CONCORDANCE  FONT  NAME Courier new   CONCORDANCE  FONT  HTML  SIZE 124   INPUT  FONT  NAME Times New Roman   INPUT  FONT  STYLE 04  INPUT  FONT  SIZE 104  OUTPUT  FONT  NAME Arial Unicode MS   OUTPUT  FONT  STYLE 14  OUTPUT  FONT  SIZE 124  DATE trueY   FILE NAME truefYf   PATH  NAME falseY  FRAME trueq   RIGHT  TO  LEFT falsef  BACKGROUND  COLOR  14  FOREGROUND  COLOR  167772164  AUXILIARY  NODES  COLOR  32896514  COMMENT  NODES  COLOR  65536                10 9  FICHIERS DE CONFIGURATION 179    SELECTED  NODES  COLOR  167769614  PACKAGE  NODES  COLOR  23029764  CONTEXT  NODES  COLOR  16711936  CHAR  BY  CHAR falseY  ANTIALIASING falseY   HTML  VIEWER Y   MAX  TEXT  FILE  SIZE 20971524  ICON  BAR  POSITION West  PACKAGE  PATH D    repository     Les deux premi  res lignes sont des lignes de commentaires  Les trois lignes suivantes  indiquent le nom  le style et la taille de la police utilis  e pour afficher les textes  les diction   naires  les unit  s lexicales  les phrases de l automate du texte  etc     Les param  tres CONCORDANCE FONT NAME et CONCORDANCE FONT HTML SIZE d  fi   nissent le nom et la taille de la police a utiliser pour afficher les concordances en HTML  La  taille de la police doit   tre comprise entre 1 et 7    
210. rd html est un fichier   html qui repr  sente une concordance  Ce fi   chier est cod   en UTF 8     Le titre de la page est le nombre d   occurrences qu   elle d  crit  Les lignes de la concor   dance sont cod  es par des lignes o   les occurrences sont consid  r  es comme des liens hy   pertextes  La r  f  rence associ  e    chacun de ces liens est de la forme  lt a href  X Y Z  gt    X et Y repr  sentent les positions de d  but et de fin de l occurrence en caract  res dans le fi   chier nom_du_texte snt  Z repr  sente le num  ro de la phrase dans laquelle apparait cette  occurrence     Tous les espaces sont cod  s comme des espaces ins  cables   amp nbsp  en HTML   ce qui  permet de conserver l alignement des occurrences m  me si l   une d elles  se trouvant en d     but de fichier  a un contexte gauche compl  t   avec des espaces     NOTE   dans le cas d   une concordance construite avec le param  tre glossanet  le fi   chier HTML obtenu a la m  me structure  sauf en ce qui concerne les liens  Dans ces concor   dances  les occurrences sont des liens r  els renvoyant vers le serveur web de l application  GlossaNet  Pour plus d   information sur GlossaNet  consulter les liens sur le site web d   Uni   tex  http   www igm univ mlv fr  unitex      Voici un exemple de fichier       lt html lang en gt Y4    lt head gt    lt meta http equiv  Content Type  content  text html  charset UTF 8  gt    lt title gt 6 matches lt  title gt q          172 CHAPITRE 10  FORMATS DE FICHIERS   
211. re utilis      la place du  r  pertoire    _snt utilis   par d  faut  Le chemin du r  pertoire doit se terminer par  un s  parateur de fichiers    ou            thai   param  tre optionnel n  cessaire pour une recherche dans un texte tha       9 21  MERGETEXTAUTOMATON 157         space   param  tre optionnel indiquant au programme qu il peut d  marrer les re   cherches de motifs sur les espaces  Ce param  tre ne doit   tre employ   que pour effec   tuer des recherches de motifs morphologiques     Ce programme sauvegarde les r  f  rences des occurrences trouv  es dans un fichier nomm    concord  ind  Le nombre d   occurrences  le nombre d unit  s couvertes par ces occurrences  ainsi que le pourcentage d unit  s reconnues dans le texte sont sauvegard  s dans un fichier  nomm   concord  n  Ces deux fichiers sont sauvegard  s dans le r  pertoire du texte     9 21 MergeTextAutomaton    MergeTextAutomaton automaton    Ce programme reconstruit l automate du texte automaton en prenant en compte les  modifications manuelles qui ont   t   faites  Ainsi  si le programme trouve un fichier sentenceN grf  dans le m  me r  pertoire que automaton  il va remplacer l   automate de la phrase N par ce   lui qui est repr  sent   par sentenceN grf  Le fichier automaton est remplac   par le nou   vel automate du texte  L ancien automate du texte est sauvegard   dans un fichier nomm    text fst2 bck     9 22 Normalize    Normalize txt   no_ CR     Ce programme effectue une normalisation des s  parat
212. recherche dans un texte avec ce graphe  vous appliquerez ainsi  simultan  ment tous les graphes g  n  r  s    Le cadre  Name of produced subgraphs  permet de pr  ciser le nom des graphes qui  seront g  n  r  s  Afin d     tre certain que tous les graphes auront des noms distincts  il est  conseill   d utiliser la variable      cette variable sera remplac  e pour chaque entr  e par le  num  ro de celle ci  garantissant ainsi que tous les graphes auront un nom diff  rent  Par  exemple  si l   on remplit ce cadre avec le nom TestGraph_   grf  le graphe g  n  r      partir  de la 16    ligne sera nomm   TestGraph_0016 grf     Les figures 8 8 et 8 9 montrent deux graphes g  n  r  s en appliquant le graphe param  tr    de la figure 8 3    la table 31H  La figure 8 10 montre le graphe principal obtenu     144 CHAPITRE 8  LEXIQUE GRAMMAIRE    Compile Lexicon Grammar to GRF     Reference Graph  in GRF format      po    Resulting GRF grammar     Set       Name of produced subgraphs        FIG  8 7     Configuration de la g  n  ration automatique de graphes    NO   tre V ant        le verbe n  7 ne v  rifie pas la propri  t   de la colonne A     FIG  8 8     Graphe g  n  r   pour le verbe archaiser          le verbe n  11 v  rifie la propri  t   de la colonne A         lt badauder V gt        NO V vers N    FIG  8 9     Graphe g  n  r   pour le verbe badauder    8 2  CONVERSION D   UNE TABLE EN GRAPHES 145       FIG  8 10     Graphe principal appelant tous les graphes g  n  r  s    146 
213. rmet   galement de forcer le respect des espacements   En effet  Unitex considere par d  faut qu   un espace est possible entre deux bo  tes  Pour forcer  la pr  sence d un espace  il faut le mettre entre guillemets  Pour interdire la pr  sence d un  espace  il faut utiliser le symbole sp  cial      Les graphes syntaxiques peuvent faire appel    des sous graphes  voir section 5 2 3   Ils  g  rent   galement les sorties  y compris les sorties    variables  Les s  quences produites sont  interpr  t  es comme des cha  nes de caract  res qui seront ins  r  es dans les concordances  ou  dans le texte si vous voulez modifier celui ci  voir section 6 7 3     Les symboles sp  ciaux support  s par les graphes syntaxiques sont les m  mes que ceux  utilisables dans les expressions rationnelles  voir section 4 3 1     Les graphes syntaxiques peuvent utiliser des contextes  voir section 6 3     Il n   est pas obligatoire de compiler les graphes syntaxiques avant de les utiliser pour la  recherche de motifs  Si un graphe n est pas compil    le syst  me le compilera automatique   ment     6 1 6 Grammaires ELAG  La syntaxe des grammaires de lev  e d   ambiguit  s est pr  sent  e a la section 7 3 1  page  120     6 1 7 Graphes param  tr  s    Les graphes param  tr  s sont des m  ta graphes permettant de g  n  rer une famille de  graphes    partir d   une table de lexique grammaire  Il est possible de construire des graphes  param  tr  s pour n importe quel type de graphe  La construction et l
214. ropose   galement de convertir automatiquement les graphes et dictionnaires qui ne sont pas en  Unicode Little Endian     2 2  FORMAT DES TEXTES 17    D My Unitex English Corpusinovel txt  is not a Unicode Little Endian one  Do you want  to transcode it from ENGLISH to Unicode Little Endian       a  Replace       C Rename source with suffix     old       Eras   ra  a  a        FIG  2 2   Conversion automatique d un texte non Unicode    Transcode Files       Source encoding  Destination encoding        Replace  71 O Rename source with prefix       Rename source with suffix   8  Name destination with prefix       O Name destination with suffix  Prefix suffix     lunicode     Selected files  Add Files    E My D A Sena ove Files    E  My Unitex  FrenchiCorpusichimie txt   E  My UnitexFrenchiCorpuslessai txt Transcode                           FIG  2 3     Conversion de fichiers    document au format  Texte unicode   Sous Office XP  il faut choisir le format  Texte brut     txt   et ensuite s  lectionner le codage  Unicode  dans la fen  tre de configuration pr  sent  e    sur la figure 2 4     Par d  faut  le codage propos   sur un PC est toujours Unicode Little Endian  Les textes    18 CHAPITRE 2  CHARGEMENT D   UN TEXTE       Conversion de fichier   Saving a document in Unicode txt     xj    Avertissement   l enregistrement du fichier au format texte entra  nera la perte de la mise en forme  des images et des objets que contient le fichier   Codage de texte     C Windows  par d 
215. s   l  ments  Par exemple  le mot aftenblad signifiant journal du soir est  obtenu en combinant les mots aften  soir  et blad  journal   Le programme PolyLex   44    explore la liste des mots inconnus apr  s application des dictionnaires au texte et essaye  d analyser chacun de ces mots comme un mot compos    Si un mot poss  de au moins une  analyse  il est retir   de la liste des mots inconnus et les lignes de dictionnaires produites  pour ce mot sont ajout  es au dictionnaire des mots simples du texte     30 CHAPITRE 2  CHARGEMENT D   UN TEXTE  2 6 Ouverture d   un texte taggu      Un texte taggu   est un texte contenant des entr  es lexicales entre accolades comme par  exemple      I do not like the  square bracket  N  sign    S     De tels tags permettent de lever des ambiguit  s en interdisant tout autre interpr  tation   Dans notre exemple  on ne pourra pas reconnaitre square bracket comme combinaison de  deux mots simples     Toutefois  la pr  sence de ces tags peut perturber l application des graphes de pr  traite   ment  L utilisateur dispose donc de la commande  Open Tagged Text     dans le menu  Text    gr  ce    laquelle il peut ouvrir un texte contenant des tags sans que les graphes de pr  traite   ments ne soient appliqu  s  comme on le voit sur la figure 2 14     Preprocessing  amp  Lexical parsing     x      Preprocessing      Sentence and Replace graphs should not be applied on tagged texts     The text is automatically tokenized  This operation is language d
216. s  120  de normalisation  de formes non ambigu  s  23  86  de l automate du texte  87  ELAG  88  ensembles de  125  formalisme  65  hors contexte  65  locales  88  Graphe  alignement des bo  tes  79  antialiasing  78  83  appel    un sous graphe  69  approximation par un transducteur       tats finis  89  153    INDEX    commentaire dans un  67  compilation  89  155  cr  ation d   une boite  67  d  tection d   erreurs  93  155  de flexion  85  dictionnaire  88  format  163  impression  84  inclusion dans un document  84  Intex  66  param  tr    88  140  patron  159  pr  sentation  78  pr  sentation  polices et couleurs  81  relier des boites  67  sauvegarde  68  suppression de boites  73  syntaxique  88  types de  85  variables dans un  74  zoom  78  Graphes dictionnaires  45  Grille  80    Importer un graphe Intex  66  Imprimer  un automate de phrase  137  un graphe  84  Inclure un graphe dans un document  84  Informations  flexionnelles  32  grammaticales  32  s  mantiques  32  Installation  sous Linux et MacOS  12  sous Windows  12    Java Runtime Environment  11  Jeu d     tiquettes ELAG  127  JRE  11    Kleene  voir Etoile de Kleene    LADL  9  31  139  Langages alg  briques  66  Lev  e d ambiguit  s  122    215    Lev  e d ambiguit  s lexicales  120  Lexique grammaire  139  LGPL  11  191  LGPLLR  11  201  Licence  GPL  11  183  LGPL  11  191  LGPLLR  201  Limiter les branches alors  133  Longest matches  59  105  156    M  tas  22  52  76  Machine virtuelle Java  11  Ma
217. s  et alph txt est le fichier alphabet utilis         Topo  bin    Regions  bin      PR fst2         D mr      States  bin    3 6 2 R  gles d application des dictionnaires    Outre la r  gle de priorit  s  l application des dictionnaires s effectue en respectant les  majuscules et les espaces  La r  gle du respect des majucules est la suivante        s   il y a une majuscule dans le dictionnaire  alors il doit y avoir une majuscule dans le  texte        s   il y a une minuscule dans le dictionnaire  il peut y avoir soit une minuscule soit une  majuscule dans le texte     Ainsi  l entr  e pierre   N  fs reconnaitra les mots pierre  Pierre et PIERRE  alors  que Pierre   N Pr  nom ne reconnaitra que Pierre et PIERRE  Les lettres minuscules et  majuscules sont d  finies par le fichier alphabet pass   en param  tre au programme Dico     Le respect des espacements est une r  gle tr  s simple   pour qu   une s  quence du texte  soit reconnue par une entr  e de dictionnaire  elle doit avoir exactement les m  mes espaces   Par exemple  si le dictionnaire contient aujourd   hui   ADV  la s  quence Aujourd    hui  ne sera pas reconnue    cause de l   espace qui suit l   apostrophe     3 6 3 Graphes dictionnaires    Le programme Di co est capable d appliquer des graphes dictionnaires  Il s   agit de graphes  qui respectent la r  gle suivante   si on les applique avec le programme Locate en mode  MERGE ils doivent produire des s  quences correspondant    des lignes de DELAF     46    CHAP
218. s 181 199  2000  2 5 2     17  Anibale ELIA  Le verbe italien  Les compl  tives dans les phrases    un compl  ment   Schena  Nizet  Fasano Paris  1984  8 1     18  Anibale ELIA  Lessico grammatica dei verbi italiani a completiva  Tavole e indice generale   Liguori  Napoli  1984  8 1     19  Anibale ELIA and Simoneta VIETRI  Electronic dictionaries and linguistic analysis of  italian large corpora  In Actes des 5es Journ  es internationales d Analyse statistique des  Donn  es Textuelles  Ecole Polytechnique f  d  rale de Lausanne  2000  3 7     20  Anibale ELIA and Simoneta VIETRI  L   analisi automatica dei testi e i dizionari elettro   nici  In E  Burattini and R  Cordeschi  editors  Manuale di Intelligenza Artificiale per le  Scienze Umane  Roma  Carocci  2002  3 7     21  Jacqueline GIRY SCHNEIDER  Les nominalisations en fran  ais  L op  rateur faire dans le  lexique  Droz  Gen  ve Paris  1978  8 1     22  Jacqueline GIRY SCHNEIDER  Les pr  dicats nominaux en fran  ais  Les phrases simples     verbe support  Droz  Gen  ve Paris  1987  8 1     23  GNU  General Public License  http   www gnu org licenses gpl html  1 1   10 10 4     24  GNU  Lesser General Public License  http    www gnu org licenses 1gp1 html   1 1  10 10 4     25  Gaston GROSS  Les expressions fig  es en francais  Ophrys  Paris  1996  3 7   26  Maurice GROSS  M  thodes en syntaxe  Hermann  Paris  1975  8 1     27  Maurice GROSS  Grammaire transformationnelle du francais  3   Syntaxe de l adverbe  ASS   TRIL
219. s Less to protect the  user   s freedom than the ordinary General Public License  It also provides other free software  developers Less of an advantage over competing non free programs  These disadvantages  are the reason we use the ordinary General Public License for many libraries  However  the  Lesser license provides advantages in certain special circumstances    For example  on rare occasions  there may be a special need to encourage the widest  possible use of a certain library  so that it becomes a de facto standard  To achieve this  non   free programs must be allowed to use the library  A more frequent case is that a free library  does the same job as widely used non free libraries  In this case  there is little to gain by  limiting the free library to free software only  so we use the Lesser General Public License    In other cases  permission to use a particular library in non free programs enables a  greater number of people to use a large body of free software  For example  permission to  use the GNU C Library in non free programs enables many more people to use the whole  GNU operating system  as well as its variant  the GNU Linux operating system    Although the Lesser General Public License is Less protective of the users    freedom  it  does ensure that the user of a program that is linked with the Library has the freedom and  the wherewithal to run that program using a modified version of the Library    The precise terms and conditions for copying  distribut
220. s devez indiquer le chemin d   acc  s com   plet    ce fichier  car Unitex s   en sert pour d  terminer sur quel texte la concordance doit    tre calcul  e        font   nom de la police de caract  res    utiliser si la concordance doit   tre produite au  format HTML  Si la concordance n   est pas au format HTML  ce param  tre est ignor        fontsize  taille de la police si la concordance est au format HTML  Comme le para   m  tre font  celui ci est ignor   si la concordance n   est pas au format HTML        left   nombre de caract  res du contexte gauche des occurrences  En mode thai  il  s agit du nombre de caract  res non diacritiques        right   nombre de caract  res du contexte droit  non diacritiques  dans le cas du thai    Si l occurrence a une longueur inf  rieure    cette valeur  la ligne de concordance est  compl  t  e pour que le contexte droit ait une longueur   gale    right  Si l   occurrence  a une longueur de plus de right caract  res  elle est n  anmoins affich  e en entier        order   indique le mode de tri    utiliser pour ordonner les lignes de la concordance   Les valeurs possibles sont         TO  ordre dans lequel les occurrences apparaissent dans le texte        LC  contexte gauche  occurrence         LR  contexte gauche  context droit        CL  occurrence  contexte gauche         CR  occurrence  contexte droit        RL  contexte droit  contexte gauche        RC  contexte droit  occurrence        NULL   ne pr  cise aucun ordre de tri  Cette o
221. s les pr  fixes et suffixes communs sont factoris  s  Par exemple  l automate  minimal des mots me  te  se  ma  ta et sa peut   tre repr  sent   par le graphe de la figure  3 8        FIG  3 8     Repr  sentation d   un exemple d   automate minimal    Pour comprimer un dictionnaire  ouvrez le puis cliquez sur  Compress into FST  dans le  menu  DELA   La compression est ind  pendante de la langue et du contenu du dictionnaire   Les messages produits par le programme sont affich  s dans une fen  tre qui ne se ferme pas  automatiquement  Vous pouvez ainsi voir la taille du fichier  bin obtenu  le nombre de    44 CHAPITRE 3  DICTIONNAIRES    lignes lues ainsi que le nombre de codes flexionnels produits  La figure 3 9 montre le r  sultat  de la compression d   un dictionnaire de mots simples     73  completed       Binary file  859660 bytes    156915 lines read  24205 INF entries created  78724 states  127271 transitions                FIG  3 9     R  sultat d une compression    A titre indicatif  les taux de compression g  n  ralement observ  s sont d environ 95  pour  les dictionnaires de mots simples et 50  pour ceux de mots compos  s     3 6 Application de dictionnaires    Unitex peut manipuler soit des dictionnaires compress  s    bin   soit des graphes dic   tionnaires    fst 2   Ces dictionnaires peuvent   tre appliqu  s soit lors du pr  traitement  soit  explicitement en cliquant sur  Apply Lexical Resources       dans le menu  Text   Nous allons  maintenant d  tailler les
222. s mots inconnus  sont plac  s dans le r  pertoire du texte  On ap   pelle dictionnaires du texte les fichiers d1f et dlc  Une fois l application des dictionnaires  effectu  e  Unitex pr  sente par ordre alphab  tique les mots simples  compos  s et inconnus  trouv  s dans une fen  tre  La figure 2 12 montre les r  sultats pour un texte frangais     Word Lists in E  My UnitexiFrenchiCorpusiLa peau de chagrin_snt     DLF  18456 simple word lexical entries ERR  314 unknown simple words  a  N 21 ms mp         PREP 21   a  XI 21   a avoir V 21 P3s     a   N PR Hyd ms   aa   N 23   m3  mp   abaissa  abaisser V 21 J35  abaissait  abaisser V   21 13  4  abaissent abaisser V 21 P3p  abaiss  rent abaisser V z1   abandon   N 21 ms  abandonna  ab    DLC  1179 compound lexical entries      bas prix   aDV PaCc z21      bon compte   ADV PAC 21  ces mots   ADV PDETC 21  chaque instant   ADV PDETQ  coups de   PREP PCDN 21  d  faut de   PREP PCDN 21  d  faut de    d  faut PREP F  d  faut  ADV Advconjs 4  deux   ADV PC 21  distance    ADV PC 21  fond   ADV PC 21    force de    force  alia    FIG  2 12     R  sultats de l application de dictionnaires sur un texte francais       Il est   galement possible d appliquer des dictionnaires en dehors du pr  traitement du  texte  Pour cela  il faut cliquer sur  Apply Lexical Resources     dans le menu  Text   Unitex  affiche alors une fen  tre  voir figure 2 13  qui permet de choisir la liste des dictionnaires       appliquer     La liste  User resources
223. s sorties remplacent les s     quences lues dans le texte  En mode MERGE  les sorties sont ins  r  es    gauche des s  quences  reconnues  Consid  rons le transducteur de la figure 6 22         Aq     FIG  6 22     Exemple de transducteur    100 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    Si l   on applique ce transducteur au roman Ivanhoe de Sir Walter Scott en mode MERGE   on obtient la concordance suivante de la figure 6 23     Concordance  D My UnitexEnglish Corpus ivanhoe_snticoncord html       8  Enable links    Allow concordance edition    of pointed beans  which the Adj adjacent  forest supplied  defe  f the outlaws  with whom the Adj  adjacent  forest abounded  or b  es  may be still seen in the   di antique  Colleges of Oxford or  insolence  fellow     said the Adj armed  rider  breaking in on hi  an  5  take a turn round the Adj  back  o  the hill to gain the w  ring the greater part of the Adj beautiful  hills and valleys wh  mantle and hood were of the Adj best  Flanders cloth  and fell  dest wine cask  5   place the Adj best  mead  the mightiest ale   Then  sad relief   from the Adj bleak  coast that hears The Ger  e bring to the shrine of the Ad  Blessed  Virgin      Well  you ha  the son of Beowulph  is the Adj  born  thrall of Cedric of Rothe       FIG  6 23     Concordance obtenue en mode MERGE avec le transducteur de la figure 6 22    6 6 2 Application en avan  ant    Pendant les op  rations de pr  traitement  le texte est modifi   au fur et    mesure qu
224. s suivantes      E  mc2    FORMULE  grand m  re   N fs    et que l   on applique ce dictionnaire au texte    Ma grand m  re m a expliqu   la formule E mc2   on obtiendra les lignes suivantes dans le dictionnaire de mots compos  s du texte      E mc2    FORMULE  grand m  re   N fs  Factorisation d entr  es    Plusieurs entr  es ayant les m  mes formes fl  chie et canonique peuvent   tre regroup  es  en une seule    condition qu elle aient les m  mes codes grammaticaux et s  mantiques  Cela  permet entre autres de regrouper des conjugaisons identiques pour un m  me verbe      glace  glacer V z1 Pl1s P3s S1s S3s Y2s    34 CHAPITRE 3  DICTIONNAIRES    Si les informations grammaticales et s  mantiques diff  rent  il faut cr  er des entr  es dis   tinctes      glace   N z1 fs  glace  glacer V z1 P1s P3s Sl1s S3s Y2s    Certaines entr  es ayant les m  mes codes grammaticaux et s  mantiques peuvent avoir  des sens diff  rents  comme c   est le cas pour le mot po  le qui d  signe un appareil de chauffage  ou un voile au masculin et un instrument de cuisine au f  minin  On peut donc distinguer  les entr  es dans ce cas      po  le   N z1 fs  po  le    frire  po  le   N z1 ms  voile  linceul  appareil de chauffage    NOTE  dans la pratique  cette distinction n   a pas d autre cons  quence qu   une augmenta   tion du nombre d entr  es du dictionnaire  Les diff  rents programmes qui composent Unitex  donneront exactement les m  mes r  sultats si l   on fusionne ces entr  es en      po  le
225. s unit  s n   est ni un espace ni un tiret  la forme comprim  e est  compos  e du nombre de caract  res    retrancher suivi de la s  quence de caract  res    ajouter   Ainsi  la ligne de dictionnaire      premi  re partie premier parti N AN Hum fs  est cod  e par la ligne    3er 1 N AN Hum fs    Le code 3er indique que l   on doit retrancher 3 caract  res    la s  quence premi  re et lui  ajouter les caract  res er pour obtenir premier  Le 1 indique que l   on doit simplement reti   rer un caract  re    partie pour obtenir la s  quence parti  Le nombre 0 est utilis   lorsqu on  veut indiquer que l   on ne doit supprimer aucun caract  re     10 7 3 Fichier CHECK _DIC TXT    Ce fichier est produit par le programme de v  rification de dictionnaire CheckDic  Il  s agit d   un fichier texte qui donne des informations sur le dictionnaire analys    et se d  com   pose en 4 parties     La premi  re partie donne la liste    ventuellement vide  de toutes les erreurs de syntaxe  trouv  es dans le dictionnaire   absence de la forme fl  chie ou de la forme canonique  absence  de code grammatical  ligne vide  etc  Chaque erreur est d  crite par le num  ro de la ligne  concern  e  un message d  crivant la nature de l erreur  ainsi que le contenu de la ligne  Voici  un exemple de message      Line 12451  no point found  jardin N ms    176 CHAPITRE 10  FORMATS DE FICHIERS    Les deuxi  me et troisi  me parties donnent respectivement les listes de codes gramma   ticaux et ou s  mantiques et fl
226. sation des variables   5 28 Coplede stes    4   64 50  4 04  5 2 9 Symbolessp  ciaux i                due       5 2 10    5 9 1  5 3 2  5 3 3  5 3 4  5 3 5    Commandes de la barre d ic  nes  Options de pr  sentation  Tri des lignes d   une bo  te  LOO e e ok oe BRE Re eR  Antalasing os es seemai  Alignement des bo  tes            Pr  sentation  polices et couleurs    Les graphes en dehors d   Unitex    5 4 1    Inclusion d   un graphe dans un document    TABLE DES MATI  RES    TABLE DES MATIERES 5    5 4 2 Impression d   un graphe 2 2  6S eee Sd be Bee EEG Eee 84   6 Utilisation avanc  e des graphes 85  61 Lestypes de AMIENS o  ns ES ed Era pa SE RATER RTE 85  DEL Graphesde A ee kos doa ata ae perse 85   612 EPs de D  S     Levis yes    me eue Pb es 86   6 13 Graphes de normalisation de l   automate du texte              87  614 Graphesdictionnaires     12    due bn OTE ES OY OY 88   Glo Sees Sy eae ee  ok s BS ERE KAREN ERE OES ES 88   61 6 Grammaires ELAG      4 3 44 eb ue ewe eee dre de ew    88   Oils  Graphes PAS    iem s somme ERS Eee KE Sie 88   6 2 Compiler Une grammaire    lt  lt  oe pate da we De ae       89  621 Compilation d un graph    lt   s    eres ede stress 89   6 2 2 Approximation par un transducteur      tats finis               89   6 2 3 Contraintes sur les grammaires     ssi    seen ue a aoi ee    90   6 2 4 D  tection d erreurs                                 93   Ga Commeres  eas eo ew ew wee Ee a OO A De due e    94  6 4 Exploration des chemins d une
227. se pour g  n  rer le fichier   grf correspondant     Les fichiers  grf g  n  r  s ne sont pas interpr  t  s de la m  me mani  re que les fichiers   grf qui repr  sentent des graphes construits par l utilisateur  En effet  dans un graphe nor   mal  les lignes d   une bo  te sont s  par  es par le symbole    Dans un graphe de phrase  chaque  bo  te est soit une unit   lexicale sans   tiquette  soit une entr  e de dictionnaire encadr  e par  des accolades  Si la bo  te ne contient qu   une unit   sans   tiquette  celle ci appara  t seule dans  la bo  te  Si la bo  te contient une entr  e de dictionnaire  la forme fl  chie est affich  e  suivie de  sa forme canonique si celle ci est diff  rente  Les informations grammaticales et flexionnelles  sont affich  es sous la bo  te  comme dans les transductions     La figure 7 23 montre le graphe obtenu pour la premi  re phrase d   Ivanhoe  Les mots  Ivanhoe  Walter et Scott sont consid  r  s comme des mots inconnus  Le mot by corres   pond    deux entr  es dans le dictionnaire  Le mot Sir correspond   galement    deux entr  es  du dictionnaire  mais comme la forme canonique de ces entr  es est sir  elle est affich  e  puisqu elle diff  re de la forme fl  chie par une minuscule        V W Pls P2s Plp P2p P3p    FIG  7 23     Automate de la premi  re phrase d Ivanhoe    7 4 2 Modifier manuellement l automate du texte    Il est possible de modifier manuellement les automates de phrase  sauf ceux qui appa   raissent dans le cadre r  serv   
228. ser General Public  License For Linguistic Resources    Cette licence a   t     labor  e par l   Universit   de Marne la Vall  e et a obtenu l approbation de  la Free Software Foundation   1       Preamble    The licenses for most data are designed to take away your freedom to share and change  it  By contrast  this License is intended to guarantee your freedom to share and change free  data to make sure the data are free for all their users    This license  the Lesser General Public License for Linguistic Resources  applies to some  specially designated linguistic resources     typically lexicons  grammars  thesauri and textual  corpora     TERMS AND CONDITIONS FOR COPYING  DISTRIBUTION AND  MODIFICATION    0  This License Agreement applies to any Linguistic Resource which contains a notice  placed by the copyright holder or other authorized party saying it may be distributed  under the terms of this Lesser General Public License for Linguistic Resources  also  called  this License    Each licensee is addressed as  you     A  linguistic resource  means a collection of data about language prepared so as to be  used with application programs    The  Linguistic Resource   below  refers to any such work which has been distributed  under these terms  A  work based on the Linguistic Resource  means either the Lin   guistic Resource or any derivative work under copyright law   that is to say  a work  containing the Linguistic Resource or a portion of it  either verbatim or with mod
229. spondent aux utilisations  suivantes   flexion automatique de dictionnaires  pr  traitement des textes  normalisation  des automates de texte  graphes dictionnaires  recherche de motifs  lev  e d   ambiguit  s et  g  n  ration automatique de graphes  Ces diff  rents types de graphes ne sont pas interpr  t  s  de la m  me fa  on par Unitex  Certaines choses comme les sorties sont permises pour certains  types et interdites pour d   autres  De plus  les symboles sp  ciaux ne sont pas les m  mes en  fonction du type de graphe  Cette section pr  sente donc chacun des types de graphes en  d  taillant leurs particularit  s     6 1 1 Graphes de flexion    Un graphe de flexion d  crit les variations morphologiques associ  es    une classe de  mots  en associant    chaque variante des codes flexionnels  Les chemins d   un tel graphe d     crivent les modifications    appliquer aux formes canoniques tandis que les sorties contiennent  les informations flexionnelles qui seront produites     matrix       matrices    FIG  6 1     Exemple de grammaire de flexion    85    86 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    Les chemins peuvent contenir des op  rateurs et des lettres  Les op  rateurs possibles  sont repr  sent  s par les caract  res L  R  C et D  Les lettres sont tous les caract  res qui ne sont  pas des op  rateurs  Le seul symbole sp  cial autoris   est le mot vide  lt E gt   Il n   est pas possible  de faire r  f  rence aux dictionnaires dans un graphe de flexion  Il est cep
230. sque lexical  51  52  Matrices  139  MERGE  23  45  99  105  155  156  170  Modification du texte  106  148  Modifier le texte  60  Motif  52  Mots  compos  s  27  52  avec espace ou tiret  33  libres  29  libres en allemand  157  libres en norv  gien  157  libres en russe  157  inconnus  28  54  simples  26  52       N  gation  54   N  gation de motif  54   Navigateur web  61  106   Nom de variable  74   Normalisation  de formes ambigu  s  87  114  160  de formes non ambigu  s  23  de l   automate du texte  87  114  160  des clitiques en portugais  114  158  des s  parateurs  20  157   Norv  gien  mots compos  s libres en  157    Occurrences  extraction  107  nombre d     59  105  156  Op  rateur    216    C  40  86  D  40  86  L  40  86  R  40  86  de concat  nation  56  de disjonction  56  de Kleene  56  Optimisation des grammaires ELAG  133    Parenth  ses  56  Pixellisation  78  Point de synchronisation  121  Polices  configuration des  81  Portugais  normalisation des clitiques  114  158  POSIX  57  Pr  f  rences  82  Priorit    a gauche  100  aux s  quences les plus longues  101  des dictionnaires  44  Programme externe  Elag  122  126  127  178  ElagComp  127  133  ConcorDiff  108  Programmes externes  ElagComp  122  CheckDic  36  147  175  Compress  33  43  147  173  ConcorDiff  149  Concord  148  Convert  149  Dico  28  45  88  151  Elag  151  ElagComp  151  Evamb  152  ExploseFst2  152  Extract  152  Flatten  89  153  Fst2Grf  135  153  169  Fst2List  153  Fst2Txt 
231. suivant et pr  c  dent     En cas de concurrence entre un mot compos   et une s  quence de mots simples  l au   tomate contient un chemin   tiquet   par le mot compos    parall  le aux chemins exprimant  les combinaisons de mots simples  Ceci est illustr  e par la figure 7 2  o   le mot compos    courts of law est concurrent avec une combinaison de mots simples     Par construction  l   automate du texte ne contient pas de boucle  On dit que l automate  du texte est acyclique     NOTE   le terme automate du texte est un abus de langage  En effet  il y a en r  alit   un  automate pour chaque phrase du texte  Cependant  la concat  nation de tous ces automates  correspondrait    l automate de tout le texte  On utilise donc le terme automate du texte  m  me si l   on ne manipule pas r  ellement cet objet pour des raisons pratiques     111    112 CHAPITRE 7  AUTOMATE DU TEXTE    2344 sentences Here haunted of yore the fabulous Dragon of Wantle    Sentence            FIG  7 1     Exemple d   automate de phrase    7 2 Construction    Pour construire l automate d un texte  vous devez ouvrir ce texte  puis cliquer sur  Construct  FST Text     dans le menu  Text   Il est recommand   d   avoir d  coup   le texte en phrases et  de lui avoir appliqu   les dictionnaires  Si vous n   avez pas d  coup   le texte en phrases  le  programme de construction d  coupera arbitrairement le texte en s  quences de 2000 unit  s  lexicales au lieu de construire un automate par phrase  Si vous n   avez p
232. sultat est un fichier nomm   text  fst2 qui est sauvegard   dans le r  pertoire du  texte     Chapitre 10    Formats de fichiers    Ce chapitre pr  sente les formats des diff  rents fichiers lus ou g  n  r  s par Unitex  Les  formats des dictionnaires DELAS et DELAF sont d  ja pr  sent  s aux sections 3 1 1 et 3 1 2     NOTE   dans ce chapitre  le symbole Y repr  sentera le retour    la ligne  Sauf indication  contraire  tous les fichiers texte d  crits dans ce chapitre sont cod  s en Unicode Little Endian     10 1 Codage Unicode Little Endian    Tous les fichiers textes manipul  s par Unitex doivent   tre en Unicode Little Endian  Ce  codage permet de repr  senter 65536 caract  res en les codant chacun sur 2 octets  En Little   Endian  les octets sont dans l   ordre poids faible poids fort  Quand cet ordre est invers    on  parle de codage Big Endian  Un fichier texte cod   en Unicode Little Endian commence par  le caract  re sp  cial de valeur hexad  cimale FEFF  Les retours a la ligne doivent   tre cod  s  par les deux caract  res 000D et 000A     Consid  rons le texte suivant      Unitex   B version     Voici la repr  sentation en Unicode Little Endian de ce texte                     en t  te U n i t e x q B  FFFE   5500   6E00   6900   7400   6500   7800   0D000A00 B203     v e r s i o n q  2D00 7600   6500   7200   7300   6900   6F00 6E00 0D000A00                                     TAB  10 1     Repr  sentation hexad  cimale d   un texte Unicode    161    162 CHAPITRE 
233. t   22  86    33      141     141  A  35  ADV  35    211    Abst  35   Anl  35   AnlColl  35   C  36  40  86   CONJC  35   CONJS  35   CheckDic  36  147  175  Compress  33  43  147  173  Conc  35  ConcCol1 35  ConcorDiff  108  149  Concord  148  Convert  149   D  40  86   DET  35   Dico  28  45  88  151  Elag  151   ElagComp  151  Evamb  152  ExploseFst2  152  Extract  152   F  36   Flatten  89 153  Fst2Grf  135  153  169  Fst2List  153  Fst2Txt  23  24  154  Fst2Unambig  137  155  G  36   Grf2Fst2  89  155  Hum  35   HumCo11 35   I  36   INTJ  35  ImploseFst2  156  Inflect  42  156   J  36   K  36          212    L  40  86   Locate  45  47  156  170  MergeTextAutomaton  157  N  35   Normalize  147  157   P  36   PREP  35   PRO  35   PolyLex  29  157   R  40  86  Reconstrucao  118  158  Reg2Grf  158   S  36   SortTxt  38  158  163  T  36   Table2Grf  159  TagsetNormFst2  159  TextAutomaton2Mft  159  Tokenize  26  159  Txt2Fst2  160   V  35   W  36   Y  36      02  51     102   Maroa       33   _  74   en  35       36   1 30   m  36   n  36   ne  35   p  36   s  36   se  35   E  30   z1 35   z2 35   23 099    STOP   52  58    S   22 55  157  160  168  181             Ajout de nouvelles langues  13    INDEX    Alignement des boites  79  All matches  59  105  156  Alphabet  23  149  155  156  159  160  162  de tri  38  163  Analyse des mots compos  s libre en alle   mand  157  Analyse des mots compos  s libre en nor   v  gien  157  Analyse des mots compos  s libre en russe   157
234. t   tre syst  matiquement  d  crites  car il est impossible de pr  voir le comportement pr  cis d   un verbe  Ces descrip   tions syst  matiques sont repr  sent  es au moyen de matrices o   les lignes correspondent  aux verbes  et les colonnes aux propri  t  s syntaxiques  Les propri  t  s consid  r  es sont des  propri  t  s formelles telles que le nombre et la nature des compl  ments admis par le verbe et  les diff  rentes transformations que ce verbe peut subir  passivation  nominalisation  extra   position  etc    Les matrices  plus souvent appel  es tables  sont binaires   un signe   appara  t     l intersection d une ligne et d   une colonne d   une propri  t   si le verbe v  rifie la propri  t     un signe     sinon     Ce type de description a   galement   t   appliqu   aux adjectifs   37    aux noms pr  dicatifs   1211   22    aux adverbes   27    39   ainsi qu aux expressions fig  es  et ce dans plusieurs  langues   10    17    18    42    43    45    48    49    50       La figure 8 1 montre un exemple de table de lexique grammaire  Cette table concerne les  verbes admettant un compl  ment num  rique     139    140 CHAPITRE 8  LEXIQUE GRAMMAIRE                            Y Table32NM xls   _  Of x       E  Z  2     a  Y Exemple      Z   gt   Ti  r accepter                   1        Cesalon  accepte  vingt personnes  avoir accueillir le                    l  CesalonSaccueillegvingt personnes  avoir accuser         ll    J  i        le l   Maxgaccuseg80 kilos  avoir 
235. t d   ins  rer les s  quences produites par les sorties  Le mode  Replace  recognized sequences  permet de remplacer les s  quences reconnues par les s  quences pro   duites  Le troisi  me mode ignore les sorties  Ce dernier mode est utilis   par d  faut     Une fois vos param  tres fix  s  cliquez sur  SEARCH  pour lancer la recherche     6 7 2 Concordance    Le r  sultat de la recherche est un fichier d   index contenant les positions de toutes les oc   currences trouv  es  La fen  tre de la figure 6 31 vous propose de construire une concordance   de modifier le texte ou de comparer le r  sultat de la recherche a la recherche pr  c  dente sur  le m  me texte     Pour afficher une concordance  vous devez cliquer sur le bouton  Build concordance    Vous pouvez param  trer la taille des contextes gauche et droit en caract  res  Vous pouvez    galement choisir le mode de tri qui sera appliqu   aux lignes de la concordance grace au  menu  Sort According to   Pour plus de d  tails sur les param  tres de construction de la  concordance  reportez vous    la section 4 8 2    106 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES    Locate Pattern  Locate pattern in the form of        Regular expression             ei Graph      set      Index    Grammar outputs                       Shortest matches    Are not taken into account    Longest matches  gt   Merge with input text      gt  All matches    O  Replace recognized sequences     Search limitation       Stop after   200 acne SEARCH  O 
236. t judgment or allegation of patent infringement or for any    other reason  not limited to patent issues   conditions are imposed on you  whether by  court order  agreement or otherwise  that contradict the conditions of this License  they  do not excuse you from the conditions of this License  If you cannot distribute so as  to satisfy simultaneously your obligations under this License and any other pertinent  obligations  then as a consequence you may not distribute the Linguistic Resource at  all  For example  if a patent license would not permit royalty free redistribution of  the Linguistic Resource by all those who receive copies directly or indirectly through  you  then the only way you could satisfy both it and this License would be to refrain  entirely from distribution of the Linguistic Resource    If any portion of this section is held invalid or unenforceable under any particular  circumstance  the balance of the section is intended to apply  and the section as a whole  is intended to apply in other circumstances    It is not the purpose of this section to induce you to infringe any patents or other pro   perty right claims or to contest validity of any such claims  this section has the sole  purpose of protecting the integrity of the free resource distribution system which is  implemented by public license practices  Many people have made generous contribu   tions to the wide range of data distributed through that system in reliance on consistent  application of 
237. t pas prises en compte  Si c   est le param  tre  exp qui est sp  cifi     toutes les ambiguit  s flexionnelles sont consid  r  es   on parle alors de la forme d  velopp  e  de l   automate du texte  Ainsi  l entr  e aimable   A ms fs ne comptera qu   une seule fois  avec    imp  et deux fois avec  exp  Les r  sultats du calcul sont affich  s sur la sortie standard   L   automate du texte n   est pas modifi   par ce programme     9 10 ExploseFst2  ExploseFst2 txtauto  o out    Ce programme calcule et stocke dans out  la forme d  velopp  e de l automate de texte  txtauto     9 11 Extract  Extract yes no texte concordance resultat    Ce programme prend en param  tre un texte et un fichier de concordance  Si le premier  param  tre vaut yes  le programme extrait de ce texte toutes les phrases qui contiennent au  moins une des occurrences de la concordance  Si ce param  tre vaut no  le programme extrait  toutes les phrases qui ne contiennent aucune des occurrences    Le param  tre texte doit repr  senter le chemin d   acc  s complet au fichier texte  sans  omettre l extension   snt    Le param  tre concordance doit repr  senter le chemin d   acc  s complet au fichier de  concordance  sans omettre l extension   ind     9 12  FLATTEN 153    Le param  tre resultat repr  sente le nom du fichier dans lequel seront sauv  es les  phrases extraites     Le fichier resultat est un fichier texte contenant toutes les phrases extraites     raison  d   une phrase par ligne     9 12 Flatten  Fla
238. t z1 N Hum gt    lt    Hum z1 N gt     NOTE   il n   est pas possible d   utiliser un masque n   ayant que des codes interdits   lt  N gt   et  lt  A z1 gt  sont donc des masques incorrects  Il est toutefois possible d exprimer de telles  contraintes en utilisant des contextes  voir section 6 3      4 3 4 Contraintes flexionnelles    On peut   galement sp  cifier des contraintes portant sur les codes flexionnels  Ces contraintes  doivent obligatoirement   tre pr  c  d  es par au moins un code grammatical ou s  mantique   Elles se pr  sentent comme les codes flexionnels pr  sents dans les dictionnaires     Voici quelques exemples de masques lexicaux utilisant des contraintes flexionnelles           lt A m gt  reconna  t un adjectif au masculin         lt A mp f gt  reconna  t un adjectif qui est soit au masculin pluriel  soit au f  minin      54 CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES         lt V 2 3 gt  reconna  t un verbe    la 2        ou 3    personne  cela exclut tous les temps    qui n ont ni 2   ni 3    personne  infinitif  participe pass    et participe pr  sent  ainsi  que les temps conjugu  s a la premi  re personne     Pour qu   une entr  e de dictionnaire E soit reconnue par un masque M  il faut qu   au  moins un code flexionnel de E contienne tous les caract  res d un code flexionnel de M   Consid  rons l exemple suivant         E s  pare  s  parer V z1 P1s P3s S1s S3s Y2s  M  lt V P2s Y2 gt     Aucun code flexionnel de E ne contient    la fois les car
239. tent issues   conditions are imposed on you  whether by  court order  agreement or otherwise  that contradict the conditions of this License   they do not excuse you from the conditions of this License  If you cannot distribute  so as to satisfy simultaneously your obligations under this License and any other per   tinent obligations  then as a consequence you may not distribute the Program at all   For example  if a patent license would not permit royalty free redistribution of the  Program by all those who receive copies directly or indirectly through you  then the  only way you could satisfy both it and this License would be to refrain entirely from  distribution of the Program    If any portion of this section is held invalid or unenforceable under any particular  circumstance  the balance of the section is intended to apply and the section as a whole  is intended to apply in other circumstances    It is not the purpose of this section to induce you to infringe any patents or other pro   perty right claims or to contest validity of any such claims  this section has the sole  purpose of protecting the integrity of the free software distribution system  which is  implemented by public license practices  Many people have made generous contri   butions to the wide range of software distributed through that system in reliance on  consistent application of that system  it is up to the author donor to decide if he or    10 10  FICHIERS DIVERS 187    10     11     12     she is w
240. tent les positions de d  but et de fin de  l occurrence en caract  res dans le fichier nom_du_texte snt  Z repr  sente le num  ro de  la phrase dans laquelle appara  t l occurrence     9 4 ConcorDiff    ConcorDiff concorl concor2 out font size    Ce programme prend 2 fichiers de concordance et produit une page HTML montrant les  diff  rences entre ces 2 concordances  voir section 6 7 5  page 108   Les param  tres sont les  suivants         concorl et concor2    fichiers de concordance    ind   Les noms des fichiers doivent     tre absolus car Unitex en d  duit le texte sur lequel elles ont   t   calcul  es         out   page HTML de sortie         font   police    utiliser dans le page HTML de sortie         size  taille de police    utiliser dans le page HTML de sortie     95 Convert       Convert src  dest  mode text_1  text_2 text_3         Ce programme permet de changer le codage de fichiers texte  Le param  tre src indique  le codage d entr  e  Le param  tre optionnel dest indique le codage de sortie  Par d  faut  le    150 CHAPITRE 9  UTILISATION DES PROGRAMMES EXTERNES    codage de sortie est LITTLE ENDIAN  Les valeurs possibles pour ces param  tres sont les  suivantes      FRENCH   ENGLISH   GREEK   THAI   CZECH   GERMAN   SPANISH   PORTUGUESE   ITALIAN   NORWEGIAN   LATIN  page de codes latine par d  fault    windows 1252   page de codes Microsoft Windows 1252   Latin I  Europe de l ouest  z  USA   windows 1250   page de codes Microsoft Windows 1250   Europe centrale
241. textes  Par exemple  le graphe de la figure 6 16 recon   na  t un nombre qui n   est pas suivi par un point  sauf si ce point est suivi par un nombre   Ainsi  dans le texte 5 0 7  12  ce graphe reconnaitra 5  0 et 12     96 CHAPITRE 6  UTILISATION AVANCEE DES GRAPHES  Haj H te            FIG  6 16     Imbrication de contextes    Les sorties qui se trouvent dans des bo  tes    l   int  rieur d un contexte sont ignor  es  En  revanche  il est possible d   utiliser une variable qui a   t   d  finie dans un contexte  comme  c est le cas sur la figure 6 17  Si l   on applique ce graphe en mode MERGE au texte the cat is  white  on obtient en sortie      the  lt pet name  cat  color  white   gt  is white            me     __     a green m  u color   C    gt     EH  7       lt pet name      FIG  6 17     Variable d  finie dans un contexte    6 4 Exploration des chemins d   une grammaire    Il est possible de g  n  rer les chemins reconnus par une grammaire  par exemple pour  v  rifier qu elle engendre correctement les formes attendues  Pour cela  ouvrez le graphe  principal de votre grammaire  et assurez que la fen  tre du graphe est bien la fen  tre active   la fen  tre active poss  de une barre de titre bleu  tandis que les fen  tres inactives ont une  barre de titre grise   Allez ensuite dans le menu  FSGraph   puis dans le sous menu  Tools    et cliquez sur  Explore graph paths   La fen  tre de la figure 6 18 appara  t alors    Le cadre sup  rieur contient le nom du graphe princi
242. that system   it is up to the author donor to decide if he or she is willing  to distribute resources through any other system and a licensee cannot impose that  choice     10 10  FICHIERS DIVERS 205    This section is intended to make thoroughly clear what is believed to be a consequence  of the rest of this License     9  If the distribution and or use of the Linguistic Resource is restricted in certain coun   tries either by patents or by copyrighted interfaces  the original copyright holder who  places the Linguistic Resource under this License may add an explicit geographical  distribution limitation excluding those countries  so that distribution is permitted only  in or among countries not thus excluded  In such case  this License incorporates the  limitation as if written in the body of this License     10  The Free Software Foundation may publish revised and or new versions of the Lesser  General Public License for Linguistic Resources from time to time  Such new versions  will be similar in spirit to the present version  but may differ in detail to address new  problems or concerns     Each version is given a distinguishing version number  If the Linguistic Resource spe   cifies a version number of this License which applies to it and  any later version   you  have the option of following the terms and conditions either of that version or of any  later version published by the Free Software Foundation  If the Linguistic Resource  does not specify a license version n
243. the Free Software Foundation  Inc   59 Temple Place    Suite 330  Boston  MA 02111 1307  USA     Also add information on how to contact you by electronic and paper mail   If the program is interactive  make it output a short notice like this when it starts in an  interactive mode      Gnomovision version 69  Copyright  C  yyyy name of author   Gnomovision comes with ABSOLUTELY NO WARRANTY   for details type    show  w       This is free software  and you are welcome to redistribute it under certain condi     tions   type    show c    for details     The hypothetical commands show wand show c should show the appropriate parts of  the General Public License  Of course  the commands you use may be called something other  than show wand show c  they could even be mouse clicks or menu items   whatever suits  your program    You should also get your employer  if you work as a programmer  or your school  if any   to sign a    copyright disclaimer    for the program  if necessary  Here is a sample  alter the  names      10 10  FICHIERS DIVERS 189    Yoyodyne  Inc   hereby disclaims all copyright interest in the program     Gnomovision     which makes passes at compilers  written by James Hacker     signature of Ty Coon  1 April 1989  Ty Coon  President of Vice    This General Public License does not permit incorporating your program into proprie   tary programs  If your program is a subroutine library  you may consider it more useful to  permit linking proprietary applications with t
244. tion conditions are different  write to the author to ask for permission  For soft   ware which is copyrighted by the Free Software Foundation  write to the Free Software  Foundation   we sometimes make exceptions for this  Our decision will be guided by  the two goals of preserving the free status of all derivatives of our free software and of  promoting the sharing and reuse of software generally     No WARRANTY    BECAUSE THE PROGRAM IS LICENSED FREE OF CHARGE  THERE IS NO WARRANTY  FOR THE PROGRAM  TO THE EXTENT PERMITTED BY APPLICABLE LAW  EXCEPT WHEN  OTHERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES  PROVIDE THE PROGRAM    AS IS    WITHOUT WARRANTY OF ANY KIND  EITHER EXPRES   SED OR IMPLIED  INCLUDING  BUT NOT LIMITED TO  THE IMPLIED WARRANTIES OF  MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE  THE ENTIRE RISK AS  TO THE QUALITY AND PERFORMANCE OF THE PROGRAM IS WITH YOU  SHOULD THE  PROGRAM PROVE DEFECTIVE  YOU ASSUME THE COST OF ALL NECESSARY SERVICING   REPAIR OR CORRECTION     IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO IN WRITING  WILL ANY COPYRIGHT HOLDER  OR ANY OTHER PARTY WHO MAY MODIFY AND OR  REDISTRIBUTE THE PROGRAM AS PERMITTED ABOVE  BE LIABLE TO YOU FOR DA   MAGES  INCLUDING ANY GENERAL  SPECIAL  INCIDENTAL OR CONSEQUENTIAL DA   MAGES ARISING OUT OF THE USE OR INABILITY TO USE THE PROGRAM  INCLUDING  BUT NOT LIMITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR  LOSSES SUSTAINED BY YOU OR THIRD PARTIES O
245. tten fst2 type  depth     Ce programme prend en param  tre une grammaire quelconque  et essaye de la transfor   mer en un transducteur      tats finis  Le param  tre fst2 d  signe la grammaire    transfor   mer  Le param  tre type indique le type de grammaire attendue en r  sultat  Si ce param  tre  vaut FST  la grammaire sera  d  pli  e  jusqu      la profondeur maximum et sera tronqu  e s   il  reste des appels    des sous graphes  Le r  sultat sera une grammaire au format  fst2 ne  contenant qu   un seul transducteur      tats finis  Si le param  tre vaut RIN  les appels aux  sous graphes qui pourraient rester apr  s tranformation sont laiss  s tels quels  Le r  sultat est  donc un transducteur      tats finis dans les cas favorables  et une grammaire optimis  e stric   tement   quivalente    la grammaire d   origine sinon  Le param  tre optionnel depth indique  la profondeur maximum d   imbrication des sous graphes qui sera g  r  e par le programme   La valeur par d  faut est 10     9 13 Fst2Grf    Fst2Grf automate du _ texte phrase  output    f font     Ce programme extrait de l   automate d un texte l automate d une phrase au format  grf   Le param  tre automate_du_texte repr  sente le chemin d   acc  s complet a l automate du  texte duquel on veut extraire une phrase  Ce fichier s appelle text  fst2 et se trouve dans  le r  pertoire du texte  Le param  tre phrase indique le num  ro de la phrase    extraire     Ce programme produit les 2 fichiers suivants et les sauve d
246. ttes lexicales  i e   aujourd    hui   ADV    ces    tiquettes sont reproduites    l identique dans l   automate  sans que le programme essaye de  d  composer les s  quences qu elles repr  sentent     Dans chaque bo  te  la 1     ligne contient la forme fl  chie trouv  e dans le texte  et la 2     ligne contient la forme canonique si elle est diff  rente  Les autres informations sont cod  es  sous la bo  te  voir section 7 4 1     Les espaces s  parant les unit  s lexicales ne sont pas retranscrits dans l automate     l ex   ception des espaces    l   int  rieur de mots compos  s    La casse des unit  s lexicales est conserv  e  Par exemple  si l   on trouve le mot Here  on  conserve la majuscule  voir figure 7 1   Ce choix permet de ne pas perdre cette information  lors du passage    l automate du texte  ce qui pourra   tre utile pour des applications o   la  casse est importante  telle que la reconnaissance des noms propres     7 2 2 Normalisation de formes ambigu  s    Lors de la construction de l   automate  il est possible d effectuer une normalisation de  formes ambigu  s en appliquant une grammaire de normalisation  Cette grammaire doit  se nommer Norm fst2 et doit   tre plac  e dans votre r  pertoire personnel  dans le sous   r  pertoire  Graphs Normalization de la langue voulue  Les grammaires de normalisa   tion de formes ambigu  s sont d  crites    la section 6 1 3    Si une s  quence du texte est reconnue par la grammaire de normalisation  toutes les  interpr  tat
247. u les  codes flexionnels  Ainsi  si vous voulez rechercher tous les verbes qui ont le trait s  mantique  t  marquant la transitivit    il vous suffit de chercher t en cochant  Grammatical code   Vous  obtiendrait ainsi les entr  es voulues  sans ambiguit  s avec toutes les autres occurrences de  la lettre t     2 4  OUVERTURE D   UN TEXTE 19             Dictionary Search                                                   Find what  it     Find Next  Replace        Replace Next  Occurrences  0   Replace  Options   Count occurrences    Search from begining  v  Grammatical code  _  Canonical form   Replace All     Search up C Inflected form  C  Flexional code   Close    Search down             FIG  2 5     Recherche du trait s  mantique t dans un dictionnaire   lectronique    2 4 Ouverture d   un texte    Unitex propose d   ouvrir deux types de fichiers texte  Les fichiers portant l extension    snt sont des fichiers textes pr  trait  s par Unitex qui sont pr  ts a   tre manipul  s par les dif   f  rentes fonctions du syst  me  Les fichiers portant l extension  txt sont des fichiers textes  bruts  Pour utiliser un texte  il faut donc commencer par ouvrir le fichier  txt correspon   dant en cliquant sur  Open     dans le menu  Text     Choisissez le type de fichier  Raw Unicode Texts   et s  lectionnez votre texte  Les fi   chiers texte d  passant 2 m  ga octets ne sont pas affich  s   le message  This file is too  large to be displayed  Use a wordprocessor to view it   s affiche 
248. uistic Resource  or with a work based on the Linguistic Re   source  on a volume of a storage or distribution medium does not bring the other  work under the scope of this License     3  A program that contains no derivative of any portion of the Linguistic Resource  but is    designed to work with the Linguistic Resource  or an encrypted form of the Linguistic  Resource  by reading it or being compiled or linked with it  is called a  work that uses  the Linguistic Resource   Such a work  in isolation  is not a derivative work of the  Linguistic Resource  and therefore falls outside the scope of this License    However  combining a  work that uses the Linguistic Resource  with the Linguistic  Resource  or an encrypted form of the Linguistic Resource  creates a package that is    10 10  FICHIERS DIVERS 203    a derivative of the Linguistic Resource  because it contains portions of the Linguistic  Resource   rather than a  work that uses the Linguistic Resource     If the package is a  derivative of the Linguistic Resource  you may distribute the package under the terms  of Section 4  Any works containing that package also fall under Section 4     4  As an exception to the Sections above  you may also combine a  work that uses the  Linguistic Resource  with the Linguistic Resource  or an encrypted form of the Lin   guistic Resource  to produce a package containing portions of the Linguistic Resource   and distribute that package under terms of your choice  provided that the ter
249. ul  es par ELAG ont une syntaxe particuli  re  Elles comportent  deux parties  que nous appelerons partie si et partie alors  La partie si d une grammaire  ELAG se divise en deux zones d  limit  es par des bo  tes contenant le symbole  lt     gt   La partie  alors est divis  e de la m  me fa  on au moyen du symbole  lt   gt   La signification d   une gram   maire est la suivante   dans l   automate du texte  si l   on trouve une s  quence reconnue par  la partie si  alors elle doit aussi   tre reconnue par la partie alors de la grammaire  faute de  quoi elle sera retir  e de l automate du texte     La figure 7 12 montre un exemple de grammaire  La partie si reconnait un verbe    la  deuxi  me personne du singulier suivi par un tiret et tu  soit en tant que pronom  soit en tant  que participe pass   du verbe taire  La partie alors impose que tu soit alors consid  r   comme  pronom  La figure 7 13 monter le r  sultat de l application de cette grammaire sur la phrase   Feras tu cela bient  t     On peut voir sur l automate du bas que le chemin correspondant     tu participe pass   a   t     limin       7 3  LEVEE D AMBIGUITES LEXICALES AVEC ELAG 121    FST Text    1055 sentences auna aran Banda Wiuumedantunnmumala  Aamann sa    4    Sentence         FIG  7 11     Automate de la figure 7 9 apr  s nettoyage    Point de synchronisation    Les parties si et alors d une grammaire ELAG sont divis  es en deux par le deuxi  me  symbole  lt   gt  dans la partie si  et par le deuxi  me sy
250. umber  you may choose any version ever publi   shed by the Free Software Foundation     11  If you wish to incorporate parts of the Linguistic Resource into other free programs  whose distribution conditions are incompatible with these  write to the author to ask  for permission     NO WARRANTY    12  BECAUSE THE LINGUISTIC RESOURCE IS LICENSED FREE OF CHARGE   THERE IS NO WARRANTY FOR THE LINGUISTIC RESOURCE  TO THE EXTENT  PERMITTED BY APPLICABLE LAW  EXCEPT WHEN OTHERWISE STATED  IN WRITING THE COPYRIGHT HOLDERS AND OR OTHER PARTIES PRO   VIDE THE LINGUISTIC RESOURCE  AS IS  WITHOUT WARRANTY OF ANY  KIND  EITHER EXPRESSED OR IMPLIED  INCLUDING  BUT NOT LIMITED  TO  THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS  FOR A PARTICULAR PURPOSE  THE ENTIRE RISK AS TO THE QUALITY  AND PERFORMANCE OF THE LINGUISTIC RESOURCE IS WITH YOU  SHOULD  THE LINGUISTIC RESOURCE PROVE DEFECTIVE  YOU ASSUME THE COST  OF ALL NECESSARY SERVICING  REPAIR OR CORRECTION     13  INNO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED TO  IN WRITING WILL ANY COPYRIGHT HOLDER  OR ANY OTHER PARTY  WHO MAY MODIFY AND OR REDISTRIBUTE THE LINGUISTIC RESOURCE  AS PERMITTED ABOVE  BE LIABLE TO YOU FOR DAMAGES  INCLUDING  ANY GENERAL  SPECIAL  INCIDENTAL OR CONSEQUENTIAL DAMAGES  ARISING OUT OF THE USE OR INABILITY TO USE THE LINGUISTIC RE   SOURCE  INCLUDING BUT NOT LIMITED TO LOSS OF DATA OR DATA  BEING RENDERED INACCURATE OR LOSSES SUSTAINED BY YOU OR THIRD  PARTIES OR A FAILURE OF THE LINGUISTIC RES
251. un signe    elle est remplac  e par le contenu de la cellule     Il existe   galement une variable sp  ciale    qui est remplac  e par le num  ro de la ligne  dans la table  Le fait que sa valeur soit diff  rente pour chaque ligne permet de l utiliser pour  caract  riser facilement une ligne  Cette variable n   est pas affect  e par la pr  sence d   un point  d   exclamation a sa gauche     La figure 8 3 montre un exemple de graphe param  tr   con  u pour   tre appliqu      la table  de lexique grammaire 31H pr  sent  e sur la figure 8 4     142 CHAPITRE 8  LEXIQUE GRAMMAIRE       NO V vers N    FIG  8 3     Exemple de graphe param  tr                           S Table31H xls          E Ezemple  D  o  o  4  o     D  ET Ts    lavoir   abandonner    ssif                    j           Paul aSabandonne      avoir abuser      lo lol lo lo lolo l l  Max  abuse      lavoir acquiescer     tt             Max aSacquiesc  S E de la t  te      avoir jadouber                      Je le      PaulSadoube     checs     lavoir lagioter       j         j  j  fo j  Max  agiote  sur les changes    lavoir agoniser         j       j  j      Max  agonise      lavoir archaiser  l  l j      l  jj  Cet auteurgarchaisegvolontiers    avoir arquer  gt  la la          J l l  Max a  arqu    toute la journ  e      tre arriver       L              Max est  arriv      111  avoir atermoyer      jo      tie    le l  Max  atermoie      avoir badauder j                 badaud Max  badaude      HA c31H   ido O 1 
252. unique retour    la ligne         toute autre suite de s  parateurs est remplac  e par un espace     La distinction entre espace et retour a la ligne est conserv  e a cette   tape car la pr  sence  de retours a la ligne peut intervenir dans le d  coupage du texte en phrases  Le r  sultat de  la normalisation d   un fichier appel   mon_texte txt est un fichier situ   dans le m  me    2 5  PRETRAITEMENT DU TEXTE 21  E     co  Semmes E    CA ETSunic_snt Py ETSunic txt   C htaprSep94_snt D htaprsep94 1xt   C3 ivanhoe_snt 0 ivanhoe txt    J NElasvegassundef_snt IN NElasvegassundef  txt       C  res_snt Ey res txt  C tempcorpus_snt    ETSconc txt          File Name  ivanhoe bd    Files of Type    Raw Unicode Texts v     gt  e              FIG  2 7     Ouverture d un texte Unicode       Preprocessing  amp  Lexical parsing   x   Preprocessing     v  Apply FST2 in MERGE mode   E  My UnitexiF rench Graphs Preprocessing Sentence      A        v  Apply FST2 in REPLACE mo     Ey UnitextFrenchiGraphs Preprocessing Replace R  Set      Tokenizing         The text is automatically tokenized  This operation is language dependant     so that Unitex can handle languages with special s with special spacing rules     Lexical time             vi Apply All default Dictionaries   C  Analyse unknown words as free compound words    Cancel but tokenize text     this option is available only for German  Norwegian  amp  Russian     _  Construct Text Automaton Cancel and close text    FIG  2 8     Fen  tre
253. ur appliquer l   toile    une expression  complexe  L expression      0   0 1 2 3 4 5 6 7 8 9     reconna  t un z  ro  suivie d   une virgule et d   une suite   ventuellement vide de chiffres     ATTENTION   il est interdit de rechercher le mot vide avec une expression rationnelle   Si l   on essaye de chercher  0 1 2 3 4 5 6 7 8 9     le programme signalera une erreur  comme le montre la figure 4 3     Expression converted   Compiling graph regexp  Recursion detection started  Resolving  lt E gt  conditions  Recursion detection completed       ERROR  the main graph regexp recognizes  lt E gt        FIG  4 3     Erreur lors de la recherche d une expression reconnaissant le mot vide    4 7 Filtres morphologiques    Il est possible d   appliquer des filtres morphologiques aux unit  s lexicales recherch  es   Pour cela  il faut faire suivre imm  diatement l unit   lexicale consid  r  e par un filtre entre  doubles angles      motif  lt  lt motif morphologique gt  gt     Les filtres morphologiques s expriment sous la forme d expressions r  guli  res au format  POSIX  voir  36  pour une syntaxe d  taill  e   Voici quelques exemples de filtres   l  men   taires          lt  lt ss gt  gt  contient ss        lt  lt  a gt  gt    commence par a    58 CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES         lt  lt ez  gt  gt   finit par ez        lt  lt a s gt  gt  contient a suivi par un caract  re quelconque  suivi par s        lt  lt a  s gt  gt   contient a suivi par un nombre de 
254. ur efficacit     Toutes ces informations sont affich  es dans le fen  tre de processing d   ELAG     7 3 6 Description du jeu d   tiquettes    Les programmes Elag et ElagComp n  cessitent une description formelle du jeu d     ti   quettes des dictionnaires utilis  s  Cette description consiste grosso modo en une   num     ration de toutes les cat  gories grammaticales pr  sentes dans les dictionnaires  avec pour  chacune d elle  la liste des codes syntaxiques et flexionnels qui leur sont associ  es et une  description de leurs possibles combinaisons  Ces informations sont d  crites dans le fichier  nomm   tagset  def     Fichier tagset   def    Voici un extrait du fichier tagset  def utilis   pour le fran  ais     NAME francais  POS ADV  POS PRO    inflex   pers   12 3    128    genre  nombre  discr   subcat  complete   Pind  Pdem  Ppossis  Pposslp  Pposs2s  Pposs2p  Pposs3s  Pposs3p  PpvIL  PpvLE  PpvLUI  Ton  PpvPR  PronQ  Dnom       POS A      inflex   genre  nombre   cat     gauche    droite         complete     CHAPITRE 7  AUTOMATE DU TEXTE      m      S p     lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt    lt genre gt   lt nombre gt   lt pers gt    lt genre gt   lt nombre gt   lt pers gt                  lt genre gt   lt nombre gt   lt pers gt       lt genre gt   lt nombre gt   lt 
255. urs et polices de caract  res  ainsi que l   utilisation de l effet  d   antialiasing  Pour configurer l   apparence des automates de phrase  vous devez modifier  la configuration g  n  rale en cliquant sur  Preferences     dans le menu  Info   Pour plus de  d  tails  reportez vous a la section 5 3 5     7 5  CONVERTIR L AUTOMATE DU TEXTE EN TEXTE LINEAIRE 137    Vous pouvez   galement imprimer un automate de phrase en cliquant sur  Print     dans  le menu  FSGraph  ou en appuyant sur  lt Ctrl P gt   Assurez vous que le param  tre d   orien   tation de l imprimante est bien r  gl   sur le mode paysage  Pour r  gler ce param  tre  cliquez  sur  Page Setup  dans le menu  FSGraph      7 5 Convertir l automate du texte en texte lin  aire    Si l   automate du texte ne contient plus la moindre ambigu  t    il est possible de construire  un fichier texte correspondant a l unique chemin repr  sent   par cet automate  Pour cela   allez dans le menu  Text  et cliquez sur  Convert FST Text to Text      La fen  tre de la figure  7 25 vous permet alors de d  finir le fichier texte de sortie     Convert Text Automaton to Text    Output text file        Damy UnitexiEnglishiCorpusiinear snt   Set                     Cancel          FIG  7 25     Choix du fichier de sortie pour la lin  arisation de l automate du texte    Si l   automate n est pas compl  tement lin  aire  un message d erreur vous indiquera le nu   m  ro de la premi  re phrase contenant une ambigu  t    Sinon  le programme Fst
256. us de  conversion va cr  er une copie de ce fichier ASCII nomm  e balzac old txt  et va rem   placer le contenu de balzac txt par son   quivalent en Unicode    Si le codage propos   par d  faut n   est pas le bon  ou si vous voulez renommer le fichier  autrement qu avec le suffixe  old  vous pouvez utiliser la commande  Transcode Files   dans le menu  File Edition   Cette commande vous permet de choisir les codages d   ori   gine et de destination des documents    convertir  voir figure 2 3   Par d  faut  le codage  source propos   est celui qui correspond    la langue courante  et le codage de destination est  Unicode Little Endian  Vous pouvez modifier ces choix  en s  lectionnant n importe quels  codages de source et destination  Ainsi  vous pouvez si vous le souhaitez convertir vos don   n  es dans d   autres codages  comme par exemple UTF 8 si vous voulez en faire des pages  web  Le bouton  Add Files  vous permet de s  lectionner les fichiers    convertir  Le bouton   Remove Files  permet de retirer de la liste des fichiers s  lectionn  s par erreur  Le bouton   Transcode  lancera la conversion de tous les fichiers  Si une erreur survient lors du traite   ment d   un fichier  par exemple  un fichier qui serait d  j   en Unicode   le traitement continue  avec le fichier suivant    Pour obtenir du texte au bon format  vous pouvez   galement utiliser un traitement de  texte comme le logiciel libre OpenOffice org   41   ou Microsoft Word  et sauvegarder votre       IUnitex p
257. use   Elle peut m  me   tre  dissoci  e du graphe et appara  tre alors comme une fen  tre s  par  e  voir figure 5 19   Dans    5 2  EDITION DE GRAPHES 77                               Caract  re   Signification Codage  i les guillemets d  limitent des s  quences qui ne F  doivent ni   tre interpr  t  es par Unitex  ni subir de va   riantes de casse    le   s  pare les diff  rentes lignes des bo  tes maT  le   sert    introduire un appel    un sous graphe     ou       le   indique le d  but de la sortie dans une bo  te NZ   lt  le  lt  indique le d  but d un motif ou d un m  ta   lt   ou   lt    gt  le  gt  indique la fin d un motif ou d un m  ta   gt   ou   gt     le   sert    interdire la pr  sence de l   espace  4     le   sert    d  sp  cialiser la plupart des caract  res sp        ciaux                   TAB  5 1   Codage des symboles sp  ciaux dans l   diteur de graphes    ce cas  le fait de fermer cette fen  tre replace la barre d ic  nes    sa position initiale  Chaque  graphe poss  de sa propre barre d ic  nes        Tools    ale   ole          CIS    FIG  5 19     Barre d ic  nes                Les deux premi  res ic  nes sont des raccourcis permettant de sauver et de compiler le  graphe  Les trois suivantes correspondent aux op  rations  Copier    Couper  et  Coller   Les  deux suivantes correspondent aux op  rations  Redo  et  Undo  qui permettent de refaire ou  d  faire des op  rations  La derni  re ic  ne en forme de cl   est un raccourci vers la fen  tre de  co
258. uxquels le  dictionnaire delas fait r  f  rence  Le param  tre optionnel  a indique que le caract  re   doit    tre ins  r   quand la s  quence produite par le graphe de flexion ne commence pas par    Le  param  tre optionnel  k indique que les codes grammaticaux doivent reprendre exactement  les noms des graphes de flexion  N32 ne sera pas transform   en N      Le r  sultat de la flexion est un dictionnaire DELAF sauvegard   sous le nom indiqu   par  le param  tre resultat     9 20 Locate       Locate texte fst2 alphabet s l a i m r n  dir    thai    space     Ce programme applique une grammaire a un texte et construit un fichier d   index des   occurrences trouv  es  Ses param  tres sont les suivants         texte  chemin d acc  s complet au fichier texte  sans omettre l extension   snt         fst2  chemin d acc  s complet    la grammaire  sans omettre l extension  fst2        alphabet   chemin d   acc  s complet au fichier alphabet        s 1 a  param  tre indiquant si la recherche doit se faire en mode shortest matches  s    longest matches  1  ou all matches  a          1 m r   param  tre indiquant le mode d   application des transductions   mode MERGE   m  ou mode REPLACE  r   i indique que le programme ne doit pas tenir compte des  transductions         n   param  tre indiquant le nombre d   occurrences    rechercher  La valeur a11 indique  au programme qu il doit rechercher toutes les occurrences         dir   param  tre optionnel d  signant un r  pertoire devant   t
259. vec un curseur   ce qui peut   tre pratique si l   on travaille sur une concordance avec de grands contextes     62    CHAPITRE 4  RECHERCHE D   EXPRESSIONS RATIONNELLES    Courier New 10       FIG  4 7     S  lection d un navigateur pour l affichage des concordances    63    4 8  RECHERCHE    334 pey Yotym    Saks Sty 10 300 03 Wotssaidxs 1338TUTS E  STU umop Aen JTEU pa2qo9ea1 ATa01805 yotym    HEOIO J10Y8 E  Ya MeETTTIM Jo wAtar 2341 09 quanbasqns syTdosd 21818098 E  om 334 115 qayoel 293 IHEU OL        TepueTuPTY Yetaqoos E  243 YOTYM PUTA 1992 J0   1N3 YTN paosey  de9 1371895 E  mosaq anq  s fameu uoxes aay Aq s  o ays    SAETE UOXES E  AO 242 YATA 18829409 e Autmz0y    AN0T09 par Haep A418n1 E  09 pTnos ay Yyotym     aaueuaqumnos STU 1340 Puemios Ape31 E  uo UMOP 1133 Pue    11 UTYITM moaz asorze beq psehuojtord E  3 18 2eu   paTesouca aqoa aaddn styl      103 WtThoed E  393 30 UOTITQUE ayy UO0TITpadxa yser 134323eqn UT 2318d E  Ag     quemAolua Jo 133328 samoo2q ay u  yn gweu UENION E  e3s usaq peu qeyoel sty s     aoueaeadde ITIS81083  310 E  n punog    sTepues s      Yraqney quetoue 10 JITUS UISpON E  aey  des aya Jo 21ed stu 09 sem 31        WeSsny Upon      PISUO2 aq AYATM pumos 243    ainqsod ames   ya UT pnu E  Y aTAutep e 4uen TT    are 30qq7 ue 3q 09    eT A em y  TU aptsaq ssea5   ya uodn Ae  yotym JJ298 139118n5 DuoT E  a3Taeos fhutaq    1n0109 ayy ang  g  araen 9T3S8euo0n DuoT E   pumo1   ayq 03 471894 pPaysear qotqa    49012 13001 Huot E  FUTET 243 UT pamoT
260. veryone is permitted to copy and distribute verbatim copies of this license document  but  changing it is not allowed     Preamble    The licenses for most software are designed to take away your freedom to share and  change it  By contrast  the GNU General Public License is intended to guarantee your free   dom to share and change free software   to make sure the software is free for all its users   This General Public License applies to most of the Free Software Foundation   s software and  to any other program whose authors commit to using it   Some other Free Software Founda   tion software is covered by the GNU Library General Public License instead   You can apply  it to your programs  too    When we speak of free software  we are referring to freedom  not price  Our General  Public Licenses are designed to make sure that you have the freedom to distribute copies  of free software  and charge for this service if you wish   that you receive source code or  can get it if you want it  that you can change the software or use pieces of it in new free  programs  and that you know you can do these things    To protect your rights  we need to make restrictions that forbid anyone to deny you these  rights or to ask you to surrender the rights  These restrictions translate to certain responsi   bilities for you if you distribute copies of the software  or if you modify it    For example  if you distribute copies of such a program  whether gratis or for a fee  you  must give the r
261. xion   nels  La pr  sence de ces dictionnaires constitue une diff  rence majeure par rapport aux outils  usuels de recherche de motifs  car on peut faire r  f  rence aux informations qu ils contiennent  et ainsi d  crire de larges classes de mots avec des motifs tr  s simples  Ces dictionnaires sont  repr  sent  s selon le formalisme DELA et ont   t     labor  s par des   quipes de linguistes pour  plusieurs langues  fran  ais  anglais  grec  italien  espagnol  allemand  tha    cor  en  polonais   norv  gien  portugais  etc        Les grammaires sont des repr  sentations de ph  nom  nes linguistiques par r  seaux de  transitions r  cursifs  RTN   un formalisme proche de celui des automates      tats finis  De  nombreuses   tudes ont mis en   vidence l   ad  quation des automates aux probl  mes linguis   tiques et ce  aussi bien en morphologie qu   en syntaxe ou en phon  tique  Les grammaires  manipul  es par Unitex reprennent ce principe  tout en reposant sur un formalisme encore  plus puissant que les automates  Ces grammaires sont repr  sent  es au moyen de graphes  que l utilisateur peut ais  ment cr  er et mettre    jour    Les tables de lexique grammaire sont des matrices d  crivant les propri  t  s de certains  mots  De telles tables ont   t     labor  es pour tous les verbes simples du fran  ais dont elles  d  crivent les propri  t  s syntaxiques  L exp  rience ayant montr   que chaque mot a un com   portement quasi unique  ces tables permettent de donner la grammaire 
262. y  modify  sublicense  or distribute the Program except as expressly    provided under this License  Any attempt otherwise to copy  modify  sublicense or  distribute the Program is void  and will automatically terminate your rights under  this License  However  parties who have received copies  or rights  from you under  this License will not have their licenses terminated so long as such parties remain in  full compliance       You are not required to accept this License  since you have not signed it  However  no     thing else grants you permission to modify or distribute the Program or its derivative  works  These actions are prohibited by law if you do not accept this License  Therefore   by modifying or distributing the Program  or any work based on the Program   you  indicate your acceptance of this License to do so  and all its terms and conditions for  copying  distributing or modifying the Program or works based on it       Each time you redistribute the Program  or any work based on the Program   the reci     pient automatically receives a license from the original licensor to copy  distribute or  modify the Program subject to these terms and conditions  You may not impose any  further restrictions on the recipients    exercise of the rights granted herein  You are not  responsible for enforcing compliance by third parties to this License       If  as a consequence of a court judgment or allegation of patent infringement or for any    other reason  not limited to pa
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
DeLonghi EAM4000 Espresso Maker User Manual  MANUAL DEL USUARIO SERVICE MANUAL MANUEL D  Rimage PrismPlus! User Guide  Manuel_module_Fax_MF9300.fr  バッテリーレスキュー販売。  Premier Mounts CTM-4200 flat panel wall mount  2 - アルインコ  i.Sound Pyramid    Copyright © All rights reserved. 
   Failed to retrieve file