Home
        Manuel d`utilisation d`Unitex - Institut d`électronique et d`informatique
         Contents
1.                      Apply Elag Rule                   FIGURE 7 32     Exemple d   automate de texte lin  aire    Les r  gles sont tr  s proches de celles qui s appliquent lors des recherches avec Locate  Voici  les diff  rences      e vous ne pouvez pas m  moriser des s  quences dans des variables  comme avec Locate   voir figure 6 19  page 131     e vous ne pouvez pas reconna  tre des choses qui ne sont pas l   automate du texte   si     automate du texte contient seulement l   tiquette d un mot compos    mais pas des  mots simples qu il renferme  vous ne pourrez pas reconna  tre les mots simples  Par  exemple  dans la phrase de l automate de la figure 7 33  il est impossible reconna  tre  soixante ou huit  puisque ces chemins n   existent pas     e les s  quences reconnues peuvent   tre diff  rentes de celles apparaissant dans les con   cordances  En fait  l   automate du texte peut contenir des   tiquettes qui ne correspon   dent pas au texte brut d   entr  e  en particulier lorsqu   une grammaire de normalisation  a   t   appliqu  e  Par exemple  si vous recherchez le motif  lt le DET gt  dans l automate  du texte de 80jours  vous obtenez 7703 matches  tandis que Locate n   en trouve que  5763  Ceci provient du fait que quelques mots ont   t   normalis  s  comme au        le  ou du de le  Ainsi  quand vous cherchez  lt le DET gt   LocateTfst reconna  t les    tiquettes ajout  es    l automate du texte par la grammaire de normalisation  alors que  Concord utilise le fichi
2.                  169   7 3 Lev  e d ambiguit  s lexicales avec BLAG   onc oe eee ee De ERS SS 171  73 1 Grammaires de lev  e d ambiguit  s  lt   s ue eee HE ER He ws 171   732 Compilation des grammaires ELAG   44 sous 4068505 des 175   foo Lev  edambiguit  s   lt   4 4 RARA A A 175   70  Ensembles de grammaires     o nuoraa ne as deb Eure 176   7 3 5 Fen  tre de traitement d ELAG                         178   700 Deseriplicn du joa d CUquellss  gt   eee   el eatea pur  e OS 178   ad   Optimiser lesgrammaires    ss    ds sad dar ARA 184   7A Lin  arisation de l automate du texte avec le taggeur             4 444  185  741  Compatibilit   du jeu d   tiquettes   ie owe hs au on bu Nes    187   fae Utlisa  tion du Tagger  sis diarrea 187   7 4 3 Cr  ation d un nouveau taggeur    lt i ee ee eR Se AER 188   7 5 Manipulation de l automate du texte  si 2k hee Re RE eA eae a 189  7 5 1 Affichage des automates d   phrases   2 2 0 2  ev viewed ws 189   7 5 2 Modifier manuellement l   automate du texte                 189   75 3 Param  tres de pr  sentation o  lt  4448 6 veda Swede oe edb    191   7 6 Convertir l automate du texte en texte lin  aire                    192  7 7 Recherche de motifs dans l   automate du texte                     192  75 AIN A es ek sis sors ORR ee bide ester ses 194  A es AA LED ab NME EME 196    TABLE DES MATI  RES 7    8    10    11    12    Automate de S  quences 199  S1 OO Ce A RER eee EEA PE Reed EH EES 199  G2 UDDAN se 4 144 1624  8 ua d  s doubler td
3.               Le programme MultiFlex permet d   utiliser dix variables de type   dont les noms sont      1      9 et dix variables de type    dont les noms sont       1       9  De plus  plusieurs variables  de types diff  rents peuvent   tre utilis  es au sein d une m  me op  ration  Ainsi l op  rateur   lt   3re 7re gt  appliqu   au verbe reprendre donne   3   rep et  7   nd     Si l   on consid  re les verbes acc  l  rer  s  cher  la deuxi  me personne du pr  sent de  l indicatif peut   tre g  n  r  e par l op  ration  lt    er gt    es         acc  l  res  s  ches     lt    er gt    gt  acc  l   r       es  gt    lt    er gt   gt  s   ch   efes  gt     acc  l  rer  s  cher    On remarque que le facteur   conserv   dans la forme fl  chie est de longueur variable  r  ch    La flexion de acc  l  rer et s  cher ne peut se faire que par des op  rateurs de pile clas   siques    l   aide d une op  ration commune  Deux op  rations diff  rentes   4R  Ces   5R  Ces   sont n  cessaires  Le graphe de la figure 3 10 permet de fl  chir des verbes comme acc  l  rer  et s  cher au pr  sent                                   lt    er gt                                FIGURE 3 10     Graphe de flexion pour des verbes comme acc  l  rer  s  cher    3 5  FLEXION AUTOMATIQUE 61       Voici les flexions obtenues pour les verbes acc  l  rer et s  cher     acc  l  re acc  l  rer V Pls P3s  acc  l  rent acc  l  rer V P3p  acc  l  res acc  l  rer V P2s  acc  l  rez acc  l  rer V P2p  acc  l  rons ac
4.               te  porte servi                    NC_NNmf       NC_NNmf           ms  AN       fs   ms    fs  1 mp     NC_AN1 1             AN          1 mp     NC_AN1 1                   noire vive NC_NN fs  vive NC_NN fp    icroscope a efi    FLEXION DES MOTS COMPOSES    mp   fs  germain NC_NNmf  fp    fet tunnel  NC_NXXXXXX  ms       microscope a el       fet tunnel NC_NXXXXXX   mp       ette NC_VNm ms     lt  3 Gen   g Nb  n gt        tes  porte serviette NC_VNm ms  tes  porte serviette NC_VNm  mp       e g  avant garde     lt Gen  g Nb  n gt     FIGURE 11 21   Graphe de flexion NC_XXN de mots compos  s fran  ais    Esp        Es     e g  bateau mouche       Gen  g Nb  n gt     FIGURE 11 22   Graphe de flexion NC_NN de mots compos  s fran  ais    11 3  INT  GRATION    UNITEX     lt  1 Gen   g Nb  n gt        239       e g  pomme de terre  lt Gen  g  Nb  n gt     FIGURE 11 23     Graphe de flexion NC_NXXXX de mots compos  s fran  ais     lt  1 Gen  g Nb  n gt      lt  3 Gen  gNb  n gt            lt Gen  g  Nb  n gt     e g  assistant approvisionneur    FIGURE 11 24     Graphe de flexion NC_NNmf de mots compos  s fran  ais       Es      lt Gen  g Nb  n gt     e g  franc macon    FIGURE 11 25   Graphe de flexion NC_AN1 de mots compos  s fran  ais     lt  1 Gen   g Nb  n gt            lt Gen  g Nb  n gt     e g  microscope a effet tunnel    FIGURE 11 26     Graphe de flexion NC_NXXXXXX de mots compos  s fran  ais        lt Gen m Nb p gt     FIGURE 11 27     Graphe de flexion N
5.              ES CasEN_Quaero  CJ Normalization        E  Preprocessing   C3 text_xmi_david    y teNA fst2   a normaliseTreeTag fst2  D testGram fst2    C testnombres tst2    y testPoids fst2 Save                       Compile          File Name   te stnombres fst2       Files of Type    1st2          Disabl          Enabl                   Close          FIGURE 12 2     Fen  tre de configuration de CasSys avec    droite la liste des transducteurs    1  Un gestionnaire de fichier 4 gauche du cadre permet de choisir les transducteurs a mettre  dans la cascade  Le gestionnaire n affiche que les fichiers fst2  tous les graphes que  vous souhaitez mettre dans la liste doivent   tre compil  s au format fst2      Pour   diter la cascade  choisissez les graphes    gauche et mettez les    droite    l   aide  d un glisser d  poser     2  Le tableau de droite affiche la cascade   la liste ordonn  e des transducteurs et les options    s  lectionn  es pour chaque graphe  Le tableau est   videmment vide pour une nouvelle  cascade     Les colonnes du tableau  Figure 12 3  donne le num  ro de chaque graphe et permettent  de choisir leur comportement     e    Num  ro du graphe transducteur dans la cascade pour chaque graphe  le  fichier fst2 est num  rot       Disabled   Pour d  s  lectionner le graphe courant  Disabled siginifie    non appliqu    dans la cascade   Les graphes non s  lectionn  s apparaissent sans num  ro  en gris    et barr       e Name   Le nom du graphe  avec l extension fs
6.          FIGURE 6 63     S  lection d une occurrence dans le texte     Extract unmatching units  selon que vous voulez extraire les phrases contenant les occur   rences ou non     6 10 6 Comparaison de concordances    L option  Show differences with previous concordance  permet de comparer la concor   dance qui vient d   tre calcul  e avec la concordance pr  c  dente  si elle existe  Pour cela  le  programme ConcorDi ff construit les deux concordances dans l   ordre du texte  puis com   pare leurs lignes  Le r  sultat est une page HTML qui montre alternativement les lignes des  deux concordances  laissant une ligne vide quand un match n   apparait que dans une seule  des deux concordances  figure 6 64         Les lignes de la concordance ant  rieure sont gris  es et celles de la concordance courante  restent sur fond blanc  Dans chaque ligne  seules les s  quences reconnues sont color  es  On  peut cliquer dessus pour ouvrir le texte    cette position     Le bleu indique qu une s  quence est commune aux deux concordances  Le rouge indique  qu une s  quence reconnue est commune aux deux concordances  mais avec des extensions  diff  rentes  c est    dire que les deux s  quences reconnues se chevauchent partiellement  Le  vert signale qu une s  quence n apparait que dans une seule concordance     S il n existe pas de concordance ant  rieure  le bouton est d  sactiv       6 10 7 Mode Debug    Lorsqu on applique un graphe    un texte avec le menu Locate dans la fen  tre de la  fig
7.         Le respect des espacements est une r  gle tr  s simple   pour qu   une s  quence du texte soit  reconnue par une entr  e de dictionnaire  elle doit avoir exactement les m  mes espaces  Par  exemple  si le dictionnaire contient aujourd   hui    ADV  la s  quence Aujourd    hui ne  sera pas reconnue    cause de l   espace qui suit l apostrophe     68 CHAPITRE 3  DICTIONNAIRES  3 7 3 Graphes dictionnaires    Le programme Dico est   galement capable d appliquer des graphes dictionnaires  Il  s agit de graphes qui respectent  par d  faut    la r  gle suivante   si on les applique avec le  programme Locate en mode MERGE  ils doivent produire des s  quences correspondant     des lignes de DELAF  Quand on les applique    un texte  ils attachent les   tiquettes lexicales  DELAF    ces s  quences     La figure 3 19 montre un graphe reconnaissant les symboles chimiques  On peut voir sur  cette figure un premier avantage par rapport aux dictionnaires compress  s   l   utilisation des  guillemets permet de forcer le respect de la casse  Ainsi  ce graphe reconna  tra bien Fe mais  pas FE  alors qu il est impossible de sp  cifier une telle interdiction dans un DELAF usuel     Le second avantage des graphes dictionnaires est qu ils peuvent exploiter les r  sultats four   nis par les dictionnaires appliqu  s pr  c  demment  Ainsi  on peut appliquer le dictionnaire  g  n  ral  puis   tiqueter comme noms propres les mots inconnus commen  ant par une ma   juscule    l   aide du graphe NP
8.        t N   thread N   cr  er N thread      a N   random N   choisir N fois un fichier log al  atoire dans la liste  dans  chaque thread                f N   break after N l utilisateur annule apr  s N ex  cutions  avec seule   ment un seul thread        u PATH   unfound location PATH   prend le dictionnaire et le FST2     partir de PATH s il est absent du fichier log     Une autre utilisation UnitexToolLogger est d utiliser l   option MzRepairUlp pour  r  parer un fichier ulp ab  m    souvent  un log de crash          UnitexToolLogger MzRepairUlp  OPTIONS   lt ulpfile gt     OPTIONS apr  s MzRepairUlp       t X   temp X   utilise X comme nom de fichier temporaire   lt ulpfile gt  build  par d  faut       o X   output X   utilise X comme nom de fichier  ulp   lt ulpfile gt  repair par  d  faut          m   quiet   n   met pas de message lors de l ex  cution       308 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES       e  v   verbose     met un message lors de l ex  cution      Une autre utilisation de UnitexToolLogger est d utiliser l option CreateLog op   tion  avec des accolades  pour cr  er un fichier log d   ex  cutions de programme Uni   tex  comme         UnitexToolLogger   CreateLog  OPTIONS    cmd args       UnitexToolLogger   CreateLog  OPTIONS      cmd  l args     cmd  2 args  Par exemple           UnitexToolLogger   CreateLog   log_file my_run_normalize ulp    Normalize  C  My Unitex French Corpus 80jours txt           UnitexToolLogger   CreateLog directory c  
9.      ATTENTION  3    beaucoup de programmes utilisent un fichier Alphabet  txt   Cette information peut   tre omise pour l   ensemble de ces programmes  Dans ce cas     une d  finition  par d  faut  de lettres est utilis  e  voir u_is_letter dans le fichier  sourceUnicode cpp      13 1 Cr  ation de fichiers log      E  Preferences for French            Morphological dictionaries    Directories    Language  amp  Presentation          Private Unitex directory  where all user s data is to be stored          home paumier unitex Set          Graph repository                 Produce log information in directory            home paumier tmp             Clear all logs             Cancel                FIGURE 13 2   Configuration de fichiers log    Vous pouvez cr  er des fichiers 10g des programmes externes ex  cut  s  Ces fichiers  log peuvent   tre utiles pour le d  bogage ou des tests de r  gression  Vous avez juste  besoin d activer cette fonctionnalit   dans le cadre Pr  f  rences  Vous devez simple   ment choisir un r  pertoire de fichiers log dans lequel tous les fichiers sont stock  s   et cocher la case  Produce log  En cliquant sur le bouton  Clear all logs    vous sup   primez tous les fichiers log   ventuellement contenus dans ce r  pertoire  D  sormais   toute nouvelle ex  cution du promme produit un fichier unitex_log_XXX ulp  dans le r  pertoire de fichiers log  XXX repr  sente le num  ro de log qui se trouve  dans la console  voir section suivante      13 2  LA CONSOLE 
10.      CR  occurrence  contexte droit     e     RL   contexte droit  contexte gauche     13 9     CONCORD 273        RC   contexte droit  occurrence     Pour plus de d  tails sur ces modes de tri  voir la section 4 8 2     Options de sortie       H   html   produit une concordance au format HTML cod  e en UTF 8    par  d  faut        t   text   produit une concordance au format texte Unicode         g SCRIPT   glossanet SCRIPT   produit une concordance pour Glos   saNet au format HTML  Le fichier HTML produit est cod   en UTF 8             p SCRIPT   script SCRIPT   produit une concordance au format HTML  o   les occurrences sont liens d  crits par SCRIPT  Par exemple  si vous utilisez           phttp   www google com search q   vous obtiendrez une concordance  au format HTML o   les occurrences sont des liens vers des requ  tes Google      i   index   produit un index de la concordance  qui comporte les occur   rences  avec les sorties des grammaires  s   il y en a   pr  c  d  es par les positions  des occurrences  dans le fichier texte  exprim  es en caract  res       u offsets   uima offsets   produit un index de la concordance relatif  fichier texte original  avant toute op  ration effectu  e par Unitex  Offsets est le  fichier produit par Tokenize avec l option   output_offsets     e   xm1   produit un index xml de la concordance            w   xml with header   produit un index xml de la concordance avec une  en t  te xml compl  te        lemmatize   produit un fichier de
11.      Dictionary Type   Check Dictionary    O DELAS DELAC    FIGURE 3 5     V  rification automatique d   un dictionnaire       3 4 Tri    Unitex manipule les dictionnaires sans se soucier de l ordre des entr  es  Toutefois  pour  des raisons de pr  sentation  il est souvent pr  f  rable de trier les dictionnaires  L op  ration  de tri varie selon plusieurs crit  res     commencer par la langue du texte    trier  Ainsi  le  tri d un dictionnaire tha   s effectue selon un ordre diff  rent de l   ordre alphab  tique  si bien  qu Unitex utilise un mode de tri d  velopp   sp  cialement pour le tha    voir chapitre 13      Pour les langues europ  ennes  le tri s effectue g  n  ralement selon l   ordre lexicographique   avec toutefois quelques variantes  En effet  certaines langues comme le fran  ais consid  rent  certains caract  res comme   quivalents  Par exemple  la diff  rence entre les caract  res e et     est ignor  e lorsque l   on veut comparer les mots manger et mang  s  car les contextes r et  s permettent de d  cider de l   ordre  La distinction n est faite que lorsque les contextes sont  identiques  ce qui est le cas si l   on compare p  che et p  che     Afin de prendre en compte ce ph  nom  ne  le programme de tri SortTxt utilise un fichier  qui d  finit des   quivalences de caract  res  Ce fichier s appelle Alphabet_sort txt et se  trouve dans le r  pertoire de la langue courante de l utilisateur  Voici les premi  res lignes du  fichier utilis   par d  faut pour le f
12.      O Matched sentences Matched sentences        All sentences HTML All sentences HTML           Aligned with target concordance Aligned with source concordance O    Locate    Clear alignment Align Save alignment Save alignment as    Locate       FIGURE 10 5     Ajout d   un lien          10 3  RECHERCHE DE MOTIFS 217  10 3 Recherche de motifs    Vous pouvez effectuer des recherches de motifs sur chacun des textes  en cliquant sur  son bouton  Locate   La premi  re fois  Unitex vous demandera de construire une version de  travail de votre texte  comme le montre la figure 10 6  Cette version sera pr  trait  e en tenant  compte de la langue du texte  en particulier  les dictionaires s  lectionn  s par d  faut seront  appliqu  s      ATTENTION   la langue du texte est d  termin  e    l   aide de son nom complet  Par exemple   si votre fichier se trouve dans le r  pertoire     MyUnitex Klingon Corpus  la langue  consid  r  e sera Klingon  Donc  si votre texte n   est pas dans un sous r  pertoire de votre  r  pertoire de travail  sa langue ne sera pas correctement identifi  e     4 Unitex needs a text version of your xml text in order to locate  expression  Do you agree to build and preprocess    D  My Unitex French Corpus A funtana fr_xalign txt         FIGURE 10 6     Unitex doit construire une version de travail du texte    XAlign Locate Pattern  Locate pattern in the form of      O Regular expression               a  Graph          Index    O Shortest matches     e  Longest m
13.      Sous Linux MacoOS  tapez      make LIBRARY yes       et vous obtiendrez une librairie nomm  e libunitex  so  Si vous souhaitez produire DLL  Windows nomm  e unitex dll  utilisez les commandes suivantes         Windows  make SYSTEM windows LIBRARY yes  Cross compilation avec mingw32   make SYSTEM mingw32 LIBRARY yes          dans tous les cas  vous obtiendrez aussi un programme nomm   Test_lib  exe   Si tout a  bien fonctionn    ce programme devrait afficher l   cran suivant      Expression converted   Reg2Grf exit code  0     Unigraph    1 9  UNITEX POUR LES D  VELOPPEURS    Look In   CI Mes documents M        J Mes vid  os   J Downloads  J Updaters   3 Ma musique  J Visual Studio 2005   5 Mes eBooks   J Mes fichiers re  us  C Mes images   J Mes sites Web    File Name  CiDocuments and SettingsipaumieriMes documents             FIGURE 1 4   Cr  ation du r  pertoire personnel de travail    SIZE 1313 950   FONT Times New Roman  12  OFONT Times New Roman B 12  BCOLOR 16777215   FCOLOR 0   ACOLOR 12632256   SCOLOR 16711680   CCOLOR 255                PORIENT L       7     lt E gt   100 100 1 5     100 100 O    26 CHAPITRE 1  INSTALLATION D UNITEX     a  100 100 1   o  100 100  1  Mc  100 100 1    lt E gt   100 100    lt E gt   100 100                   PND BO          Chapitre 2    Chargement d   un texte    Une des principales fonctionnalit  s d Unitex est la recherche d expressions dans des textes   Pour cela  les textes doivent subir plusieurs op  rations de pr  traitement
14.     82              TABLE 3 4     Quelques r  f  rences bibliographiques sur les dictionnaires   lectroniques       74    CHAPITRE 3  DICTIONNAIRES    Chapitre 4    Recherche d   expressions rationnelles    Nous allons voir dans ce chapitre comment rechercher des motifs simples dans un texte  au moyen des expressions rationnelles     4 1 D  finition    Le but de ce chapitre n est pas de faire une introduction aux langages formels  mais  de montrer comment utiliser les expressions rationnelles dans Unitex pour rechercher des  motifs simples  Le lecteur int  ress   par une pr  sentation plus formelle pourra se reporter  aux nombreux ouvrages qui traitent du sujet     Une expression rationnelle  ou expression r  guli  re  peut   tre      e une unit   lexicale  livre  ou un masque lexical   lt manger V gt     e une position particuli  re du texte   le d  but    ou la fin       e la concat  nation de deux expressions rationnelles  je mange    e l union de deux expressions rationnelles  Pierre Paul      e l   toile de Kleene d   une expression rationnelle  tr  s x      4 2 Unit  s lexicales    Dans une expression rationnelle  l   unit   lexicale a la m  me d  finition qu   en 2 5 4  page  38   Notons que les symboles point  plus    toile  inf  rieur ainsi que les parenth  ses ouvrantes  et fermantes ont une signification particuli  re  il faut donc les d  sp  cialiser avec le caract  re    si l   on souhaite les rechercher  Voici quelques exemples d unit  s lexicales valides      c
15.     e    Save    et    Save as    permettent d enregistrer la liste des transducteurs  Par d  faut   les listes des transducteurs sont plac  es dans le r  pertoire CasSys de la langue  courante  par exemple French  Cassys      e    Compile    recompile tous les graphes de la cascade   e    Disable all    pour d  s  lectionner tous les graphes de la cascade   e    Enable all    pour s  lectionner tous les graphes de la cascade     e    Close    ferme la fen  tre courante             Disabled   Name Merge   Replace  Iter  toolFigement fst2   Y a   persNoel fst2   jamountfst2  jamountAmount fst2  itimeDateCalendaireAvecFin fst2  timeDateCalendaire fst2   timeAnnee Siecle fst2  itimeDateRelative fst2  ftimeDateAbsolue fst2                                                                                     ISS                                           JORNOODOODEERE    timePrep fst2  jamountPrepDuree fst2  _  amountDureeLesHour fst2                                                               JR             timeLocution fst2     timestst2  ftimeDet0 fst2  ladhocEtapeTimeMois fst2  jadhocEtapeTime fst2  persCollectif fst2  ffoncCollectiveExtractor fst2  _ foncCollective fst2  ffoncCollectiveCtxtD fst2  lorginstitution fst2  __lorgCtxtDico fst2  JorgCtxt fst2  lorgCommerceDroite fst2            wo                                                                                                          RNIN SSSI                                                                         
16.     gt      A        ADJ  A  NOUN  N      FIGURE 6 58     Une variable A qui peut   tre ind  finie    Concordance  D  My UnitexiEnglishiCorpusiivanhoe_snticoncord     no a    een fixed upon the necks ADJ  NOUN necks  of  as it were  to the feudal chains ADJ feudal NOUN chains   court  and in the castles ADJ  NOUN castles     the castles of the great nobles ADJ qreat NOUN nobles   nobles  where the pomp ADJ  NOUN pomp  and 3  and state of a court ADJ  NOUN court  was e             FIGURE 6 59     La variable A peut   tre ind  finie    Optimizing compound word dictionary     Optimizing fst2       Working       Output error  starting position of variable  4   undefined        cms               FIGURE 6 60     Sortie    cause d une variable erron  e    6 10 3 Concordance    Le r  sultat de la recherche est un fichier d index contenant les positions de toutes les oc   currences trouv  es  La fen  tre de la figure 6 62 vous propose de construire une concordance   de modifier le texte ou de comparer le r  sultat de la recherche    la recherche pr  c  dente sur    6 10  APPLICATION DES GRAPHES AUX TEXTES 157      Concordance  D  My UnitexiEnglishiCorpus ivanhoe_snticoncord html a a Bd    party in whatever rash expedition ADJ rash NOUN expedition   sessed by the great Barons ADJ qreat NOUN Barons   that     even to the very edge ADJ very NOUN edge  of destruct   of their less powerful neigqhbours ADJ powerful NOUN neighbours    erings of the inferior classes ADJ inferior NOUN classes 
17.     input sequence     gt  output sequence    Si vous souhaitez utiliser la tabulation ou le newline  vous devez les d  sp  cialiser  avec un antislash comme ceci      123   gt  ONE_TWO_THREE_NEW_LINE             14 13  PLUSIEURS AUTRES FICHIERS 343  14 13 7 Fichier de mots interdits    Le programme PolyLex requiert un de mots interdits pour le hollandais et le  norv  gien  Ce fichier texte brut est cens   s appeler ForbiddenWords txt   Il doit  se trouver dans le r  pertoire Dela correspondant    la langue courante  Chaque ligne  est cens  e contenir un mot interdit        14 13 8 Fichier de log    Le programme UnitexToolLogger  sile fichier unitex_logging_parameters txt  est trouv   avec un chemin  pour enregistrer les fichiers log  cr  e un fichier  ulp de  log de l outil Unitex en cours d ex  cution choisi     Il cr  e un fichier unitex_logging_parameters_count txt qui contient seule   ment le num  ro du dernier fichier log cr        Un fichier log  avec l extension  ulp  est un fichiers zip non comprim  s  com   patibles avec unzip et tous les outils unzip standards  On peut le recr  er avec zip  d Infozip  avec les options  0  X   Il contient ces fichiers      e test_info command_line txt   une liste de param  tres de la ligne de  commande utilis  e pour ex  cuter l outil  Il y a un param  tre sur chaque ligne   La premiere ligne contient la valeur de retour  la deuxi  me ligne le nombre de  param  tres      e test_info command_line_synth txt   une simple ligne avec un 
18.    COMME COMME   comme  ADV z 1 COMME   comme  CONJS 1  DOMESTIQUE DOMESTIQUE domestiquer V z1 Kms DOMESTIQUE domestique A                    4  il     gt                 FIGURE 7 35     Affichage d   un tableau    les POS possibles pour chaque mot simple ou compos    Il devrait   tre consid  r   comme  une vue approximative et compacte des informations contenues dans l   automate  Vous pou   vez   galement filtrer les codes grammaticaux   s  mantiques a afficher  Choisissez  All  et  vous verrez tous les codes  Choisissez  Only POS category  les premiers codes  suppos  s  repr  senter la cat  gorie de la POS  seront affich  s  Si vous choisissez  Use filter  et   crivez  une expression r  guli  re X  les codes non reconnus par X seront supprim  s  Toute expres   sion rationnelle POSIX est accept  e en tant que filtre  V  rifiez  Always show POS category    and as said  the POS category will be kept even if not matched by the filter  if any  For in   stance  Figure 7 36 shows a filtering result  obtained with the filter    A Z  that matches any  code starting with an uppercase letter  thus discarding codes like z1     Le bouton  Export all text as POS list  peut   tre utilis   pour exporter ce tableau d affichage  de l   ensemble du texte automate dans un fichier texte  en utilisant un format particulier   Actuellement  cette fonctionnalit   est exp  rimentale et peut   tre modifi  e dans le futur  Voici  un exemple de sortie             Je N ms mp     Je PRO PpvIL 1fs lms   
19.    Implode  mjor   Apply Elag Rule  ADV z1    FIGURE 7 8     Ambiguit   due    une s  quence contenant un mot inconnu                         On trouve   galement ce ph  nom  ne dans le traitement de certaines langues asiatiques comme  le thai  Quand les mots ne sont pas d  limit  s  il n   y a pas d   autre solution que d   envisager  toutes les combinaisons possibles  ce qui entraine la cr  ation de nombreux chemins compor   tant des mots inconnus qui s   entrem  lent avec les chemins   tiquet  s  La figure 7 9 montre  un exemple d   un tel automate de phrase en thai     170 CHAPITRE 7  AUTOMATE DU TEXTE         i y    a a w  1003 sentences Maas sra tara anda iuuum  aatunnmmala  Aumann cia li  qt  Sentence         Reset Sentence Graph    Rebuild FST Text  Elag Frame    Explode             Implode  Apply Elag Rule             FIGURE 7 9     Automate d une phrase tha      Il est possible de supprimer ces chemins parasites  Pour cela  il faut s  lectionner l option   Clean Text FST  dans la fen  tre de configuration de la construction de l   automate du texte   voir figure 7 10   Cette option indique au programme de construction de l automate qu il  doit nettoyer chaque automate de phrase     Ce nettoyage s   effectue selon le principe suivant   si plusieurs chemins sont en concurrence  dans l automate  le programme garde ceux qui contiennent le moins de mots inconnus  Par  exemple  la s  quence  aujourd   hui en tant qu   adverbe compos   l emporte sur la d  com   position en
20.    Les deuxi  me et troisi  me parties donnent respectivement les listes de codes gram   maticaux et ou s  mantiques et flexionnels  Afin de pr  venir des erreurs de codage   le programme signale les codes qui contiennent des espaces  des tabulations ou des  caract  res non ASCII  Ainsi  si un dictionnaire grec contient le code ADV o   le car   act  re A est le A grec au lieu du A latin  le programme signalera l avertissement  suivant                           ADV warning  1 suspect char  1 non ASC char    0391 D V     Les caract  res non ASCII sont indiqu  s par leur num  ro de caract  re en hexad  ci   mal Dans l exemple ci dessus  le code 0391 repr  sente le A grec  Les espaces sont  indiqu  s par la s  quence SPACE      Km s warning  1 suspect char  1 space    K m SPACE s     Lorsqu on v  rifie le dictionnaire suivant      1 2 et 3   INTJ   abracadabra  INTJ  supercalifragilisticexpialidocious    INTJ  damned    INTJ   Paul   N Hum Hum   eat   V W Pls Ps Plp P2p P3p                            on obtient le fichier CHECK_DIC TXT suivant           Line 1  unprotected comma in lemma   1 2 et 31   INTJ Y   Line 2  unexpected end of line   abracadabra  INTJ Y   Line 5  duplicate semantic code   Paul   N Hum HumY   Line 6  an inflectional code is a subset of another   eat   V W P1s Ps Plp P2p P3pY4                               1    Stats 4    q  File  D  My Unitex English Dela axe dic   Type  DELAF                   14 9  FICHIERS ELAG 333    6 lines read   2 simple entries fo
21.    a Gen      gt                Er   s    p            lt  1 Nb w Case  c Anim   a Gen   g gt        FIGURE 11 30     Graphe de flexion NC_N2X1 de mots compos  s serbes    248 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    Novi Sad  Crvena Zastava  Ujeinxenxe Nacije               g Nb   n Case  c Anim   a gt         lt  1 Gen  g Nb  n Case  c Anim g Det e gt       lt Gen  g Nb  n  Case  c Anim  a gt              lt  1 Gen  gNb  n Case  c Anim g Det d gt             masculine gender in accusative singular         lt  1 Gen m Nb s Case 4 Anim  a Det e gt     m  Nb 5 Case 4 Anim   a gt            lt Gen m Nb s  Case 4 Anim  a gt         lt  1 Gen m Nb s Case 4 Anim  a Det d gt       FIGURE 11 31   Graphe de flexion NC_AXN3 de mots compos  s serbes    Kosovo i Metohya    H  lt  1 Gen   81 Nb   n Case  c Anim   a gt              lt  4 gt      lt  5  Gen   25 Nb   nl  Case  c Anim   a gt       lt Gen  g1 Nb  n Case  c Anim  a gt     FIGURE 11 32   Graphe de flexion NC_N3XN de mots compos  s serbes    istrazani sudija         lt  1 Gen  g Nb s Case  c Anim g Det e gt             lt  3 Gen   g Nb s Case  c Anim   a gt       lt Gen  g Nb s gt                     lt  1 Gen  g Nb s Case  c Anim g Det d gt             lt  1 Gen f Nb w Case  c Anim g Det e gt      lt  3 Gen f Nb w Case  c Anim   a gt                 lt  1 Gen f Nb p Case  c Anim g Det e gt     lt  3 Gen f Nb p Case  c Anim   a gt                  lt  1 Gen mNb s Case 4 Anim  a Det e gt       lt  3 Gen m Nb s Case 4 Anim   a g
22.    charger  et    modifier  au lieu d   en cr  er un nouveau    partir de z  ro     Options d offsets    e input_offsets  fichier offsets d entr  e      e output_offsets  fichier offsets a produire      Le programme code chaque unit   par un entier  La liste des unit  s est sauveg   ard  e dans un fichier texte nomm   tokens txt  La suite des codes repr  sentant  les unit  s permet alors de coder le texte  Cette suite est sauvegard  e dans un fichier  binaire nomm   text  cod  Le programme produit   galement les fichiers suivants         e tok_by_freq txt   fichier texte contenant la liste des unit  s tri  es par ordre  de fr  quence               e tok_by_alph txt   fichier texte contenant la liste des unit  s tri  es par ordre  alphab  tique      e stats n  fichier texte contenant des informations sur le nombre de s  para   teurs de phrases  le nombre d   unit  s  le nombre de mots simples et le nombre  de chiffres      13 45  TRAININGTAGGER 303    e enter pos   fichier binaire contenant la liste des positions des retours    la  ligne dans le texte  La repr  sentation cod  e du texte ne contient pas de retours     la ligne  mais des espaces  Comme un retour    la ligne compte pour 2 car   act  res et l   espace pour un seul  il faut savoir o   se trouvent les retours    la  ligne dans le texte si l   on veut synchroniser les positions des occurrences cal   cul  es par le programme Locate avec le fichier texte  Le fichier enter  pos  est utilis      cette fin par le programm
23.    e il est impossible d utiliser le mode morphologique      e il est impossible d utiliser des contextes     Les figures 2 10  page 34  et 2 11  page 37  montrent des exemples de graphes de pr     traitement     6 13 Graphes de normalisation de l   automate du texte    Les graphes de normalisation de l automate du texte permettent de normaliser des formes  ambigu  s  En effet  ils peuvent d  crire plusieurs   tiquettes pour une m  me forme  Ces   ti   quettes sont ensuite ins  r  es dans l   automate du texte  explicitant ainsi les ambigu  t  s  La  figure 6 3 montre un extrait du graphe de normalisation utilis   pour le fran  ais         de  DET Dind zl mp fp     FIGURE 6 3     Extrait du graphe de normalisation utilis   pour le fran  ais    Les chemins d  crivent les formes qui doivent   tre normalis  es  Les variantes minuscules  et majuscules sont prises en compte selon le principe suivant   les lettres majuscules dans    122 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    le graphe ne reconnaissent que les lettres majuscules dans l automate du texte  les lettres  minuscules peuvent reconna  tre les lettres minuscules et majuscules     Les sorties repr  sentent les s  quences d   tiquettes qui seront ins  r  es dans l   automate du  texte  Ces   tiquettes peuvent   tre des entr  es de dictionnaires ou de simples cha  nes de car   act  res  Les   tiquettes repr  sentant des entr  es de dictionnaire doivent respecter le format  des entr  es d un DELAF et   tre encadr  es p
24.    lt E gt    with with  ithe the  of lof   lt E gt     Gen Tbuying                7 matches          he slightest shade of selfishness  and  instead of dividing yet farther his weakened nation by  ious than prepossessing  especially as  instead of doffing his bonnet  he pulled it still deepe  1 homage and the kiss of peace  S  But  instead of receiving their salutations with courtesy  J  dric  who dried his hands with a towel  instead of suffering the moisture to exhale by waving t  hither by his father  Henry the Second  with th rpose o uying golden opinions of the inhab  reyhound  which ran limping about as if with the purpose of seconding his master in collecting    161          IL    4                      uble click to open the graph        2 choice  with tradition       advantage  experience  function  goal  object  policy  the possibility  privilege  oblem    nsk  threat    instead             on charges     lt  gt  effort    in view                   FIGURE 6 65     La fen  tre de concordance en mode debug    162 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Chapitre 7    Automate du texte    Les langues naturelles contiennent beaucoup d ambiguit  s lexicales  L automate du texte  est un moyen efficace et visuel de repr  senter ces ambigu  t  s  Chaque phrase du texte est  repr  sent  e par un automate dont les chemins expriment toutes les interpr  tations possibles     Ce chapitre pr  sente les automates de texte  le d  tail de leur construction ainsi que les op  
25.    o   080  0808 080  00 108 0 00 0    AA                            FIGURE 12 3     La table   liste de transducteurs    12 1  APPLIQUER UNE CASCADE DE TRANSDUCTEURS AVEC CASSYS  12 13 Application d une cascade    255    Dans le menu  Text   s  lectionner le sous menu  Apply CasSys cascade      Figure 12 4   pour ouvrir la fen  tre CasSys  Ce sous menu  Apply CasSys cascade     n   est actif que si un  texte a   t   pr  alablement ouvert     FIGURE 12 4     Menu  Text  d Unitex et sous menu  Apply CasSys Cascade             DELA FSGraph Lexicon G         Open    Ctrl N  Open Tagged Text     Preprocess Text       Change Language                 Apply Lexical Resources    Ctrl     Locate Pattern       Located Sequences     Compile Elag Grammars    Construct FST Text     Convert FST Text to Text          Close Text     Quit Unitex       La fen  tre CasSys  12 5  affiche le contenu du r  pertoire CasSys de la langue courante   Elle permet de choisir le fichier contenant la liste de transducteurs    appliquer au texte  Une  fois que cette liste est choisie  vous pouvez cliquer sur le bouton  Launch  pour appliquer la    cascade           ls   8  63  Bale            J Share   CA src   E nouveauCasEN5_Quaero_correctionAmount csc   Ey nouveauCasEN5_Quaero_poids csc                            File Name       Files of Type   CaSCade configuration File y                         FIGURE 12 5     Fen  tre de lancement de la cascade de transducteurs    256 CHAPITRE 12  CASCADE DE TRANSDUCT
26.    z1 49   z2 49   z3 49   _ 181                A  Ajout de nouvelles langues  23  Alignement de texte  213  Alignement des bo  tes  111  Alignement r  entrant  215  All matches  85  153  Allemand   mots compos  s libres  41  295  Alphabet  35  67  274  286  289  292  302    304  312   cor  en  197   tri  53   tri    313  Ambigu   transducteur  105  153  Analyse des mots compos  s libres    INDEX    langues germaniques  41  295  russe  41  295  Antialiasing  111  Apache 2 0  361  Approximation d   une grammaire par un  transducteur fini  124  283  Automate  acyclique  163  du texte  77  121  163  301  304  conversion en texte lin  aire  192  fini  94  minimal  65  Automate de S  quences  199  Axiome  93    B  Barre d outils  108  Bo  tes  alignement  111  connexion  97  cr  ation  95  s  lection  102  suppression  104  tri des lignes  110  Boucle  nombre de r  p  titions  127  Boucles sans fin  125  BSD  357    C  Cadre des concordances  88  Caract  res chinois  198  Caract  res sp  ciaux  108  Cascade de transducteurs  269  cascade de transducteurs  251  Casse   voir Respect   des minuscules  majuscules  122   CasSys  251  cat  180  Chevauchement d   occurrences  145  Clitiques   normalisation  167  296  Codes flexionnels  181    385    Collection de graphes  142  Coller  103  106  108  Commentaire   dans un dictionnaire  46   dans un graphe  96  Comparaison   de concordances  159   de variables  151  Compilation   d un graphe  123  287   d une grammaire ELAG  175  complete 
27.   4  Et dans leurs   quivalents d  pr  ci  s  lt MIN gt    lt MAJ gt  et  lt PRE gt   Voir section 4 3 1     4 4  CONCAT  NATION 81    e  lt lire V P F gt   le verbe lire au pr  sent ou au futur     e  lt suis  suivre V gt    le mot suis en tant que forme conjugu  e du verbe suivre  par  opposition    la forme du verbe   tre       e  lt facteur N Hum gt    toutes les entr  es nominales ayant facteur comme forme canon   ique et ne poss  dant pas le code s  mantique Hum     e  lt  ADV gt    tous les mots qui ne sont pas des adverbes     e  lt  WORD gt    tous les caract  res qui ne sont pas des lettres  sauf le s  parateur de phrases   voir figure 4 2   Ce masque ne reconnait pas le s  parateur de phrase  S  ni le tag   STOP      Concordance  D    My Unitex EnglishiCorpus ivanhoe_snticoncord htmi    ngland which is watered by the river Don  there extended in ancient times a large forest  cover  extended in ancient times a large forest  covering the greater part of the beautiful hills and  field and the pleasant town of Doncaster     The remains of this extensive wood are still to be  be seen at the noble seats of Wentworth  of Warncliffe Park  and around Rotherham  S  Here hau  e seats of Wentworth  of Warncliffe Park  and around Rotherham     Here haunted of yore the fab  of Warncliffe Park  and around Rotherham  5  Here haunted of yore the fabulous Dragon of Wantle  d of yore the fabulous Dragon of Wantley  5  here were fought many of the most desperate battle  ttles during t
28.   A LL enr sed a ee a ee ete der ere 269   Tz CASEROS 22 ata ad a a Gee AE GE ae daa Be 8 270   A eke ee st RE we eRe RES ES ee dre WH SS OS 271   13 9 Concord EE 271   A    nie 4       44 dei h du de da a OBa      phas ee 275   DACON 4 444 dia 9 BE LA DM ban ed  Pe E DS 275   BPD A 277   esti 0 A Lines OR ee aR Te RYE O nee 278   PO eee A E ESE EE Etre 280   IGNORE   ale oe he BH EHR EED EL A A RE RHE ee REL Ew Ew Ss 282   LEA CAD ET A   oe ee EDS BORE ESS ERS RHEE OS ESS 282   IS ITEVADO  coria ek ae eee GS  Pad we ee had  Beale  we de 283   WO IG ESPACE II 283   o A 283   IB 2ORSOCREE ociosa ada a MEN APE VE 284   IES  as pe rs pedos E ei a e ea 285   ISR RSA una a ees a Him a Ok a din ee D die 286   IIG A des Dane d hab Mel DRAM OR eut pe 287   IS AGE     42 Lea OO HER a e bete eae ed bee ees 288   BSCS isc la a BS o ane 289   E A ee eS Hd OS dense Somerset 289   W327 LOE   co 1 2 ee    448 di sa ada de a ai a me 289   er 2 34422 eye Da Dana eR heh dial die net deu 292   DOMNE Ee ocio 2 IRL MEME LES DINAN a BS CAMES UE 294   WS SONGHMANZE conciso ar dus       da dou do    nd enr ee ee ee a 294   LEA A III 295   Tol Rebuild sie ceda po to e to in ess 296   13 OS RECONSUUCAO oo La da aa a Rew Se Se des 296   OR E AN 297   A o ee de eed a e dodo 297   EN    4 14 Lu DEN Di Dhs males bebe sa EN SERRE 298   MA ORAS  o de de    Den a es ds Oa Ge D oo es 2S 298   ESSAI  LL  Li  Li LL ada aa BES PS EMSS SYS 299    e ni ei hi are Dane BESS HD ren et 299    TABLE DES MATI  RES 9    
29.   A la quatri  me it  ration  aucune concordance n est  trouv  e  le graphe n   est donc plus r  appliqu       Attention   Prendre garde    la possibilit   de blocage en utilisant cette option  Par  exemple  un transducteur qui reconna  t A et le remplace par A causerait un blocage  s   il   tait appliqu   sur le texte de l exemple     12 23 R  gles utilis  es dans une cascade    Dans une cascade  chaque graphe observe les r  gles utilis  es dans Unitex      e Insertion    gauche des motifs reconnus   en mode  merge   la sortie est ins  r  e     gauche de la s  quence reconnue     e Priorit   au motif le plus    gauche  lors de l application d une grammaire locale   les occurrences qui se chevauchent sont toutes index  es  Durant la construction  de la concordance  toutes ces occurrences sont pr  sentes  mais comme CasSys  modifie le texte apr  s application de chaque graphe de la cascade  il est n  ces   saire de choisir parmi ces occurrences celle    prendre en compte  La priorit   est  donn  e    la s  quence la plus    gauche     Priorit   au plus long motif   dans CasSys  lors de l application d un graphe   c est la s  quence la plus longue qui est conserv  e     Limitation du nombre d   occurrences recherch  es   dans CasSys  ce nombre  n est pas limit     une telle limitation n   a aucun sens dans CasSys  Toutes les  occurrences sont toujours index  es dans le texte     258 CHAPITRE 12  CASCADE DE TRANSDUCTEURS  12 24 Marquage de motifs dans CasSys    La sortie des tra
30.   LADL  Universit   Paris 7  1999  3 8     16  Unicode Consortium  http    www unicode org  2 2     17  Matthieu CONSTANT and Anastasia YANNACOPOULOU  Le dictionnaire   lec   tronique du grec moderne   Conception et d  veloppement d outils pour son  enrichissement et sa validation  In Studies in Greek Linguistics  Proceedings of  the 23rd annual meeting of the Department of Linguistics  Faculty of Philosophy   Aristotle University of Thessaloniki  2002  3 8     18  Danielle CORBIN  Hypoth  ses sur les fronti  res de la composition nominale   Cahiers de grammaire  17  26 55  1992  Universit   de Toulouse Le Mirail  11 1     19  Blandine COURTOIS  Formes ambigu  s de la langue fran  aise  Lingvistice In   vestigationes  20 1   167 202  1996  Amsterdam Philadelphia   John Benjamins  Publishing Company  3 8     20  Blandine Courtois and Max Silberztein  editors  Les dictionnaires   lectroniques du  francais  Larousse  Langue francaise  vol  87  1990  3 8  11 2 1  11 2 2     21  Anne DISTER  Nathalie FRIBURGER  and Denis MAUREL  Am  liorer le d     coupage en phrases sous INTEX  In Anne Dister  editor  Revue Informatique et  Statistique dans les Sciences Humaines  volume Actes des 3  mes Journ  es INTEX   pages 181 199  2000  2 5 2     22  Pamela DOWNING  On the Creation and Use of English Compound Nouns  In  Proceedings of CICLING 2002  volume 53  pages 810 842  Linguistic Society of  America  1977  11 1     23  Dana Marina DUMITRIU and S  bastien PAUMIER  Requ  tes linguistiques
31.   NC_NNmf  franc  franc A47 ms  ma  on  macon N41 ms  NC_AN1   m  moire  m  moire N21 fs  vive vif A48 fs  NC_NN  microscope  microscope Nl ms  a effet tunnel  NC_NXXXXXX                            porte serviette  serviette N21 fs  NC_VNm    Les graphes de flexion correspondants se trouvent de la figure 11 21    la figure 11 27     Le DELACF r  sultant de la flexion par MULTIFLEX du DELAC pr  c  dent est le suivant      238    avant garde avant     garde NC_XXN f    CHAPITRE 11       S    avant gardes avant garde NC_XXN  fp    bat  ba  ca          ca  car  Car          au mouche  bat  teaux mouches bateau mo  f   au lait caf   au lait  f  s au lait caf   au lait           te postale carte postale NC_  tes postales carte post       teau mouche NC_  uche NC_NN  mp  NC    NN ms    NXXXX ms  NC_NXXXX   mp  NN  fs    tale  NC_NN  fp       cousin germain cousin germain NC_NNmf ms    cousins germains cousin germain  cousine germaine cousin germain  cousines germaines cousin  franc ma  on  franc ma  on NC_AN1  NC_       franc maconn  franc macon   franc maconn  francs macon  francs macon  francs macon  francs macon       n  moire vive m  n    e  fran  franc  e  franc ma  on  s  franc macon  nes  franc macon  s  franc macon   nes  franc ma  on    c ma  on                             n  n  n  n    por  por  por    n  moires vives m  moir  nicroscope    effet t  nicroscopes    effet   te servie  te servie       te servie       macon NC_    NC_AN    NC_AN    NC_AN        unnel m  tunnel
32.   OF ALL NECESSARY SERVICING  REPAIR OR CORRECTION     13  IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED  TO IN WRITING WILL ANY COPYRIGHT HOLDER  OR ANY OTHER  PARTY WHO MAY MODIFY AND OR REDISTRIBUTE THE LINGUIS   TIC RESOURCE AS PERMITTED ABOVE  BE LIABLE TO YOU FOR DAM   AGES  INCLUDING ANY GENERAL  SPECIAL  INCIDENTAL OR CON   SEQUENTIAL DAMAGES ARISING OUT OF THE USE OR INABILITY  TO USE THE LINGUISTIC RESOURCE  INCLUDING BUT NOT LIM   ITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE  OR LOSSES SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE  OF THE LINGUISTIC RESOURCE TO OPERATE WITH ANY OTHER  SOFTWARE   EVEN IF SUCH HOLDER OR OTHER PARTY HAS BEEN  ADVISED OF THE POSSIBILITY OF SUCH DAMAGES     END OF TERMS AND CONDITIONS    Bibliographie     1  Free Software Foundation  http    www fsf org  14 13 12     2  Anna ANASTASSIADIS SYMEONIDIS  Tita  KYRIACOPOULOU  Elsa  SKLAVOUNOU  lasson THILIKOS  and Rania VOSKAKI  A system for analysing  texts in modern greek   representing and solving ambiguities  In Proceedings  of COMLEX 2000  Workshop on Computational Lexicography and Multimedia  Dictionaries  Patras  2000  3 8     3  Jean Claude ANSCOMBRE  Pourquoi un moulin    vent n est pas un ventilateur   Langue Fran  aise  86  1990  11 1     4  Laurie BAUER  English Word Formation  Cambridge University Press  1983  11 1     5  Emile BENVENISTE  Fondements syntaxiques de la composition nominale  Formes  nouvelles de la composition nominale  pages 145 176  Gallimar
33.   On peut utiliser des masques lexicaux qui n  cessitent la consultation d un dictionnaire        comme  lt DIC gt    lt be gt  ou  lt N ms gt   qui font r  f  rence aux informations contenues  dans un dictionnaire      du moment qu il a   t   pr  alablement d  clar   comme diction   naire du mode morphologique  voir section 6 4 3        On peut utiliser des masques lexicaux qui n  cessitent la consultation d   un graphe     dictionnaire  section 3 7 3   du moment que le nom du graphe dictionnaire contient  l option b  Cependant  cette possibilit   ne fonctionne que pour les formes reconnues  dans le texte par le graphe dictionnaire pendant l application initiale des dictionnaires   section 3 7   et non pour les formes qui n apparaissent dans le texte que comme des  parties de tokens       On peut utiliser des filtres morphologiques  section 4 7   Cependant  les filtres mor        phologiques employ  s seuls ou sur  lt TOKEN gt  ne s appliqueront seulement qu   au car   act  re courant  Par cons  quent  les filtres comme  lt  lt  1 9   0 9  gt  gt  qui sont congus  pour reconna  tre plus d un caract  re ne reconna  tront jamais rien  En fait  dans le mode  morphologique  les filtres morphologiques ne sont utiles que pour exprimer des n  ga   tions comme  lt  lt    aeiouy   gt  gt   n importe quel caract  re qui n   est pas une voyelle        Les contextes gauches et droits au sens de la section 6 3 sont interdits       On peut utiliser des sorties     A    LETTER gt  reconna 
34.   S    Chapitre 12    Cascade de Transducteurs    Ce chapitre presente l outil Cassys qui donne la possibilit   de cr  er une cascade de trans   ducteurs et de nouvelles mani  res de travailler sur la langue naturelle avec des graphes       tats finis  Une cascade de transducteurs applique plusieurs graphes  automates ou transduc   teurs   l   un apr  s l   autre  sur le texte   chaque graphe modifie le texte  et les changements  peuvent   tre utilis  s pour des traitements suppl  mentaires par les graphes suivants  Ce  type de syst  me est notamment utilis   pour l analyse syntaxique  le chunking  l extraction  d information  la reconnaissance d entiti  s nomm  es etc  Pour faire cela  CasSys utilise une  succession de  locate patterns  avec les options ad  quates     Le premier prototype du syst  me CasSys a   t   cr     en 2002 au laboratoire LI  Laboratoire  d Informatique de l   Universit   de Tours    31    Ce prototype   tait enti  rement sp  cialis    pour l extraction d   entit  s nomm  es  CasSys a   t   ensuite g  n  ralis   pour effectuer n im   porte quelle sorte de traitement n  cessitant une cascade  Il a   t   constamment am  lior   au  cours des ann  es  sans   tre r  ellement int  gr      Unitex  C est gr  ce    un projet r  cent que  l int  gration compl  te de CasSys    Unitex a pu   tre r  alis  e    Les grammaire Unitex sont de type Context free et int  grent la notion de transduction  issue du domaine des automates      tats finis  Une grammaire avec tr
35.   Sentence      Reset Sentence Graph    Rebuild FST Text  close elag frame    Explode                               Implode    Apply Elag Rule                Implose resulting text automaton                                           FIGURE 7 17     Fen  tre de l automate du texte    Une fois le programme termin    vous pouvez consulter l automate r  sultat en cliquant sur le  bouton  Open Elag Frame  button  Comme on le voit sur la figure 7 18  la fen  tre est s  par  e  en deux   l automate d   origine est affich   en haut  et l automate r  sultat en bas     Ne soyez pas   tonn   si l automate du bas semble plus compliqu    Cela s   explique par le fait  que les entr  es lexicales factoris  es   ont   t   explos  es de fa  on    traiter s  par  ment chaque  interpr  tation flexionnelle  Pour refactoriser ces entr  es  cliquez sur le bouton  Implode    Un clic sur le bouton  Explode  vous donne une vue explos  e de l   automate du texte     Si vous cliquez sur le bouton  Replace   l automate r  sultat deviendra le nouvel automate  du texte  Ainsi  si vous utilisez d autres grammaires  elles s   appliqueront sur l   automate d  j    partiellement d  sambiguis    ce qui permet de cumuler les effets de plusieurs grammaires     7 3 4 Ensembles de grammaires    Il est possible de regrouper plusieurs grammaires ELAG en un ensemble de grammaires   afin de les appliquer en une seule fois  Les ensembles de grammaires ELAG sont d  crits dans       1  Ce sont des entr  es qui regroupent
36.   Si les informations grammaticales et s  mantiques diff  rent  il faut cr  er des entr  es dis   tinctes      glace   N zl fs  glace glacer V z1 P1s P3s S1s S3s Y2s       Certaines entr  es ayant les m  mes codes grammaticaux et s  mantiques peuvent avoir des  sens diff  rents  comme c est le cas pour le mot po  le qui d  signe un appareil de chauffage ou  un voile au masculin et un instrument de cuisine au f  minin  On peut donc distinguer les  entr  es dans ce cas      po  le   N z1 fs  po  le    frire  po  le   N z1 ms  voile  linceul  appareil de chauffage                NOTE   dans la pratique  cette distinction n   a pas d autre cons  quence qu une augmenta   tion du nombre d   entr  es du dictionnaire  Les diff  rents programmes qui composent Unitex  donneront exactement les m  mes r  sultats si l   on fusionne ces entr  es en      po  le   N z1 fs ms    L int  r  t de cette distinction est donc laiss      l   appr  ciation des personnes qui construisent  des dictionnaires     3 1 2 Format des DELAS    Le format des DELAS est tr  s similaire    celui des DELAF  La diff  rence est qu   on ne  mentionne qu une forme canonique suivie de codes grammaticaux et ou s  mantiques  La  forme canonique est s  par  e des diff  rents codes par une virgule  Voici un exemple d entr  e      cheval N4 Anl    Le premier code grammatical ou s  mantique sera interpr  t   par le programme de flexion  comme le nom de la grammaire    utiliser pour fl  chir l entr  e  L entr  e de l exemple 
37.   as object code and or source code  so that the user can  modify the Linguistic Resource and then encrypt it to produce a modified  package containing the modified Linguistic Resource      b  Use a suitable mechanism for combining with the Linguistic Resource  A  suitable mechanism is one that will operate properly with a modified ver   sion of the Linguistic Resource  if the user installs one  as long as the mod     372 CHAPITRE 14 FORMATS DE FICHIERS    ified version is interface compatible with the version that the package was  made with      c  Accompany the package with a written offer  valid for at least three years   to give the same user the materials specified in Subsection 4a  above  for a  charge no more than the cost of performing this distribution      d  If distribution of the package is made by offering access to copy from a  designated place  offer equivalent access to copy the above specified ma   terials from the same place      e  Verify that the user has already received a copy of these materials or that  you have already sent this user a copy     If the package includes an encrypted form of the Linguistic Resource  the re   quired form of the  work that uses the Linguistic Resource    must include any  data and utility programs needed for reproducing the package from it  How   ever  as a special exception  the materials to be distributed need not include  anything that is normally distributed  in either source or binary form  with  the major components  
38.   cifi  e parN  Les r  sultats du calcul sont affich  s  sur la sortie standard  L automate du texte n   est pas modifi   par ce programme     OPTIONS      e  o OUT   output OUT   nom de fichier optionnel        e  s N   sentence N   num  ro de phrase     13 18 Extract    Extract  OPTIONS   lt text gt        Ce programme extrait de ce texte toutes les phrases qui contiennent au moins une  des occurrences de la concordance  Le param  tre  lt text  gt  repr  sente le nom complet  du fichier texte  sans omettre l extension   snt     OPTIONS     e  y   yes   extrait toutes les phrases qui contiennent des s  quences reconnues   par d  faut      e  n   no extrait toutes les phrases qui ne contiennent pas de s  quence recon   nue    e  o OUT   output OUT   nom du fichier de sortie         e  i X   index X  le fichier   ind qui d  crit la concordance  Par d  faut  X est  le fichier concord  ind situ   dans le r  pertoire du texte    Le r  sultat est un fichier texte contenant toutes les phrases extraites     raison d   une  phrase par ligne     13 19 Flatten    Flatten  OPTIONS   lt fst2 gt        Ce programme prend une grammaire  fst2 en param  tre  et essaye de la trans   former en un transducteur      tats finis     OPTIONS      284 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  f   fst   la grammaire est  d  pli  e     la profondeur maximum et tronqu  e  si des appels    des sous graphes existent  Les appels tronqu  s sont remplac  s  par des transitions vides  Le r  sult
39.   consiste a lui appliquer les op  rations suivantes   normalisation des s  parateurs  d  coupage  en unit  s lexicales  normalisation de formes non ambigu  s  d  coupage en phrases et appli   cation des dictionnaires  Si vous refusez le pr  traitement  le texte sera n  anmoins normalis    et d  coup   en unit  s lexicales  car ces op  rations sont indispensables au fonctionnement  d   Unitex  Il vous sera toujours possible d   effectuer le pr  traitement plus tard  en cliquant  sur  Preprocess text     dans le menu  Text      Si vous acceptez le pr  traitement  Unitex vous proposera de le param  trer gr  ce    la fen  tre  de la figure 2 9  L option  Apply FST2 in MERGE mode  sert    effectuer le d  coupage du  texte en phrases  L option  Apply FST2 in REPLACE mode  est utilis  e pour effectuer des  remplacements dans le texte  le plus souvent des normalisations de formes non ambigu  s   L option  Apply All default Dictionaries  permet d appliquer au texte des dictionnaires au  format DELA  Dictionnaires Electroniques du LADL   L option  Analyse unknown words    32    CHAPITRE 2  CHARGEMENT D UN TEXTE       Unitex 2 1   current language is Frenc    Open Tagged Text     Preprocess Text       Change Language     Apply Lexical Resources    Ctrl y    Locate Pattern       Apply CasSys Cascade     Located Sequences       Compile Elag Grammars    Construct FST Text       Convert FST Text to Text     Close Text     Quit Unitex    FIGURE 2 7     Menu Text       snt  y novel snt  y te
40.   crivent les   quivalences entre les pr  c  dents fichiers Morphology txt du polonais et  du fran  ais  respectivement  et les caract  ristiques repr  sent  es par une unique lettre qui  peuvent   tre utilis  es dans les dictionnaires DELA pour ces langues dans Unitex     226 CHAPITRE 11  FLEXION DES MOTS COMPOS  S  11 22 D  composition d un mot compos   en constituants    La notion de constituant   l  mentaire est controvers  e et varie selon les langues et les  syst  mes de TAL  Par exemple  dans Unitex  un alphabet  c   est    dire un ensemble de car   act  res  est d   abord d  fini pour chaque langue  Tout caract  re n   appartenant pas    l alpha   bet est appel   s  parateur  Un constituant   l  mentaire est aussi bien un simple s  parateur   habituellement un signe de ponctuation  un chiffre  etc   une s  quence de caract  res conti   gus appartenant    l alphabet  ex aujourd hui comporte selon cette d  finition  3 constituants    Dans d autres syst  mes  un constituant peut contenir un signe de ponctuation  e g  c est      dire   ou une limite entre deux constituants peut se produire dans une s  quence de caract  res  alphab  tiques  widziat bym    je verrais     cf   79       Cette vari  t   de d  finitions possibles d un constituant a   videmment un impact sur la d  fini   tion d un mot compos    Cependant  nous souhaitons que notre formalisme puisse s adapter     diff  rents syst  mes de flexion de    mots simples     Ainsi  la d  finition d un constituant est  u
41.   de la  profondeur limite  Cette option garantit la stricte   quivalence du r  sultat avec la grammaire  d origine  mais ne produit pas forc  ment un transducteur      tats finis  Cette option peut   tre  utilis  e pour optimiser certaines grammaires     Un message indique    la fin du processus d approximation si le r  sultat est un transducteur       tats finis ou une grammaire FST2  et dans le cas d un transducteur  s   il est   quivalent    la  grammaire d   origine  voir figure 6 6      6 2  COMPILATION D UNE GRAMMAIRE 125    Messages with a colored background are generated by the interface  not by the external programs   Compiling graph loop   Recursion detection started   Resolving  lt E gt  conditions   Looking for  lt E gt  loops   Looking for infinite recursions   Recursion detection completed   Compilation has succeeded   Loading X   BOULOTiRecherche manuelunitexiresourcestimgloop fst2       Computing grammar dependencies     Flattening      Cleaning graph      Minimization       Writing grammar     Saving tags     The resulting grammar is an equivalent finite state transducer                    FIGURE 6 6     R  sultat de l approximation d une grammaire    6 2 3 Contraintes sur les grammaires       l exception des grammaires de flexion  une grammaire ne peut pas avoir de chemin  vide  Cela signifie que le graphe principal d   une grammaire ne doit pas pouvoir reconna  tre  le mot vide  mais cela n emp  che pas un sous graphe de cette grammaire de reconna  tre  ep
42.   e  a ALPH   alphabet ALPH   le fichier alphabet de la langue du texte      e  s   start_on_space ce param  tre indique que la recherche va commencer     n importe quelle position dans le texte  m  me avant un espace  Ce param  tre  ne devrait   tre utilis   que pour effectuer des recherches morphologiques      e  x   dont_start_on_ space   interdit au programme de reconna  tre des  s  quences commen  ant par un espace  par d  faut       e  c   char_by_char   ce param  tre facultatif permet d appliquer le trans   ducteur en mode caract  re par caract  re  Cette option doit   tre utilis  e pour  les textes en langues asiatiques comme le Tha       e    w   word_by_word  fonctionne en mode mot par mot  par d  faut      e       input_offsets XXxX   fichier offset    utiliser     13 23  GRF2FST2 287    Options de sorties      e  M   merge   ajoute les sorties du transducteur aux s  quences reconnues  texte d entr  e  par d  faut       e  R   replace   remplace les s  quences reconnues avec les sorties correspon   dantes du transducteur        e     output_offsets XXX   fichier offset    produire    Ce programme a pour effet de modifier le fichier texte pass   en param  tre     13 23 Grf2Fst2    Grf2Fst2  OPTIONS   lt grf gt        Ce programme compile une grammaire en un fichier     st2  pour plus de d  tails   voir section 6 2   Le param  tre  lt grf gt  d  signe le chemin d acces complet au graphe  principal de la grammaire  sans omettre l extension  grf     OPTIONS   e  y   lo
43.   engendrant toutes les formes fl  chies possibles  Afin d   viter de devoir remplacer les noms  des grammaires de flexion par de vrais codes grammaticaux dans le dictionnaire obtenu  le  programme remplace ces noms par leurs plus longs pr  fixes compos  s de lettres  Ainsi  N4  est remplac   par N  En choisissant judicieusement les noms des grammaires de flexion  on  peut donc engendrer directement un dictionnaire pr  t    l emploi     La figure 3 9 montre le dictionnaire obtenu apr  s flexion du DELAS de notre exemple     3 5  FLEXION AUTOMATIQUE 59    aviatrices  aviatrix N Hum p    aviatrix aviatrix N Hum s  matrices matrix N Math p  matrix matrix N Math s  radices radix N p  radix radix N s                FIGURE 3 9     R  sultat de la flexion automatique    3 5 2 Op  rateurs de flexion avanc  s    Dans certaines langues  le processus de flexion entraine une modification de la racine  du mot  Plusieurs op  rateurs ont   t   d  velopp  s pour faciliter ce type de traitement  Ils  permettent de rechercher et d   enlever un suffixe du mot W    fl  chir  Cette op  ration peut    tre accompagn  e de la m  morisation dans une variable    ou     d   un facteur de ce suffixe   Ces op  rateurs peuvent prendre les formes suivantes      e  lt X Y gt    On recherche    la fin du mot W le suffixe Y  Puis  on recherche    partir de la  position atteinte la plus proche occurrence de X qui pr  c  de strictement celle de Y   La  variable   contient alors le plus court facteur   hortest  
44.   le programme recopiera les graphes dans le r  pertoire  de la grammaire de sortie  et cr  era des sous graphes correspondant aux diff  rents sous   r  pertoires  comme on peut le voir sur la figure 6 40  qui montre le graphe de sortie engendr    pour notre exemple     On peut constater qu une bo  te contient les appels    des sous graphes correspondant    des  sous r  pertoires  ici les r  pertoires Banque et Nourriture   et que l   autre bo  te fait appel    tous  les graphes qui se trouvaient dans le r  pertoire  ici le graphe truc grf         Grammars corresponding  to sub directories           Banque_dir  Nourriture _dir                  Grammars corresponding to graphs     FIGURE 6 40     Graphe principal d   une collection de graphes    6 7 R  gles d application des transducteurs    Cette section d  crit les r  gles d application des transducteurs lors des op  rations de pr     traitement et de recherche de motifs  Les graphes de flexion et de normalisation de formes  ambigu  s ne sont pas concern  s par ce qui suit     6 7 1 Insertion    gauche du motif reconnu    Lorsqu un transducteur est appliqu   en mode REPLACE  les sorties remplacent les s  quences  lues dans le texte  En mode MERGE  les sorties sont ins  r  es    gauche des s  quences recon   nues  Consid  rons le transducteur de la figure 6 41      HEHE HEO     Adj      FIGURE 6 41     Exemple de transducteur    6 7  R  GLES D APPLICATION DES TRANSDUCTEURS 145    Si l   on applique ce transducteur au roman Iv
45.   must be  preceeded by a verb       E 1     2 sentences Est il gentil       a   Sentence   2 a    Reset Sentence Graph  Rebuild FST Text  close elag frame             Explode  Implode  Apply Elag Rule    Explode  Implode    FIGURE 7 15     R  sultat de l application de la grammaire de la figure 7 14                7 3  LEV  E D AMBIGUI  T  S LEXICALES AVEC ELAG 175  7 3 2 Compilation des grammaires ELAG    Avant de pouvoir   tre appliqu  e    un automate de texte  une grammaire ELAG doit   tre  compil  e en un fichier   rul  Cette op  ration s effectue via la commande  Elag Rules   dans  le menu  Text   qui fait appara  tre la fen  tre de la figure 7 16     A Elag Grammar Compilation             Set of Elag Grammars  plag st                        I Dany Unitex French ElagiPPYSiSE grf       Look In  la PPVS   X             D postpos grf O SE grf  D PpviL grf   D PpvLe grt   D PpvLUL grf   E  PpvPR grf   C PpvSeq ort                   File Name   SE or                Files of Type   Elag Grammar   grf  y                            Compiled Elag Rule  flag rul compile cancel compilation            FIGURE 7 16     Fen  tre de compilation des grammaires ELAG    Si le cadre    droite contient d  j   des grammaires que vous ne souhaitez pas utiliser  vous  pouvez les retirer au moyen du bouton       S  lectionnez ensuite votre grammaire dans l ex   plorateur de fichiers situ   dans le cadre gauche  et cliquez sur le bouton     pour l    ajouter     la liste du cadre droit  Cliquez
46.   ont pas   t   ins  r  es    gauche du texte d entr  e dans la  figure 6 50  Par ailleurs  les sorties sont trait  es avant d     tre m  moris  es   si la sortie d une  boite contient une chaine comme  A LEMMAS  la variable de sortie ne contiendra en fait pas  cette cha  ne mais le lemme associ      la variable A        Les variables de sortie m  morisent seulement des sorties effectivement produites par la  grammaire  Ainsi  m  me en mode MERGE  les variables de sortie ne m  morisent jamais  le texte d entr  e  figures 6 49 et 6 50      150 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Quand une boite red  finit une variable qui avait d  j     t   d  finie  la nouvelle valeur   crase  l   ancienne  Ainsi  si la variable est d  finie dans une boucle  la valeur de la variable juste  apr  s la boucle d  pend du dernier passage dans la boucle     6 9 Op  rations sur les variables    6 9 1 Tests sur les variables    Il est possible de tester si une variable est d  finie ou non  afin d interrompre la recon   naissance courante si la condition n   est pas v  rifi  e  Ceci se fait en ins  rant la s  quence   xxx SETS dans la sortie d   une bo  te  Ainsi  si une variable d  nomm  e xxx a   t   d  finie   cette s  quence est ignor  e et la reconnaissance continue  sinon  la reconnaissance s arr  te et  le programme repart en arri  re  Ceci fonctionne sur les variables d entr  e  les variables de  sortie et les variables de dictionnaire  De fa  on similaire  on peut v  rifier qu une
47.   pr  sent que ces informations rel  vent plus de la  syntaxe que de l analyse lexicale et nous ne les avons donc pas int  gr  es dans la description  du jeu d   tiquettes  Celle ci sont donc automatiquement   limin  es lors du chargement de  l      automate du texte  ce qui r  duit son taux d ambiguit  s        3  Ce code indique que l adjectif doit appara  tre    gauche du nom auquel il se rapporte  comme c est le cas  pour bel     184 CHAPITRE 7  AUTOMATE DU TEXTE    Afin de bien distinguer les effets li  s au jeu d   tiquettes de ceux des grammaires ELAG  il est  conseill   de proc  der    une   tape pr  alable de normalisation de l automate du texte avant  de lui appliquer les grammaires de d  sambiguisation  Cette normalisation s effectue en ap   pliquant    l automate du texte une grammaire n   imposant aucune contrainte  comme celle  de la figure 7 20  Notez que cette grammaire est normalement pr  sente dans la distribution  d Unitex et pr   compil  e dans le fichier norm rul        FIGURE 7 20   Grammaire ELAG n   exprimant aucune contrainte    Le r  sultat de l application de cette grammaire est que l   automate d   origine est nettoy   de  tous les codes qui ne sont  soit pas d  crits dans le fichier tagset   def  soit non conformes     cette description     cause de cat  gories grammaticales inconnues ou de combinaisons in   valides de traits flexionnels   En rempla  ant alors l automate du texte par l automate ainsi  normalis    on peut   tre s  r que les modific
48.   sur alignements multilingues  In Directia Terminologie si Inginerie Lingvistica   DTIL 08   February 2008  ISBN   978 9 291220 37 3  10     24  Inkscape  Vector Graphics Editor  http   www inkscape org  5 4 1     25  Samuel ELEUTERIO  Elisabete RANCHHOD  Helena FREIRE  and Jorge BAP   TISTA  A system of electronic dictionaries of portuguese  Lingvistice Investiga   tiones  19 1   57 82  1995  Amsterdam Philadelphia   John Benjamins Publishing  Company  3 8    BIBLIOGRAPHIE 377     26  Anibale ELIA  Le verbe italien  Les compl  tives dans les phrases    un compl  ment   Schena Nizet  Fasano Paris  1984  9 1     27  Anibale ELIA  Lessico grammatica dei verbi italiani a completiva  Tavole e indice  generale  Liguori  Napoli  1984  9 1     28  Anibale ELIA and Simoneta VIETRI  Electronic dictionaries and linguistic anal   ysis of italian large corpora  In Actes des 5es Journ  es internationales d   Anal   yse statistique des Donn  es Textuelles  Ecole Polytechnique f  d  rale de Lausanne   2000  3 8     29  Anibale ELIA and Simoneta VIETRI  L   analisi automatica dei testi e i dizionari  elettronici  In E  Burattini and R  Cordeschi  editors  Manuale di Intelligenza  Artificiale per le Scienze Umane  Roma  Carocci  2002  3 8     30  Vassiliki Foufi  Les noms compos  s A A N du Grec Moderne et leurs variantes   In Kakoyianni Doa  57   11 2     31  Nathalie FRIBURGER  Reconnaissance automatique des noms propres   application     la classification automatique de textes journalisti
49.   t  pas sur l   cran  elle peut   tre occult  e par d   autres fen  tres Unitex        E Ew 31H txt    NO    N hum  NO  V n   Aux   avoir  lt ENT gt  NO estv ant  NO estYpp   MOpc lui Y  NO Y de NOpeNhum Y sur    NI    abando             labuser         acquie     ladouber    agioter  lagoniser  archaiser  arquer  arriver  atermoyer   badauder      baisser        bambocher                               1lt1l 1 1  SENESE           y   ty             REJET  1  TT  METE                  i  Thi t    Ty  1  MESE    Ul ltli          PAPE t ra rl rr                                       il  gt         FIGURE 9 6     Displaying a table    Pour g  n  rer automatiquement des graphes    partir d un graphe param  tr    cliquez sur   Compile to GRF     dans le menu  Lexicon Grammar   La fen  tre de la figure 9 7 appara  t  alors     Dans le cadre  Reference Graph  in GRF format    indiquez le nom du graphe param  tr       utiliser  Dans le cadre  Resulting GRF grammar   indiquez le nom du graphe principal qui  sera g  n  r    Ce graphe principal est un graphe faisant appel    tous les graphes qui auront    t   g  n  r  s  En lan  ant une recherche dans un texte avec ce graphe  vous appliquerez ainsi  simultan  ment tous les graphes g  n  r  s     210 CHAPITRE 9  LEXIQUE GRAMMAIRE    Compile Lexicon Grammar to GRF    Reference Graph  in GRF format         city UniteiFrenchiGraphsiparametrized_graph grf       Resulting GRF grammar        D imy UnitexiFrenchiGraphsiTestGraph grt       Name 
50.   to blend the hostile blood ADJ hostile NOUN blood  of  nterests  two hostile races ADJ hostile NOUN races   on  which still felt ADJ sti11 NOUN felt  the ela                FIGURE 6 61     Marche arri  re en cas de variable erron  e    le m  me texte     Pour afficher une concordance  vous devez cliquer sur le bouton  Build concordance     Vous  pouvez param  trer la taille des contextes gauche et droit en caract  res  Vous pouvez   gale   ment choisir le mode de tri qui sera appliqu   aux lignes de la concordance gr  ce au menu   Sort According to   Pour plus de d  tails sur les param  tres de construction de la concor   dance  reportez vous    la section 4 8 2     La concordance est produite sous la forme d un fichier HTML Vous pouvez param  trer Uni   tex pour que les concordances soient lues    l aide d un navigateur Web  voir section 4 8 2      Si vous affichez les concordances avec la fen  tre propos  e par Unitex  vous pouvez acc  der     la s  quence reconnue dans le texte en cliquant sur l occurrence  Si la fen  tre du texte n est  pas ic  nifi  e et que le texte n est pas trop long pour   tre affich    vous verrez appara  tre la  s  quence s  lectionn  e  voir figure 6 63      De plus  si l automate du texte a   t   construit et que la fen  tre correspondante n est pas  ic  nifi  e  le fait de cliquer sur une occurrence s  lectionne l automate de la phrase qui con   tient cette occurrence     6 10 4 Modification du texte    Vous pouvez choisir de modifier le texte
51.   tre tres prudent si vous  manipulez les s  parateurs dans ces regles     13 31 PolyLex    PolyLex  OPTIONS   lt list gt        Ce programme prend en param  tre un fichier de mots inconnus  lt list gt  et essaye  d analyser chacun d   eux comme un mot compos   obtenu par soudure de mots sim   ples  Les mots qui ont au moins une analyse sont retir  s du fichier de mots inconnus  et les lignes de dictionnaire correspondant aux analyses sont ajout  es au fichier OUT     OPTIONS      e  a ALPH   alphabet ALPH   le fichier alphabet    utiliser            e  d BIN   dictionary BIN  le dictionnaire  bin    utiliser      e  o OUT   output OUT   d  signe le fichier dans lequel les lignes de diction   naire produites doivent   tre enregistr  es  si ce fichier existe d  j    les lignes sont  ajout  es a la fin du fichier            e  i INFO   info INFO   d  signe un fichier texte dans lequel les informa   tions relatives a l   analyse a   t   r  alis  e     Options de langue      296 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES  e  D   dutch       e  G   german  e  N   norwegian    e  R   russian    NOTE   pour les mots hollandais ou norv  giens  le programme tente de lire un  fichier texte contenant une liste de mots interdits  Ce fichier est suppos   s appeler  ForbiddenWords txt  voir section 14 13 7  et   tre stock   dans le m  me r  pertoire  que BIN        13 32 RebuildTfst   RebuildTist  lt tist gt   Ce programme reconstruit l automate du texte  lt t fst gt  en tenant compt
52.   une paire attribut valeur contenue dans  les codes s  mantiques  c est    dire la valeur zzz de l attribut y y y s   il y figure un code  s  mantique de la forme yyy zzz     Les variables de dictionnaire peuvent   tre utilis  es en dehors du mode morphologique   comme sur la figure 6 36  On peut effectuer des tests sur ces variables comme expliqu   dans    la section 6 7 5      lt A   gt O     a      Inflected form  a INFLECTEDS   Lemma  a LEMMAS  Codes  a CODE      FIGURE 6 34     Utilisation d une variable de dictionnaire       Al Concordance  D  My UnitexiEnglish Corpus wanhoe_snticoncord html     gn of Stephen  i    Second   scarce   to the   crown    crown  had now  their ancient  ost extent  5                    FIGURE 6 35     R  sultats de la grammaire de la figure 6 34 appliqu  e en mode in MERGE    Variables de dictionnaire dans LocateTfst    Pour les grammaires    appliqu  es avec LocateTfst  cf  section 7 7   on dispose d   une pos     sibilit   suppl  mentaire  En dehors du mode morphologique  on peut m  moriser dans une    6 5  EXPLORATION DES CHEMINS D UNE GRAMMAIRE 141     lt   gt  9     Inflected form  a INFLECTED   Lemma  a LEMMAS  Codes  a CODE      FIGURE 6 36     Utilisation d   une variable de dictionnaire en mode normal    variable de dictionnaire une   tiquette lexicale contenue dans l automate du texte  Il suf   fit pour cela d associer    la bo  te une sortie de la forme   abc  o   abc est le nom de la  variable  On peut ensuite l   utiliser comme 
53.  11 16     Graphe de flexion NC_XXXinv de mots compos  s anglais    Ha    ae  4        lt Nb  n gt     e g  cross roads    FIGURE 11 17     Graphe de flexion NC_XXNs de mots compos  s anglais    e g  head of government        lt Nb p gt     FIGURE 11 18     Graphe de flexion NC_NofNs de mots compos  s anglais       FIGURE 11 19     Graphe de flexion NC_NsNs de mots compos  s anglais    11 3  INT  GRATION    UNITEX    237       FIGURE 11 20   Graphe de flexion NC_Ns   N    11 3 2 Exemple complet en fran  ais     lt Nb  n gt     de mots compos  s anglais    Supposons que la description des caract  ristiques morphologiques du frangais est d  finie    par le fichier Morphology txt suivant      French   lt CATEGORIES gt   Nb s p   Gen  m  f   lt CLASSES gt     noun    Nb  lt var gt    Gen  lt var gt    adj   Nb  lt var gt    Gen  lt var gt      adv      et que les   quivalences entre les caract  ristiques ci dessus et leurs codes correspondants    dans les dictionnaires DELA sont d  finis par le fichier      French   s   Nb s   p   Nb p  m   Gen m  f   Gen f    Consid  rons l extrait du DELAC fran  ais suivant  les  peuvent   tre diff  rents de ceux pr  sents dans Unitex       avant garde  garde N21 fs  NC_XXN                Equivalences txt suivant      codes flexionnels des mots simples    bateau  bateau N3 ms  mouche  mouche N21 fs  NC_NN       caf   caf   Nl ms  au lait NC_NXXXX       carte  carte N21 fs  postale postal A8 fs  NC_NNS  cousin cousin N8 ms  germain germain A8 ms
54.  181  Compression des dictionnaires  271  296  Concat  nation d expressions rationnelles    75  81   Concordance  86  156  271   comparaison  159  Configuration de la recherche  84  Conjugaison  55  Conservation des meilleurs chemins  169    304   Console  267  Consultation d un dictionnaire  51  Contexte   concordance  87  157  272   copie de liste  107   zone dans un graphe  128  Contraintes flexionnelles  78  Contraintes sur les grammaires  125  Copie  103  106  108   d une liste  106  Corpus de s  quences  199  Corpus qualifi    199  Couleurs   configuration  112  Couper  108  Cr  ation de fichiers log  266  Cr  ation d une bo  te  95    D  D  clinaison  55  D  coupage   en phrases  34   en unit  s lexicales  38    386  Degr   d ambiguit    165  DELA  31  45  DELAC  45  DELACE  45  DELAF   DELAS  45  48  D  limiteur de phrase  294  302  336  D  limiteur de phrases  34  D  placement de groupes de mots  146  D  rivation  93  D  tection d   erreur dans les graphes  128   284  287  Diagrammes de syntaxe  94  Dictionnaire  application  40  66  277  codes utilis  s  49  commentaire  46  compression  64  271  296  consultation  51  contenu  49  DELAC  45  DELACE  45  DELAF   DELAS  45  48  du mode morphologique  68  138  du texte  40  77  163  filtre  67  flexion automatique  55  294  format  45  granularit    165  mots compos  s cor  ens  268  priorit    66  recherche  51  r  f  rence aux informations du  77  122  s  lection par d  faut  41  tri  53  v  rification  52  270  dis
55.  326 CHAPITRE 14  FORMATS DE FICHIERS  14 6 2 Fichier concord txt    Le fichier concord txt est un fichier texte repr  sentant une concordance  Chaque  occurrence est cod  e par une ligne compos  e de 3 cha  nes de caract  res s  par  es  par le caract  re de tabulation et qui repr  sentent le contexte gauche  l occurrence     ventuellement modifi  e par des transductions  et le contexte droit     14 63 Fichier concord html    Le fichier concord html est un fichier HTML qui repr  sente une concordance   Ce fichier est cod   en UTF 8     Le titre de la page est le nombre d occurrences qu elle d  crit  Les lignes de la con   cordance sont cod  es par des lignes o   les occurrences sont consid  r  es comme des  liens hypertextes  La r  f  rence associ  e    chacun de ces liens est de la forme       lt a href  X Y Z  gt     X et Y repr  sentent les positions de d  but et de fin de l occurrence en caract  res dans  le fichier name_of_text snt  Z repr  sente le num  ro de la phrase dans laquelle  appara  t cette occurrence     Tous les espaces sont cod  s comme des espaces ins  cables   amp nbsp  in HTML   ce  qui permet de conserver l alignement des occurrences  m  me si l   une d elles  se trou   vant en d  but de fichier  a un contexte gauche compl  t   avec des espaces     NOTE   dans le cas d   une concordance construite avec le param  tre glossanet  le  fichier HTML obtenu a la m  me structure  sauf en ce qui concerne les liens  Dans  ces concordances  les occurrences sont de
56.  A B C D  Chaque ligne  correspond    une modification du texte  exprim  e de la fa  on suivante   l intervalle     A  B  du texte original correspond    l intervalle  C  D  apr  s traitement  A  B  C et D    14 13  PLUSIEURS AUTRES FICHIERS 345      tant des positions en caract  res dans les fichiers textes  Sur chaque ligne  B A D C     Par exemple  si on applique le programme Normalize sur le texte  Hello world    avec deux espaces entre les deux mots   on aura une ligne comme ceci      0 5 0  5  712 6 11    signifiant que les caract  re de 0  inclus     5  non inclus  des deux fichiers con   tiennent exactement le m  me texte  et que ceux de 7  inclus  a 12  non inclus  du  premier texte contiennent exactement le m  me texte que ceux de 6  inclus  a 11  non  inclus  du second     14 13 12 fichier d   offsets uima    Les fichiers d offsets uima sont   crit par Tokenize et lu par Concord  avec les  options   uima       xml with header  ou   xml1    Ces fichiers   tablissent la  correspondance entre chaque token successif et une position dans le fichier d   orig   ine        Ces fichiers textes sont constitu  es de lignes contenant 3 entiers A B C et de texte  entre  lt  et  gt      Chaque ligne correspond    un token  exprim  e de la fa  on suivante   Le token  num  ro A correspond au texte de la position B  inclue     la position C  non inclus   du fichier d origine  et le texte de ce token est mentionn   entre  lt  et  gt   Le num  ro  de token A correspond au num  ro de 
57.  Dictionary       FIGURE 3 7     Configuration de la flexion automatique       matrix    matrices    FIGURE 3 8     Grammaire de flexion N4    La figure 3 8 pr  sente un exemple de grammaire de flexion  Les chemins d  crivent les suf   fixes    ajouter ou    retrancher pour obtenir la forme fl  chie    partir de la forme canonique   et les sorties  texte en gras sous les bo  tes  donnent les codes flexionnels    ajouter    l entr  e  du dictionnaire     Dans notre exemple  deux chemins sont possibles  Le premier ne modifie pas la forme  canonique et ajoute le code flexionnel   s  Le second retranche une lettre gr  ce    l op  ra   teur L  ajoute ensuite le suffixe ces et ajoute le code flexionnel   mp    Voici les op  rateurs utilisables      e L  left  enl  ve une lettre    l entr  e        e R  right  r  tablit une lettre de l entr  e  En fran  ais  beaucoup de verbes du premier  groupe se conjuguent au pr  sent    la troisi  me personne du singulier en retirant le  r de l infinitif et en changeant la 4   lettre en partant de la fin en e   peler  gt  pele   acheter  gt  ach  te  g  rer  gt  g  re  etc  Plut  t que d   crire un suffixe de flexion  pour chaque verbe  LLLL  le  LLLL  te and LLLLere   on peut utiliser l op  rateur R  pour n   en   crire qu   un seul   LLLLeRR              e C  copy  duplique une lettre de l entr  e  en d  calant tout ce qui se trouve    sa droite     Supposons par exemple que l   on souhaite g  n  rer automatiquement des adjectifs en  able    p
58.  ESS 200  8 3 RechercheparapproxiMation   ik ss s rra Oe eh ede oH ED EO 202  Lexique grammaire 205  gT Lestables  de lexique  SIE wees    eee a OME Su a 205  V2 Conversion d une table en graphes  lt     4 ccc inagads Fates adaeda 206   O21 Prncipe des graphes parametes soc o eed sui del ee en es 206   92 2 Pormatde laiable   2  2 4 2 so Bed oe de Be ete Bie eee iS 206   923  Lesgr  phes PITAMICU  S    gt   so       arre pee pe 207   924 G  n  ration automatique de graphes        4 0 4 du nues a          209  Alignement de texte 213  10 1 CASE III 213  10 2  Aligner des EES e E ea A A OE e aea 215  10 3 Recherche de motis    25 24 54 4 4654 2464 6  2424544888964 85 217  Flexion des mots compos  s 221  PEL MI One  ee o AAA Cee EOE es 221    11 1 1 Description formelle du comportement flexionnel des mots compos  s 222  11 12 Approche lexicale ou grammaticale de la description morphologique   223    11 2 Formalisme de flexion des mots compos  s                       224  11 2 1 Caract  ristiques morphologiques de la langue                224  11 2 2 D  composition d un mot compos   en constituants               226  11 23 Paradigme de flexion  des mots composes    lt  lt     2      2 2 227   11 9 Me rinon a UNES     lt i gt  oeste a E es E ers 233  11 31 Exemple complet enanelais  s ie he hehe siens 233  11 32 Exemple complet entrance          cde BEES Oe RE eK e 237  11 3 3 ENSUIDIS CENSOS   cad s Be ed Ge Be OR Re RHE RE rare  240   Cascade de Transducteurs 251   12 1 Applique
59.  Fst2List    Fst2List   o out   p s f d    a t  s m    m    f s a   s 0s   Str      r s l   Str     1 line    i subname x     c SS O0xxxx   fname    Ce programme prend un fichier   fst2 et produit la liste des s  quences reconnues  par cette grammaire  Les param  tres sont les suivants      e fname  nom de la grammaire  avec l extension   fst2     e  o out   pr  cise le nom du fichier de sortie  Par d  faut  ce fichier se nomme  Ist txt     e  S  Affiche le r  sultat sur la sortie standard  Exclusif avec  o      e      a t  s m  pr  cise si l   on tient compte  t  ou non  a  des   ventuelles sor   ties de la grammaire  s indique qu il n   y a qu un seul   tat initial  tandis que  m indique qu il y en a plusieurs  ce mode est utile en cor  en   Par d  faut  ce  param  tre vaut  a s     e  1 line    nombre maximum de lignes      crire dans le fichier de sortie      e  i subname   indique que l   on doit arr  ter l exploration r  cursive lorsque l   on  rencontre le graphe subname  Ce param  tre peut   tre utilis   plusieurs fois  afin  de sp  cifier plusieurs graphes d arr  ts    e  p s f d s produit l affichage des chemins de chaque sous graphe de la  grammaire      par d  faut  affiche les chemins globaux de la grammaire   d af   fiche les chemins en ajoutant des indications sur les imbrications d appels de  sous graphes      e  c SS 0xXXXX   remplace le symbole SS quand il appara  t entre angles par le  caract  re unicode de code hexad  cimal OxXXXX      e  s  L  R     sp  c
60.  Graphe de flexion pour les mots qui se fl  chissent comme bateau mouche    Variables d   unification    Une caract  ristique importante de notre formalisme est celle des variables d   unification   Elles sont repr  sent  es par un symbole dollar     suivi d   un identifiant pouvant contenir  n importe quel nombre de caract  res  comme  91   num_10   c  etc  La figure 11 5 montre  un graphe approximativement   quivalent      celui de la figure 11 4 dans la mesure o   il  permet d   engendrer les m  mes formes fl  chies pour le m  me mot compos    Cependant  ici   un chemin unique repr  sente a la fois le singulier et le pluriel  Ceci est rendu possible grace a  la variable  n qui est instanci  e tour a tour par toutes les valeurs du domaine de sa cat  gorie   Nb   ici  n s puis  n p  Quand une variable d   unification apparait dans une formule du  type Nb  n  avec un seul signe   gale      le syst  me parcourt toutes les valeurs d  clar  es  dans les fichiers de configuration pour cette cat  gorie  cf  section 11 2 1   Pour chaque valeur   il effectue une nouvelle instanciation de la variable  L instanciation est la m  me pour tous  les   l  ments du chemin   si une valeur est attribu  e au premier constituant  la m  me valeur  doit   tre attribu  e au troisi  me  ainsi que pour l   ensemble du mot compos    De m  me  si       1  M  me dans le cas o   les constituants simples apparaissant dans le lemme d un mot compos   sont d  j   au  pluriel  comme dans cross roads     230 
61.  Graphe principal appelant tous les graphes g  n  r  s    212 CHAPITRE 9  LEXIQUE GRAMMAIRE    Chapitre 10    Alignement de texte    Le principe de l alignement de texte est simple   quand on aligne deux textes ou plus  le  premier est consid  r   comme le texte source et les autres comme ses traductions  L aligne   ment s effectue au niveau de la phrase  parce l alignement au niveau des mots n est pas  encore possible et certainement pas pertinent  On peut chercher une expression A dans un  des textes puis rechercher ses traductions dans les phrases align  es avec celles contenant A     Pour ajouter cette fonctionnalit      Unitex  Patrick Watrin a int  gr   l outil d alignement de  texte Open Source XAlign  d  velopp   au LORIA   68    Dans ce chapitre  nous expliquons  comment utiliser le module d   alignement  Le lecteur int  ress   par les d  tails d int  gration  de XAlign peut consulter  23  ou  77   et  94  pour avoir une id  e de ce qui peut   tre fait  avec ce module     10 1 Chargement de textes    Il faut tout d   abord s  lectionner deux textes  Pour cela  allez sur  XAlign gt Open files       et vous verrez le cadre de la figure 10 1  Deux formats de textes peuvent   tre utilis  s   texte  brut unicode  comme pour les corpus  ou texte au format TEI  format de type XML  voir   55    Dans le dernier champ  choisissez un fichier XML d   alignement  si vous en avez d  j    construit un  Si vous choisissez un texte brut  Unitex doit construire une version TEI de votr
62.  Hum fs       est cod  e par la ligne    3er 1 N AN Hum fs    Le code 3er indique que l   on doit retrancher 3 caract  res    la s  quence premi  re et  lui ajouter les caract  res er pour obtenir premier  Le 1 indique que l   on doit sim   plement retirer un caract  re    partie pour obtenir la s  quence parti  Le nombre  0 est utilis   lorsqu on veut indiquer que l   on ne doit supprimer aucun caract  re     14 8 3 Fichier information sur un dictionnaire    Dans le cadre  Apply lexical resources   il est possible d obtenir quelques infor   mations sur un dictionnaire par click droit  Ces informations sont associ  es aux dic   tionnairesbiniou binoubiniou fst2  l aide d un texte brut nomm   biniou txt   situ   dans le m  me r  pertoire        14 8 4 Fichier CHECK_DIC TXT       Ce fichier est produit par le programme de v  rification de dictionnaire CheckDic   Il s   agit d un fichier texte qui donne des informations sur le dictionnaire analys    et  se d  com  pose en quatre parties     La premi  re partie donne la liste    ventuellement vide  de toutes les erreurs de syn   taxe trouv  es dans le dictionnaire   absence de la forme fl  chie ou de la forme canon   ique  absence de code grammatical  ligne vide  etc  Chaque erreur est d  crite par le  num  ro de la ligne concern  e  un message d  crivant la nature de l erreur  ainsi que  le contenu de la ligne  Voici un exemple de message      332 CHAPITRE 14 FORMATS DE FICHIERS    Line 12451  unexpected end of line  garden N s 
63.  Language  amp  Presentation    Private Unitex directory  where all user s dat                    home paumier unitex Set       Graph repository            C  Produce log information in directory         home paumier tmp set     Clear all logs                   FIGURE 5 11   Configuration du r  pertoire de d  p  t    El  E  repository  El    Det    o   5  Smith    FIGURE 5 12     Exemple de r  pertoire de d  p  t          DetdolmsonDEr     E     FIGURE 5 13     Appel un graphe du r  pertoire de d  p  t    graphes  En effet  il vous suffira de mettre    jour le graphe situ      la racine du r  pertoire de  d  p  t     Les appels    des sous graphes sont repr  sent  s dans les bo  tes par des lignes sur fond gris   figure 5 9   ou kaki dans le cas de sous graphes    rechercher dans le r  pertoire de d  p  t   figure 5 13   Si le fichier  grf du sous graphe n est pas trouv   au chemin indiqu    Unitex    102 CHAPITRE 5  GRAMMAIRES LOCALES    cherchera le fichier   fst2 de m  me nom  Si Unitex ne trouve ni le fichier   gr f ni le fichier    fst2  l appel au graphe manquant appara  t dans une ligne sur fond rouge        FIGURE 5 14     Les sous graphes manquants apparaissent en rouge    Sous Windows  vous pouvez ouvrir un sous graphe en cliquant sur la ligne gris  e tout en  appuyant sur la touche Alt  Sous Linux  la combinaison  lt Alt Click gt  est intercept  e par le  syst  me     pour ouvrir un sous graphe  faites un clic central sur son nom  avec le bouton  central  ou faites
64.  Nb  r2 gt      O      lt Gen  g  Nb  n1 Case  c gt  e g  pranie m  zgu    FIGURE 11 7     Graphe de flexion pour pranie m  zgu    Variantes orthographiques et autres variantes    Notre formalisme permet    n importe quel constituant d     tre omis ou d  plac   au sein de  diff  rentes formes fl  chies si cela est n  cessaire  Il permet   galement l insertion de constitu   ants suppl  mentaires qui n apparaissent pas dans la forme de base du mot compos    Cela  permet d   tendre un paradigme flexionnel    une description de variantes plus g  n  rale  or   thographique ou  partielle  variante syntaxique  voir  56  pour une   tude exhaustive des  variantes     Par exemple en anglais  student union appara  t dans un corpus sous les formes students  union  et students    union  au singulier ou au pluriel dans les deux cas  Notre formalisme  permet d ajouter les deux types de variantes    la description  cf  figure 11 8          lt Nb  n gt     FIGURE 11 8   Graphe de flexion pour student union    232 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    figure 11 9 montre un exemple dans lequel  en plus de l insertion d un nouveau constituant   l ordre des constituants peut   tre invers    Le chemin du haut permet de g  n  rer par exemple  birth date et birth dates tandis que celui du bas repr  sente les variantes syntaxiques des formes  pr  c  dentes   date of birth et dates of birth     e g  birth date    gt    gt   faint    lt Nb  n gt   Sana eee     FIGURE 11 9   Graphe de flexion pour 
65.  a   t   cod    deux fois comme d  terminant dans deux sous cat  gories de la cat  gorie DET  Cette finesse  de description ne sera d aucune utilit   si l   on ne s int  resse qu      la cat  gorie grammaticale  de ce mot  Il faut donc adapter la finesse des dictionnaires    l   utilisation recherch  e              DET DetQ 5 p    DET Dind s    DET Dadj s p    FIGURE 7 3     Double entr  e pour which en tant que d  terminant    Pour chaque unit   lexicale de la phrase  Unitex recherche toutes ses interpr  tations possibles  dans le dictionnaire des mots simples du texte  On recherche ensuite toutes les suites d   u   nit  s lexicales qui ont une interpr  tation dans le dictionnaire des mots compos  s du texte   Toutes les combinaisons de ces interpr  tations forment l   automate de la phrase     NOTE   quand le texte contient des   tiquettes lexicales  e g   aujourd    hui   ADV    ces    tiquettes sont reproduites    l identique dans l   automate  sans que le programme essaye de  d  composer les s  quences qu   elles repr  sentent     166 CHAPITRE 7  AUTOMATE DU TEXTE    Dans chaque bo  te  la 1  ligne contient la forme fl  chie trouv  e dans le texte  et la 2   ligne  contient la forme canonique si elle est diff  rente  Les autres informations sont cod  es sous  la bo  te  voir section 7 5 1      Les espaces s  parant les unit  s lexicales ne sont pas retranscrits dans l automate     l   excep   tion des espaces    l   int  rieur de mots compos  s     La casse des unit  s l
66.  a  207      129      129   _ 106   A  49   Abst  49   ADV  49   Anl  49   AnlCol1 49  BuildKrMwuDic  268  C  50  56  119   Cassys  269  CheckDic  52  270  331  Compress  47  64  271  329  Conc  49   ConcColl  49  Concord  271  ConcorDiff  159  275  CONJC  49   CONJS  49   Convert  275   Boy  119   DET  49   Dico  40  67  68  277  DumpOffsets  278  280  Elag  282  334  ElagComp  282   en  49  Equivalences txt  225  Evamb  283   Extract  283   F  50                                  383    384       50   Flatten  124  283  Fst2Check  284  Fest 2Grf  189  Fst2L1st  285  Fst2Txt 36  286   G  50   Grf2Fst2  123 287  Hum  49   HumCol11  49   1 50   i  49   ImplodeTfst  289  INTJ  49   J  50  57   K  50   L  56  119   Locate  68  218  289  LocateTfst  292   m  50  Morphology txt  224  225  MultiFlex  294   N  49   n  50   ne  49   Normalize  266  294  norm rul  184   P  50  57  119   p  50   PolyLex  41  295  PREP  49   PRO  49   R  56  119  RebuildTfst  296  Reconstrucao  169 296  Reg2Grf  297    sj  34  50  81  294  302  319  336  341  s  50   se  49   Seq2Grf  297  SortTxt  53  298  313  Stats  298    STOP    77  81          INDEX    T  50   t  49   Table2Grf  299  Tagger  299  TagsetNormTfst  300  tags ind  72  TEI2Txt  300  Tfst2Grf  301  Tfst2Unambig  192  301  Tokenize  38  302  tokens txt  193  TrainingTagger  303  Txt2Tfst 304   U  57  119  Uncompress  305  UnitexTool  305  UnitexToolLogger  306  Untokenize  305  Unxmlize  309   V  49   w  50  57  119   XMLizer  310   Y  50
67.  alors sur le bouton  Compile   Ceci lancera le programme  ElagComp qui va compiler la grammaire s  lectionn  e pour cr  er un fichier nomm   elag rul    par d  faut     Si vous avez s  lectionn   votre grammaire dans le cadre droit  vous pouvez rechercher les  motifs qu elle reconna  t en cliquant sur le bouton  Locate   Cela ouvre la fen  tre  Locate  Pattern  en sp  cifiant automatiquement un nom de graphe se terminant par  conc fst2   Ce graphe correspond    la partie si de la grammaire  Vous pouvez ainsi obtenir les occur   rences du texte sur lesquelles la grammaire s appliquera     NOTE   le fichier  conc fst2 utilis   pour localiser la partie si d   une grammaire est g  n  r    lors de la compilation des grammaires ELAG au moyen du bouton  Compile   Il faut donc  avoir d   abord compil   votre grammaire avant d utiliser la fonction de recherche du bouton   Locate      7 3 3 Lev  e d   ambiguit  s    Une fois que vous avez compil   votre grammaire en un fichier elag  rul vous pouvez  l appliquer    l automate du texte  Dans la fen  tre de l automate du texte  cliquez sur le bou   ton  Apply Elag Rule   Une bo  te de dialogue appara  tra pour vous demander le nom du    176 CHAPITRE 7  AUTOMATE DU TEXTE    fichier  rul    utiliser  voir figure 7 17   Comme le fichier par d  faut est bien elag rul   cliquez simplement sur  OK   Cela lancera le programme Elag qui va effectuer la lev  e  d ambiguit  s        E FST Text       3 sentences du car se ferme automatiquement      
68.  an appropriate copyright notice and disclaimer of war   ranty   keep intact all the notices that refer to this License and to the absence of  any warranty  and distribute a copy of this License along with the Linguistic  Resource     You may charge a fee for the physical act of transferring a copy  and you may  at your option offer warranty protection in exchange for a fee       You may modify your copy or copies of the Linguistic Resource or any por     tion of it  thus forming a work based on the Linguistic Resource  and copy  and distribute such modifications or work under the terms of Section 1 above   provided that you also meet all of these conditions       a  The modified work must itself be a linguistic resource      b  You must cause the files modified to carry prominent notices stating that  you changed the files and the date of any change      c  You must cause the whole of the work to be licensed at no charge to all  third parties under the terms of this License     These requirements apply to the modified work as a whole  If identifiable  sections of that work are not derived from the Linguistic Resource  and can  be reasonably considered independent and separate works in themselves   then this License  and its terms  do not apply to those sections when you  distribute them as separate works  But when you distribute the same sec   tions as part of a whole which is a work based on the Linguistic Resource   the distribution of the whole must be on the terms of thi
69.  au lieu de construire une concordance  Pour  cela  s  lectionnez un nom de fichier dans le cadre  Modify text  de la fen  tre de la figure  6 62  Ce fichier doit porter l extension  txt     Si vous souhaitez modifier le texte courant  il faut choisir le fichier  txt correspondant  Si  vous choisissez un autre nom de fichier  le texte courant ne sera pas affect    Cliquez sur le  bouton  GO  pour lancer la modification du texte  Les r  gles de priorit  s appliqu  es lors de  cette op  ration sont d  taill  es    la section 6 7     158 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Located sequences           Concordance   Statistics  Modify text       Resulting  snt file             Set File  Extract units       Set File     Extract matching units Extract unmatching units    Concordance presentation        C  Use a web browser to view the concordance   better for more than 2000 matches        Show differences with previous concordance         Show matching sequences in context    Context length   Stopat  Sort according to   Left   40 chars     S  Center  Left    Right   55 chars       5     Build concordance          FIGURE 6 62   Configuration de l affichage des occurrences trouv  es    Une fois cette op  ration effectu  e  le fichier r  sultant est une copie du texte dans laquelle les  sorties ont   t   prises en compte  Les op  rations de normalisation et de d  coupage en unit  s  lexicales sont automatiquement appliqu  es    ce fichier texte  Les dictionnaires du texte e
70.  aujourd suivi d   une apostrophe et de hui  car aujourd est un mot inconnu  ce    7 3  LEVEE D AMBIGUI  T  S LEXICALES AVEC ELAG 171       Construct the Text FST     Normalization             Apply the Normalization grammar              home paumier unitex English Graphs Normalization Norm  grf    lv  Clean Text FST             Normalize according to Elag tagset def                 _  Linearize with the Tagger        home paumier unitex English Dela tagger_data_cat bin   Set          Use Following Dictionaries previously constructed     The program will construct the text FST according to the DLF  DLC and tags ind files  previously built by the Dico program for the current text     Cancel   Construct FST    FIGURE 7 10     Configuration de la construction de l automate du texte          qui fait une forme non   tiquet  e contre z  ro dans le cas de l adverbe compos    La figure 7 11  montre l automate de la figure 7 9 apr  s nettoyage     7 3 Lev  e d ambiguit  s lexicales avec ELAG    Le programme ELAG permet d appliquer des grammaires de lev  e d ambiguit  s sur  l      automate du texte  C est un m  canisme puissant qui permet    chacun d   crire ses propres  r  gles de fa  on ind  pendante des r  gles d  j   existantes  Cette section pr  sente rapidement le  formalisme des grammaires utilis  es par ELAG ainsi que le fonctionnement du programme   Pour plus de d  tails  le lecteur pourra se reporter     6  et  64      7 3 1 Grammaires de lev  e d ambiguit  s    Les grammai
71.  avec une sortie au sens habituel  Par exemple  pour ins  rer sous la boite de  la figure 6 11 la sortie  lt ADJ position     ant  pos       gt   saisissez dans le champ texte     lt A gt    1 4    lt ADJ position     ant  pos       gt      6 2 5 D  tection d erreurs    Pour   viter aux programmes de se bloquer ou de planter  Unitex effectue automatique   ment une d  tection d erreurs lors de la compilation des graphes  Le compilateur de graphes  v  rifie que le graphe principal ne reconna  t pas le mot vide et recherche toutes les formes de  boucles infinies  Si une erreur est trouv  e  un message d erreur appara  t dans la fen  tre de  compilation  La figure 6 12 montre le message obtenu lorsqu on tente de compiler le graphe  Det de la figure 6 10     Compiling graph Det  HCompiling graph DetCompose  MRecursion detection started   Resolving  lt E gt  conditions   Looking for  lt E gt  loops  Looking for infinite recursions   Recursion detection completed       ERROR  Det calls DetCompose that recalls the graph Det             Cancel       FIGURE 6 12     Message d   erreur obtenu en compilant le graphe Det    Si vous avez lanc   une recherche de motifs en s  lectionnant un graphe au format  grf   et  qu Unitex y d  c  le une erreur  l op  ration de recherche sera automatiquement interrompue     6 3 Contextes    Les graphes d Unitex sont des grammaires alg  briques  Elles sont   galement appel  es  grammaires hors contexte  car lorsque l   on souhaite reconna  tre une s  que
72.  bas    droite  le nom du fichier est obtenu en  rempla  ant l extension  1st par  rul      Vous pouvez maintenant appliquer votre ensemble de grammaires  Comme expliqu   plus  haut  cliquez sur le bouton  Apply Elag Rule  dans la fen  tre de l automate du texte  Quand  la bo  te de dialogue vous demande le nom du fichier   rul    utiliser  cliquez sur le bouton   Browse  et s  letionnez votre ensemble  L automate r  sultat est identique    celui qui aurait    t   obtenu en appliquant successivement chacune des grammaires     178 CHAPITRE 7  AUTOMATE DU TEXTE  7 3 5 Fen  tre de traitement d ELAG    Lors de la d  sambigu  sation  le programme Elag est lanc   dans une fen  tre de traite   ment qui permet de voir les messages   mis par le programme pendant son ex  cution     Par exemple  lorsque l automate du texte contient des symboles qui ne correspondent pas  au jeu d   tiquettes d   ELAG  voir section suivante   un message indique la nature de l erreur  rencontr  e  De m  me  lorsqu une phrase est rejet  e  toutes les analyses possibles ont   t      limin  es par les grammaires   un message indique le num  ro de la phrase  Cela permet de  localiser rapidement la source des problemes       valuation du taux d ambiguit      L   valuation du taux d ambiguit   ne se base pas uniquement sur le nombre moyen d in   terpr  tations par mot  Afin d avoir une mesure plus repr  sentative  le systeme prend   gale   ment en compte les diff  rentes combinaisons de mots  Durant la lev  e d 
73.  centr  es sur un m  me axe   e Bottom   les bo  tes sont align  es sur la bo  te la plus basse   Les possibilit  s d   alignement vertical sont    e Left   les bo  tes sont align  es sur la bo  te la plus    gauche   e Center   les bo  tes sont toutes centr  es sur un m  me axe     e Right   les bo  tes sont align  es sur la bo  te la plus    droite     112 CHAPITRE 5  GRAMMAIRES LOCALES    no_antialiasing grf  X BOULOTiRechercheimanuelunitexiresourcesi     o 7                                        FIGURE 5 28     Exemple d antialiasing    La figure 5 30 montre un exemple d alignement  Le groupe de bo  tes situ      droite est une  copie des bo  tes de gauche qui a   t   align  e verticalement    gauche     L option  Use Grid  de la fen  tre d   alignement permet d afficher une grille en arri  re plan  du graphe  Cela permet d aligner approximativement les bo  tes     5 3 5 Pr  sentation  polices et couleurs    Vous pouvez configurer l aspect d un graphe en appuyant sur  lt Ctrl R gt  ou en cliquant  sur  Presentation     dans le sous menu  Format  du menu  FSGraph   ce qui provoque l af   fichage de la fen  tre de la figure 5 32     5 3  OPTIONS DE PR  SENTATION 113    Alignment x     Horizontal Vertical     C  Use Grid  every 30 pixels             FIGURE 5 29     Fen  tre d   alignement    een                more   y          Y as N  J Teu   NS    FIGURE 5 30     Exemple d alignement vertical gauche    Les param  tres de polices sont      e Input   police utilis  e dans l
74.  ces iles  l   bas o          8  All sentences Plain text All sentences Plain text  e   Matched sentences       All sentences  HTML       O Matched sentences  O All sentences HTML       Aligned with target concordance Aligned with source concordance       Locate    Clear alignment Save alignment Save alignment as       FIGURE 10 3     Cadre d   alignement de texte          10 2 Aligner des textes    Une fois les textes charg  s  vous pouvez les aligner en cliquant sur  Align   Le nom du  fichier XML contenant toutes les informations d   alignement vous sera demand    Ensuite   Unitex lance le programme XAlign  vous visualisez alors l alignement sous la forme de  traits rouges entre les phrases align  es comme le montre la figure 10 4     Il est possible d     diter les liens d   alignement avec la souris  Le fait de cliquer sur un lien  le supprime  Pour ajouter un lien  ou le supprmer  s   il existe d  j     s  lectionnez une phrase  avec la souris  dans le texte de votre choix  source ou destination  et d  placez la souris  jusqu      la phrase correspondante dans l   autre texte  Le lien en cours de cr  ation appara  t en  jaune comme le montre la figure 10 5  En le s  lectionnant  ce lien est effectivement ajout   et  devient rouge  Une fois toutes les corrections effectu  es  sauvegardez le nouvel alignement  au moyen des boutons  Save alignment   Save alignment as          Une caract  ristique int  ressante du programme XAlign est qu il est r  entrant  Cela siginifie  q
75.  cet attribut peut convenir  Il est   galement  possible de d  clarer qu   une entr  e ne prend aucun trait flexionnel au moyen d   une  ligne ne contenant que le caract  re _  underscore   Ainsi par exemple  si nous consid     rons les lignes suivantes extraites de la section concernant la description des verbes      W  K  lt genre gt   lt nombre gt     Elles permettent de d  clarer que les verbes    l infinitif  d  not   par le code w  n   ont pas  d   autres traits flexionnels positionn  s tandis que les formes    participe pass    code K   sont   galement attribu  es d   un genre et d   un nombre     Description des codes flexionnels    La principale fonction de la partie discr est de diviser les   tiquettes en sous cat  gories  ayant un comportement morphologique similaire  Ces sous cat  gories sont ensuite utilis  es  pour faciliter l   criture de la partie complete     Pour la lisibilit   des grammaires ELAG  il est souhaitable que les   l  ments d   une m  me sous   cat  gorie aient tous le m  me comportement flexionnel   dans ce cas  la partie complete est  compos  e d une seule ligne par sous cat  gorie    Consid  rons par exemple les lignes suivantes  extraites de la description des pronoms      Pdem  lt genre gt   lt nombre gt   PpvIl  lt genre gt   lt nombre gt   lt pers gt   PpvPr    182 CHAPITRE 7  AUTOMATE DU TEXTE    Ces lignes signifient      e tous les pronoms d  monstratifs  PRO P dem gt   ont des indications de genre et de nom   bre  et aucune autre      
76.  compos   dans son ensemble     Dans sa version actuelle  MULTIFLEX repose sur le syst  me de flexion des mots simples  d Unitex    e MULTIFLEX utilise les m  mes codages qu   Unitex  i e  Unicode 3 0     e MULTIFLEX utilise l   diteur de graphe d Unitex pour repr  senter la flexion des mots  compos  s     e MULTIFLEX admet des principes de description morphologique similaires    ceux du  syst  me DELA mis en   uvre dans Unitex  Ainsi  un paradigme est un ensemble d ac   tions    effectuer sur le lemme afin de g  n  rer ses formes fl  chies  et de leurs associer  les informations flexionnelles correspondantes     e MULTIFLEX permet d   tendre la flexion des mots simples    celle des mots compos  s  en produisant    partir d un DELAC  DELA   lectronique des mots compos  s  un DELACF   DELA   lectronique des formes fl  chies de mots compos  s   Le format du DELACF  g  n  r   est compatible avec Unitex tandis que le format du DELAC est nouveau  mais  inspir   de celui du DELAS  DELA   lectronique dictionnaire des mots simples      Les sections suivantes pr  sentent  pour plusieurs langues  des exemples complets de flexion  d un DELAC en DELACEF    travers l interface MULTIFLEX Unitex     11 3 1 Exemple complet en anglais    Supposons que la description des caract  ristiques morphologiques de l anglais est d  finie  par le fichier Morphology txt suivant     English   lt CATEGORIES gt   Nb  s p   lt CLASSES gt   noun   Nb  lt var gt    adj     234 CHAPITRE 11  FLEXION DES MOTS COM
77.  concordance HTML sp  cial utilis   par  l interface de lemmatisation de l interface graphique d   Unitex     REMARQUE   les options  e et  w acceptent toutes deux un fichier d offset   comme l accepte  u        PRLG X  Y   produit une concordance pour des corpus PRLG o   chaque  ligne est pr  fix  e par l information extraite avec l option   PRLG de Unxmlize   X est le fichier produit par l option   PRLG de Unxmlize et Y est le fichier pro   duit par l option   output_offsets de Tokenize  Remarquons que si cette  option est utilis  e en plus avec    u  l argument Y remplace l argument de  u      A   axis   presque pareil que   index  mais les nombres repr  sentent le  caract  re m  dian de chaque occurrence  Pour plus d   information  consultez   32      274 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  x   xalign   un autre fichier index  utilis   par le module d   alignement de  texte  Chaque ligne est form  e de 3 entiers X Y Z suivi du contenu de l oc   currence  X est num  ro de la phrase  partant de 1  Y et Z sont les positions de  d  but et de fin de l occurrence dans la phrase exprim  e en caract  res      e  m TXT   merge TXT   indique au programme qu il doit produire une ver   sion modifi  e du texte et l enregistrer dans le fichier d  nomm   TXT  voir sec   tion 6 10 4      e T  export_csv  produit un fichier avec le s  parateur tabulation export csv  dans l ordre du texte avec le format suivant    ABCDEE o     A nombre de lignes dans le fichier  csv  B n
78.  contenant l unique entr  e         pomme de terre   N zl fs    La s  quence Igor n   tant ni un mot simple du francais  ni une partie de mot compos    a   t    consid  r  e comme un mot inconnu  L application de dictionnaires s effectue avec le pro   gramme Dico  Les trois fichiers produits  41    pour les mots simples  dlc pour les mots  compos  s et err pour les mots inconnus  sont plac  s dans le r  pertoire du texte  On appelle  dictionnaires du texte les fichiers d1f et dlc    Une fois l application des dictionnaires effectu  e  Unitex pr  sente par ordre alphab  tique  les mots simples  compos  s et inconnus trouv  s dans une fen  tre  La figure 2 13 montre les  r  sultats pour un texte anglais     Il est   galement possible d appliquer des dictionnaires en dehors du pr  traitement du texte   Pour cela  il faut cliquer sur  Apply Lexical Resources       dans le menu  Text   Unitex af   fiche alors une fen  tre  voir figure 2 14  qui permet de choisir la liste des dictionnaires       appliquer     La liste  User resources  recense tous les dictionnaires  bin et     st 2 pr  sents dans le r  per   toire  langue   Dela de l utilisateur  Les dictionnaires du syst  me sont list  s dans le cadre  intitul    System resources     Utilisez  lt Ctrl click gt  pour s  lectionner plusieurs dictionnaires   Les dictionnaires syst  mes sont appliqu  s avant les dictionnaires utilisateurs  Vous pouvez  choisir l   ordre des dictionnaires des listes utililisateur et syst  me    l   aid
79.  correspondant    cette langue  dans le r  pertoire syst  me Unitex  ce qui n  cessite d   avoir les droits d   acc  s    ce r  pertoire   il vous faudra peut   tre demander    votre administrateur syst  me de le faire   En revanche   si vous   tes le seul utilisateur concern   par la langue  vous pouvez copier le r  pertoire en  question dans votre r  pertoire de travail  Vous pourrez ainsi travailler sur cette langue sans  qu elle soit propos  e aux autres utilisateurs     24 CHAPITRE 1  INSTALLATION D UNITEX    K  Welcome    Welcome paumier     Your private Unitex directory where you can  store your own data is     fhome thesards paumier unitex             FIGURE 1 3     Premi  re utilisation sous Linux    1 8 D  sinstallation    Quel que soit le syst  me sous lequel vous travaillez  il vous suffit de supprimer le r  per   toire Unitex pour effacer tous les fichiers du syst  me  Sous Windows  vous devrez ensuite  supprimer le raccourci vers Unitex  jar si vous en avez cr     un  m  me chose sous Linux  ou MacOS si vous avez cr     un alias     1 9 Unitex pour les d  veloppeurs    Si vous   tes programmeur  cela peut vous int  resser de lier votre code avec les sources  C   d   Unitex  Pour faciliter cette op  ration  vous pouvez compiler Unitex en tant que li   brairie dynamique qui contient toutes les fonctions Unitex functions  sauf mains  bien s  r    La page http   docs unitexgramlab org projects unitex library fr latest   contient une documentation sur la librairie   
80.  d   entiers    une bo  te  Cela fixe les limites du  nombre de fois que le motif apparait  Le motif doit   tre d  crit dans une boite unique  Si on  associe un intervalle  m M     une bo  te contenant  lt A gt   figure 6 11   le chemin reconnaitra  des s  quences avec au moins m adjectifs cons  cutifs et pas plus de M     155 matches          ans un   troit espace     peu p2  ait un express pr  t    partir    par un extr  me confort  5  D   fvant un fait brutal  qu il ne  fera un fameux homme      S Et  ke d un fauve n en troublait le      1 4     3    E  d un fin tissu  ramassaient     un      lt a gt       lt  gt     5  Un formidable juron s   cha  ait un fort galant homme et 1    S Un gar  on   g   d une trent   vu un gar  on plus gai  plus a   ant un gar  on si d  contenanc       d un g  teau farci de tiges   ait un grand avantage  d auta     5S  Un grand Tumeur peut fume   ient un grand nombre de gentle    Want un grand tirant d eau     4 Il                                           FIGURE 6 11     Utilisation d un intervalle pour reconna  tre plusieurs tokens cons  cutifs    On attache un intervalle en ins  rant    m  M    dans la sortie de la boite  juste apr  s le carac   tere          et selon les r  gles      e  m M    au moins m motifs cons  cutifs et pas de plus de M    128 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES  e   M   de0   M    e  m     au moins m    La boite ne doit pas   tre connect  e a elle m  me par une boucle directe  Un intervalle est  compatible
81.  de ces syst  mes  Il pr  sente   galement les proc  dures d   ajout de nouvelles  langues et de d  sinstallation     1 1 Licences    Unitex est un logiciel libre  Cela signifie que le code source des programmes est distribu    avec le logiciel  et que chacun peut le modifier et le redistribuer  Le code des programmes  d Unitex est sous licence LGPL   36       l exception de      1  la biblioth  que de manipulation d   expressions r  guli  res TRE de Ville Laurikari   65     qui est sous une licence du genre des licences BSD a 2 clauses      2  la biblioth  que wingetopt de Todd Miller et de la Fondation NetBSD  sous licence BSD  license  plus permissive que la licence LPGL     3  l   analyseur syntaxique Xerces2 Java Parser  de l   Apache Software Foundation  sous  licence Apache      4  la biblioth  que LibYAML de Kirill Simonov  qui est sous licence MIT    galement plus  permissive que la licence LGPL     5  la bibliotheque SVNKit de TMate Software  sous licence TMate     La licence LGPL est plus permissive que la licence GPL  car elle permet d   utiliser du code  LGPL dans des logiciels non libres  Dans les deux cas  le logiciel peut librement   tre utilis    et distribu       Toutes les ressources linguistiques distribu  es avec Unitex sont soumises a la licence LGPLLR      54       Le texte complet des licences LGPL  BSD a 2 clauses  Apache  MIT  TMate et LGPLLR se  trouve dans les annexes a la fin de ce manuel     19    20 CHAPITRE 1  INSTALLATION D UNITEX  1 2 Environ
82.  de telle sorte qu il  est consult   quand le programme Locate rencontre des masques lexicaux en mode  morphologique  Mais cette solution ne fonctionne que pour les formes reconnues par  le graphe dictionnaire pendant l application initiale des dictionnaires  cf  section 3 7    et non pour celles qui n apparaissent dans le texte que comme parties de tokens     Si on ajoute z    la place de b  le dictionnaire produit de fa  on interne pour le texte est  imm  diatement compress    et il peut   tre consult   quand d   autres graphes dictionnaires  sont appliqu  s par la suite     Conventions de nommage    Le processus de nommage d un graphe dictionnaire s   tablit comme suit      nom   XYZ            st2    e X prend l   une des valeurs   rRmM    r signifie mode REPLACE   Msignifie mode MERGE   mode par d  faut       e Y prend l   une des valeurs  bBzZ    option qui r  git la construction d un dictionnaire  du mode morphologique  voir ci dessus       e Z prend l   une des valeurs  aA1LsS    a signifie que le graphe est appliqu   en mode   All matches    1 signifie mode  Longest matches   mode par d  fault    s signifie  Short   est matches      3 7 4 Graphe dictionnaire morphologique    Dans un graphe dictionnaire  chaque chemin doit  par d  faut  produire une entr  e lex   icale    inclure dans le dictionnaire du texte  Dans un graphe dictionnaire morphologique   chaque chemin doit produire une s  quence d une ou plusieurs   tiquettes d  limit  es par    71    3 7  APPLICATION 
83.  dec Hso    V i pass Morph    FIGURE 7 40     Automate de phrase reconnue par la grammaire de la figure 7 39    REMARQUES      1  Les lettres Jamo ne sont pas dans le fichier contenant l   alphabet cor  en  Alphabet  txt    NE LES AJOUTEZ PAS A CE FICHIER  parce que cela occasionnerait des disfonction   nements des programmes     2  Ce fichier alphabet contient les   quivalences entre certains caract  res chinois et cer     198 CHAPITRE 7  AUTOMATE DU TEXTE    tains Hangul  Dans la pratique  si la grammaire contient un caract  re chinois qui pos   s  de un tel Hangul comme   quivalent  il reconna  t celui ci dans l   automate du texte   Par exemple la grammaire de la figure 7 41 reconna  t la phrase de la figure 7 40  parce  que l alphabet contient un   quivalent pour ce caract  re  comme le montre la figure    mn me    FIGURE 7 41     Une grammaire avec un caract  res chinois    52  BO     z2    FIGURE 7 42     Extrait du fichier contenant l alphabet cor  en    Chapitre 8    Automate de S  quences    La construction de grammaires locales peut   tre un long processus durant lequel le lin   guiste r  p  te de nombreuses fois les m  mes op  rations  La finalit   du programme Seq2Grf    est de produire rapidement et automatiquement des grammaires locales     Ce programme peut   tre utilis   en ligne de commande ou en cliquant sur  Construct Se   quences Automaton  dans le menu  Text   L utilisation de la commande Seq2Grf est d  crite       la section 13 35           Pour un docu
84.  documentation and or  other materials provided with the distribution     3  Redistributions in any form must be accompanied by information on how to  obtain complete source code for the software that uses SVNKit and any accom   panying software that uses the software that uses SVNKit  The source code  must either be included in the distribution or be available for no more than the  cost of distribution plus a nominal fee  and must be freely redistributable un   der reasonable conditions  For an executable file  complete source code means  the source code for all modules it contains  It does not include source code for  modules or files that typically accompany the major components of the oper   ating system on which the executable file runs     4  Redistribution in any form without redistributing source code for software that  uses SVNKit is possible only when such redistribution is explictly permitted by  TMate Software  Please  contact TMate Software at support svnkit com to get  such permission     367    368 CHAPITRE 14 FORMATS DE FICHIERS    THIS SOFTWARE IS PROVIDED BY TMATE SOFTWARE    AS IS    AND ANY EX   PRESS OR IMPLIED WARRANTIES  INCLUDING  BUT NOT LIMITED TO  THE  IMPLIED WARRANTIES OF MERCHANTABILITY  FITNESS FOR A PARTICU   LAR PURPOSE  OR NON INFRINGEMENT  ARE DISCLAIMED     IN NO EVENT SHALL TMATE SOFTWARE BE LIABLE FOR ANY DIRECT  IN   DIRECT  INCIDENTAL  SPECIAL  EXEMPLARY  OR CONSEQUENTIAL DAM    AGES  INCLUDING  BUT NOT LIMITED TO  PROCUREMENT OF SUBSTI
85.  e cursentence grf   graphe repr  sentant l   automate de la phrase   e cursentence txt   fichier texte contenant la phrase   e cursentence tok  fichier texte contenant le nombre de token qui compose    la phrase     13 43 Tfst2Unambig    Tfst2Unambig  OPTIONS   lt tfst gt        Ce programme prend un automate de texte  t fst et produit le fichier texte   quiv   alent si celui ci est lin  aire  i e  sans ambigu  t     Voir section 7 6  page 192     OPTIONS      e  o TXT   out TXT   fichier de sortie     302 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES  13 44 Tokenize    Tokenize  OPTIONS   lt txt gt        Ce programme d  coupe le texte en unit  s lexicales   lt txt gt  le chemin d   acc  s com   plet au fichier texte  sans omettre l extension   snt extension     OPTIONS   e  a ALPH   alphabet ALPH   alphabet file     e  c   char_by_char   indique que le programme est appliqu   caract  re par  caract  re    l exception du d  limiteur de phrase  S   du marqueur  STOP  et  d   tiquettes lexicales comme  today    ADV  qui sont consid  r  es comme des  unit  s simples         e    w   word_by_word   Avec cette option  le programme consid  re qu   une  unit   est soit une s  quence de lettres  ces lettres sont d  finies dans le fichier  alphabet   ou un caract  re qui n   est pas une lettre  ou le d  limiteur de phrase   S   ou une   tiquette lexicale comme  aujourd    hui   ADV   C est le mode  par d  faut         t TOKENS   tokens TOKENS   d  signe un fichier a tokens   txt 
86.  elle doit porter sur la forme fl  chie  le lemme  les codes grammaticaux et s  mantiques  et ou les codes flexionnels  Ainsi  si vous voulez rechercher tous les verbes qui ont le trait  s  mantique t  marquant la transitivit    il vous suffit de chercher t en cochant  Grammati     2 4  OUVERTURE D UN TEXTE 31    cal code   Vous obtiendrez ainsi les entr  es voulues  sans ambiguit  s avec toutes les autres  occurrences de la lettre t     BE x    Find   Find Sentence   Dictionary Search                                                                           Find what    Find Next  Replace  Replace Next  Occurrences  0 Replace  Options Count occurrences     Search from begining  Vv  Grammatical code __  Canonical form Replace All  O Search up  _  Inflected form Flexional code Close   a  Search down             FIGURE 2 6     Recherche du trait s  mantique t dans un dictionnaire   lectronique    2 4 Ouverture d   un texte    Unitex propose d ouvrir deux types de fichiers textes  Les fichiers portant l extension   snt  sont des fichiers textes pr  trait  s par Unitex qui sont pr  ts      tre manipul  s par les dif   f  rentes fonctions du syst  me  Les fichiers portant l   extension  txt sont des fichiers bruts   Pour utiliser un texte  il faut donc commencer par ouvrir le fichier  t xt correspondant en  cliquant sur  Open     dans le menu  Text      2 5 Pr  traitement du texte    Une fois le texte s  lectionn    Unitex vous propose de le pr  traiter  Le pr  traitement du texte
87.  en ins  rant  o1d au d  but de son extension  Par exemple   si un fichier ASCII est nomm   biniou txt  le processus de conversion va cr  er une copie  de ce fichier ASCII nomm  e biniou old txt et va remplacer le contenu de biniou txt  par son   quivalent en Unicode        Si le codage propos   par d  faut n   est pas le bon  ou si vous voulez renommer le fichier  autrement qu avec le suffixe   o1d vous pouvez utiliser la commande  Transcode Files  dans  le menu  File Edition   Cette commande vous permet de choisir les codages d   origine et de  destination des documents    convertir  voir figure 2 3   Par d  faut  le codage source propos    est celui qui correspond    la langue courante  et le codage de destination est Unicode Little   Endian  Vous pouvez modifier ces choix  en s  lectionnant n importe quels codages de source  et destination  Ainsi  vous pouvez si vous le souhaitez convertir vos donn  es dans d autres  codages  comme par exemple UTF 8 si vous voulez en faire des pages web  Le bouton  Add  Files  vous permet de s  lectionner les fichiers    convertir  Le bouton  Remove Files  permet  de retirer de la liste des fichiers s  lectionn  s par erreur  Le bouton  Transcode  lancera la       1  Unitex propose   galement de convertir automatiquement les graphes et dictionnaires qui ne sont pas en  Unicode Little Endian     2 2  FORMAT DES TEXTES 29    Transcoding     home paumier Bureau biniou  txt   is not a Unicode Little Endian one  Do you want   to transcode it f
88.  espace           Les anciens codes correspondant     lt WORD gt    lt LOWER gt    lt UPPER gt  et  lt FIRST gt    taient re   spectivement  lt MOT gt    lt MIN gt    lt MAJ gt  et  lt PRE gt   Ils restent op  rationnels afin de conserver la  compatibilit   descendante du syst  me avec les graphes existants  mais ils sont maintenant  d  pr  ci  s  c est    dire qu   on recommande de les   viter dans les graphes con  us pour fonc   tionner avec les versions plus r  centes    pour ne pas faire augmenter inutilement le nombre  de masques lexicaux en usage           Par d  faut  l   espace est facultatif entre deux bo  tes  Si l   on veut interdire la pr  sence de ce s     parateur  il faut utiliser le symbole sp  cial       l inverse  si vous souhaitez forcer la pr  sence  de l   espace  vous devez utiliser la s  quence      Les lettres minuscules et majuscules sont  d  finies par un fichier alphabet  voir chapitre 14   Pour plus de d  tails sur les graphes  voir  le chapitre 5  Pour plus de d  tails sur le d  coupage d   un texte en phrases  voir  21   La gram   maire utilis  e se nomme Sentence fst2 et se trouve dans le r  pertoire suivant         r  pertoire personnel   langue  Graphs Preprocessing Sentence       2     partir de la version 3 1b  ta  r  vision 4072 du 2 octobre 2015     36 CHAPITRE 2  CHARGEMENT D UN TEXTE    L application de cette grammaire    un texte s effectue gr  ce au programme Fst2Txt en  mode MERGE  Cela signifie que les sorties produites par la gramma
89.  et  var1    Ces symboles  d  finissent respectivement le d  but et la fin de la zone    m  moriser  Cr  ez deux bo  tes con   tenant l   une  var1   et l   autre  var1   Ces bo  tes ne doivent rien contenir d autre que le  nom de la variable pr  c  d   de   et suivi d   une parenth  se  Reliez ensuite ces bo  tes    la zone  de la grammaire voulue   Dans le graphe de la figure 5 21  on reconna  t une s  quence com   mengant par un nombre  que l   on stocke dans une variable nomm  e var1  suivi de dollar  ou dollars      m      1 al  VALUE  var1         var Vv    FIGURE 5 21   Utilisation d une variable d entr  e var1    Les noms de variables peuvent contenir des lettres latines non accentu  es  minuscules ou  majuscules  ainsi que des chiffres et le caract  re _  underscore   Unitex fait la diff  rence  entre les lettres minuscules et majuscules     Quand une variable a ainsi   t   d  finie  on peut l utiliser dans les sorties en encadrant son  nom avec le caract  re    La grammaire de la figure 5 22 reconna  t une date form  e d un mois  et d   une ann  e  et produit en sortie la m  me date  mais dans l   ordre ann  e mois     Si on veut utiliser le caract  re   en sortie d   une bo  te  on doit le redoubler  comme le montre  la figure 5 21     Quand une boite red  finit une variable qui avait d  j     t   d  finie  la nouvelle valeur   crase  l   ancienne  Ainsi  si la variable est d  finie dans une boucle  la valeur de la variable juste  apr  s la boucle d  pend du dernie
90.  et un ensemble de valeurs flexion   nelles  il renvoie toutes les formes fl  chies corespondantes  Par exemple  en polon   ais  si le cas instrumental du mot reka doit   tre produit  trois formes doivent   tre ren   voy  es   r  k    instrumental singulier   rekami et rekoma  deux variantes de l instrumen   tal pluriel      reka  lt Case Inst gt         reka  lt Nb sing  Gen fem  Case Inst gt        rekami  lt Nb pl  Gen fem  Case Inst gt      rekoma  lt Nb pl  Gen fem  Case Inst gt       11 3  INT  GRATION    UNITEX 233    La pr  sence d   une interface entre le syst  me de flexion des mots simples et celui des mots  compos  s permet une meilleure modularit   et une ind  pendance de l   un vis    vis de l   autre   Le syt  me de flexion des mots compos  s n   a pas besoin de savoir comment les formes  fl  chies des mots simples sont d  crites  analys  es et g  n  r  es  Il a seulement besoin d un  ensemble de formes correctement fl  chies des constituants des mots compos  s  R  ciproque   ment  le syst  me pour les mots simples ne connait rien de la mani  re dont celui des mots  compos  s combine les formes fournies     113 Int  gration    Unitex    L un des principes majeurs de conception de MULTIFLEX est d     tre aussi ind  pendant  que possible du syst  me de flexion des mots simples  Cependant  l existence d un tel sys   teme est in  vitable parce qu   un mot compos   est form   de mots simples que nous devons    tre en mesure de fl  chir dans le but de fl  chir un mot
91.  ex  cut  es en cliquant sur  Info gt Console     Il est aussi possi   ble de voir les options des differents programmes dans  Info gt Help on commands    voir Figure 13 1   Remarquons que tous les programmes Unitex poss  dent l option   h     help       Help on commands    CheckDic This program is part of Unitex 2 1 version  Compress Copyright    2001 2009 Universit   Paris Est Marne la Vall  e  CompressKr Contact   lt unitex univ mly fr gt   Concord Usage  Convert  OPTIONS   lt text_1 gt    lt text_2 gt   lt text_3 gt        ConcorDiff  lt text_i gt   text file to be converted  OPTIONS    S X   src X  source encoding of the text file to be converted   d X   dest X  encoding of the destination text file  The default value  is LITTLE ENDIAN  Output options    ri  replace  sources files will be replaced by destination files  default     ps PFX  source files will be renamed with the prefix PFX  4 Ill                         FIGURE 13 1     Help on commands    IMPORTANT  plusieurs programmes utilisent le r  pertoire du texte  mon_texte_snt    Ce r  pertoire est cr     par l interface graphique apr  s la normalisation du texte  Si    265    266 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES  vous travaillez en ligne de commande  vous devrez cr  er ce r  pertoire vous m  me    apr  s l ex  cution du programme Normalize     IMPORTANT  2    lorsqu un param  tre contient des espaces  vous devez l entourer  de guillemets pour qu il ne soit pas consid  r   comme plusieurs param  tres
92.  fait en les s  parant par le caract  re    L expression          Je ttutil telle ontnous voustilstelles   lt V gt     reconna  t un pronom suivi par un verbe  Si l   on veut rendre un   l  ment facultatif dans une  expression  il suffit de faire l   union de cet   l  ment avec le mot vide epsilon  Exemples      le  petit  lt E gt   chat reconna  t les s  quences le chat et le petit chat         lt E gt  franco    anglais belge  reconna  t anglais  belge  franco anglais et franco belge    4 6   toile de Kleene    L   toile de Kleene  repr  sent  e par le caract  re   permet de reconna  tre z  ro  une ou  plusieurs occurrences d une expression  L   toile doit   tre plac  e    droite de l   l  ment con   cern    L expression      il fait tr  s   froid    reconna  t il fait froid  il fait tr  s froid  il fait tres tr  s froid  etc  L   toile est prioritaire sur les autres  op  rateurs  Il faut utiliser les parenth  ses pour appliquer l   toile    une expression complexe   L expression         0   0 1 2 3 4 5 6 7 8 9  x  reconna  t un z  ro  suivie d   une virgule et d   une suite   ventuellement vide de chiffres     ATTENTION   il est interdit de rechercher le mot vide avec une expression rationnelle  Si  l on essaye de chercher  0 1 2 3 4 5 6 7 8 9  x  le programme signalera une erreur  comme le montre la figure 4 3        4 7  FILTRES MORPHOLOGIQUES 83     F  ERROR     fessages with a colored background are generated by the interface  not by the external programs   Expression 
93.  gest de zi cu zi     les plus quotidiens  P A Ne cn  eS aroi mai RAT Si apoi recurgem la cainta gi la tot ce ne  P mange E ofer   doctrinele noastre filosofice     l   un d   entre nous ligi i politice   commen  ait      Tante  LAPS EE EE    donne moi le dessus  s   il si daca toate astea nu sintindeajuns   niait      Elle avem si un fel de reminiscenta de regret 108             O All sentences Plain text All sentences Plain text  e    8  Matched sentences Matched sentences          All sentences HTML Allsentences HTML       O Aligned with target concordance Aligned with source concordance   gt     Locate    Clear alignment Align Save alignment Save alignment as    Locate       FIGURE 10 8     Affichages des phrases reconnues          Pour utiliser des textes parall  les  il est int  ressant de retrouver les phrases align  es avec les  phrases reconnues  Il suffit pour cela de s  lectionner pour l   autre texte  le mode d affichage   Aligned with source concordance   Dans ce mode  Unitex filtre les phrases non li  es a des  phrases reconnues dans le texte source  Il est ainsi facile de rechercher une expression dans  un texte et de trouver la phrase correspondante dans l   autre  comme le montre la figure 10 9     10 3  RECHERCHE DE MOTIFS 219    D  My Unitex XAlign funtana xml      mais nous assassinons    sugrum  rn  dar noi asasin  m cu atita  tour de bras  corme nous nongalant    de parc   am minca  am  mangeons  comme nous respira  am face un gest de zi cu zi     ESRIFO
94.  gr  ce    un m  canisme de graphes param  tr  s     La premiere partie de ce chapitre pr  sente le formalisme de ces tables  La seconde partie  d  crit les graphes param  tr  s et le m  canisme de g  n  ration automatique de graphes    par   tir d une table de lexique grammaire     9 1 Les tables de lexique grammaire    Le lexique grammaire est une m  thodologie qui a   t   d  velopp  e par Maurice Gross  et son   quipe du LADL   9    10    39    52    50    51    49    48    45    44    43    42    41     66    86   sur le principe suivant   chaque verbe a des propri  t  s syntaxiques quasiment  uniques  De ce fait  ces propri  t  s doivent   tre syst  matiquement d  crites  car il est impos   sible de pr  voir le comportement pr  cis d   un verbe  Ces descriptions syst  matiques sont  repr  sent  es au moyen de matrices o   les lignes correspondent aux verbes  et les colonnes  aux propri  t  s syntaxiques  Les propri  t  s consid  r  es sont des propri  t  s formelles telles  que le nombre et la nature des compl  ments admis par le verbe et les diff  rentes transfor   mations que ce verbe peut subir  passivation  nominalisation  extraposition  etc    Les matri   ces  plus souvent appel  es tables  sont binaires   un signe   appara  t a l intersection d une  ligne et d une colonne d   une propri  t   si le verbe v  rifie la propri  t    un signe   sinon   Pour plus d information consulter http    infolingu univ mlv fr  o   des tables du  lexique grammaire sont librement t  
95.  graphes contient des raccourcis vers certaines  commandes et permet de manipuler les bo  tes d un graphe en utilisant des  outils   Cette  barre d ic  nes peut   tre d  plac  e en cliquant sur la zone  rugueuse   Elle peut m  me   tre  dissoci  e du graphe et appara  tre alors comme une fen  tre s  par  e  voir figure 5 25   Dans  ce cas  le fait de fermer cette fen  tre replace la barre d ic  nes    sa position initiale  Chaque  graphe poss  de sa propre barre d ic  nes     Les deux premi  res ic  nes sont des raccourcis permettant de sauver et de compiler le graphe   Les cing suivantes correspondent aux op  rations  Copier    Couper    Coller    Redo  et        Undo      5 2    DITION DE GRAPHES 109  S      bx a 2  DC GEE Pala AO oO  lt  gt  sl se  se       FIGURE 5 25     Barre d outils    Les 6 ic  nes suivantes correspondent    des commandes d   dition des bo  tes  La premiere   en forme de fl  che blanche  correspond au mode d   dition normal des bo  tes  Les 5 autres  correspondent    des outils  Pour utiliser un outil  cliquez sur l ic  ne correspondante   le  curseur de la souris changera alors de forme et les clics de la souris seront alors interpr  t  s  de fa  on particuli  re  Voici la description des outils  de gauche    droite      e cr  ation de bo  tes   cr  e une bo  te vide    l endroit du clic   e suppression de bo  tes   supprime la bo  te sur laquelle vous cliquez      e relier des bo  tes    une autre bo  te   cet outil permet de s  lectionner une ou p
96.  la grammaire reconnaissant une suite quelconque de a peut se r    crire en une gram   maire   tendue d   une seule r  gle      S     a     Ces grammaires    galement appel  es r  seaux de transitions r  cursifs  RTN en Anglais  ou dia   grammes de syntaxe  se pr  tent    une repr  sentation graphique conviviale  En effet  le membre  droit d   une r  gle peut   tre repr  sent   par un graphe dont le nom est le membre gauche de  la r  gle     Toutefois  les grammaires Unitex ne sont pas exactement des grammaires alg  briques   ten   dues  car elles int  grent la notion de transduction  Cette notion  emprunt  e aux automates       tats finis  signifie qu   une grammaire peut produire des sorties  Dans un souci de clart     nous utiliserons malgr   tout les termes grammaire ou graphe  Quand une grammaire pro   duira des sorties  nous utiliserons le terme transducteur  par extension de la d  finition d un  transducteur dans le domaine des automates      tats finis     5 2   dition de graphes  5 2 1 Cr  ation d un graphe  Pour cr  er un graphe  cliquez sur  New  dans le menu  FSGraph   5 1      On voit alors apparaitre une fen  tre comme celle de la figure 5 2     Pour pouvoir importer des graphes Intex dans Unitex  il faut les convertir en Unicode  Le  proc  d   de conversion est le m  me que pour les textes  voir section 2 2      Le symbole en forme de fl  che est l     tat initial du graphe  Le symbole compos   d   un rond  contenant un carr   est l   tat final du graphe  La gr
97.  la m  me unit   lexicale  et le r  sultat est la  somme de ceux obtenus pour the et THE     Les figures suivantes montrent les statistiques calcul  es pour chaque mode pour la requ  te   lt have gt  sur ivanhoe snt     Statistics      Left context Right context  would been    been                                     a  thought  the   een  no  received  been  seen  been  been                                              FIGURE 4 10     contexte gauche match contexte droit nombre d   occurrence    92    CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES                            FIGURE 4 11     collocate count                   FIGURE 4 12     collocate  count et d autres informations    Chapitre 5    Grammaires locales    Les grammaires locales sont un moyen puissant de repr  senter la plupart des ph  no   m  nes linguistiques  La premi  re section pr  sentera le formalisme sur lesquel ces gram   maires reposent  Nous verrons ensuite comment construire et pr  senter des grammaires  avec Unitex     5 1 Formalisme des grammaires locales    5 1 1 Grammaires alg  briques    Les grammaires Unitex sont des variantes des grammaires alg  briques    galement ap   pel  es grammaires hors contexte  Une grammaire alg  brique est constitu  e de r  gles de  r    criture  Voici une grammaire qui reconna  t n importe quel nombre de caracteres a      S   gt  aus  S gt e    Les symboles figurant    gauche des regles sont appel  s symboles non terminaux car ils peu   vent   tre r    crits  Les s
98.  le manuel de MULTIFLEX    crit par Agata Savary  l   auteur de  MULTIFLEX     11 1 Mots compos  s    Les mots compos  s  ou MWUs  englobent un ensemble d objets linguistiques difficiles     d  finir et contrevers  s  cf   53    18    Leurs nombreuses d  finitions linguistiques ou prag   matiques   5    22    67    4    37    3    89    88    13   reposent sur trois principaux points      e ils se composent de deux ou plusieurs mots    e ils montrent un certain degr   de non compositionnalit   sur le plan morphologique   distributionnel ou s  mantique    e ils poss  dent un r  f  rent constant et unique    Cependant  les notions de base  un mot  un r  f  rent  la non compositionnalit    et les mesures   degr   de non compositionnalit    utilis  es dans ces d  finitions sont elles m  mes controver   s  es     De fa  on pragmatique  nous consid  rons comme mot compos   une s  quence d unit  s graphiques  contigu  s qui pour des raisons applicatives doivent   tre list  es  d  crites   morphologique   ment  syntaxiquement  s  mantiquement  etc   et trait  es en tant qu   une seule et m  me unit       221    222 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    11 11 Description formelle du comportement flexionnel des mots compos  s    L objectif principal de MULTIFLEX est le m  canisme de flexion des mots compos  s  Ce  ph  nom  ne a   t   analys   en ce qui concerne l anglais  le polonais et le fran  ais dans  87      Evidemment  un processus fiable de flexion des mots simples est un p
99.  les fichiers texte d  crits dans ce chapitre sont cod  s en Unicode  Little Endian     14 1 Codage Unicode    Par d  faut  les fichiers textes manipul  s par Unitex doivent   tre en Unicode  Little Endian  Unitex accepte aussi des fichiers Unicode Big Endian ou UTF 8  Ce  codage permet de repr  senter 65536 caracteres en les codant chacun sur 2 octets   En Little Endian  les octets sont dans l ordre poids faible  poids fort  Quand cet  ordre est invers    on parle de codage Big Endian  Un fichier texte cod   en Little   Endian  Big Endian or UTF 8 commence par le caract  re sp  cial  Unicode Byte Or   der Mark   BOM  de valeur hexad  cimale FF FE  Little Endian   FE FF  Big Endian   ou EF BBBF  UTF 8   Parce que UTF 8 n   a pas d ordre d octet  l ajout d un BOM  UTF 8 est optionnel  pour UTF 16 c   est obligatoire  Les symboles de saut de ligne  doivent   tre cod  s par les deux caract  res 0D 00 et 0A 00  Little Endian   00 0D et  00 0A  Big Endian   ou 0D and 0A  UTF 8               Consid  rons le texte suivant      Unitex   P versionY    Voici la repr  sentation en Unicode Little Endian de ce texte      311    312    CHAPITRE 14 FORMATS DE FICHIERS                                                                         BOM header U n i t e x q B  FF FE 5500   6E00   6900   7400   6500   7800   0DOO0O0A0O B2 03    v e r s i o n 4  2D00 7600   6500   7200   7300   6900   6F 00 6E 00 OD 00 0A 00  TABLE 14 1   Repr  sentation hexad  cimale d un texte Unicode Little Endian  V
100.  library is modified by someone else and passed  on  the recipients should know that what they have is not the original version  so  that the original author   s reputation will not be affected by problems that might be  introduced by others    Finally  software patents pose a constant threat to the existence of any free pro   gram  We wish to make sure that a company cannot effectively restrict the users of  a free program by obtaining a restrictive license from a patent holder  Therefore  we  insist that any patent license obtained for a version of the library must be consistent  with the full freedom of use specified in this license    Most GNU software  including some libraries  is covered by the ordinary GNU  General Public License  This license  the GNU Lesser General Public License  ap   plies to certain designated libraries  and is quite different from the ordinary General  Public License  We use this license for certain libraries in order to permit linking  those libraries into non free programs    When a program is linked with a library  whether statically or using a shared  library  the combination of the two is legally speaking a combined work  a derivative  of the original library  The ordinary General Public License therefore permits such  linking only if the entire combination fits its criteria of freedom  The Lesser General  Public License permits more lax criteria for linking other code with the library    We call this license the  Lesser  General Public Lice
101.  lt grf2 gt     eX a b x y transition a   t   supprim  e  a b src et dst num  ros de bo  tes dans   lt grf1 gt   x y src et dst num  ros de bo  tes dans  lt grf2 gt     Remarquons que les modifications concernant les transitions li  es aux bo  tes  ajout  es ou supprim  es sont rapport  es     13 25  GRFDIFF3 289  13 25 GrfDiff3    GrfDiff3  lt mine gt   lt base gt   lt other gt    lt mine gt    mon fichier  grf  lt other gt    l   autre fichier  grf qui produit un conflit   lt base gt    fichier  grf anc  tre commun    OPTIONS    e     output X   enregistre le r  sultat  le cas   ch  ant  dans X et pas sur la sortie    e     conflicts X   enregistre la description des conflits  le cas   ch  ant  dans X       e   only cosmetic   signale un conflit de tout changement qui n   est pas pure   ment cosm  tique    Essaye de regrouper les  lt mine gt  et  lt other gt   En cas de succ  s  le r  sultat est im   prim   sur la sortie standard et O est renvoy    En cas de conflits non r  solus  1 est  renvoy   et rien n est imprim    2 est renvoy   en cas d   erreur     13 26 ImplodeTfst       ImplodeTfst  OPTIONS   lt tfst gt        Ce programme implose l   automate du texte sp  cifi   en fusionnant ensemble les en   tr  es lexicales qui ne diff  rent que par leurs catact  ristiques flexionnelles     OPTIONS      e  o OUT   output OUT   fichier de sortie  Par d  faut  l   automate du texte est  modifi  e     13 27 Locate    Locate  OPTIONS   lt fst2 gt        Ce programme applique une g
102.  lt txt gt     Ce programme construit un fichier  grf correspondant    l expression rationnelle  contenue dans le fichier  lt txt gt   Le param  tre  lt txt gt  doit repr  senter le chemin  d acces complet au fichier contenant l expression rationnelle  Ce fichier doit   tre un  fichier texte Unicode  Le programme prend en compte tous les caracteres jusqu au  premier retour    ligne  Le fichier r  sultat se nomme regexp grf et est sauvegard    dans le m  me r  pertoire que  lt txt gt      13 35 Seq2Grf    Seq2Grf  OPTIONS   lt snt gt        ce programme construit un fichier  grf qui correspond aux s  quences contenues  dans le fichier  lt snt gt      OPTIONS      e  a ALPH   alphabet ALPH   le fichier alphabet    utiliser     e  o XXX   output XXX   le fichier graphe de sortie     e  s   only stop ne consid  rer que les s  quences s  par  es par  STOP    e  b   beautify   appliquer au graphe l algorithme beautify      e  n   no_beautify   ne pas appliquer au graphe l algorithme beautify    par  d  faut         e     case sensitive  respect de la casse  par d  faut          e   case insensitive   non respect de la casse    e  w x nombre de jokers    e  i x nombre d insertions     e  r x nombre de remplacement     e  d x  nombre de d  litions      298 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    Construire l   automate des s  quences   un unique automate qui reconna  t toutes les  s  quences du SNT  Les s  quences doivent   tre d  limit  es par l   tiquette  STOP      Le 
103.  mauvaises lignes comme      3 14  PI NUM          e  v X Y   variable x yY   d  finit une variable de sortie nomm   X avec un  contenu Y  Remarquons que Y doit   tre ASCII     Options de sortie ambigu  s      e  b   ambiguous_outputs   permet la production de plusieurs matchs avec  la m  me entr  e  mais diff  rentes sorties  par d  faut       e  z   no_ambiguous_outputs   interdit les sorties ambigu  s  Dans le cas de  sorties ambigu  s  l   une sera arbitrairement choisie  en fonction de l     tat interne  du programme     Options d erreur sur les variables   Ces options n   ont aucun effet si le mode de sortie est r  gl   avec    ignore   sinon   elles d  finissent le comportement du programme Locate quand une sortie contient  une r  f  rence    une variable qui n   est pas correctement d  finie     e  X   exit_on_ variable error  arr  te le programme        e  Y   ignore variable errors   agit comme si la variable avait un con   tenu vide  par d  faut         e  Z   backtrack_ on variable errors   arr  ter d explorer le chemin courant  de la grammaire        Injection de variables      292 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  v X Y     variable X Y   d  finit une variable de sortie nomm  e X avec un  contenu Y  Notez que Y doit   tre ASCII     Ce programme enregistre les r  f  rences des occurrences trouv  es dans un fichier  appel   concord ind  Le nombre d occurrences  le nombre d unit  s appartenant     ces occurrences  ainsi que le pourcentage d   u
104.  noble     A l oppos    avec l option  Forbid ambiguous outputs   nous obtenons la concordance de la  figure 6 57  avec seulement une sortie choisie arbitrairement pour la s  quence the noble     154 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Locate Pattern  Locate configuration   Advanced options  Ambiguous output policy         8  Allow ambiguous outputs          Forbid ambiguous outputs   Variable error policy   Note  these options have no effect if outputs are ignored    8  Ignore variable errors    O Exit on variable error       Backtrack on variable error       FIGURE 6 54     Options de recherche avanc  es        DET N     FIGURE 6 55     Graphe avec des sorties ambigu  s    L option  Variable error policy  permet de d  finir le comportement de Locate LocateTfst  lorsqu ils rencontrent une sortie contenant une variable mal d  finie  Remarquons que ce    param  tre n a aucun effet si les sorties sont ignor  es  Consid  rons par exemple le graphe de  la figure 6 58     Avec l option  Ignore variable errors   A est ignor  e  comme si son contenu   tait vide  comme  le montre la figure 6 59     6 10  APPLICATION DES GRAPHES AUX TEXTES 155    Concordance  D  My UnitexiEnglishiCorpu    n   IT    er Scott  S IN THAT PLEASANT DET  merry England which is DET N  watered by  is watered by the river DET N  Don  there  ancient times a large DET A  forest   rest  covering the greater DET     part of  reater part of the beautiful DET A  hills    ls and valleys which lie DET N  b
105.  not price   Our General Public Licenses are designed to make sure that you have the freedom  to distribute copies of free software  and charge for this service if you wish   that  you receive source code or can get it if you want it  that you can change the software  and use pieces of it in new free programs  and that you are informed that you can  do these things    To protect your rights  we need to make restrictions that forbid distributors to  deny you these rights or to ask you to surrender these rights  These restrictions    347    348 CHAPITRE 14 FORMATS DE FICHIERS    translate to certain responsibilities for you if you distribute copies of the library or  if you modify it    For example  if you distribute copies of the library  whether gratis or for a fee   you must give the recipients all the rights that we gave you  You must make sure  that they  too  receive or can get the source code  If you link other code with the  library  you must provide complete object files to the recipients  so that they can  relink them with the library after making changes to the library and recompiling it   And you must show them these terms so they know their rights    We protect your rights with a two step method    1  we copyright the library  and   2  we offer you this license  which gives you legal permission to copy  distribute  and  or modify the library    To protect each distributor  we want to make it very clear that there is no war   ranty for the free library  Also  if the
106.  ont les m  mes  consonnes et different par leurs voyelles  on doit coder les voyelles dans les grammaires de  flexion      Hsb   V3au    compter  Hasaba  yaHosubu  Hsb  V3ii    penser  Hasiba  yaHosibu    Pour copier tout le champ lemme  on peut utiliser l op  rateur  lt LEMMA gt   figure 3 16   De  cette fa  on  un chemin avec tout le champ lemme ne d  pend pas du nombre de lettres  Cet  op  rateur est utile pour les noms et adjectifs arabes pour lesquels les formes du masculin  sont obtenues en ins  rant des voyelles dans le squelette consonantique  alors que celles du  f  minin le sont en ajoutant des suffixes  Dans cet exemple  on a cod      la fois les consonnes  et les voyelles dans le champ lemme     3 6 Compression    Unitex applique aux textes des dictionnaires comprim  s  La compression permet de r     duire la taille des dictionnaires et d en acc  l  rer la consultation  Cette op  ration s effectue  avec le programme Compress  Celui ci prend en entr  e un dictionnaire sous forme de  fichier texte  par exemple mon_dico dic  et produit deux fichiers      3 6  COMPRESSION 65    Lexical Entry si LE  tilomiyo    N400 g FvEvLvvB FaEaaLiBap 1234    tilomiyo    lt LEMMA gt                       talaAmiJap             1a3aA5i9            broken plural  tilmiyo  ap       feminin       FIGURE 3 16     Une grammaire de flexion en mode s  mitique avec l op  rateur  lt LEMMA gt     e mon_dico bin contient l automate minimal des formes fl  chies du dictionnaire         e mon_dic
107.  ou   comme s  parateur  dans les noms de graphes     la place  il vaut mieux utiliser le caract  re   qui joue le r  le  de s  parateur universel  valable quel que soit le syst  me sous lequel vous travaillez  On  peut d   ailleurs voir sur la figure 5 10 que c est ce s  parateur qui est utilis   en interne par le  compilateur de graphe  E   greek delta grf      R  pertoire de d  p  t    Lorsqu on souhaite r  utiliser une grammaire X dans une grammaire Y  une pratique r  pan   due est de recopier tous les graphes de X dans le r  pertoire o   se trouvent les graphes de  Y  ce qui pose deux probl  mes      100 CHAPITRE 5  GRAMMAIRES LOCALES    Messages with a colored background are generated by the interface  not by the external programs   Compiling graph alpha   Compiling graph beta   Compiling graph E  greek delta   Recursion detection started   Resolving  lt E gt  conditions   Looking for  lt E gt  loops   Looking for infinite recursions   Recursion detection completed   Compilation has succeeded         Absolute path name detected  Windows      E  greek delta grf    Absolute path names are not portable                 FIGURE 5 10     Avertissement pour un nom de graphe non portable    e le nombre de graphes dans le r  pertoire devient vite tr  s important     e deux graphes ne peuvent pas avoir le m  me nom     Afin d   viter cela  il est possible de stocker la grammaire X dans un r  pertoire particulier   appel   r  pertoire de d  p  t  Ce r  pertoire est une sorte de bib
108.  permet de d  crire les entr  es lexicales  simples et compos  es d   une langue en leur associant de fa  on optionnelle des informations  grammaticales  s  mantiques et flexionnelles  On distingue deux sortes de dictionnaires   lec   troniques  Le type que l   on utilise le plus couramment est le dictionnaire de formes fl  chies   appel   DELAF  DELA de formes Fl  chies  ou encore DELACF  DELA de formes Compos  es  Fl  chies  lorsqu il s   agit d un dictionnaire de mots compos  s  Le second type est le diction   naire de formes non fl  chies appel   DELAS  DELA de formes Simples  ou DELAC  DELA  de formes Compos  es   Les programmes d Unitex ne font pas de distinction entre les dictio   nnaires de formes simples et compos  es  Nous utiliserons donc les termes DELAF et DELAS  pour d  signer les deux sortes de dictionnaires que leurs entr  es soient simples  compos  es  ou mixtes     3 1 1 Format des DELAF    Syntaxe d   une entr  e    Une entr  e d   un DELAF est une ligne de texte termin  e par un retour    la ligne qui  respecte le sch  ma suivant         mercantiles mercantile A zl mp fp ceci est un exemple    Les diff  rents   l  ments qui forment cette ligne sont les suivants      e mercantiles est la forme fl  chie de l entr  e  Cette forme fl  chie est obligatoire      45    46    CHAPITRE 3  DICTIONNAIRES    mercantile est la forme canonique  lemme  de l entr  e  Pour les noms et les adjec   tifs  il s   agit en g  n  ral de la forme au masculin singulier   pour les v
109.  plusieurs interpr  tations flexionnelles diff  rentes  comme par exem   ple   se   PRO PpvLE 3ms 3fs 3mp 3fp         7 3  LEV  E D AMBIGUI  T  S LEXICALES AVEC ELAG 177     E FST Text          3 sentences La porte du car se ferme automatiquement        Sentence   3      Reset Sentence Graph    Rebuild FST Text  close elag frame    Explode  ferme  ES PROxP  3fs 3ms 3fp 3mp fme N  ba  WY 2z1 P1s P38 51s  Implode                         ON          Apply Elag Rule  Explode          Implode    Replace                      FIGURE 7 18     Fen  tre de l   automate du texte s  par  e en deux    des fichiers  1st  Ils sont g  r  s depuis la fen  tre de compilation des grammaires ELAG   figure 7 16   Le label en haut    gauche indique le nom de l   ensemble courant  par d  faut  elag 1st C est le contenu de cet ensemble qui est affich   dans le cadre droit de la fen  tre     Pour modifier le nom de l   ensemble  cliquez sur le bouton  Browse   Dans la bo  te de dia   logue qui appara  t alors  choisissez le nom du fichier  1st que vous voulez donner    votre  ensemble     Pour ajouter une grammaire    l   ensemble  s  lectionnez la dans l explorateur de fichiers  du cadre gauche  et cliquez sur le bouton     Pour retirer une grammaire de l   ensemble   s  lectionnez la dans le cadre droit et cliquez sur le bouton     Une fois que vous avez s  lec   tionn   toutes vos grammaires  compilez les en cliquant sur le bouton  Compile   Cela cr  era  un fichier  rul portant le nom indiqu   en
110.  sous MacOS X    NOTE   ce court tutoriel va vous expliquer comment installer et ex  cuter Unitex sous Mac OS  X  Vos questions  commentaires  suggestions  corrections sont plus que bienvenus  Contact    cedrick fairon uclouvain be    Une version officielle Oracle de Java existe pour MacOS X 10 7 3  Lion  et plus r  cent  Voir  section    Informations et configuration minimale requise pour l installation et l   utilisation  d Oracle Java sur Mac OS X        https   www java com fr download faq java_  mac xml    Il existe une distribution Java d Apple for MacOS X 10 7 and higher  Voir https   support   apple com kb DL1572  Pour OS X 10 6  il existe une autre distribution Apple sur https     support apple com kb DL1573     Une version officielle de Java 1 6 existe pour MacOS X 10 5  64 bit Intel  Core 2 Duo   mais  il n   y a pas de solution officielle pour les anciens OS X  10 4 ou plus anciens   PowerPC et  32 bit Intel  Core Duo   Ainsi  si vous avez OS X 10 5  un MacOS 64 bit Intel  il vous suffit de  vous procurer la JRE 1 6  Apple  Le seul probl  me est que cette version ne d  marre pas par  d  faut  Voir section    Java pour Mac OS X 10 5 Update 10        https   support apple   com kb DL1359   Comment savoir si mon processeur est un 32 ou un 64 bits     Dans le menu Apple  cliquez sur  About this Mac   Si vous voyez quelquechose comme     Processor   x xx Ghz Intel Core Duo   votre processeur est un 32 bits     Si vous voyez  Processeur   x xx Ghz Intel Core 2 Duo   ou 
111.  suivie soit le nombre 0 pour  cat  tags ou  1 pour  morph                     REMARQUE      l   tape finale  TrainingTagger comprime ces deux fichiers de don   n  es au format  bin     14 11 Fichier de configuration    14 11 1 Fichier Config    Lorsque l utilisateur modifie ses pr  f  rences pour une langue donn  e  celles ci  sont sauvegard  es dans un fichier texte nomm   Config qui se trouve dans le r  per   toire de la langue courante  Ce fichier a la syntaxe suivante  l   ordre des lignes peut  varier        Unitex configuration file of  paumier    for  English Y   Fri Oct 10 15 18 06 CEST 20081   TEXT  FONT  NAME Courier New    TEXT  FONT  STYLE 04   TEXT  FONT  SIZE 10    CONCORDANCE  FONT  NAME Courier new   CONCORDANCE  FONT  HTML  SIZE 124   INPUT  FONT  NAME Times New Roman      INPUT  FONT  STYLE 04   INPUT  FONT  SIZE 104                                           CHAPITRE 14  FORMATS DE FICHIERS  FONT  NAME Arial Unicode MSY             338  OUTPUTA  OUTPUT  FONT  STYLE 14  OUTPUT  FONT  SIZE 124          DATE trueY  FILE  NAME trueY       PATH  NAME falseY  FRAME true          RIGHT  TOY LEFT false  BACKGROUND  COLOR  14          FOREGROUND  COLOR  167772164          AUXILIARY  NODES  COLOR  32896514  COMMENT  NODES  COLOR  655364  SELECTED  NODES  COLOR  167769614  PACKAGE  NODES  COLOR  23029764  CONTEXT  NODES  COLOR  167119364                               CHAR  BY  CHAR falsef       ANTIALIASING false                 HTML  VI        EWER            MAX  TE
112.  t n importe quelle lettre d  finie dans le fichier alphabet         lt LOWER gt  reconna  t n importe quelle minuscule d  finie dans le fichier alphabet    lt UPPER gt  reconna  t n importe quelle majuscule d  finie dans le fichier alphabet      lt DIC gt  reconna  t n importe quel mot pr  sent dans un dictionnaire du mode mor   phologique  mais les m  ta symboles     lt FIRST gt    lt NB gt    lt SDIC gt  et lt CDIC gt  sont in   terdits           Si on atteint la fin de la zone sans   tre    la fin du token  la reconnaissance   choue  Par  exemple  si le texte contient enabled  on ne peut pas reconna  tre seulement enable                 Les anciens codes correspondant     lt LETTER gt    lt LOWER gt  et  lt UPPER gt    taient respectivement   lt MOT gt    lt MIN gt  et  lt MAJ gt   Ils restent op  rationnels afin de conserver la compatibilit   descen   dante du syst  me avec les graphes existants  mais ils sont maintenant d  pr  ci  s  c est    dire  qu on recommande de les   viter dans les graphes con  us pour fonctionner avec les versions  plus r  centes    pour ne pas faire augmenter inutilement le nombre de masques lexicaux en  usage        6 43 Dictionnaires du mode morphologique    Dans le mode morphologique  on peut faire des requ  tes qui utilisent les dictionnaires   Par exemple  la grammaire de la figure 6 32 cherche les mots constitu  s du pr  fixe un suivi  d un adjectif     6 4  LE MODE MORPHOLOGIQUE 139     ua    lt A gt  lt  lt able  gt  gt      gt     0  F
113.  telles que la normal   isation de formes non ambigu  s et le d  coupage du texte en phrases  Une fois ces op  rations  effectu  es  des dictionnaires   lectroniques sont appliqu  s aux textes  On peut alors effectuer  des recherches sur ces textes en leur appliquant des grammaires     Ce chapitre d  crit les diff  rentes   tapes du pr  traitement des textes     2 1 S  lection de la langue    Lors du lancement d   Unitex  le programme vous demande de choisir la langue dans laque   lle vous allez travailler  voir figure 2 1   Les langues propos  es sont celles qui sont pr  sentes  dans le r  pertoire syst  me Unitex ainsi que celles   ventuellement install  es dans votre r  per   toire de travail  Si vous utilisez une langue pour la premi  re fois  Unitex recopie le r  pertoire  syst  me de cette langue dans votre r  pertoire de travail     l exception des dictionnaires  afin  d   conomiser de l   espace disque     Attention  si vous avez d  j   un r  pertoire de travail pour une langue donn  e  Unitex n es   saiera pas de recopier les donn  es syst  me dedans  Ainsi  si une mise    jour a modifi    un fichier de ressource autre qu   un dictionnaire  il vous faudra soit faire une mise    jour  manuelle du fichier dans votre r  pertoire de travail  soit supprimer votre r  pertoire pour la  langue concern  e et laisser    Unitex le soin de le recr  er     Le choix de la langue permet d indiquer    Unitex o   trouver certaines donn  es  comme  par exemple le fichier alphabet  Vou
114.  tement lin  aire  un message d erreur vous indiquera le num  ro  de la premi  re phrase contenant une ambigu  t    Sinon  le programme T  fst2Unambig con   struira le fichier de sortie selon les principes suivants         e le fichier de sortie contient une ligne par phrase   e toutes les phrases sauf la derni  re sont termin  es par  S       e pour chaque bo  te  le programme   crit son contenu suivi par un espace     NOTE  la gestion des espaces est enti  rement laiss  e    l utilisateur  Ainsi  si le texte d   origine  est celui de l   automate de phrase de la figure 7 32  le texte produit sera      2 3  cats cat N Anl p   are be V P2s Plp P2p P3p   white white A     7 7 Recherche de motifs dans l   automate du texte    Le programme LocateTfst d Unitex peut effectuer des recherches sur l automate du  texte  Les principaux avantages sont que vous pouvez      e b  n  ficier de la suppression de l   ambiguit      e b  n  ficier de l application de grammaire de normalisation  voir ci dessous       e travailler    plusieurs niveaux morphologiques  mots compos  s  mots simples mor   ph  mes   C est particuli  rement int  ressant car vous pouvez facilement manipuler les  langues agglutinantes comme le cor  en  pour le cor  en  voir section 7 9      7 7  RECHERCHE DE MOTIFS DANS L AUTOMATE DU TEXTE 193    2 3  cats cat N inl p   are be V P2s Pip P2p P3p   1     vhite  vhite A            Reset Sentence Graph      C mmmrsrrex     cose egin      Explode  Implode          1 sentence 
115.  the start of each source file to most effectively convey the exclusion  of warranty   and each file should have at least the  copyright  line and a pointer to  where the full notice is found     lt one line to give the library   s name and a brief idea of what it does  gt  Copyright   C   lt year gt   lt name of author gt    This library is free software  you can redistribute it and or modify it under the  terms of the GNU Lesser General Public License as published by the Free Software  Foundation  either version 2 1 of the License  or  at your option  any later version    This library is distributed in the hope that it will be useful  but WITHOUT ANY  WARRANTY   without even the implied warranty of MERCHANTABILITY or FIT   NESS FOR A PARTICULAR PURPOSE  See the GNU Lesser General Public License  for more details    You should have received a copy of the GNU Lesser General Public License along  with this library   if not  write to the Free Software Foundation  Inc   59 Temple Place   Suite 330  Boston  MA 02111 1307 USA   Also add information on how to contact you by electronic and paper mail    You should also get your employer  if you work as a programmer  or your  school  if any  to sign a  copyright disclaimer  for the library  if necessary  Here is  a sample  alter the names     Yoyodyne  Inc   hereby disclaims all copyright interest in the library    Frob     a  library for tweaking knobs  written by James Random Hacker     lt signature of Ty Coon gt   1 April 1990 Ty 
116.  transducteurs suppl  mentaires afin d obtenir  la sortie souhait  e  Le texte r  sultant directement des transducteurs est sauveg   ard   dans le fichier exemple _csc raw  et la version XML is  e est dans le fichier  exemple_csc txt    Plus pr  cisement  les   tiquettes lexicales sont dans le format suivant      forme lemme  codel code2 flexl flex2    La sortie de type XML correspondante a le format suivant                               lt csc gt    lt form gt forme lt  form gt    lt lem gt lemme lt  lem gt    lt code gt codel lt  code gt    lt code gt code2 lt  code gt    lt inflect gt flex1 lt  inflect gt    lt inflect gt flex2 lt  inflect gt    lt  csc gt   La DTD de notre format est la suivante     lt  xml version  1 0  encoding  1S0 8859 1  2 gt            lt  ELEMENT text   PCDATA csc     gt     lt  ELEMENT csc  form  lem   codex inflectx    gt     lt  ELEMENT form   PCDATA csc    gt     lt  ELEMENT lem   PCDATA   gt   T  T           lt   ELEMEN code   PCDATA  gt    lt  ELEMENT inflect   PCDATA  gt                    264 CHAPITRE 12  CASCADE DE TRANSDUCTEURS    Chapitre 13    Utilisation des programmes externes    Ce chapitre pr  sente l   utilisation des diff  rents programmes qui composent Uni   tex  Ces programmes  qui se trouvent dans le r  pertoire Unitex App  sont appel  s  automatiquement par l interface  en fait  UnitexToolLogger est appel    afin de  r  duire de mani  re importante la taille du fichier zip   Il est possible de voir les  commandes qui ont   t  
117.  un clic simultan    avec les boutons gauche et droit      La liste des graphes appel  s par le graphe courant et celle des graphes qui appellent le  graphe courant peuvent   tre affich  es en cliquant sur le second et troisi  me bouton du  quatri  me groupe de boutons de la barre d outils  figure 5 15  voir aussi figure 5 25  sec   tion 5 2 8   Dans ces listes de sous graphes      e les sous graphes directement appel  s par le graphe courant apparaissent avec leur  simple nom de fichier    e les sous graphes indirectement appel  s par l un des graphes appel  s par le graphe  courant apparaissent avec une fleche devant leurs nom    e les sous graphes qui apparaissent dans des graphes appel  s par le graphe courant sans    tre connect  s et donc non trait  s ont leur nom en orange    e les sous graphes non trouv  s  ni en  grf ni en  fst2  apparaissent en rouge     5 2 3 Manipulation des bo  tes    Vous pouvez s  lectionner plusieurs bo  tes au moyen de la souris  Pour cela  cliquez et  d  placez la souris sans rel  cher le bouton  Lorsque vous rel  cherez le bouton  toutes les  bo  tes touch  es par le rectangle de s  lection seront s  lectionn  es et s afficheront alors en  blanc sur fond bleu  figure 5 16      Vous pouvez s  lectionner plusieurs bo  tes en maintenant les touches  lt CTRL gt  et  lt SHIFT gt   et en cliquant sur chaque bo  te    ajouter    la s  lection  De cette mani  re  vous pouvez s  lec   tionner plusieurs bo  tes sans avoir    s  lectionner une zone co
118.  variable  n est pas d  finie en utilisant  xxx UNSETS   La figure 6 51 montre un graphe qui utilise ce  type de test  La figure 6 52 montre les r  sultats obtenus par ce graphe en mode MERGE               a  UNSET   ADV FALSE     FIGURE 6 51     Test d   une variable      a Concordance  D  My UnitexiEnglishiCorpus ivanhoe    no a Bd      200 matches    upon which he had hitherto ridden  ADV TRUE  to the  served that he had included  ADY FALSE  in his       h the Conquest had inflicted  ADV FALSE   and to    l Rebecca  who had joined  ADV FALSE  him at Ashby   mpanion Wamba  had just entered  ADY TRUE  the hall   ess as the Jew had laid  ADV FALSE  aside on the                FIGURE 6 52     R  sultats d   un test de variable    6 9  OP  RATIONS SUR LES VARIABLES 151    6 9 2 Comparaison de variables    Il est   galement possible de comparer tout type de variable  d entr  e  de sortie  ou de  dictionnaire  avec une constante ou une autre variable  Ceci se fait en ins  rant dans la sortie  d une bo  te une s  quence respectant la syntaxe suivante         Sabc EQUAL xyz     Cela agit comme un interrupteur qui permet de bloquer l exploration de grammaire si la  valeur de la variable abc est diff  rente de la valeur de la variable xyz  Remarquons que pour  les variables de dictionnaire  c   est la forme fl  chie telle qu   elle existe dans le dictionnaire   attention aux variantes de casse    qui est utilis  e pour le test  Si vous d  sirez comparer la  variable abc    la constan
119.  version d arriv  e  du fichier texte    Il faut obligatoirement sp  cifier les deux tailles     Converti un fichier d   offset indiquant les plages de caract  res identiques en fichier  indiquant les caract  res supprim  s     13 15 Elag    Elag  OPTIONS   lt tfst gt        Ce programme prend un fichier  tfst automate de texte  lt t  st gt  et lui applique  des r  gles de lev  e d ambiguit  s     OPTIONS      e  1 LANG   language LANG  Le fichier de configuration ELAG pour la langue  consid  r  e       e  r RULES      rules RULES   le fichier de r  gles compil  es au format  rul     e  o OUT   output OUT   l automate du texte de sortie     13 16 ElagComp       ElagComp  OPTIONS   Ce programme compile une grammaire ELAG dont le nom est GRAMMAR  ou toutes  les grammaires sont sp  cifi  es dans le fichier RULES  Le r  sultat est stock   dans un    fichier OUT qui pourra   tre utilis   par le programme Elag     OPTIONS        e  r RULES      rules RULES  fichier listant des grammaires ELAG    e  g GRAMMAR   grammar GRAMMAR   une grammaire ELAG donn  e      e  1 LANG   language LANG  le fichier de configuration ELAG pour la langue  consid  r  e     e  o OUT   output OUT   nom du fichier de sortie  Par d  faut  le fichier de  sortie est identique    RULES  sauf pour l extension qui est  rul     13 17  EVAMB 283  13 17 Evamb    Evamb  OPTIONS   lt tfst gt        Ce programme calcule un taux d   ambiguit   moyen sur tout l   automate du texte   lt tfst gt   ou juste sur la phrase sp
120.  vuk gladan kao vuk AC_A3XN2 slmgda  hungry as a wolf  gladan kao vuk gladan kao vuk AC_A3XN2 slmgka  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 slfgea  hungry as a wolf  gladno kao vuk gladan kao vuk AC_A3XN2 singea  hungry as a wolf    gladnoga kao vuk gladan kao vuk AC_A3XN2 s2mgda  hungry as a wolf  gladnog kao vuk gladan kao vuk AC_A3XN2 s2mgda  hungry as a wolf   gladna kao vuk gladan kao vuk AC_A3XN2 s2mgka  hungry as a wolf   gladne kao vuk gladan kao vuk AC_A3XN2 s2fgea  hungry as a wolf   gladnoga kao vuk gladan kao vuk AC_A3XN2 s2ngda  hungry as a wolf  gladnog kao vuk gladan kao vuk AC_A3XN2 s2ngda  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 s2ngka  hungry as a wolf  gladnome kao vuk gladan kao vuk AC_A3XN2 s3mgda  hungry as a wolf  gladnom kao vuk gladan kao vuk AC_A3XN2 s3mgda  hungry as a wolf  gladnu kao vuk gladan kao vuk AC_A3XN2 s3mgka  hungry as a wolf  gladnoj kao vuk gladan kao vuk AC_A3XN2 s3fgea  hungry as a wolf  gladnome kao vuk gladan kao vuk AC_A3XN2 s3ngda  hungry as a wolf  gladnom kao vuk gladan kao vuk AC_A3XN2 s3ngda  hungry as a wolf                                                 gladnu kao vuk gladan kao vuk AC_A3XN2 s3ngka  hungry as a wolf  gladnu kao vuk gladan kao vuk AC_A3XN2 s4fgea  hungry as a wolf  gladno kao vuk gladan kao vuk AC_A3XN2 s4ngea  hungry as a wolf  gladni kao vuk gladan kao vuk AC_A3XN2 s5mgea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 s5fgea  hungry as a wolf  gladno kao vuk 
121. 0   Grammaire de d  coupage en phrases pour le fran  ais    Lorsqu un chemin de la grammaire reconna  t une s  quence dans le texte et que ce chemin  produit le symbole d  limiteur de phrases  S   on ins  re ce symbole dans le texte  Ainsi     2 5  PR  TRAITEMENT DU TEXTE 35    un chemin de la grammaire de la figure 2 10 reconna  t la s  quence compos  e d   un point  d interrogation et d   un mot commen  ant par une majuscule et ins  re le symbole  S  entre  le point d interrogation et le mot suivant  Le texte suivant      Quelle heure est il   Huit heures   deviendrait donc    Quelle heure est il   S  Huit heures     Une grammaire de d  coupage peut manipuler les symboles sp  ciaux  ou m  ta symboles   suivants      e  lt E gt    mot vide  ou epsilon  Reconnait la s  quence vide    e  lt WORD gt    reconna  t n importe quelle suite de lettres     e  lt LOWER gt    reconna  t n importe quelle suite de lettres minuscules     e  lt UPPER gt    reconna  t n importe quelle suite de lettres majuscules     e  lt FIRST gt    reconna  t n importe quelle suite de lettres commen  ant par une majuscule      e  lt NB gt    reconna  t n importe quelle suite de chiffres contigus  1234 est reconnu mais pas  1 234      e  lt PNC gt    reconna  t les symboles de ponctuation        ainsi que les points d exclamation  et d interrogation invers  s de l espagnol et quelques signes de ponctuation asiatiques      e  lt     gt   reconna  t un retour    la ligne     e    interdit la pr  sence de l  
122. 1 N Comp p5v    N2X1 N Comp p       N2X1 N Comp p          ve NC_N2X1 N Comp p  ve NC_N2X1 N Comp p  ve NC_N2X1 N Comp p  ve NC_N2X1 N Comp p   NC_N2X1 N Comp w2v   NC_N2X1 N Comp w2v   NC_N2X1 N Comp w4v   NC_N2X1 N Comp w4v  _AXN3 N Comp NProp           Ujedinxenim nacijama Ujedinxene nacij  Ujedinxene nacije Ujedinxene nacije NC  Ujedinxene nacije Ujedinxene nacije NC                Ujedinxenih nacija Ujedinxene nacije NC_AXN3 N Comp NProp   NC_AXN3 N Comp NProp Org fp3q        NC_AXN3 N Comp NPr    _AXN34    FN Comp NP rop        _AXN34       Ujedinxenima nacijama Ujedinxene nacij  Ujedinxenim nacijama  Ujedinxene nacij  Ujedinxenima nacijama Ujedinxene nacij                Ujedinxenim nacijama  Ujedinxene nacij    Kosovom i Metohijom Kosovo i Metohija   Kosovu i Metohiji Kosovo i Metohija NC       istrazxne sudije istrazxni sudija NC_AXNF N        Kosovo i Metohija Kosovo i Metohija NC_     Kosova i Metohije  Kosovo i Metohija NC_   Kosovu i Metohiji Kosovo i Metohija NC_   Kosovo i Metohiju  Kosovo i Metohija NC_   Kosovo i Metohijo Kosovo i Metohija NC_          NC_AXN3 N Comp NP  C_AXN3 N Comp NPr    NC_AXN3 N Comp NP  C_AXN3 N Comp NPr  3XN N Comp NP rop   3XN N Comp NProp 1  3XN N Comp NProp 1  3XN N Comp NProp   3XN N Comp NP rop   _N3XN N Comp NProp    Comp 1vfp             FN Comp NP rop                                               istrazxnih sudija istrazxni sudija NC_AXNF N Comp 2vfp  istrazxnima sudijama istrazxni sudija NC_AXNF N Comp  3vfp  istrazxnim sudij
123. 23    Pour revenir    la configuration d   origine  tapez         defaults write com apple Finder AppleShowAllFiles OFF    1 6 Premi  re utilisation    Si vous travaillez sous Windows  le programme vous demandera de choisir un r  pertoire  personnel de travail  que vous pourrez changer ult  rieurement dans  Info gt Preferences    gt Di   rectories   Pour cr  er un r  pertoire  cliquez sur l ic  ne repr  sentant un dossier  voir figure  1 4      Sous Linux et MacOS  le programme cr  era automatiquement un r  pertoire personnel de  travail  appel    unitex  dans votre r  pertoire  HOME        Le r  pertoire personnel de travail  ou r  pertoire de l utilisateur  vous permettra de stocker  vos donn  es Unitex personnelles  Pour chaque langue que vous utiliserez  le programme  copiera l arborescence de la langue dans votre r  pertoire de travail     l exception des dic   tionnaires  Vous pourrez ainsi modifier    votre guise votre copie des donn  es sans risquer  d endommager les donn  es du syst  me  stock  es dans le r  pertoire syst  me Unitex     Welcome  Welcome paumier     To use Unitex  you must choose a private  directory to store your data  that you  can change later if you want      Click on OK to choose your directory        FIGURE 1 2     Premi  re utilisation sous Windows    1 7 Ajout de nouvelles langues    Il y a deux mani  res d ajouter des langues  Si vous d  sirez ajouter une nouvelle langue  accessible    tous les utilisateurs  il vous faut copier le r  pertoire
124. 267  13 2 La console    Lorsque Unitex lance un programme externe  la ligne de commande appel  e est  m  moris  e dans la console  Pour la voir  cliquez sur Info     gt  Console     Quand une  commande n   met aucun message d erreur  elle est affich  e avec une ic  ne verte   Sinon  l ic  ne est un triangle rouge sur lequel vous pouvez cliquer pour voir les  messages d erreur  comme indiqu   sur la figure 13 3   Ceci est utile lorsque un mes   sage d erreur se produit si vite que vous ne pouvez pas le lire  Si une commande a    t   enregistr  e  son num  ro de log appara  t dans la deuxi  me colonne  Notez que  vous pouvez exporter toutes les commandes affich  es dans la console vers le presse   papiers avec Ctrl   C          home paumier Unitex2 1beta App UnitexToolLogger  Tfst2Grf   home paumier unite    home paumier Unitex2 1beta App UnitexToolLogger  Tfst2Grf   home paumier unite    hhome paumier Unitex2 1beta App UnitexToolLogger  Reg2Grf   home paumier unite    home paumier Unitex2 1beta App UnitexToolLogger  Grf2Fst2   home paumier unitex    home paumier Unitex2 1beta App UnitexToolLogger  Locate   t home paumier unite    home paumier Unitex2 1beta App UnitexToolLogger    CreateLog  d   home paumier     home paumier Unitex2 1beta App UnitexToolLogger    CreateLog  d   home paumier     home paumier Unitex2 1beta App UnitexToolLogger    CreateLog  d   home paumier     home paumier Unitex2 1beta App UnitexToolLogger    CreateLog  d   home paumier   Cannot open the graph t
125. 2vm  avioprevoznika avio prevoznik NC_2XN2 N Comp w4vm  predsednik drzxave  predsednik drzxave NC_N2X1 N Comp slvm       predsednika drzxave predsednik drzxave  predsedniku drzxave  predsednik drzxave  predsednika drzxave predsednik drzxave  predsednicye drzxave  predsednik drzxav  predsednikom drzxave  predsednik drzxav    predsedniku drzxave predsednik drzxave   predsednici drzxave predsednik drzxave   predsednici drzxava predsednik drzxave   predsednika drzxave predsednik drzxave   predsednika drzxava predsednik drzxave     predsednicima drzxave  predsednik drzxa  predsednicima drzxava predsednik drzxa    predsednike drzxave predsednik drzxave   predsednike drzxava predsednik drzxave   predsednici drzxave predsednik drzxave   predsednici drzxava predsednik drzxave                 predsednicima drzxave  predsednik drzxa  predsednicima drzxava predsednik drzxa  predsednicima drzxave predsednik drzxa  predsednicima drzxava predsednik drzxa  predsednika drzxave predsednik drzxave  predsednika drzxava predsednik drzxave  predsednika drzxave predsednik drzxave  predsednika drzxava predsednik drzxave  Ujedinxene nacije  Ujedinxene nacije NC          Ujedinxenima nacijama  Ujedinxene nacij             C_N2X1 N Comp s2v   NC_N2X1 N Comp  s3v   C_N2X1 N Comp s4v  e NC_N2X1 N Comp s5  e NC_N2X1 N Comp s6  C_N2X1 N Comp s7v  C_N2X1 N Comp plv  C_N2X1 N Comp plv  C  C          N2X1 N Comp p2v  N2X1 N Comp p2v  ve NC_   ve NC_   _N2X1 N Comp p4v  _N2X1 N Comp p4v  _N2X1 N Comp p5v  _N2X
126. 342 CHAPITRE 14 FORMATS DE FICHIERS    e simple forms   nombre total dans le texte d   unit  s lexicales compos  es de  lettres  Le nombre entre parentheses repr  sente le nombre d unit  s lexicales  diff  rentes qui sont compos  es de lettres      e digits   nombre total dans le texte de chiffres  Le nombre entre parenth  ses  indique le nombre de chiffres diff  rents utilis  s  au plus 10      14 134 Fichier concord n    Le fichier concord n est un fichier texte qui se trouve dans le r  pertoire du  texte  Il contient des informations sur la derni  re recherche de motifs effectu  e sur  ce texte et se pr  sente de la mani  re suivante      6 matches  6 recognized units    0 004  of the text is covered     La premi  re ligne donne le nombre d   occurrences trouv  es  la seconde le nombre  d   unit  s couvertes par ces occurrences  La troisi  me ligne indique le rapport entre  le nombre d   unit  s couvertes et le nombre total d   unit  s du texte     14 135 Fichier concord_tfst n    Le fichier concord_t fst  n est un fichier texte qui se trouve dans le r  pertoire  du texte  Il contient des informations sur la derni  re recherche sur l automate du  texte et ressemble    ce qui suit      23 matches  45 outputs     14 13 6 Fichier r  gles de normalisation    Ce fichier est utilis   par les programmes Normalization et XMLi zer  Il repr  sente  r  gles de normalisation  Chaque ligne repr  sente une r  gle  selon le format suivant    gt  repr  sente le caract  re de tabulation   
127. 5 3 2 Zoom    Le sous menu  Zoom  vous permet de choisir l   chelle    laquelle sera affich   le graphe     L option  Fit in screen    tire ou r  tr  cit le graphe pour lui donner la taille de l   cran  L option   Fit in window  ajuste le graphe pour qu il soit enti  rement affich   dans la fen  tre              5 3  OPTIONS DE PR  SENTATION 111        Tools       Format    Close all          Fit in screen  O Fit in window  O 60   O 80       100   O 120   O 140                 FIGURE 5 27     Sous menu Zoom    5 3 3 Antialiasing    L   antialiasing est un effet de rendu qui permet d   viter l   effet de pixellisation  Vous pou   vez activer cet effet en cliquant sur  Antialiasing     dans le sous menu  Format   La fig   ure 5 28 montre deux graphes affich  s normalement  graphe du haut  et avec antialiasing   graphe du bas      Cet effet ralentit l ex  cution d Unitex  Nous vous conseillons de ne pas l utiliser si votre  machine est peu puissante     5 34 Alignement des bo  tes    Afin d obtenir des graphes harmonieux  il est utile de pouvoir aligner les bo  tes  aussi  bien horizontalement que verticalement  Pour cela  s  lectionnez les bo  tes    aligner et cli   quez sur  Alignment     dans le sous menu  Format  du menu  FSGraph  ou appuyez sur   lt Ctrl M gt   Vous voyez alors appara  tre la fen  tre de la figure 5 29     Les possibilit  s d   alignement horizontal sont    e Top   les bo  tes sont align  es sur la bo  te la plus haute    e Center   les bo  tes sont toutes
128. 75  177  282  334  Sentence fst2 35     snt  33  295  302  304  311  319  stat_dic n  278  341  stats n  38  303  341  system_dic def 339  tags_err  328  341  tags_err n  341   tagset def  333   tags ind  328   text  cod  38  302  319  text tfst  304  320  text tind  304  323    tfst  282  tfst_tags_by_alph txt  324  tfst_tags_by_freq txt  324  tok_by_alph txt  38  303  320  tok_by_freq txt  38  303  320  tokens  txt  38  302  319  train_dict  336     txt  157  274  311  319  Unitex3 1beta zip  20  Unitex  jar  20  24  user_dic def  340       alphabet  27  35  38  52  67  274  286     289  292  302  304  de log programmes Unitex  343    387    de mots interdits  343  des r  gles typographiques de l arabe   344  formats  311  HTML  87  157  information dictionnaire  331  r  gles de normalisation  342  tagset def  178  182 184  texte  31  311  param  tres de codage  268  transcodage  28  Fichier de log programmes Unitex  309  Filtre morphologique  68  83  flex  180  Flexion automatique  55  119  294  Format  de fichier  311  des textes  28  Forme  canonique  46  fl  chie  45    G  G  n  ration du dictionnaire des mots com   pos  s cor  ens  268  GlossaNet  273  326  Grammaires  alg  briques   tendues  94  collection  176  context free  93  contraintes  125  de flexion  55  d  coupage en phrases  34  ELAG  123  formalisme  93  lev  e d ambiguit  s  171  locales  122  normalisation  de formes non ambigu  s  36  120  de l automate du texte  121  pour la reconnaissance de fin de ph
129. Annexe A   GNU Lesser General Public License 347  Annexe B   Licences du type BSD    2 clauses 357  Annexe C   Licence Apache de Xerces2 361  Annexe D   Licence MIT de LibYAML 365    Annexe E   Licence open source TMate de SVNKit 367    TABLE DES MATI  RES 11    Annexe F   Lesser General Public License For Linguistic Resources 369  Bibliographie 375    Index 383    12    TABLE DES MATI  RES    Introduction    Unitex est un ensemble de logiciels permettant de traiter des textes en langues naturelles  en utilisant des ressources linguistiques  Ces ressources se pr  sentent sous la forme de dic   tionnaires   lectroniques  de grammaires et de tables de lexique grammaire  Elles sont issues  de travaux initi  s sur le fran  ais par Maurice Gross au Laboratoire d Automatique Docu   mentaire et Linguistique  LADL    Ces travaux ont   t     tendus    d   autres langues au travers  du r  seau de laboratoires RELEX     Les dictionnaires   lectroniques d  crivent les mots simples et compos  s d   une langue en leur  associant un lemme ainsi qu   une s  rie de codes grammaticaux  s  mantiques et flexionnels   La pr  sence de ces dictionnaires constitue une diff  rence majeure par rapport aux outils  usuels de recherche de motifs  car on peut faire r  f  rence aux informations qu ils contiennent  et ainsi d  crire de larges classes de mots avec des motifs tr  s simples  Ces dictionnaires sont  repr  sent  s selon le formalisme DELA et ont   t     labor  s par des   quipes de linguistes po
130. CHAPITRE 11  FLEXION DES MOTS COMPOS  S    nous attribuons     n la valeur p dans la premi  re bo  te  elle garde cette valeur p tout au long  du chemin        Es  2     e g  bateau mouche     lt Gen m Nb  n gt     FIGURE 11 5   Graphe de flexion avec variable pour les mots qui se fl  chissent comme bateau   mouche    Le graphe de flexion de la figure 11 5 s   applique    la plupart des compos  s fran  ais de types  Nom Nom et Nom Adjectif  bateau mouche  ange gardien  circuit s  quentiel  etc   qui sont de genre  masculin   c est parce que la sortie de la bo  te finale contient Gen m  Pour tous les compos  s  des m  mes types  mais de genre f  minin  comme main courante  moissoneuse batteuse  etc   un  nouveau graphe doit   tre cr      identique    celui de figure 11 5 jusqu      la sortie finale con   tenant  lt Gen f Nb  n gt   Ce n est pas tr  s intuitif puisque circuit s  quentiel et main courante  se fl  chissent de la m  me mani  re  dans la mesure o   dans les deux cas nous devons mettre  au pluriel le premier et le dernier constituant pour obtenir le pluriel du mot compos       C est pourquoi un autre type d instanciation utilisant l unification a   t   introduit  Il s   ex   prime au moyen de     par opposition au signe   gale simple   comme pour  n dans la fig   ure 11 5   Quand une valeur est attribu  e    une variable en utilisant ce symbole  la variable  est instanci  e une seule fois   elle h  rite de la cat  gorie du constituant  telle qu   elle appara  t  dan
131. C_VNm de mots compos  s francais    240 CHAPITRE 11  FLEXION DES MOTS COMPOS  S  11 3 3 Exemple en serbe    Supposons que la description des caract  ristiques morphologiques du serbe est d  finie  par le fichier Morphology txt suivant     Serbian    lt CATEGORIES gt    Nb  s p w   Case  1 2 3 4 5 6 7   Gen  m f n   Anim  v q 8   Comp  a b c   Det  d k e    lt CLASSES gt    noun   Nb  lt var gt    Case  lt var gt    Gen  lt var gt    Anim  lt fixed gt    adj   Nb  lt var gt    Case  lt var gt    Gen  lt var gt    Anim  lt var gt    Comp  lt var gt    Det  lt var gt    adv      La particuliarit   de ce mod  le morphologique n   est pas seulement sa richesse mais aussi  l existence de no care features comme Anim g ou Det e  Ces caract  ristiques s   accordent  avec les autres caract  ristiques de la m  me cat  gorie  Elles sont utilis  es uniquement pour  certaines sous classes particuli  res de noms ou d   adjectifs et sont n  cessaires pour une meill   eure compacit   des paradigmes flexionnels des mots simples qui sont d  j   tr  s imposants   et le seraient encore plus sans elles     Supposons que les   quivalences entre les caract  ristiques ci dessus et leurs codes correspon   dants dans les dictionnaires DELA soient d  finis par le fichier Equivalences txt suiv   ant         11 3  INT  GRATION    UNITEX 241    Serbian   s  Nb s   p  Nb p  w  Nb w  1  Case 1  2  Case 2  3  Case 3  4  Case 4  5  Case 5  6  Case 6  7  Case 7  m  Gen m  f  Gen f   n  Gen n  v Anim v  q  Anim 
132. Com   pany  9 1     85  Elisabete RANCHHOD and Samuel ELEUTERIO  Construc  o de dicion  rios elec   tr  nicos do portugu  s  problemas te  ricos e metodol  gicos  In Actas do Con   gresso Internacional sobre o Portugu  s  pages 265 282  1996  Lisboa  Colibri  3 8     86  Morris SALKOFF  Verbs of mental states  In Lexique  syntaxe et lexique grammaire   Papers in honour of Maurice Gross  volume 24 of Lingvisticee Investigationes Sup   plementa  pages 561 571  Amsterdam   Philadelphia   Benjamins  2004  9 1     87  Agata SAVARY  Recensement et description des mots compos  s   m  thodes et applica   tions  2000  These de doctorat  Universit   de Marne la Vall  e  3 8  11 1 1  11 1 2     88  Agata SAVARY  A formalism for the computational morphology of multi word  units  Archives of Control Sciences  15 3   437 449  2005  11  11 1 2  11 2     89  Max SILBERZTEIN  Les groupes nominaux productifs et les noms compos  s  lexicalis  s   Lingvuistic   Investigationes  27 2   405 426  1999  Amsterdam   Philadelphia   John Benjamins Publishing Company  3 8  11 1     90  Carlos SUBIRATS R  GGEBERG  Sentential complementation in Spanish  A  lexico grammatical study of three classes of verbs  John Benjamins  Amster   dam  Philadelphia  1987  9 1     91  Thomas TREIG  Compl  tives en allemand  classification  Technical Report 7   LADL  1977  9 1     92  Lidia VARGA  Classification syntaxique des verbes de mouvement en hongrois  dans l optique d   un traitement automatique  In F  Kiefer  G  K
133. Comme nous l avons vu pr  c  demment  l automate d un texte est en r  alit   l   ensemble  des automates des phrases de ce texte  Cette structure peut   tre repr  sent  e gr  ce au format   fst2  utilis   pour repr  senter les grammaires compil  es  Cependant  ce format ne per   met pas d afficher directement les automates de phrases  Il faut donc utiliser un programme  Fst2Grf pour convertir un automate de phrase en un graphe pour qu il puisse   tre af   fich    Ce programme est appel   automatiquement quand vous s  lectionnez une phrase pour  g  n  rer le fichier  grf     Les fichiers  gr   g  n  r  s ne sont pas interpr  t  s de la m  me mani  re que les fichiers  grf  qui repr  sentent des graphes construits par l utilisateur  En effet  dans un graphe normal   les lignes d   une bo  te sont s  par  es par le symbole    Dans un graphe de phrase  chaque  bo  te est  soit une unit   lexicale sans   tiquette  soit une entr  e de dictionnaire encadr  e par  des accolades  Si la bo  te ne contient qu une unit   sans   tiquette  celle ci appara  t seule dans  la bo  te  Si la bo  te contient une entr  e de dictionnaire  la forme fl  chie est affich  e  suivie de  sa forme canonique si celle ci est diff  rente  Les informations grammaticales et flexionnelles  sont affich  es sous la bo  te  comme dans les transductions     La figure 7 27 montre le graphe obtenu pour la premi  re phrase Ivanhoe  Les mots Ivanhoe   Walter et Scott sont consid  r  s comme des mots inconnus  Le mot b
134. Coon  President of Vice   That s all there is to it     356 CHAPITRE 14 FORMATS DE FICHIERS    Annexe B   Licences du type BSD    2  clauses    B 1  TRE    Voici la licence  la note de copyright et la clause de non responsabilit   pour TRE   une biblioth  que de manipulation d expressions r  guli  res     Copyright    2001 2009 Ville Laurikari  lt vl iki fi gt   All rights reserved     Redistribution and use in source and binary forms  with or without modification   are permitted provided that the following conditions are met      1  Redistributions of source code must retain the above copyright notice  this list  of conditions and the following disclaimer     2  Redistributions in binary form must reproduce the above copyright notice  this  list of conditions and the following disclaimer in the documentation and or  other materials provided with the distribution     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER AND CONTRIB   UTORS    AS IS    AND ANY EXPRESS OR IMPLIED WARRANTIES  INCLUDING   BUT NOT LIMITED TO  THE IMPLIED WARRANTIES OF MERCHANTABILITY  AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED  IN NO EVENT  SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY  DIRECT  INDIRECT  INCIDENTAL  SPECIAL  EXEMPLARY  OR CONSEQUEN   TIAL DAMAGES  INCLUDING  BUT NOT LIMITED TO  PROCUREMENT OF  SUBSTITUTE GOODS OR SERVICES  LOSS OF USE  DATA  OR PROFITS  OR  BUSINESS INTERRUPTION  HOWEVER CAUSED AND ON ANY THEORY OF  LIABILITY  WHETHER IN CONTRACT  STRICT LIABIL
135. DE DICTIONNAIRES    yo           lt  lt   CTAA mnd XXII TIRER mnanaa nahalal annn    666 0001        lt  lt s  GaimalralralalaimiaidOxboortbarctihhxboodxxbomalanaalanalaalalaalanalanlo   gt  gt   666 001        lt  lt  GITLAITTAILALALATIIIIID Oxea haaa  gt  gt     66 01        lt  lt  GorA  TANAlAlATTTITID  gt  gt   61                 Eli   shi       FIGURE 3 21     Graphe dictionnaire reconnaissant les nombres en chiffres romains    72 CHAPITRE 3  DICTIONNAIRES    des accolades et conformes    la syntaxe des lignes du DELAF  section 3 1 1   Les sorties  de tels graphes seront utilis  es comme entr  es pour construire l automate du texte  Nous  les appelons    graphes dictionnaires morphologiques    parce que leur principale utilit   est  de fournir de nouvelles analyses morphologiques dans l   automate du texte  gr  ce au mode  morphologique  voir 6 4   Cette fonctionnalit   est utile pour des langues agglutinantes comme  le cor  en  Pour pouvoir utiliser un graphe comme graphe dictionnaire morphologique  on  le d  clare par une barre oblique  slash     comme premier caract  re de sa sortie  comme  dans la figure 3 22      us            _  lt a gt         gt  C   PFX       x   x  LEMMA   x CODE      FIGURE 3 22     Exemple de graphe dictionnaire morphologique    La r  gle est simple   toute sortie du graphe dictionnaire commen  ant par une barre oblique   slash     est ajout  e au fichier tags  ind  situ   dans le r  pertoire du texte  Ce fichier est  utilis   par le program
136. DES MOTS COMPOS  S    une bo  te  le constituant sera le m  me que dans le lemme du mot compos    Par exemple    lt  3 gt  dans le premier chemin du graphe signifie que royal doit   tre recopi   tel quel  Si la  variable est accompagn  e d assignations de la forme cat  gories caract  ristiques  le consti   tuant sera fl  chi dans la forme demand  e  Ainsi  lt  3  Nb p gt  signifie que la forme plurielle  de royal est souhait  e     Pour g  n  rer toutes les formes fl  chies d un mot compos    nous devons explorer tous les  chemins du graphe  Chaque chemin d  bute    la fleche droite la plus    gauche et se termine     la bo  te encercl  e finale  Chaque fois qu   une bo  te est atteinte  on r  alise l   action qu elle  contient  la recopie ou la flexion d   un constituant  et on accumule les informations pr  sentes  sous la bo  te  Le total des sorties des bo  tes accumul   donne la description morphologique  compl  te de la forme fl  chie     Par exemple  dans le graphe de la figure 11 1 si nous suivons le chemin interm  diaire  extrait     la figure 11 2        FIGURE 11 2     Un chemin du graphe de flexion de battle royal    nous recopions battle   1  et l espace   2   et nous mettons royal au pluriel  ce qui produit la  forme du pluriel battle royals du mot compos    Le graphe de la figure 11 1 contenant trois  chemins diff  rents  l ensemble des formes fl  chies g  n  r  es pour battle royal sera      battle royal  lt Nb s gt   battle royals  lt Nb p gt   battles royal  
137. EURS   N importe quel dictionnaire du mode morphologique d  clar   dans vos pr  f  rences est  utlisable dans vos graphes  Les pr  f  rences peuvent   tre modifi  es    partir du menu  Info    Info     gt  Preferences   gt  morphological mode dictionaries      12 14 Partage d un fichier liste de transducteurs en cascade    Afin de faciliter le travail collaboratif avec CasSys  une fonctionnalit   d export import  est fournie    l   aide d un fichier liste de transducteurs  Cette possibilit   est offerte par le menu   Text   Apply CasSys cascade      Figure 12 5     Pour partager un fichier liste de cascade  les points suivants doivent   tre remplis      1  Export   Choisissez un fichier cascade et cliquez sur le bouton  export    Un fichier  partageable est cr     dans le r  pertoire  Cassys Share     2  Envoyez le fichier partag      vos coll  gues    3  Import   Choisissez un fichier et cliquez sur le bouton  import    Un fichier pr  t      tre  utilis   est cr     dans le r  pertoire  Cassys     12 2 CasSys en d  tail    Dans cette section nous pr  sentons une description d  taill  e du fonctionnement de CasSys     12 21 Type de graphe utilis         CasSys utilise la version compil  e des graphes  format   fst2   CasSys g  re les gram   maires locales  section 6 1 4  pr  sent  es dans le chapitre 6  Les grammaires utilis  es dans  une cascade suivent les m  mes r  gles que les grammaires habituellement utilis  es dans Uni   tex  Elles peuvent comporter des sous graphes  u
138. EXPRESSED OR IMPLIED  INCLUD   ING  BUT NOT LIMITED TO  THE IMPLIED WARRANTIES OF MERCHANTABIL   ITY AND FITNESS FOR A PARTICULAR PURPOSE  THE ENTIRE RISK AS TO  THE QUALITY AND PERFORMANCE OF THE LIBRARY IS WITH YOU  SHOULD  THE LIBRARY PROVE DEFECTIVE  YOU ASSUME THE COST OF ALL NECES   SARY SERVICING  REPAIR OR CORRECTION     14 13  PLUSIEURS AUTRES FICHIERS 355    16  IN NO EVENT UNLESS REQUIRED BY APPLICABLE LAW OR AGREED  TO IN WRITING WILL ANY COPYRIGHT HOLDER  OR ANY OTHER PARTY  WHO MAY MODIFY AND OR REDISTRIBUTE THE LIBRARY AS PERMITTED  ABOVE  BE LIABLE TO YOU FOR DAMAGES  INCLUDING ANY GENERAL   SPECIAL  INCIDENTAL OR CONSEQUENTIAL DAMAGES ARISING OUT OF  THE USE OR INABILITY TO USE THE LIBRARY  INCLUDING BUT NOT LIM   ITED TO LOSS OF DATA OR DATA BEING RENDERED INACCURATE OR LOSSES  SUSTAINED BY YOU OR THIRD PARTIES OR A FAILURE OF THE LIBRARY  TO OPERATE WITH ANY OTHER SOFTWARE   EVEN IF SUCH HOLDER OR  OTHER PARTY HAS BEEN ADVISED OF THE POSSIBILITY OF SUCH DAM   AGES     END OF TERMS AND CONDITIONS  How to Apply These Terms to Your New Libraries    If you develop a new library  and you want it to be of the greatest possible use  to the public  we recommend making it free software that everyone can redistribute  and change  You can do so by permitting redistribution under these terms  or  alter   natively  under the terms of the ordinary General Public License     To apply these terms  attach the following notices to the library  It is safest to  attach them to
139. F8  Si  unitex cfg ne contient pas un  chemin Linux valide vers un r  pertoire existant  il est ignor         Sous Windows  il n   est pas toujours possible d associer un r  pertoire par d  faut     un utilisateur  Pour rem  dier    cela  Unitex cr  e pour chaque utilisateur un fichier   cfg contenant le chemin de son r  pertoire de travail  Ce fichier est sauvegard    sous lenom  nom d utilisateur   cfg dans le sous r  pertoire Users du r  per   toire systeme Unitex  Si l utilisateur n a pas les droits pour   crire dans ce r  pertoire   un fichier  unitex cfg est sauvegard   dans le r  pertoire du profil utilisateur      e dans Documents and Settings  user login  sous Windows XP       e dans Users   user login  sous WindowsVista ou une version plus r  cente     ATTENTION   CE FICHIER N EST PAS EN UNICODE ET LE CHEMIN DU R  PER   TOIRE PERSONNEL DE TRAVAIL N EST PAS SUIVI PAR UN RETOUR A LA  LIGNE        1  Cela permet de lancer Unitex tant  t sous Linux  tant  t sous Windows  sur des fichiers partag  s   le chemin  Windows vers le r  pertoire personnel de travail Unitex est indiqu   dans  unitex cfg  et Unitex l ignore  quand on le lance sous Linux     Dela    14 12  FICHIERS CASSYS 341  14 12 Fichiers CasSys    14 12 1 Fichiers de configuration CasSys csc    Pour m  moriser la liste des transducteurs d   une cascade CasSys  nous utilisons  un fichier texte  csc  dans lequel chaque ligne contient le chemin vers un transduc   teur suivi du mode de sortie  fusionner   remplace
140. FIGURE 14 2   Exemple de concordance    14 64 Fichier diff html    Le fichier diff html est une page HTML qui montre les diff  rences entre deux  concordances  Ce fichier est encod   en UTF 8  Voici un exemple de fichier  des re   tours    la ligne ont   t   introduits pour la mise en page        lt html gt     lt head gt     lt meta http equiv  Content Type  content  text html   charset UTF 8  gt     lt style type  text css  gt    a blue f color blue  text decoration  underline      a red  color red  text decoration  underline      a green  color green  text decoration underline      lt  style gt     lt  head gt     lt body gt     lt h4 gt     lt font color  blue  gt Blue  lt  font gt  identical sequences lt br gt     lt font color  red  gt Red  lt  font gt  similar but different sequences lt br gt    lt font color  green  gt Green  lt  font gt  sequences that occur in only                328 CHAPITRE 14  FORMATS DE FICHIERS    one of the two concordances lt br gt     lt table border  1  cellpadding  0  style  font family  Courier new   font size  12  gt     lt tr gt  lt td width  450  gt  lt font color  blue  gt ed in ancient times   lt u gt a large forest lt  u gt   covering the greater par lt  font gt  lt  td gt    lt td width  450  gt  lt font color  blue  gt ed in ancient times    lt u gt a largeforest lt  u gt   covering the greater par lt  font gt  lt  td gt    lt  tr gt     lt tr gt  lt td width  450  gt  lt font color  green  gt ge forest  covering   lt u gt the gre
141. I  CZECH  GERMAN          13 12  DICO    SPANISH  PORTUGUESE  TALIAN  NORWEGIAN                      277    LATIN  default latin code page     windows 1252  windows 1250  windows 1257  windows 1251  windows 1254  windows 1258  iso 8859 1  iso 8859 15  iso 8859 2  iso 8859 3  iso 8859 4  iso 8859 5  iso 8859 7  iso 8859 9  iso 8859 10   next step                  Microsoft Windows 1252   Latin I  Western Europe  amp  USA     Microsoft Windows 1250   Central Europe     Microsoft Windows 1257   Baltic     Microsoft Windows 1251   Cyrillic     Microsoft Windows 1254   Turkish     Microsoft Windows 1258   Viet Nam      ISO 8859 1   Latin 1  Europe de l   ouest  amp  USA      ISO 8859 15   Latin 9  Western Europe  amp  USA      ISO 8859 2   Latin 2  Eastern and Central Europe     ISO 8859 3   Latin 3  Southern Europe      ISO 8859 4   Latin 4  Northern Europe      ISO 8859 5   Cyrillic     ISO 8859 7   Greek     ISO 8859 9   Latin 5  Turkish     ISO 8859 10   Latin 6  Nordic       NextStep code page    LITTLE ENDIAN                      BIG ENDIAN  UTF8          13 12 Dico          Dico  OPTIONS   lt dic_1 gt    lt dic_2 gt   lt dic_3 gt         Ce programme applique des dictionnaires    un texte  Le texte doit avoir   t   d  coup    en unit  s lexicales par le programme Tokenize     OPTIONS     e  t TXT   text TXT   nom complet du fichier texte  snt      e  a ALPH   alphabet ALPH   le fichier alphabet    utiliser                  e  m DICS   morpho DICS   ce param  tre optionnel l
142. IGURE 6 32     Reconnaissance des mots constitu  s de un et d un adjectif en able      E Preferences for English   SEE   Language  amp  Presentation   Morphological dictionaries  Directories                   Choose the  bin dictionaries to use in Locate s morphological  mode      home paumier Unitex2 1beta English Dela dela en public bin   lt                          Remove             Cancel                      FIGURE 6 33     D  claration des dictionnaires du mode morphologique    Pour pouvoir reconna  tre le mot unaware avec cette grammaire  le syst  me doit savoir que  aware est un adjectif  Le masque lexical  lt A gt  n  cessite la consultation d   un dictionnaire   Mais aware peut ne pas   tre pr  sent dans le texte  de sorte qu   on ne peut pas compter sur les  dictionnaires du texte    C est la raison pour laquelle on doit d  finir une liste de dictionnaires       consulter en mode morphologique  Pour ce faire  on va dans    Info gt Preferences gt Morphological     mode dictionaries     figure 6 33   On peut d  finir autant de dictionnaires du mode mor   phologique qu   on veut  mais ils doivent   tre au format  bin  Ceci fait  on peut appliquer  la grammaire  Pour sp  cifier qu   un graphe dictionnaire doit   tre consult   lorsqu   on est en  mode morphologique  on utilise l   option b ou z  section 3 7 3  Exporter les entr  es produites  comme dictionnaire du mode morphologique      6 44 Variables de dictionnaire    On peut affecter    des variables des informatio
143. IL 3p gt         lt PRO PpvLE gt    lt PRO PpvLUI gt             lt PRO PpvPR gt     FIGURE 7 21   Grammaire ELAG v  rifiant l accord entre verbe et pronom    Utilisation des symboles lexicaux    Il vaut mieux n utiliser les lemmes que lorsque c est absolument n  cessaire  Cela est partic   uli  rement vrai pour les mots grammaticaux  lorsque leurs sous cat  gories portent presque  autant d   information que les lemmes eux m  mes  Si vous utilisez malgr   tout un lemme  dans un symbole  il est recommand   de pr  ciser le plus possible ses traits syntaxiques   s  mantiques et flexionnels  Par exemple  avec les dictionnaires fournis pour le fran  ais  il  est pr  f  rable de remplacer des symboles comme  lt je PRO 1s gt    lt je PRO PpvIL 1s gt   et  lt je PRO gt  par le symbole  lt PRO Ppv11 1s gt   En effet  tous ces symboles sont iden   tiques dans la mesure o   ils ne peuvent reconna  tre que l unique entr  e de dictionnaire   je  PRO PpvIL 1ms 1fs   Cependant  comme le programme ne peut pas d  duire au   tomatiquement cette information  si l   on ne pr  cise pas tous ces traits  le programme con   sid  rera en vain des   tiquettes non existantes telles  lt je PRO 3p gt    lt je PRO PronQ gt  etc   en vain        7 4 Lin  arisation de l   automate du texte avec le taggeur    Par d  faut  l automate du texte contient de nombreux chemins   tiquet  s en raison de  l ambigu  t   lexicale  Le processus de lin  arisation consiste    choisir un chemin unique  une  s  quence d   ti
144. ITY  OR TORT  INCLUD   ING NEGLIGENCE OR OTHERWISE  ARISING IN ANY WAY OUT OF THE USE  OF THIS SOFTWARE  EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAM   AGE     357    358 CHAPITRE 14  FORMATS DE FICHIERS  B 2  wingetopt    Voici la licence  la note de copyright et la clause de non responsabilit   pour  wingetopt  une biblioth  que getopt pour compilateurs Windows     Copyright    2002 Todd C  Miller  lt Todd Miller courtesan com gt     Permission to use  copy  modify  and distribute this software for any purpose with  or Without fee is hereby granted  provided that the above copyright notice and this  permission notice appear in all copies     THE SOFTWARE IS PROVIDED  AS IS  AND THE AUTHOR DISCLAIMS ALL  WARRANTIES WITH REGARD TO THIS SOFTWARE INCLUDING ALL IMPLIED  WARRANTIES OF MERCHANTABILITY AND FITNESS  IN NO EVENT SHALL  THE AUTHOR BE LIABLE FOR ANY SPECIAL  DIRECT  INDIRECT  OR CONSE   QUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM  LOSS OF USE  DATA OR PROFITS  WHETHER IN AN ACTION OF CONTRACT   NEGLIGENCE OR OTHER TORTIOUS ACTION  ARISING OUT OF OR IN CON   NECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE     Sponsored in part by the Defense Advanced Research Projects Agency  DARPA  and  Air Force Research Laboratory  Air Force Materiel Command  USAF  under agree   ment number F39502 99 1 0512     Copyright    2000 The NetBSD Foundation  Inc  All rights reserved     This code is derived from software contributed to The NetBSD Foundation by Dieter  B
145. LGPLLR  19  369   MIT  365   TMate  367  Log programmes Unitex  306  Longest matches  85  153    M  Majuscules   voir Respect   de minuscules majuscules  122   Masque lexical  76  77  Matrices  205  MERGE  36  68  144  153  325  M  ta symboles  35  76    INDEX    Minuscules  voir Respect  de minuscules majuscules  122  Mode morphologique  68  137  Modification du texte  157  271  Motif de recherche  289  Mots  compos  s  40  76  avec espace ou tiret  47  compos  s libres  langues germaniques  41  295  russe  41  295  inconnus  40  80  simples  40  76  Mots apparent  s  215  Mots compos  s  221  Multi mots  221    N  Navigateur web  88  157  N  erlandais  mots compos  s libres  41  295  N  gation  d un masque lexical  79  d une propri  t    78  Nombre de r  p  titions  127  Noms de variables  106  Normalisation  de formes ambigu  s  121  166  304  de formes non ambigu  s  36  de l automate du texte  121  166  304  des clitiques en portugais  167  296  des s  parateurs  33  294  Norv  gien  mots compos  s libres  41  295    O   Occurrences  extraction  158  les plus courtes  85  les plus longues  85  nombre  85  153  toutes  85   Op  rateur    389       poe   lt I   gt  57   lt R   gt  57   lt X n gt   57  2 986 119  5 87  119  Jae  L  56  119  b 97  119  R  56  119  0 3   119  w  57  119  concat  nation  81  disjonction  82    toile de Kleene  82  it  ration  82  Optimiser les grammaires ELAG  184  Options  configuration  112  Options de recherche avanc  es  153          P  Pa
146. NS  Comme nous Dupa ce igi manca portia  unul dintre noi  D a es gearea   ncepea      Tanti  d   mi  te rog  partea     p ae             de deasupra      Matusa detaga partea  Frs ed de sus  ornat   de zah  r  i buc  ti de   ciocolat      i i o d  dea  ea    commen  ait      Tante  furnind 3 si ling   degetel  donne moi le dessus  s   il ee Sag a ai    nla  t 2    Elle murdare de zah  r      All sentences Plain text All sentences Plain text        8  Matched sentences Matched sentences     O All sentences HTML All sentences HTML                 Aligned with target concordance Aligned with source concordance  8     Locate    Clear alignment Save alignment Save alignment as    Locate       FIGURE 10 9     Affichages des phrases reconnues et des phrases auxquelles elles sont li  es             220 CHAPITRE 10  ALIGNEMENT DE TEXTE    Chapitre 11    Flexion des mots compos  s    MULTIFLEX est une plate forme compatible Unicode de flexion automatique des mots  compos  s ou multi mots  en anglais multi word units MWUs   Elle est tout particuli  rement  con  ue pour la cr  ation de dictionnaires morphologiques de mots compos  s  Elle met en    uvre un formalisme fond   sur l unification   88   pour la description du comportement  flexionnel des mots compos  s et suppose l existence d   un module de flexion des mots sim   ples     Dans ce chapitre  nous pr  sentons la notion de mots compos  s et nous d  crivons la mani  re  de les fl  chir avec MULTIFLEX     Ce chapitre est fond   sur
147. O    nX     FIGURE 12 13   Graphe g  n  rique modifi         _    G       _    1X        FIGURE 12 14   Graphe g  n  rique avec une restriction            4       4           Xx   FIGURE 12 15     Graphe g  n  rique modifi      Au contraire  la n  gation d une cat  gorie  par exemple  y sur la figure 12 16 placera  B dans cette bo  te  figure 12 17         _     GO    X        FIGURE 12 16     Graphe g  n  rique avec une n  gation             4      2    1            X   FIGURE 12 17     Graphe g  n  rique modifi      Si on veut compl  ter la sortie du graphe par quelque chose qui ne doit pas   tre  cherch  e  on ajoute une troisi  me bo  te comme dans la figure 12 18               G O  5 px  t     FIGURE 12 18   Graphe g  n  rique avec un compl  ment    262 CHAPITRE 12  CASCADE DE TRANSDUCTEURS  12 4 Les r  sultats d   une cascade    12 41 Affichage des r  sultats de la cascade    Le r  sultat de l   application d une cascade est un fichier d index  concord ind    comme c est le cas lors d une recherche de motif avec    Locate pattern     Ce fichier  d index contient toutes les s  quences reconnues conform  ment aux r  gles fix  es  dans Unitex     Pour afficher une concordance  il suffit de cliquer sur le bouton  Build concordance    comme d  crit au chapitre 6  dans la menu  Text   Located sequences     La figure  12 19 pr  sente un   chantillon de concordance d une cascade qui reconna  t les entit  s  nomm  es     ieux sergent se mit    leur t  te      Merci      meri    
148. P3s    Si l   on veut fl  chir le verbe    particule aussprechen on peut utiliser deux variables de type     Le figure 3 13 montre un graphe qui comport les variables  1 et  2     ausge 2o 1len     Kms    aus 2e len                                   lt aus 2e len gt            P1p P3p    FIGURE 3 13     Graphe de flexion pour des verbes comme aussprechen    Voici les flexions obtenues pour le verbe allemand aussprechen      3 5  FLEXION AUTOMATIQUE 63    ausgesprochen  aussprechen V  Kms  aussprechen  aussprechen V W  spreche aus  aussprechen V Pls  sprichst aus  aussprechen V P2p  sprichst aus  aussprechen V P2s  spricht aus aussprechen V P3s  sprechen aus  aussprechen V P3p  sprechen aus  aussprechen V Plp    Codes s  mantiques Dans certaines langues  il existe des caract  ristiques flexionnelles qui  correspondent en fait    des caract  ristiques s  mantiques comme par exemple les marqueurs  de la forme passive  Ces codes peuvent ne pas appara  tre comme des codes flexionnels  mais  plut  t comme des codes s  mantiques  Pour produire des codes s  mantiques  il faut ins  rer  un signe plus au d  but de la sortie d   une bo  te  Cette bo  te doit seulement contenir le code  s  mantique pr  c  d   d   un plus  comme le montre la figure 3 14     an invalid path     az    P3ms passive        a good path     P3ms  passive    FIGURE 3 14     Une grammaire de flexion avec un code s  mantique    3 5 3 Flexion des mots compos  s    Voir chapitre 11     3 5 4 Flexion des langues s  m
149. POS  S    et que les   quivalences entre les caract  ristiques ci dessus et leurs codes correspondants  dans les dictionnaires DELA sont d  finis par le fichier Equivalences txt suivant         English  s   Nb s  p   Nb p    Consid  rons l extrait du DELAC anglais suivant         angle  angle N1 s  of reflection NC_NXXXX   Adam   s apple  apple Nl s  NC_XXXXN   air brake brake Nl s  NC_XXN   birth date date Nl s  NC_NN_NofN   criminal police NC_XXXinv   cross roads NC_XXNs   head head N1 s  of government  government  N1 s   NC_NofNs  notary  notary N3 s  public  public Nl s  NC_NsNs   rolling stone stone Nl s  NC_XXN  student  student  N1 s  union union N1l s  NC_Ns   N                   Les graphes de flexion correspondants N1 et N3 pour les mots simples se trouvent dans les  figures 11 10 et figures 11 11 tandis que ceux pour les mots compos  s s   chelonnent de la  figure 11 12    la figure 11 20     Le DELACF r  sultant de la flexion par MULTIFLEX du DELAC pr  c  dent est le suivant      angle of reflection angle of reflection NC_NXXXX s  angles of reflection angle of reflection NC_NXXXX p  Adam   s apple Adam   s apple NC_XXXXN s   Adam   s apples Adam   s apple NC_XXXXN p   air brake air brake NC_XXN s   air brakes air brake NC_XXN p   date of birth birth date NC_NN_NofN s   dates of birth birth date NC_NN_NofN p   birth date birth date NC_NN_NofN s   birth dates birth date NC_NN_NofN p   criminal police criminal police NC_XXXinv p  cross roads cross roads NC_XXNs s  cr
150. PTIONS   lt tfst gt     L entr  e de ce programme est l   automate du texte sp  cifi   dans  t fst  Le pro   gramme applique l algorithme de Viterbi et produit un automate lin  aire  L   auto   mate est   lagu   de fa  on probabiliste selon un mod  le de Markov cach   de second    300 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    ordre  Si fichier tagger indiqu   contient des tuples de type  cat    le tagger   lague  les transitions sur la base des codes grammaticaux  syntaxiques et s  mantiques  par  exemple  that  DET Ddem versus that  PRO Pdem   Par contre si le fichier con   tient des tuples de type  morph   le tagger   lague les transitions sur la base des  codes grammaticaux  syntaxiques  s  mantiques et flexionnels  the DET Ddef s  versus the DET Ddef  p   Dans le cas o    l automate doit   tre d  velopp   avant  d applique le processus d     tiquetage un fichier tagset doit re indiqu   avec l option   t ci dessous                       OPTIONS   e  a ALPH   alphabet ALPH  fichier alphabet   e  o OUT   output OUT   automate du texte en sortie      t TAGSET   tagset TAGSET   nom du fichier tagset           e  d DATA   data DATA   un fichier de donn   tagger  bin qui contient le nom   bre d occurences d  unigramme  de bigrammes et de trigrammes afin de cal   culer des probabilit  s  ce fichier est fournit avec le programme TrainingTagger   voir section 14 10 2      13 40 TagsetNormTfst       TagsetNormTfst  OPTIONS   lt tfst gt     Ce programme normalise l   automa
151. Pour que CasSys reconnaisse un graphe g  n  rique il faut cocher la colonne Generic   figure 12 10          esse a a                                                      Disabled Replace   Until Fix Poin  1 generee   MW   I   L   2 fst2   y   EJ   m  3 hasta  v  E                                        FIGURE 12 10     Graphe g  n  rique    12 3 2 Structure d un graphe g  n  rique    Un chemin dans un graphe g  n  rique doit commencer par une bo  te avec  G et   en sortie  une accolade ouvrante  C est cette bo  te qui sera remplie par CasSys  La  deuxi  me bo  te comprend en sortie l   l  ment    chercher  Sur la figure 12 11  CasSys  place dans la bo  te toutes les entr  es de cat  gorie x extraites du dictionnaire du texte   Par exemple  CasSys extrait A de la ligne  A  x  du dictionnaire du texte comme  dans la figure 12 12  En plus  un contexte droit n  gatif  section 6 3  est plac   pour  emp  cher le deuxi  me   tiquetage de l occurence         G           x   t    FIGURE 12 11     Graphe g  n  rique    SY HS DO    x     FIGURE 12 12   Graphe g  n  rique modifi      Dans le cas d une imbrication   A  y   B  z   x  le graphe de la figure 12 11 place  dans la bo  te A B comme dans la figure 12 13   Des restrictions sont possibles en   crivant    l   int  rieur de la deuxi  me bo  te une  cat  gorie  par exemple y sur la figure 12 14  c est alors seulement A qui est plac    dans la bo  te comme montr   dans la figure 12 15     12 3  GRAPHES G  N  RIQUES 261         4      
152. RATE NN Et di  Ru diese dE Ne eRe ETS oe ERS SG 300  LT  E  Loa at Le RD da da a a DUR se eue Sue e    300  PA TBUG  Lin a las au made bed pin las oe 301  EAST ROI  oes nee den ere Ame sea Sete e da ed 301  PA Token E ace dae A Bd De dame Mie ORES DRED 302  13 45 raming si i is Le si Ses EES CHEESE ESCA 303  TSG Pete ER  SL De Li UM da a dde Dar CD D Deer ee me de 304  LT  E Lu he ke Sue Se Ee OR eee eee eee es 305  TS ASU WIOKGIMNZE 0  coto bee Ee ee Dee we ee ba web Ew N 305  ee iio LOOM A 305  13 50UmitexTool Logger  o s o A AR AA ARA BS 306  TO SLUNG e os 414 p Ai AN Lai martin mes S au    ei 309  TRS E A 310  14 Formats de fichiers 311    Qe AA ek E ew ae eee ed g Pee Opa 311  14 2 Fichiers d alphabet  lt   ei sa bee ded owe spenr dodit EER As 312  MAL Alphabet III 312  J422 Alphabetde tri ks ioone Oe od oe ee ee A ES 313  e MI 314  14 3 1 Format rra AAA AAA RS RHE Se WEEE REL EW 314  IZ POTTS tee PSE oh i oe Se os SE SE ee ey SR al Se a 318   144 Textes oe 4  4 4 ee ao dou dd n  e ne ee 6 319  1441 o A 319  DEL  DICES    Le a eA ee e te wR De e 319  144 3 Pichi textcod idad a a 44 a Be PR ES ER 319  14 4 4 Fichier tokens txt           eee 319  1445 Fichier tok_by_alph txt et tok_by_freq txt        ek mu    eu be es 320  H46 Pehereptetpos so sis date L une Aa    en 320   14 5 Automate du l       acs boa ca bide me made da b  b      320  145 1 Fichier IEEE co       cian bs DE ee ea de eu dun 320  14 5 2 Fichier text tind                                  323  14 5 3 Fichie
153. TEXTE      n TEE A  3543 sentences Os benfeitores  Dir se ia uma galeria   de afogados  todos solenes  secos  hirtos  de  Sentence     l  bios finos e ar de cerim  nia        Reset Sentence Graph    Rebuild FST Text  Elag Frame    Explode  Implode  Apply Elag Rule                 V MC C1s C4s C3s       PRO Pes R4ms R4fs R4mp R4fp    FIGURE 7 7     Automate de phrase normalis      7 2  CONSTRUCTION 169    Le programme Reconstrucao permet de construire dynamiquement pour chaque texte  une grammaire de normalisation de ces formes  La grammaire ainsi produite peut alors   tre  utilis  e pour normaliser l automate du texte  La fen  tre de configuration de construction de     automate propose l option  Build clitic normalization grammar   voir figure 7 10   Cette  option lance automatiquement la construction de la grammaire de normalisation  qui est  ensuite utilis  e pour construire l automate du texte  si vous avez s  lectionn   l option  Apply  the Normalization grammar      7 2 4 Conservation des meilleurs chemins    Il peut arriver qu un mot inconnu vienne parasiter l automate du texte en   tant con   current avec une s  quence compl  tement   tiquet  e  Ainsi  dans l automate de phrase de la  figure 7 8  on peut voir que l adverbe aujourd    hui est concurrenc   par le mot inconnu  aujourd  suivi d une apostrophe et du participe pass   du verbe huir            i    3653 sentences Je n ai pas le temps aujourd hui   _ Restez  r  pondit Fix     Sentence      Explode             
154. TUTE  GOODS OR SERVICES  LOSS OF USE  DATA  OR PROFITS  OR BUSINESS IN   TERRUPTION  HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY  WHETHER  IN CONTRACT  STRICT LIABILITY  OR TORT  INCLUDING NEGLIGENCE OR  OTHERWISE  ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE    EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE     Annexe F   Lesser General Public  License For Linguistic Resources    Cette licence a   t   con  ue par l   Universit   de Marne la Vall  e  Elle a re  u l approba   tion de la Free Software Foundation   1   et figure sur la liste de licences open source      partir de la version 2 1  du projet Software Package Data Exchange  SPDX  de la  Fondation Linux     Preamble    The licenses for most data are designed to take away your freedom to share and  change it  By contrast  this License is intended to guarantee your freedom to share  and change free data to make sure the data are free for all their users    This license  the Lesser General Public License for Linguistic Resources  applies  to some specially designated linguistic resources     typically lexicons  grammars   thesauri and textual corpora     TERMS AND CONDITIONS FOR COPYING  DISTRIBUTION AND  MODIFICATION    0  This License Agreement applies to any Linguistic Resource which contains  a notice placed by the copyright holder or other authorized party saying it  may be distributed under the terms of this Lesser General Public License for  Linguistic Resources  also called  this License    Each licen
155. UNITEX 3 1BETA    MANUEL D    UTILISATION       Universit   Paris Est Marne la Vall  e           http    www igm univ mlv fr  unitex       E    unitex univ mlv fr             S  bastien Paumier    La version fran  aise de 2013 a   t   r  alis  e par Claude Martineau    partir  de la version 1 2 en frangais  2006  et de la version 3 1 b  ta en anglais   quatre nouveaux chapitres et de nombreux ajouts dans les chapitres pr  existants      Date de cette version   14 novembre 2015    Table des mati  res    Introduction 13  Quoi deneut depuis la version 30  3 24234 4444424484 ed SRE HEEL 14  CONIC 3  3S boa ea a da ee eee CS SERA Se aR EGA ae aes 16  Umitex COmiriPUisurs  o oc   Le Deh Dee Pd we ae She Ee ED ee ee 17  Si vous utilisez Unitex dans des projets de recherche                      18   1 Installation d   Unitex 19  Il LICENLES 5  ac oe di aa Maman near ans eo Ee eee da 19  1 2 Environnement d   ex  cution Java                            20  13  stallationsous Windows escocia ee ees Oe    bea oo 20  14 Installation sous Linux  s se seose bons ee msi    e    20  1 5 Installation sous MacOSX                                21   1584 Utliser Apple lava L  runtime   2 cc e c da saucis m o ma Oe ES 22  1 5 2 Comment rendre tous les fichiers visibles sur MacOS            22  1 6 Premi  re utilisation                                    23  17 AOS NOUS langues   osse pos aene a ee a AAA 23  TS Destellos 00 a e M ee hs Ge wa a A a 24  1 9 Due pour les d  veloppears   1  i245 cara 
156. XN2 p2mgea  hungry as a wolf  gladnih kao vukovi gladan kao vuk AC_A3XN2 p2mgea  hungry as a wol  gladnih kao vuk gladan kao vuk AC_A3XN2 p2fgea  hungry as a wolf   gladnih kao vuci gladan kao vuk AC_A3XN2 p2fgea  hungry as a wolf  gladnih kao vukovi gladan kao vuk AC_A3XN2 p2fgea  hungry as a wol  gladnih kao vuk gladan kao vuk AC_A3XN2 p2ngea  hungry as a wolf   gladnih kao vuci gladan kao vuk AC_A3XN2 p2ngea  hungry as a wolf  gladnih kao vukovi gladan kao vuk AC_A3XN2 p2ngea  hungry as a wol  gladnima kao vuk gladan kao vuk AC_A3XN2 p3mgea  hungry as a wolf             gladnima kao vuci gladan kao vuk AC_A3XN2 p3mgea  hungry as a wolf    gladnima kao vukovi gladan kao vuk AC_A3XN2 p3mgea  hungry as a wol    gladnim kao vuk gladan kao vuk AC_A3XN2 p3mgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p3mgea  hungry as a wol  gladnim kao vukovi gladan kao vuk AC_A3XN2 p3mgea  hungry as a wol  gladnima kao vuk gladan kao vuk AC_A3XN2 p3fgea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p3fgea  hungry as a wolf    gladnima kao vukovi gladan kao vuk AC_A3XN2 p3fgea  hungry as a wol    gladnim kao vuk gladan kao vuk AC_A3XN2 p3fgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p3fgea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p3fgea  hungry as a wol  gladnima kao vuk gladan kao vuk AC_A3XN2 p3ngea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p3ngea  hungry as a wolf    gladnima kao vukovi gladan kao vu
157. XT  FILE  SIZE 20971524                ICON  BAR  POSITION WestY          PACKAGE  PATH D    repository   MORPHOLOGICAL  DICTIONARY D    MyUnitex  English  Dela  zz bin                         MORPHOLOGICAL  NODES  COLOR  3911728  MORPHOLOGICAL  USE  OF  SPACE falseY                      Les deux pre  antes indique  les dictionnai    mi  res lignes sont des lignes de commentaires  Les trois lignes suiv   nt le nom  le style et la taille de la police utilis  e pour afficher les textes   res  les unit  s lexicales  les phrases de l   automate du texte  etc           The CONCORDANCE FONT NAME et CONCORDANCE FONT HTML SIZE d  finissent  le nom et la taille de la police a utiliser pour afficher les concordances en HTML  La  taille de la police doit   tre comprise entre 1 et 7              Les param  tres INPUT FONT     et OUTPUT FONT     d  finissent le nom  le  style et la taille des polices utilis  es pour afficher les chemins et les transductions    des graphes     Les 10 param         tres suivants correspondent aux param  tres pr  cis  s dans les en t  tes    des graphes  Le tableau 14 5 d  crit ces correspondances     Le param  tre  r  pertoire de       PACKAGE NODES d  finit la couleur des appels a des sous graphes du  d  p  t        Le param  tre CONTEXT NODES d  finit la couleur des bo  tes correspondant    des    d  buts ou fin    s de contextes     14 11  FICHIER DE CONFIGURATION 339                                                                                     Par
158. ace vides peuvent correspondre  a des mots vides du texte  Dans ces cas  z a la valeur    1     La d  finition de tag se termine par une ligne qui contient f   Exemple   Voici le fichier correspondant au texte He is drinking orange juice   00000000014     1q    He is drinking orange juice  Y       322 CHAPITRE 14 FORMATS DE FICHIERS                   0 2 1 1 2 2 1 1 3 8 1 1 4 6 1 1 5 5 6 1 LEA   0_04   IN E  4 2 3 24  D 3 6  4 53  10 5 9 4 8 4  12 5 11 5        13 6f   tq     q     lt E gt q   Y    STD4      He he N s p f   0 0 0 0 1 09  2    STD4     He  he  PRO Nomin  3ms    0 0 0 0 1 09   Y   STD4    is be V P3s f   2 0 0 2 1 09  Y   STD4    is i N p     2 0 0 2 1 09  Y   STD4    drinking  drinking A     4 0 0 4 7 09   2    STD4    drinking drinking N s 4   4 0 0 4 7 09   Y   STD4    drinking drink V G 4   4 0 0 4 7 09   Y   STD4    orange orange A 4   6 0 0 6 5 04                14 5  AUTOMATE DU TEXTE 323    4    STD4    orange orange N s 4  k6 0 0 6 5 0     4   STD4    orange juice orange juice N XN z1l s 4   6 0 0 8 4 04   4   STD4      juice  juice N Conc s 4  68 0 0 8 4 04   4   STD4     juice  juice V W P1s P2s P1p P2p P3p 4   8 0 0 8 4 04   4   STD4  e    9 0 0 9 0 0  2   fT             14 5 2 Fichier text tind    Le fichier text   tind utilis   pour sauter    l octet d   offset correct dans le fichier  text tfst quand on veut charger une phrase donn  e  C   est un fichier binaire qui  contient 4 x N octets o   N est le nombre de phrases  Il donne l   offset de d  
159. acyunima zxiro racyun NC_2  zxiro racyune  zxiro racyun NC_2X  zxiro racyuni zxiro racyun NC_2XN  zxiro racyunima zxiro racyun NC_2  zxiro racyunima zxiro racyun NC_2  zxiro racyuna  zxiro racyun NC_2XN1 N Comp w2qm  zxiro racyuna  zxiro racyun NC_2XN1 N Comp   w4qm  zxiro racyun  zxiro racyun NC_2XN1 N Comp slqm  zxiro racyuna  zxiro racyun NC_2XN1 N Comp s2qm  zxiro racyunu  zxiro racyun NC_2XN1 N Comp s3qm  zxiro racyun  zxiro racyun NC_2XN1 N Comp s4qm  zxiro racyune  zxiro racyun NC_2XN1 N Comp s5qm  zxiro racyunom  zxiro racyun NC_2XN1 N Comp s6qm  zxiro racyunu  zxiro racyun NC_2XN1 N Comp s7qm  zxiro racyuni zxiro racyun NC_2XN1 N Comp plqm  zxiro racyuna  zxiro racyun NC_2XN1 N Comp p2qm  zxiro racyunima  zxiro racyun NC_2XN1 N Comp p3qm  zxiro racyune  zxiro racyun NC_2XN1 N Comp p4qm  zxiro racyuni zxiro racyun NC_2XN1 N Comp p5qm  zxiro racyunima  zxiro racyun NC_2XN1 N Comp p6qm  zxiro racyunima zxiro racyun NC_2XN1 N Comp p7qm  zxiro racyuna  zxiro racyun NC_2XN1 N Comp w2qm  zxiro racyuna  zxiro racyun NC_2XN1 N Comp   w4qm  avio prevoznik  avio prevoznik NC_2XN2 N Comp slvm    1 N Comp plqm  1 N Comp p2qm  XN1 N Comp p3qm  1 N Comp p4qm  1 N Comp p5qm  XN1 N Comp   p6qm  XN1 N Comp p7qm  1  1                                                             avio prevoznika  avio prevoznik NC_2XN2 N Comp s2vm  avio prevozniku  avio prevoznik NC_2XN2 N Comp s3vm  avio prevoznika  avio prevoznik NC_2XN2 N Comp s4vm    avio prevoznicye  avio prevoznik NC_2XN2 N Comp s5v
160. add Aa da 24   2 Chargement d   un texte 27  2 1 S  lection de la langue   lt   ss sa sa ba due    de ria Pee ER pe ai 27  22 Format des MES nn  ee e 4 Ju di du de dar ue eee Lu 28  23   dition de textes    1 14 du 65 bbb ceed bow b Eee Rhee ea tetes 30  24 Ouverture d unterte  s ceanii eane oe ee nd Sa de le d  s h   me ba a 31  2 5 Pr  traitement du texte           0 ce ee ee 31   251 Normalisation dess  parateurs   ociosa 33   252 IDEOOUPA RSE PTAS     e rect eee dE Re OES ete 34   2 5 3 Normalisation de formes non ambigu  s                    36   254 D  coupage du texte en unit  s lexicales   6 4    4s esa be ears 38   255 Application de dictionnaires  s gt       4004 4 dos    ep Ea de detre 40  2 5 6 Analyse des mots compos  s libres en n  erlandais  allemand  norv  gien   a DURS Ge ee eB wa Bed 41   LE Quyerture d un texte heres so ke    aies SEs AA RADA 42    4  3    TABLE DES MATI  RES   Dictionnaires 45  3 1 Les dictionnaires DELA                                 45  31 1 Formatdes DELAR  scs calet       4    padou Ge wea e    we 45   341 2 Pormatdes DELAS      2424 it a nette sd 48   3 1 3 Contenu des dictionnaires                            49   3 2 Recherche d un mot dans un dictionnaire                       51  3 3 V  rification du format du dictionnaire                         52  Be E SAS 2 actos SS   4 Shee Se EM SMS SN LR NU MENU 53  a  lt  s  5 RI ee ee Re eS 55  Sol Jeon des mots Simples 26 s o spoe puede Listes ere es 55   3 5 2 Op  rateurs de flexi  n av
161. aire              14 8 1 Fichier  bin    Un fichier  bin est un fichier binaire repr  sentant un automate  Les 4 premiers  octets du fichier repr  sentent un entier indiquant la taille du fichier en octets  Les    tats de l   automate sont ensuite cod  s de la mani  re suivante      e les 2 premiers octets indiquent si l     tat est terminal ainsi que le nombre de  transitions qui en sortent  Le bit le plus fort vaut 0 si l     tat est terminal et 1  sinon  Les 15 autres bits codent le nombre de transitions     Exemple   un   tat non terminal avec 17 transitions est cod   par la s  quence  hexad  cimale 8011    si l     tat est terminal  les 3 octets suivants codent l indice dans le fichier  inf  de la forme comprim  e    utiliser pour reconstruire les lignes de dictionnaires  pour cette forme fl  chie     Exemple   si l     tat renvoie    la forme comprim  e d indice 25133  la s  quence  hexad  cimale correspondante est 00622D       chaque transition sortante est ensuite cod  e sur 5 octets  Les 2 premiers octets  codent le caract  re   tiquetant la transition  et les 3 suivants codent la position  en octets dans le fichier  bin de l     tat d arriv  e  Les transitions d   un   tat sont  cod  es les unes    la suite des autres     Exemple   une transition   tiquet  e par le caract  re A pointant vers l     tat dont  la description d  bute au 50106eme   octet sera repr  sent   par la s  quence hex   ad  cimale 004100C3BA     Par convention  le premier   tat de l automate est 
162. am  tres dans le fichier Config file   Param  tres dans un fichier  grf file   DATE DDATE   FILE NAME DFILE   PATH NAME DDIR   FRAME DFRAME   RIGHT TO LEFT DRIG  BACKGROUND COLOR BCOLOR  FOREGROUND COLOR FCOLOR  AUXILIARY NODES COLOR ACOLOR  COMMENT NODES COLOR SCOLOR  SELECTED NODES COLOR CCOLOR                      TABLE 14 5     Signification des param  tres       Le param  tre CONTEXT NODES indique si la langue courante doit   tre trait  e en  mode caract  re par caract  re ou non                 Le param  tre ANTIALIASING indique si les graphes ainsi que les automates de  phrases doivent   tre affich  s par d  faut avec l effet d antialiasing           Le param  tre HTML VIEWER indique le nom du navigateur    utiliser pour afficher  les concordances  Si aucun nom de navigateur n   est pr  cis    les concordances sont  affich  es dans une fen  tre d   Unitex              Le param  tre MAX TEXT FILE SIZE n est plus utlis                   Le param  tre ICON BAR POSITION d  finit la position de la barre d ic  nes dans les  fen  tres de graphes           Le param  tre PACKAGE PATH d  finit le r  pertoire de d  p  t    utiliser pour cette  langue                 Le param  tre MORPHOLOGICAL DICTIONARY indique la liste des dictionnaires du  mode morphologique  s  par  s par des points virgules     Le param  tre MORPHOLOGICAL NODES COLOR d  finit la couleur des   tiquettes du  mode morphologique   lt  et   gt                     Le param  tre MORPHOLOGICAL USE OF SPACE indique s
163. ama istrazxni sudija NC_AXNF N Comp  3vfp    istrazxne sudije istrazxni sudija NC_AXNF N   istrazxne sudije istrazxni sudija NC_AXNF N                  Comp   4vfp       Comp  5vfp    istrazxnima sudijama istrazxni sudija NC_AXNF N Comp  6vfp  istrazxnim sudijama istrazxni sudija NC_AXNF N Comp  6vfp  istrazxnima sudijama istrazxni sudija NC_AXNF N Comp  7vfp  istrazxnim sudijama istrazxni sudija NC_AXNF N Comp  7 vfp  istrazxne sudije istrazxni sudija NC_AXNF N Comp  2vfw                         m  m   m   vm   vm   m   m   m   m   m   3vm   3vm   m   m   m   m   6vm   6vm   7vm   7vm   m   m   m   m  Org fp1q   Org fp2q    op Org fp3q  Org fp4q   Org fp5q   rop Org fp6q  op Org fp6q  rop Org fp7q  op Org fp7q  Top Reg ns1q  op Reg ns2q  op Reg ns3q  op Reg ns4q  Top Reg ns5q       NC_N3XN N Comp NProp Top Reg ns6q             op Reg ns7q    243    244 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    istrazxne sudije istrazxni sudija NC_AXNF N Comp 4vfw   istrazxnoga sudiju istrazxni sudija NC_AXNF N Comp ms4v   istrazxnog sudiju istrazxni sudija NC_AXNF N Comp ms4v   istrazxni sudija istrazxni sudija NC_AXNF N Comp lvms   istrazxnoga sudije istrazxni sudija NC_AXNF N Comp 2vms   istrazxnog sudije istrazxni sudija NC_AXNF N Comp 2vms   istrazxnomu sudiji istrazxni sudija NC_AXNF N Comp 3vms   istrazxnome sudiji istrazxni sudija  AXNF N Comp  3vms   istrazxnom sudiji istrazxni sudija NC_AXNF N Comp  3vms   istrazxnomu sudiji istrazxni sudija  XNF N Comp  7vms   istrazxnome sudiji i
164. ambiguit  s  le pro   gramme Elag calcule le nombre d analyses possibles dans l automate du texte avant et  apres modification  cela correspond au nombre de chemins possibles dans l automate   En  se basant sur cette valeur  le programme calcule l   ambiguit   moyenne par phrase et par mot   C est cette derni  re mesure qui est utilis  e pour repr  senter le taux d ambiguit  s du texte   car elle ne varie pas avec la taille du corpus  ni avec le nombre de phrases de celui ci  La  formule appliqu  e est      log nombredechemins     taux d ambiguit  s  exp longueurdutezte       Le rapport entre le taux d ambiguit  s avant et apr  s l application des grammaires donne une  mesure de leur efficacit    Toutes ces informations sont affich  es dans le fen  tre de traitement  d ELAG     7 3 6 Description du jeu d   tiquettes    Les programmes Elag and ElagComp n  cessitent une description formelle du jeu d   ti   quettes des dictionnaires utilis  s  Cette description consiste  grosso modo  en une   num  ra   tion de toutes les cat  gories grammaticales pr  sentes dans les dictionnaires  avec pour cha   cune delle  la liste des codes syntaxiques et flexionnels qui leur sont associ  es et une de   scription de leurs possibles combinaisons  Ces informations sont d  crites dans le fichier  nomm   tagset  def qui se trouve dans votre r  pertoire personnel  dans le sous r  pertoire  de la langue choisie    tagset   def file    Voici un extrait du fichier tagset   def utilis   pour le franca
165. ammaire reconna  t les s  quences d  crites  par les chemins allant de l   tat initial    l     tat final    5 2    DITION DE GRAPHES 95       Unitex 2 1   current  Text DELA Lexicon Grammar XAlign File Edition Windows Info  Open      Save   Save as      Save All   Page Setup   Print    Ctri P   Print All       Close all       FIGURE 5 1   Menu FSGraph                                        FIGURE 5 2   Graphe vierge    Pour cr  er une bo  te  cliquez sur la fen  tre tout en appuyant sur la touche Ctrl  Vous verrez  alors appara  tre un carr   bleu symbolisant la bo  te vide cr    e  voir figure 5 3   Lors de la  cr  ation d   une bo  te  celle ci est automatiquement s  lectionn  e     Le contenu de la bo  te s affiche dans la zone de texte situ  e en haut de la fen  tre  figure 5 3    La bo  te cr    e contient le symbole  lt E gt  qui repr  sente le mot vide epsilon  Remplacez ce  symbole par le texte I you he she it we they et validez en appuyant sur la touche  Entr  e  Vous venez de cr  er une bo  te contenant sept lignes  voir figure 5 4      96 CHAPITRE 5  GRAMMAIRES LOCALES                                                 FIGURE 5 3     Cr  ation d une bo  te                                        FIGURE 5 4     Bo  te contenant I you he she it we they       En effet  le caract  re   sert de s  parateur  La bo  te appara  t sous la forme de lignes de texte  rouge car elle n   est pour l instant reli  e    aucune autre  On utilise souvent ce type de bo  tes  pour ins  re
166. amme code la forme canonique par le nombre de caract  res    retrancher de  la forme fl  chie  suivi des caract  res    ajouter  A  nsi  la premi  re ligne du fichier  ci dessus correspond    la ligne de dictionnaire      James Bond  007 N    Comme la s  quence James Bond contient trois unit  s et 007 seulement une  la  forme canonique est cod  e par _10 0 0 7  Le caract  re _ indique que les deux  formes n ont pas le m  me nombre d unit  s  Le nombre qui suit  ici 10  indique le  nombre de caract  res    retrancher  La s  quence 101017 qui suit ce nombre indique  que l   on doit ensuite ajouter la s  quence 007  Les chiffres sont pr  c  d  s du caract  re    pour ne pas   tre confondus avec le nombre de caract  res    retrancher     14 8  DICTIONNAIRES 331    Lorsque les deux formes ont le m  me nombre d unit  s  les unit  s sont comprim  es  deux    deux  Si les deux unit  s sont compos  es d un espace ou d un tiret  la forme  comprim  e de l unit   est l unit   elle m  me  comme c est le cas dans la ligne suiv   ante     0 1 N p  qui est la sortie pour battle axes battle axe N p    Cela permet de conserver une certaine visibilit   dans le fichier   inf lorsque le dic   tionnaire contient des mots compos  s     Lorsque au moins une des unit  s n   est ni un espace ni un tiret  la forme comprim  e  est compos  e du nombre de caract  res    retrancher suivi de la s  quence de carac     t  res    ajouter  Ainsi  la ligne de dictionnaire      premi  re partie premier parti N AN
167. anc  s  lt  lt  reos AAA 59   399 Fledondes MOS COMPASES    au i ee be AAA A 63   35 4 Flexiondes langues s  mitiques     sore nantes sa 63  EA AI 64  Of   Applicalon de dICHONNAIRS   lt  gt     cres iris ns da 66  SU Priorit  s corzos sa rca de ab Bk es    in unie 66   3 7 2 R  gles d application des dictionnaires         44444 ee evens 67   37 9 Graphes dicH  nnair  s s Lis cerda 68   3 74 Graphe dictionnaire morphologique           242 4 eus e096 5 70   One IBIS  seei tet Gah  AREA A es 73  Recherche d   expressions rationnelles 75  El DEMOS osa cora maue seu e a a aa 75  de LABS leacales  Sos ii 2S ol OS ESM SOA A SRE 75  49 Masgues lexica   dr ra as AA RARAS 76  Sek  Symboles Splay e st eee  ha a RR A ee ES phe de be 76   4 3 2 R  f  rence aux informations fournies par les dictionnaires           TE   4 3 3 Contraintes grammaticales et s  mantiques                  77   4 3 4 Contraintes flexionnelles                             78   435 N  gation d un masque lexical       lt o es sos du rare EE es 79   24  A_OnCATCN ATOM   cias wR de a a dans 81  Ao MN a ek da a a A OE le Se ee he ee    a E S 82  46   toile de Kleene                                      82  a7 Filtres morphologiques        254 025 shbee de bebe SP SESE Va 83  48 Recherche   46 44 8 48    eue    ee em A ee ee a a 84  40 1 Coniguration dela recnercie    lt  ies snok dus Od SOLER a 84   482  Alichage des meule   a    see Oe  amp  pres we OE A 86   AGO ci 24 25 25 sente SSS LARGE PER REE Ee Sad 90  Grammair
168. anhoe by Sir Walter Scott en mode MERGE  on  obtient la concordance de la figure 6 42    a Concordance  D  My Unitex English Corpus ivanhoe_snticoncord html      of pointed beans  which the  Adj  adjacent  forest supplied  defended the o  f the outlaws  with whom the  Adj adjacent  forest abounded  or by the viol  es  may be still seen in the  Adj  antique  Colleges of Oxford or Cambridge   insolence  fellow     said the  Adj  armed  rider  breaking in on his prattle  an  3  take a turn round the  Adj back  o  the hill to gain the wind on the  ring the greater part of the  Adj beautiful  hills and valleys which lie be    mantle and hood were of the  Adj  best  Flanders cloth  and fell in ample   dest wine cask  5  place the  Adj best  mead  the mightiest ale  the riches  Then  sad relief   from the  Adj bleak  coast that hears The German Ocean  e bring to the shrine of the  Adj  Blessed  Virgin      Well  you have said en  rong  And yellow hair d  the  Adj  blue eyed  Saxon came   5  Thomson s Liber  the son of Beowulph  is the  Adj born  thrall of Cedric of Rotherwood   Be            Sentados a                              gt      FIGURE 6 42     Concordance obtenue en mode MERGE avec le transducteur de la figure 6 41    6 7 2 Application en avancant    Pendant les op  rations de pr  traitement  le texte est modifi   au fur et    mesure qu il est  parcouru  Afin d     viter le risque de boucler ind  finiment  il ne faut pas que les s  quences  produites par un transducteur p
169. anipuler par les programmes d   Unitex  Pour compiler un graphe  vous devez l ou   vrir  puis cliquer sur  Compile FST2  dans le sous menu  Tools  du menu  FSGraph   Unitex  lance alors le programme Grf2Fst2 dont vous pouvez suivre l ex  cution dans une fen  tre   voir figure 6 4         Messages with a colored background are generated by the interface  not by the external programs    Compiling graph DetN    Compiling graph DetSimple   Recursion detection started    Resolving  lt E gt  conditions  Looking for  lt E gt  loops  MLooking for infinite recursions    Recursion detection completed  Compilation has succeeded       Cannot open the graph DetSimple grf   D  My Unitex English Graphs DetSimple grf              Cancel       FIGURE 6 4     Fen  tre de compilation    Si le graphe fait appel    des sous graphes  ceux ci sont automatiquement compil  s  Le r  sul   tat est un fichier     st 2 fichier qui rassemble tous les graphes qui composent la grammaire   La grammaire est alors pr  te      tre utilis  e par les diff  rents programmes d   Unitex     124 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    6 2 2 Approximation par un transducteur fini    Le format FST2 conserve l architecture en sous graphes des grammaires  ce qui les dif   f  rencie des stricts transducteurs      tats finis  Le programme Flatten permet de trans   former une grammaire FST2 en un transducteur      tats finis quand cela est possible  et d en  construire une approximation dans le cas contraire  Cette 
170. ans le dictionnaire et qui se termine par es    e  lt V S T gt  lt  lt uiss gt  gt    verbe au subjonctif pass   ou pr  sent  contenant uiss    NOTE   par d  faut  les filtres morphologiques sont soumis aux m  me variations de casse  que les masques lexicaux  Ainsi  le filtre  lt  lt     gt  gt  va reconna  tre tous les mots commen  ant  par       mais   galement ceux qui commencent par E ou     Pour forcer le respect exact de la  casse du filtre  il faut ajouter _f_ imm  diatement apr  s celui ci  Exemple    lt A gt  lt  lt     gt  gt _  _                 48 Recherche    4 8 1 Configuration de la recherche    Pour pouvoir rechercher une expression  il faut tout d   abord ouvrir un texte  voir chapitre  2   Cliquez ensuite sur  Locate Pattern       dans le menu  Text   La fen  tre de la figure 4 4 ap   para  t alors     4 8  RECHERCHE 85    fF  Locate Pattern         Locate configuration   Advanced options  Locate pattern in the form of        O Regular expression       Graph     Set    Index Grammar outputs                      Shortest matches  8  Are not taken into account   8  Longest matches    Merge with input text     All matches O Replace recognized sequences       Search limitation    a  Stop after 200  matches SEARCH  O Index all utterances in text   Search algorithm     8  Paumier 2003  working on text  quicken       automaton intersection  higher precision        FIGURE 4 4     Fen  tre de recherche d   expressions    Le cadre  Locate Pattern  permet de choisir en
171. ansduction  un trans   ducteur  est capable de produire une sortie  Cassys est sp  cialis   dans l   application de trans   ducteurs sous la forme d une cascade     Une cascade peut   tre utilis  e pour l analyse syntaxique  le chunking  l extraction d in   formation  etc  Les transducteurs sont int  r  ssants car ils permettent d associer    la s  quence  reconnue l information qui se trouve dans sorties des graphes  Ces sorties peuvent      e Etre ajout  es    la s  quence reconnue et appara  tre dans la concordance r  sultante ou  le texte modifi       e Remplacer la s  quence reconnue pour modifier le texte     Ces deux op  rations transforment le texte ou lui ajoute des informations        1   Feder R  gion Centre entit  s nomm  es et nommables  dirig   par Denis Maurel  LI  Tours  France  int  gra   tion r  alis  e par Nathalie Friburger et David Nott    251    252 CHAPITRE 12  CASCADE DE TRANSDUCTEURS    Dans ce chapitre  nous expliquons comment cr  er des cascades de transducteurs et comment  les appliquer  Ensuite  nous d  taillons les options et possibilit  s offertent par CasSys     12 1 Appliquer une cascade de Transducteurs avec CasSys    Appliquer une cascade de transducteurs avec CasSys consiste    repr  senter un ph  nom  ne  linguistique par une liste de transducteurs    appliquer au texte dans un ordre pr  cis   CasSys  et son interface dans Unitex permet d y parvenir  Cette section explique comment utiliser  l interface pour cr  er et g  rer les graphes  or
172. antes du transducteur      Options de sortie ambigu  s      e  b   ambiguous_outputs   permet la production de plusieurs matchs avec  la m  me entr  e  mais diff  rentes sorties  par d  faut       e  z   no_ambiguous_outputs   interdit les sorties ambigu  s  Dans le cas de  sorties ambigu  s  l   une sera arbitrairement choisie  en fonction de l     tat interne  du programme     Options d erreur sur les variables   Ces options n   ont aucun effet si le mode de sortie est r  gl   avec    ignore   sinon   elles d  finissent le comportement du programme Locate quand une sortie une  r  f  rence    une variable qui n   est pas correctement d  finie     e  X   exit_on_ variable error  arr  te le programme           e  Y   ignore variable errors   agit comme si la variable avait un con   tenu vide  par d  faut       e  Z   backtrack_ on variable errors  arr  ter d explorer le chemin courant  de la grammaire        Injection de variables    e  v X Y   variable x yY   d  finit une variable de sortie nomm  e X avec un  contenu Y  Notez que Y doit   tre ASCII     Option d   tiquetage    e     tagging  indique que la concordance doit   tre taggu  e  et contenir les in   formations suppl  mentaires sur les   tats de d  but et de fin de chaque match     Ce programme enregistre les r  f  rences des occurrences trouv  es dans un fichier  appel   concord  ind  Le nombre d   occurrences  et le nombre de sorties produites  sont enregistr  es dans un fichier appel   concord_tfst n  Ces deux fich
173. aphe    Concordance  D  My Unitex  EnglishiCorpuslivanhoe_snticoncord html    lders and was silent   5 Prince John TITLE Prince  resumed his retreat   he hermit    his name is Sir Anthony of Scrabelstone TITLE Sir    as if I  again passed round   To Sir Athelstane of Coningsburgh TITLE Sir      r shall call thee Saxon  Sir Baron TITLE Sir    replied Cedric  offended  to say  lady     answered Sir Brian de Bois TITLE Sir  Guilbert     ory      Sir Palmer     said Sir Brian de Bois TITLE Sir  Guilbert   so unsafe  the escort of Sir Brian de Bois TITLE Sir  Guilbert is not to   er to be a handmaiden to Sir Brian de Bois TITLE Sir  Guilbert  after the  ghts of the Temple   and Sir Brian de BoisGuilbert TITLE 5Sir  well knows   have offended     replied Sir Brian TITLE 5ir    I crave your       FIGURE 6 45     Concordance obtenue par l application du graphe Tit leName    148 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES                            ADJ ADJ NOUN  NOUN PNOUN   ADJ     FIGURE 6 46     Interversion de mots gr  ce    deux variables d   entr  e    Concordance  D  My Unitex EnglishiCorpus ivanhoe_snticoncord html      stopping the course of a brook small  which glided smoothly round the foot a  when his return from his captivity long had become an event rather wished t E    heir gnarled arms over a carpet thick of the most delicious green sward  5   ight  as it were  to the chains feudal with which they were loaded  S  At c  arance  of that wild and character rustic  which 
174. ar les symboles   et    Les sorties    variables  n ont pas de sens dans ce type de graphe     Il est possible de faire appel    des sous graphes  Il n   est pas possible de faire r  f  rence aux  dictionnaires pour d  crire les formes    normaliser  L unique symbole sp  cial reconnu dans  ce type de graphe est le mot vide  lt E gt   Les graphes de normalisation de formes ambigu  s  doivent   tre compil  s avant de pouvoir   tre utilis  s        6 1 4 Graphes syntaxiques    Les graphes syntaxiques    galement appel  s grammaires locales  permettent de d  crire  des motifs syntaxiques qui pourront ensuite   tre recherch  s dans des textes  De tous les  types de graphe  ceux ci possedent la plus grande puissance d expressions  car ils permet   tent de faire r  f  rence aux dictionnaires     Les variantes minuscules majuscules sont autoris  es selon le principe d  crit plus haut  Il  est toutefois possible de forcer le respect de la casse en encadrant une expression avec des  guillemets  L emploi des guillemets permet   galement de forcer le respect des espacements   En effet  Unitex consid  re  par d  faut  qu   un espace est possible entre deux bo  tes  Pour  forcer la pr  sence d un espace  il faut le mettre entre guillemets  Pour interdire la pr  sence  d un espace  il faut utiliser le symbole sp  cial       Les graphes syntaxiques peuvent faire appel    des sous graphes  voir section 5 2 2   Ils  gerent   galement les sorties  y compris les sorties    variables  Les s  quen
175. aragraphe    CR amp LF  CR O LF o Amer      Aide               FIGURE 2 4     Sauvegarde en Unicode dans OpenOffice Writer    Vous pouvez choisir le codage par d  faut  UTF16LE  UTF16BE ou UTF8 dans l onglet   En   coding    gr  ce au sous menu  Preference  dans le menu  Info   Ce codage n est valide que  pour la langue courante        Morphological dictionaries   SVN   Encoding      Directories I Language  amp  Presentation          Select encoding to be used by Unitex    8  UTF16LE     2 UTF16BE                 Cancel             FIGURE 2 5     Choix de l encodage par d  faut pour la langue courante    2 3   dition de textes    Vous avez   galement la possibilit   d utiliser l   diteur de texte int  gr      Unitex  accessi   ble via la commande  Open     du menu  File Edition   Cet   diteur vous propose des fonc   tionnalit  s de recherche et remplacement propres aux textes et dictionnaires manipul  s par  Unitex  Pour y acc  der  cliquez sur l ic  ne  Find   jumelles   Vous verrez alors appara  tre  une fen  tre divis  e en trois onglets  L onglet  Find  correspond aux op  rations de recherche  habituelles  Si vous ouvrez un texte d  coup   en phrases  vous aurez la possibilit   de faire  une recherche par num  ro de phrase dans l onglet  Find Sentence   Enfin  l onglet  Dictio   nary Search   visible sur la figure 2 6  vous permet d effectuer des op  rations propres aux  dictionnaires   lectroniques  En particulier  vous pouvez effectuer une recherche en sp  cifi   ant si
176. aron and Thomas Klausner     Redistribution and use in source and binary forms  with or without modification   are permitted provided that the following conditions are met      1  1  Redistributions of source code must retain the above copyright notice  this  list of conditions and the following disclaimer     2  2  Redistributions in binary form must reproduce the above copyright notice   this list of conditions and the following disclaimer in the documentation and  or  other materials provided with the distribution     THIS SOFTWARE IS PROVIDED BY THE NETBSD FOUNDATION  INC  AND  CONTRIBUTORS    AS IS    AND ANY EXPRESS OR IMPLIED WARRANTIES  IN   CLUDING  BUT NOT LIMITED TO  THE IMPLIED WARRANTIES OF MERCHANT   ABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED  IN  NO EVENT SHALL THE FOUNDATION OR CONTRIBUTORS BE LIABLE FOR  ANY DIRECT  INDIRECT  INCIDENTAL  SPECIAL  EXEMPLARY  OR CONSE   QUENTIAL DAMAGES  INCLUDING  BUT NOT LIMITED TO  PROCUREMENT    14 13  PLUSIEURS AUTRES FICHIERS 359    OF SUBSTITUTE GOODS OR SERVICES   LOSS OF USE  DATA  OR PROFITS   OR  BUSINESS INTERRUPTION  HOWEVER CAUSED AND ON ANY THEORY OF  LIABILITY  WHETHER IN CONTRACT  STRICT LIABILITY  OR TORT  INCLUD   ING NEGLIGENCE OR OTHERWISE  ARISING IN ANY WAY OUT OF THE USE  OF THIS SOFTWARE  EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAM   AGE     360 CHAPITRE 14 FORMATS DE FICHIERS    Annexe C   Licence Apache de Xerces2    Voici la licence  la note de copyright et la clause de non respon
177. artir de noms  Dans des cas comme regrettable ou r  quisitionnable     3 5  FLEXION AUTOMATIQUE 57    on observe un doublement de la consonne finale du nom  Pour   viter d   crire un  graphe de flexion pour chaque consonne finale possible  on peut utiliser l op  rateur  C afin de dupliquer la consonne finale  quelle qu   elle soit      e D  delete  supprime une lettre de l entr  e  en d  calant tout ce qui se trouve    sa droite   Si l   on souhaite par exemple fl  chir le mot roumain european en europeni  on utilis   era la s  quence LDRi  Le L positionnera le curseur sur la lettre a  D va supprimer le a   en d  calant le n sur la gauche  puis Ri va r  tablir le n et ajouter un i        e U  unaccent  enl  ve l accent du caract  re courant s   il en comporte un  Par exemple la  s  quence LLUx appliqu  e au mot mang  s produit la forme fl  chie mangex  puisque U     transform   le    en e     e P  uppercase  met en majuscule la premiere lettre de la pile  Par exemple  la s  quence  Px transforme foo en Foox     e Ww  lowercase  met en minuscule la premi  re lettre de la pile   e  lt R   gt  remplace la premi  re lettre de la pile par la lettre     e  lt I   gt  ins  re la lettre   avant la premi  re lettre de la pile     e  lt X n gt  supprime les n premi  res lettres de la pile     Il y a   galement deux op  rateurs sp  ciaux pour le Cor  en      e J supprime une lettre Jamo  Si le caract  re est un Hangul  ce caract  re est d   abord rem   plac   par sa s  quence   quivalen
178. as long as the modified version is interface compatible with the  version that the work was made with    c  Accompany the work with a written offer  valid for at least three years  to give  the same user the materials specified in Subsection 6a  above  for a charge no more  than the cost of performing this distribution    d  If distribution of the work is made by offering access to copy from a designated  place  offer equivalent access to copy the above specified materials from the same  place    e  Verify that the user has already received a copy of these materials or that you  have already sent this user a copy    For an executable  the required form of the  work that uses the Library  must  include any data and utility programs needed for reproducing the executable from  it  However  as a special exception  the materials to be distributed need not include  anything that is normally distributed  in either source or binary form  with the ma   jor components  compiler  kernel  and so on  of the operating system on which the  executable runs  unless that component itself accompanies the executable    It may happen that this requirement contradicts the license restrictions of other  proprietary libraries that do not normally accompany the operating system  Such  a contradiction means you cannot use both them and the Library together in an  executable that you distribute    7  You may place library facilities that are a work based on the Library side   by side in a single librar
179. at est une grammaire   fst2 qui contient un  unique transducteur      tats finis      e  r   rtn   les appels aux sous graphes qui subsistent apr  s transformation  sont laiss  s tels quels  Le r  sultat est un transducteur      tats finis dans le cas fa   vorable  et une grammaire optimis  e strictement   quivalente    l originale dans  le cas contraire  par d  faut       e  d N   depth N   profondeur maximum    laquelle les appels aux graphes  devraient   tre d  pli  s  La valeur par d  faut est 10     13 20 Fst2Check    Fst2Check  OPTIONS   lt fst2 gt        Ce programme v  rifie si un fichier  fst2 n   a pas d   erreurs Locate     OPTIONS   e    y      loop_check   active la v  rification d   erreurs   d  tection de boucles    e  n   no_loop_check   d  sactive la v  rification d erreurs  par d  faut       e  t   tfst_check  v  rifie si le graphe donn   peut   tre consid  r   comme un  automate de phrases ou non     e  e   no_empty_graph_warning   pas d   mission de warning quand les  graphes reconnaissent le mot vide  Cette option est utilis  e par MultiFlex    pour ne pas effrayer les utilisateurs par des messages d erreurs inad  quats  lorsqu ils construisent une grammaire de flexion qui reconna  t le mot vide    Options de sortie    e  o file   output file  fichier de sorties pour les messages d erreurs   e  a   append  ouvre un fichier de message d erreurs en mode append      e    s   statistics  affiche les statistique du fichier   fst2     13 21  FST2LIST 285  13 21
180. atches     All matches       Search limitation         Stop after   200  matches SEARCH       Index all utterances in text       FIGURE 10 7     Recherche de motifs sur des textes align  s    Une fois qu Unitex a cr     et pr  trait   la version de travail de votre texte  vous pouvez    218 CHAPITRE 10  ALIGNEMENT DE TEXTE    effectuer une requ  te comme indiqu   figure 10 7  Celle ci   tant faite par le programme  Locate  elle est tout    fait semblable    celles effectu  es sur un corpus normal  La seule  restriction est qu il est impossible d utiliser les sorties des grammaires si elles en compor   tent     Recherchons par exemple le motif  lt manger gt  dans le texte de notre exemple  Dans un  premier temps  nous n   obtenons aucun r  sultat  car nous n   avons pas encore chang   le  mode d affichage du texte  qui par d  faut est  All sentences Plain text   En s  lectionnant   Matched sentences   nous voyons seulement les phrases qui contiennent des occurrences   habituellement surlign  es en bleu comme le montre la figure 10 8  En cliquant sur  All sen   tences  HTML  nous obtenons toutes les phrases  avec les occurrences surlign  es en bleu     D  My UnitexiXAlign funtana xml      mais nous assassinons    Desi cre  tini  nu ne am pierdut  tour de bras  comme nous bine  n  eles indeminarea daca e cazul s    mangeons  comme nous sugrumam  dar noi asasinam cu at  ta        SRIEOnS  comme SOUS nongalant    de parca am minca  am  accomplissons les gestes respira  arn face un
181. ater part lt  u gt  amp nbsp of the beautiful hills  lt  font gt    lt  td gt     lt td width  450  gt  lt font color  green  gt  lt  font gt  lt  td gt     lt  tr gt     lt  table gt     lt  body gt     lt  html gt                 14 7 Dictionnaires du texte       Le programme Di co produit plusieurs fichiers qui repr  sentent les dictionnaires     14 7 1 dif et dlc    al f et dlc sont des dictionnaires de mots simples et compos  s au format DELAF  format  voir section 3 1 1      14 7 2 err    Ce fichier contient les mots inconnus  un par ligne     14 7 3 tags _err    Ce fichier contient les mots inconnus  un par ligne  La diff  rence avec le fichier  err est que dans celui ci les mots simples reconnus dans le fichier tags   ind n ap   paraissent pas     14 7 4 tags ind    Ce fichier a le m  me format que concord  ind il s obtient en mode MERGE ou  REPLACE mais son en t  te est  T  Remarquons que les sorties ne commence pas  par un slash     14 8  DICTIONNAIRES 329  14 8 Dictionnaires    La compression des dictionnaires DELAF par le programme Compress produit  2 fichiers   un fichier  bin qui repr  sente l   automate minimal des formes fl  chies  du dictionnaire  et un fichier   inf qui contient les formes comprim  es permettant  de reconstruire les lignes du dictionnaire    partir des formes fl  chies  Cette sec   tion d  crit le format de ces deux types de fichiers  ainsi que le format du fichier  CHECK_DIC TXT  qui contient le r  sultat de la v  rification d   un dictionn
182. ation des s  parateurs de texte  Les s  parateurs  sont l   espace  la tabulation  et le saut de ligne  Chaque s  quence de s  parateurs qui  contient au moins un saut de ligne est remplac   par un saut de ligne unique  Toutes  les autres s  quences de s  parateurs sont remplac  es par un seul espace     Ce programme v  rifie   galement la syntaxe des   tiquettes lexicales pr  sentes dans  le texte  Toute s  quence entre accolades doit   tre soit le d  limiteur de phrase  5   le  marqueur  STOP   soit une ligne de DELAF valide    aujourd    hui   ADV          13 31  POLYLEX 295    Le param  tre  lt text gt  doit repr  senter le chemin d acc  s complet au fichier du  texte  Le programme produit une version modifi  e du texte qui est sauv   dans un  fichier portant l extension   snt     OPTIONS      e  n   no_carriage_ return   chaque s  quence de s  parateurs sera trans   form  e en un espace unique     e     input_offsets XXX   fichier offset    utiliser   e     output_offsets XXX   fichier offset    produire    e  r XXX   replacement_rules XXX   indique la r  gle de normalisation     utiliser  Voir section 14 13 6 Pour plus de d  tails sur le format de ce fichier  Par  d  faut  le programme ne remplace que   and   par  et            e     no_separator_normalization n   applique que des r  gles de remplace   ment sp  cifi  es par  r    ATTENTION   si vous sp  cifiez un fichier de r  gles de normalisation  ces r  gles  seront appliqu  es avant toute autre chose  Donc  il faut 
183. ations ult  rieures de l   automate seront unique   ment dues aux effets des grammaires ELAG     7 3 7 Optimiser les grammaires       La compilation des grammaires effectu  e par le programme El agComp consiste    constr   uire un automate dont le langage est l   ensemble des s  quences d entr  es lexicales  ou inter   pr  tations lexicales d   une phrase  qui ne sont pas rejet  es par les grammaires  Cette t  che  est complexe et peut prendre beaucoup de temps  il est toutefois possible de l acc  l  rer sen   siblement en observant certains principes lors de l   criture des grammaires     Limiter le nombre de branches alors    Il est recommand   de r  duire au minimum le nombre de parties alors d une grammaire  Cela  peut r  duire consid  rablement le temps de compilation des grammaires  Le plus souvent   une grammaire poss  dant beaucoup de parties alors peut   tre r    crite avec une ou deux  parties then sans perte de lisibilit    C   est par exemple le cas de la grammaire de la figure  7 21 qui impose une contrainte entre un verbe et le pronom qui le suit     Comme on peut le voir sur la figure 7 22  on peut   crire une grammaire   quivalente en  factorisant toutes les parties alors en une seule  Les deux grammaires auront exactement le  m  me effet sur l   automate du texte  mais la seconde sera compil  e beaucoup plus rapide   ment     7 4  LIN  ARISATION DE L AUTOMATE DU TEXTE AVEC LE TAGGEUR 185                  EL   ER   En      lt PRO PpvIL 2p gt         lt PRO Ppv
184. aye  pue    aouepueq saatnbaz ay uaym uo  Jo pue    STEI139EN 139924 Jo sem  m103 U  30 Iawn 244 UT    S13pPINOUS pue Peau au  J0 zeah peay   ya 10  feq ATTal e 10    de  PauTENS1 MOPT2S 24 SE pue  S  13410 10    g  atiauaa P340T JEI 12PT19n0 uy    ati  dn Hutyoqes 12972 Aasuanol sty ue  aq oyn  Hutaq    adeys UT uotuedmod sty jo 38491 P  Aq paxaa09 azam Aa13 ed qzadns sty Jo    g   PEoI 242 UO   UTIT2AE19 103 HUON que  SMT  JUATOUE UT papuaqxa 21349    U0Q 13  y  noya JOTI UOSWTIJ Jo sem 3T  Ss   UT  AT 380199 241 qe pa1n0938 aT quem sty      333g S230093q mq  noya se qgons uamspuo   gotateoddo sat Aq    anef    aouautua au   Pau107  2pnatfuoT Jo quem S3T UITN pags  Aq peor sty 1013 at burdaams jo aanseat   S  TTTm Jo pue aheazanod 30 U0TI13X2 pau    fapeTh ESTUZ 30 Asptm 243 UT  soeds Wado sTqereptsuos Fis     em Atay spem 43493 yatun 03 3an3 3    THE pauueq aya Jo pasodmos    saaaaTs yata Je_oel 26010 E  ABUTJ YONM sTetTrzsqem Jo pasodmos qmq    AUON WetoazsqEsty E  2 qmq futanoaes    U019981998 Ystaqanboo 30 ITE Uteqiss E  338 amos usaq PEU 22393 yotym uodn    any SsTdand qypbtaq E    futaq    aTqeuthemt MIOJ qsatdmts 241 30  JO 2eu2 sem ssaap sty  S  AMUEI YT Jo     maya Autsodstp 30 apom 243 pue sTetirsq  J0 pauteqs usaq PEU 124080 styis     aoue    lunu pioauorqus aoyUeANSndJoj Yysibuyxapup ANG  SDUPPIOJUOS  m       FIGURE 4 8     Exemple de concordance    90 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES  4 8 3 Statistiques  Si l   on s  lectionne l onglet    Statis
185. belonged to the woodlands  gorget was engraved  in characters Saxon  an inscription of the following  md the sufferings of the classes inferior  arose from the consequences of t                FIGURE 6 47     R  sultat de l   application du transducteur de la figure 6 46    Si le d  but ou la fin d   une variable est mal d  fini  fin d   une variable avant son d  but  absence  du d  but ou de la fin d   une variable   celle ci sera ignor  e lors des sorties  Consultez la  section 6 10 2 pour d   autres options affectant le traitement d   erreurs concernant les variables     Il n   y a aucune limite au nombre de variables utilisables     Les variables d   entr  es peuvent   tre imbriqu  es  et m  me se chevaucher comme le montre  la figure 6 48     Monday  Tuesday  Wednesday    Thursday    lt NB gt       Friday    Saturday    Sunday September    October            DayAndNumber NumberAndMonth DayAndNumber  NumberAndMonth    November  December      FIGURE 6 48     Chevauchement de variables d   entr  e    6 8  VARIABLES DE SORTIE 149  6 8 Variables de sortie    Les variables d entr  e sont d  clar  es soit avec les parenth  ses rouges de la barre d ic  nes   soit avec  xxx   et  xxx  et m  morisent des portions du texte d entr  e  Il est aussi possible  de m  moriser des parties des sorties produites par une grammaire  Cela met en jeu des  variables de sortie  Ces variables sont d  clar  es soit avec l ic  ne des parenth  ses bleues  dans la barre d ic  nes au dessus du graphe  
186. bi reddi Teitei ia 145    67a Pronteagauche s td oad oe He BESS a eh dS Ss OOS ES 145    6 TABLE DES MATI  RES  6 74 Priorit   aux s  quences les plus longues                    146   679 SOTES A VAMADI  S  252 ss sa ga a gun 6 de due dde de    146   66  Vanables deso o 2  ieee 2 wwe ne tester EE REE DE e 149  69 Operations sur les variables   lt  o ea ee bee    dede ra ba or          150  6 9 1 Tests sur les variables                              150   692 Comparaison de yariaDleS  s ot o sac us eus ae ee ee mette es 151   6 9 3 Recherche d un code s  mantique dans une variable de dictionnaire     151   6 10 Application des graphes ACTES       dus Dada a eK eee    152  6 10 1 Configuration de la recherche   oc     ra dedo met nee yet ES 152  6 102 Options de recherche avanc  es   ick ae Leslie eR OS 153  6103 Concordance acia yera nupti rerea e ad Lies 156  6 104 Modification d   texte       44 414444 44 ua su cons 157  6 10 5 Extraction des occurrences                           158  6 10 6 Comparaison deconcordances     24 24 4 de ea ewe de be    159  610 7 Mode DEDOS   e si seda rereana dat EES RARE 159   7 Automate du texte 163  Tal Foa cr ee ea A ee eed A    es dos 163  Fad SOMBIE CHOU  sse eke ne rs a e de Te ed E A    165  7 2 1 R  gles de construction de l automate du texte                165   7 2 2 Normalisation de formes ambigu  s     aaao 166   7 2 3 Normalisation des pronoms clitiques en portugais                167   7 2 4 Conservation des meilleurs chemins     
187. birth date       Interface avec le syst  me de flexion des mots simples    MULTIFLEX est une mise en   uvre du formalisme de flexion des mots compos  s pr  c  dem   ment pr  sent    Il suppose l existence d un syt  me de flexion des mots simples qui satisfasse  les contraintes d interface suivantes      e Pour une s  quence de caract  res donn  e  il renvoie sa d  composition en constituants  ins  cables  tokens   cf section 11 2 2   Par exemple  dans le cas de la d  finiton d un  token dans Unitex  la s  quence Athens    04 est divis  e en 5 tokens         Athens 04          Athens        AOL      Pour une forme fl  chie simple donn  e  il retourne toutes ses caract  ristiques flexion   nelles  Ces caract  ristiques doivent permettre la g  n  ration    la demande de toute  autre forme fl  chie de m  me lemme par le m  me module de flexion  Par exemple   dans le cas d Unitex  la forme porte m  ne    la reconnaissance de 7 formes  dont 6 sont  factoris  es selon leur code flexionnel       porte       porte porte N21  s   porte porter  V3  P1s  P3s  S1s  S3s  Y2s      En cas d ambiguit    comme ci dessus  l identification correcte doit   tre faite  pour le  moment  par l utilisateur lors de l   dition du lemme du mot compos      fl  chir  par la  suite  cette t  che sera partiellement automatis  e   Par exemple  dans le cas de porte   fen  tre  le premier constituant doit   tre identifi   comme un nom pl  tot que comme un  verbe     Pour une identification morphologique donn  e
188. bre  en cas et en genre  de 3    9 valeurs  selon diff  rentes approches   Si aucun m     canisme d   unification n     tait disponible  ces formes devraient   tre d  crites par des chemins  s  par  s dans le graphe  L unification permet de r  duire consid  rablement la taille du graphe   jusqu      un seul chemin dans la plupart des cas      Par exemple  le graphe de la figure 11 7 permet de fl  chir les mots compos  s polonais qui se  fl  chissent comme pranie m  zgu  lavage du cerveau  ou powozenie koniem  ang  horse coaching    Leur troisi  me constituant a son cas d  fini  le plus souvent au g  nitif ou    l instrumental    Le premier et le troisi  me constituant se fl  chissent en nombre ind  pendamment l   un de  l   autre  pranie m  zg  w  prania m  zgu  prania m  zg  w  etc    C est pourquoi chacun d   eux a une  variable diff  rente pour la flexion en nombre   n1 et  12   Les trois variables  n1   n2  et   c peuvent   tre instanci  es    n importe quelle valeur de leur domaine respectif   sing pl     sing pl   et  Nom Gen Dat Acc Inst Loc Voc    cf  Morphology txt fichier    la section 11 2 1    Le mot compos   h  rite son genre  son nombre et son cas de son premier constituant  Ce  genre est d  fini par  Gen   g  alors que son nombre et son cas sont instanci  s selon 14 com   binaisons possibles  Sans unification  le chemin unique de ce graphe aurait du   tre remplac    par 28 chemins diff  rents        H  lt  1 Gen   8 Nb  n1 Case  0c gt       lt  2 gt       lt  3
189. c  l  rer V Plp  s  che s  cher V Pls P3s  s  chent  s  cher V P3p   s  ches  s  cher V P2s  s  chez s  cher V P2p  s  chons s  cher V Plp    Le redoublement de certaines lettres lors de la flexion peut s effectuer avec l op  rateur    Par  exemple l adject tranquil en anglais poss  de deux formes au comparatif et deux au superlatf   Le graphe de la figure 3 11 permet de les produire                                FIGURE 3 11   Graphe de flexion pour des adjectifs anglais comme tranquil    Voici les flexions obtenues pour l adjectif anglais tranquil      tranquil tranquil A  tranquiler tranquil A C  tranquilest tranquil A 5  tranquiller tranquil A C  tranquillest tranquil A S    Dans certaines langues  certaines formes fl  chies comporte un pr  fixe qui s ajoute devant la  racine  C est le cas lors de la formation du participe pass   en allemand  L utilisation conjointe  des op  rateurs    et   permet de fl  chir le verbe allemand sprechen  parler  au pr  sent et  participe pass   comme le montre le graphe de la figure 3 12     62 CHAPITRE 3  DICTIONNAIRES    ge  o en  iK            e en   W    e e   Pis           lt   e en gt    i st a   P2s P2p                              i t   P3s         e en   P1p P3p             FIGURE 3 12     Graphe de flexion pour des verbes comme sprechen    Voici les flexions obtenues pour le verbe allemand sprechen     gesprochen sprechen V K  spreche sprechen V Pls  sprechen  sprechen V Plp P3p W  sprichst sprechen V P2p P2s  spricht sprechen V 
190. ce  mot est reconnu par  lt A z3 gt     cause de la premi  re entr  e et par  lt A z3 gt     cause de l   autre     4 3  MASQUES LEXICAUX 79    Un code flexionnel est introduit par le caract  re   et constitu   d   un ou plusieurs caract  res   qui repr  sentent une information chacun  Commen  ons par le cas simple d entr  es lexicales  et de masques qui ont un seul code flexionnel  Pour qu   une entr  e lexicale E soit reconnue  par un masque M  il faut que le code flexionnel de E contienne tous les caract  res du code  flexionnel de M      E s  pare  s  parer V Y2s  M  lt V  Y2 gt        Le code Y2s de E contient les caracteres Y et 2  Le code Y2 est inclus dans au moins un code  de E  le masque lexical M reconna  t donc l entr  e E     L ordre des caract  res    l   int  rieur d un code flexionnel est sans importance  Tous les codes  grammaticaux et s  mantiques doivent pr  c  der les codes flexionnels     Si plusieurs codes flexionnels sont pr  sents dans un masque lexical  le caract  re   est inter   pr  t   comme    ou         e  lt A mp f gt  correspond    la fois     lt A mp gt et     lt A  f gt   il reconna  t un adjectif qui est  soit au masculin pluriel  soit au f  minin     e  lt V 2 3 gt  reconna  t un verbe    la 2   ou    la 3   personne  cela exclut tous les temps qui  n ont ni 2   ni 3   personne  infinitif  participe pass   et participe pr  sent  ainsi que les  temps conjugu  s    la premi  re personne     Pour qu une entr  e de dictionnaire F soit reconnue 
191. ces produites sont  interpr  t  es comme des cha  nes de caract  res qui seront ins  r  es dans les concordances ou  dans le texte si vous voulez modifier celui ci  voir section 6 10 4     Les graphes syntaxiques peuvent utiliser des contextes  voir section 6 3     Les graphes syntaxiques peuvent utiliser des filtres morphologiques  voir section 4 7      Les graphes syntaxiques peuvent utiliser le mode morphologique  voir section 6 4      Les symboles sp  ciaux support  s par les graphes syntaxiques sont les m  mes que ceux util   isables dans les expressions rationnelles  voir section 4 3 1      Il n   est pas obligatoire de compiler les graphes syntaxiques avant de les utiliser pour la  recherche de motifs  Si un graphe n   est pas compil    le syst  me le compilera automatique   ment     6 2  COMPILATION D UNE GRAMMAIRE 123  6 15 Grammaires ELAG    La syntaxe des grammaires de lev  e d ambiguit  s est pr  sent  e    la section 7 3 1  page  Izi     6 1 6 Graphes param  tr  s    Les graphes param  tr  s sont des m  ta graphes permettant de g  n  rer une famille de  graphes    partir d une table de lexique grammaire  Il est possible de construire des graphes  param  tr  s pour n importe quel type de graphe  La construction et l   utilisation des graphes  param  tr  s seront d  velopp  es dans le chapitre 9     6 2 Compilation d   une grammaire    6 2 1 Compilation d un graphe    La compilation est l op  ration qui permet de passer du format  grf    un format plus  facile    m
192. cidessus  indique que le mot cheval doit   tre fl  chi avec une grammaire nomm  e N4  Il est possible  d ajouter des codes flexionnels aux entr  es  mais la nature de l op  ration de flexion limite  l int  r  t de cette possibilit    Pour plus de d  tails  voir plus loin dans ce chapitre la section  3 5     3 1  LES DICTIONNAIRES DELA 49  3 13 Contenu des dictionnaires    Les dictionnaires fournis avec Unitex contiennent des descriptions des mots simples  et compos  s  Ces descriptions indiquent la cat  gorie grammaticale de chaque entr  e  ses    ventuels codes de flexion  ainsi que des informations s  mantiques diverses  Les tableaux  suivants donnent un aper  u des diff  rents codes utilis  s dans les dictionnaires fournis avec  Unitex  Ces codes ont la m  me signification pour presque toutes les langues  m  me si cer   tains d   entre eux sont propres    certaines langues  i e  marque du neutre  etc                                                                                                             Code   Signification Exemples  A adjectif fabuleux  broken down  ADV   adverbe r  ellement     la longue  CONJC   conjonction de coordination   mais  CONJS   conjonction de subordination   puisque     moins que  DET d  terminant ses  trente six  INTJ   interjection adieu  mille millions de mille sabords  N nom prairie  vie sociale  PREP   pr  position sans     la lumi  re de  PRO   pronom tu  elle m  me  V verbe continuer  copier coller  TABLE 3 1     Codes grammaticaux 
193. ckage is a derivative of the Linguistic Resource  you may  distribute the package under the terms of Section 4  Any works containing that  package also fall under Section 4     4  As an exception to the Sections above  you may also combine a  work that uses  the Linguistic Resource  with the Linguistic Resource  or an encrypted form  of the Linguistic Resource  to produce a package containing portions of the  Linguistic Resource  and distribute that package under terms of your choice   provided that the terms permit modification of the package for the customer   s  own use and reverse engineering for debugging such modifications     You must give prominent notice with each copy of the package that the Lin   guistic Resource is used in it and that the Linguistic Resource and its use are  covered by this License  You must supply a copy of this License  If the package  during execution displays copyright notices  you must include the copyright  notice for the Linguistic Resource among them  as well as a reference directing  the user to the copy of this License  Also  you must do one of these things       a  Accompany the package with the complete corresponding machine readable  legible form of the Linguistic Resource including whatever changes were  used in the package  which must be distributed under Sections 1 and 2  above   and  if the package contains an encrypted form of the Linguistic  Resource  with the complete machine readable  work that uses the Lin   guistic Resource 
194. code  gen   erated documentation  and conversions to other media types     Work  shall mean the work of authorship  whether in Source or Object form  made  available under the License  as indicated by a copyright notice that is included in  or attached to the work  an example is provided in the Appendix at the following  address   http     www apache org licenses       Derivative Works  shall mean any work  whether in Source or Object form  that is  based on  or derived from  the Work and for which the editorial revisions  annota   tions  elaborations  or other modifications represent  as a whole  an original work    361    362 CHAPITRE 14 FORMATS DE FICHIERS    of authorship  For the purposes of this License  Derivative Works shall not include  works that remain separable from  or merely link  or bind by name  to the interfaces  of  the Work and Derivative Works thereof     Contribution  shall mean any work of authorship  including the original version  of the Work and any modifications or additions to that Work or Derivative Works  thereof  that is intentionally submitted to Licensor for inclusion in the Work by the  copyright owner or by an individual or Legal Entity authorized to submit on behalf  of the copyright owner  For the purposes of this definition   submitted  means any  form of electronic  verbal  or written communication sent to the Licensor or its rep   resentatives  including but not limited to communication on electronic mailing lists   source code control s
195. comme les sorties sont permises pour certains  types et interdites pour d   autres  De plus  les symboles sp  ciaux ne sont pas les m  mes en  fonction du type de graphe  Cette section pr  sente donc chacun des types de graphes en  d  taillant leurs particularit  s     6 1 1 Graphes de flexion    Un graphe de flexion d  crit les variations morphologiques associ  es    une classe de  mots  en associant    chaque variante des codes flexionnels  Les chemins d   un tel graphe  d  crivent les modifications    appliquer aux formes canoniques tandis que les sorties conti   ennent les informations flexionnelles qui seront produites        matrix    matrices    FIGURE 6 1     Exemple de grammaire de flexion    Les chemins peuvent contenir des op  rateurs et des lettres  Les op  rateurs possibles sont  repr  sent  s par les caract  res L  R  C  D  U  P et W  Les lettres qui ne sont pas des op  rateurs    119    120 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    sont des caract  res  Le seul symbole sp  cial autoris   est le mot vide  lt E gt   Il n   est pas possible  de faire r  f  rence aux dictionnaires dans un graphe de flexion  Il est cependant possible de  faire appel    des sous graphes     Les sorties sont concat  n  es pour produire une cha  ne de caract  res  Cette cha  ne est ensuite  concat  n  e    la ligne de dictionnaire produite  Les sorties    variables n   ont pas de sens dans  un graphe de flexion     Le contenu d   un graphe de flexion est manipul   sans aucune var
196. compiler  kernel  and so on  of the operating system  on which the executable runs  unless that component itself accompanies the  executable     It may happen that this requirement contradicts the license restrictions of pro   prietary libraries that do not normally accompany the operating system  Such  a contradiction means you cannot use both them and the Linguistic Resource  together in a package that you distribute     5  You may not copy  modify  sublicense  link with  or distribute the Linguistic Re   source except as expressly provided under this License  Any attempt otherwise  to copy  modify  sublicense  link with  or distribute the Linguistic Resource is  void  and will automatically terminate your rights under this License  How   ever  parties who have received copies  or rights  from you under this License  will not have their licenses terminated so long as such parties remain in full  compliance     6  You are not required to accept this License  since you have not signed it  How   ever  nothing else grants you permission to modify or distribute the Linguistic  Resource or its derivative works  These actions are prohibited by law if you do  not accept this License  Therefore  by modifying or distributing the Linguistic  Resource  or any work based on the Linguistic Resource   you indicate your ac   ceptance of this License to do so  and all its terms and conditions for copying   distributing or modifying the Linguistic Resource or works based on it     7  Each ti
197. converted    Compiling graph regexp   Recursion detection started   Resolving  lt E gt  conditions   Recursion detection completed       ERROR  the main graph regexp recognizes  lt E gt                 FIGURE 4 3     Erreur lors de la recherche d une expression reconnaissant le mot vide    4 7 Filtres morphologiques    Il est possible d appliquer des filtres morphologiques aux unit  s lexicales recherch  es   Pour cela  il faut faire suivre imm  diatement l unit   lexicale consid  r  e par un filtre entre  doubles angles      motif  lt  lt motif morphologique gt  gt     Les filtres morphologiques s   expriment sous la forme d   expressions r  guli  res au format  POSIX  voir  65  pour une syntaxe d  taill  e   Voici quelques exemples de filtres   l  men   taires      e  lt  lt ss gt  gt  contient ss   e  lt  lt  a gt  gt    commence par a   e  lt  lt ez  gt  gt   finit par ez   e  lt  lt a s gt  gt   contient a suivi par un caract  re quelconque  suivi par s   e  lt  lt a  s gt  gt  contient a suivi par un nombre de caract  res quelconque  suivi par s  e  lt  lt ss tt gt  gt   contient ss ou tt   e  lt  lt  aeiouy   gt  gt   contient une voyelle non accentu  e    e  lt  lt  aeiouy   3 5  gt  gt  contient une s  quence de voyelles non accentu  es  de longueur  comprise entre 3 et 5    84 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    e  lt  lt es  gt  gt   contient e fsuivi par un s facultatif    e  lt  lt ss   e    gt  gt  contient ss suivi par un caract  re qui n est pa
198. copies and derivative  works made from that copy    This option is useful when you wish to copy part of the code of the Library into  a program that is not a library    4  You may copy and distribute the Library  or a portion or derivative of it  under  Section 2  in object code or executable form under the terms of Sections 1 and 2  above provided that you accompany it with the complete corresponding machine   readable source code  which must be distributed under the terms of Sections 1 and  2 above on a medium customarily used for software interchange    If distribution of object code is made by offering access to copy from a designated  place  then offering equivalent access to copy the source code from the same place  satisfies the requirement to distribute the source code  even though third parties are  not compelled to copy the source along with the object code    5     program that contains no derivative of any portion of the Library  but is  designed to work with the Library by being compiled or linked with it  is called a   work that uses the Library     Such a work  in isolation  is not a derivative work of  the Library  and therefore falls outside the scope of this License    However  linking a  work that uses the Library  with the Library creates an ex   ecutable that is a derivative of the Library  because it contains portions of the Li   brary   rather than a  work that uses the library   The executable is therefore covered  by this License  Section 6 states ter
199. cordance affich  e par Unitex devrait ressembler    celle de la figure  12 9    Pour des raisons li  es    la programmation  les ambiguit  s entre les caract  res entre  accolades des   tiquettes lexicales   nous n avons d autres options que de placer des    avant chaque caract  re ambigu  c est pourquoi ces symboles sont pr  c  d  s de    dans la concordance pour   viter des probl  mes avec Unitex     5 Concordance  C  apps my_unitex_cassys French Corpusicassys_exemple1_snticoncord html         4 matches  bac abc cc abb ba ab ab bea    a b1 1 4B1  c   ABC  abaabc    bac    a b    AB   c  ABC  cc ab b ba abab boa ab c aba  bac a b c cc  a b  AB  b ba ab a b bca ab c abaabc  bac ab c cc a b b ba ab  a b   AB   bca  BC    a b c abaabc          FIGURE 12 9     La concordance issue l application de la cascade    12 3 Graphes g  n  riques    Parfois  on a identifi   des   l  ments recherch  s gr  ce    leur contexte  mais si ces    l  ments apparaissent ailleurs hors contexte on ne les reconna  t pas  Afin de trouver  de telles occurences  CasSys propose d utiliser des graphes g  n  riques  Ces graphes  contiennent des bo  tes vides qui sont remplies automatiquement par le programme    260 CHAPITRE 12  CASCADE DE TRANSDUCTEURS    avant d     tre appliqu  s au texte  Ces graphes g  n  riques ne fonctionnent qu avec l u   tilisation d   accolades  car le programme consulte le dictionnaire du texte    analyser  par le futur graphe     12 3 1 D  claration d   un graphe g  n  rique    
200. cr  181    E  ELAG  123  171   fen  tre de traitement  178  Entr  e lexicale  45  Equivalence de caract  res  53    INDEX    Erreurs dans les graphes  128  284  287  Espace  interdit  76  obligatoire  76  Etat  final  94  initial  94  Etiquette lexicale  77  165  295  302  319   336  Etoile de Kleene  75  82  Evaluation du taux d   ambiguit    178  Exclusion des codes grammaticaux et s     mantiques  78  Exploration des chemins d   une grammaire   141  Expression rationnelle  75  83  94  297  Expression r  guli  re  75  83  297  Extraction des occurrences  158    F  Factorisation des entr  es lexicales  176  Fen  tre de traitement d   ELAG  178  Fichier  Alphabet_sort txt 53  Alphabet  t xt  67  313  arabic_typo_rules txt  344    bin  65  271  278  329  340    cfg  340  CHECK_DIC  TXT  52  270  331   conc fst2 175  concord_tfst n  293  342  concord html  326  concord ind  292  293  324  concord n  292  342  concord txt  326  Config 337  corpus txt 335  cursentence grf  301  323  cursentence tok  301  324  cursentence txt  301  324   dic  52  64  271  diff html  327  dic  40  55  278  328  341  dlc n  341                      INDEX    dlf  40  55  278  328  341   dlf n  341    elg  334   enter   pos  303  320  Equivalences txt 225   err  40  55  278  328  341   err n  341  ForbiddenWords txt 343   fst2  86  123  189  287  318   grf  86  128  189  287  297  314   html  274    inf  65  271  330     1st  177  334  Morphology txt  224  225  norm rul  184  regexp grf 297     rul  1
201. currence    in ancient  est concurrente avec  ancient times   C est donc la premi  re qui est  retenue car c est l occurrence la plus    gauche  et  ancient times  est   limin  e  L   occur   rence suivante  times a  n est donc plus en conflit avec  ancient times  et peut donc  appara  tre dans le r  sultat         Don  there extended  in ancient   times a  large forest       La r  gle de priorit      gauche s applique uniquement lorsque le texte est modifi    soit lors du  pr  traitement  soit apr  s l application d un graphe syntaxique  voir section 6 10 4      6 74 Priorit   aux s  quences les plus longues    Lors de l application d   un graphe syntaxique  il est possible de choisir si la priorit   doit    tre donn  e aux s  quences les plus courtes ou les plus longues  ou si toutes les s  quences  doivent   tre retenues  Lors des op  rations de pr  traitement  la priorit   est toujours donn  e  aux s  quences les plus longues     6 7 5 Sorties a variables    Comme nous l avons vu    la section 5 2 5  il est possible d utiliser des variables d entr  e  pour m  moriser le texte qui a   t   analys   par une grammaire  Ces variables peuvent   tre  utilis  es dans les graphes de pr  traitement et dans les graphes syntaxiques     Vous devez donner des noms aux variables que vous utilisez  Ces noms peuvent contenir  les lettres comprises entre A et Z  non accentu  es minuscules ou majuscules  des chiffres et  le caract  re _  underscore      Pour d  finir le d  but et la fin de 
202. d  Paris  1974  11 1     6  Olivier BLANC and Anne DISTER  Automates lexicaux avec structure de traits   In Actes RECITAL 2004  2004  7 3     7  Xavier BLANCO  Noms compos  s et traduction francais espagnol  Lingvistice  Investigationes  21 1   1997  Amsterdam Philadelphia   John Benjamins Publish   ing Company  3 8     8  Xavier BLANCO  Les dictionnaires   lectroniques de l espagnol  DELASs et  DELACSs   Lingvistice Investigationes  23 2   2000  Amsterdam Philadelphia    John Benjamins Publishing Company  3 8     9  Jean Paul BOONS  Alain GUILLET  and Christian LECL  RE  La structure des  phrases simples en francais   classes de constructions transitives  Technical re   port  LADL  Paris  1976  9 1     10  Jean Paul BOONS  Alain GUILLET  and Christian LECLERE  La structure des  phrases simples en francais   constructions intransitives  Droz  Gen  ve  1976  9 1     11  Firefox  Web browser  http    www mozilla com firefox   4 8 2     12  Netscape  Web browser  http    www netscape com  4 8 2    375    376 BIBLIOGRAPHIE     13  Pierre CADIOT  A entre deux noms   vers la composition nominale  Lexique   11  193 240  1992  11 1     14  Folker CAROLI  Les verbes transitifs    compl  ment de lieu en allemand   Lingvistice Investigationes  8 2   225 267  1984  Amsterdam Philadelphia   John  Benjamins Publishing Company  9 1     15  A  CHROBOT  B  COURTOIS  M  HAMMANI MC CARTHY  M  GROSS  and  K  ZELLAGUI  Dictionnaire electronique DELAC anglais   noms compos  s   Technical Report 59
203. d Univ  Press   1994  9 1     51  Maurice GROSS  The lexicon grammar of a language   Application to french  In  R E  Asher  editor  The Encyclopedia of Language and Linguistics  volume 4  pages  2195 2205  Oxford  NewYork Seoul Tokyo   Pergamon  1994  9 1     52  Alain GUILLET and Christian LECLERE  La structure des phrases simples en  fran  ais   les constructions transitives locatives  Droz  Gen  ve  1992  9 1     53  Beno  t HABERT and Christian JACQUEMIN  Noms compos  s  termes  d  nomi   nations complexes   probl  matiques linguistiques et traitements automatiques   Traitement Automatique des Langues  2  5 41  1993  11 1    BIBLIOGRAPHIE 379     54  IGM  Lesser General Public License for Linguistic Resources  http   igm   univ mlv  unitex lgpllr html  1 1     55  Text Encoding Initiative  http    www tei c org  10 1     56  Christian JACQUEMIN  Spotting and Discovering Terms through Natural Language  Processing  MIT Press  2001  11 2 3     57  Fryni Kakoyianni Doa  editor  Penser le lexique grammaire   perspectives actuelles   Editions Honor   Champion  Paris  France  2014  30  78     58  Gaby KLARSFLED and Mary HAMMANI MC CARTHY  Dictionnaire   lectron   ique du ladl pour les mots simples de l anglais  DELASa   Technical report   LADL  Universit   Paris 7  1991  3 8     59  Cvetana KRSTEV  Du  ko VITAS  and Agata SAVARY  Prerequisites for a Com   prehensive Dictionary of Serbian Compounds  LNCS  4139  552 563  2006  11 2     60  Tita KYRIACOPOULOU  Les dictionnaires   l
204. dance  D  My Unitex English Corpus anhoe_snticoncord html    horseback  at any secure place  within  were briefly as follows  5  First  the  which  betwixt sun and sun  he baptized  At length the barriers were opened  and  urse of spectators fixed upon them  the  n a champion that could bear down these  et and black  the chosen colours of the  hed their vow  by each of them breaking    eight days after our liberation  3  wh  five challengers were to undertake all    five hundred heathen Danes and Britons  five knights  chosen by lot  advanced  five knights advanced up the platform  five knights in one day s jousting   5  five knights challengers   5   The cords  five lances  the Prince was to declare             FIGURE 6 22     Reconnaissance d   un nom apr  s un contexte gauche    6 3  CONTEXTES 133    Concordance  D  My Unitex English Corpus wanhoe_snticoncord html    e courses  and cast to the ground three antagonists     I add  that sevena  utes to keep at sword s point his three antagonists  turning and wheeling  entinels to give the alarm when any one approaches  5  But I trust soon t  omanlike and bravely   5  Of twenty four arrows  shot in succession  ten  started up and bent their bows  5  Six arrows placed on the string were    he back of which was decorated with two ass s ears  and which was placed  These two squires were followed by two attendants  whose dark visages    ber with a grave pace  followed by four attendants  bearing in a table co  ake part  5  and bei
205. de  ou non  lors du chargement de l automate du texte     Ce sont des codes facultatifs  qui sont ind  pendants des autres codes  comme par exemple  l   attribut de niveau de langue  z1  z2 or z3   De la m  me mani  re que pour les codes flex   ionnels  il est   galement possible de nier un attribut flexionnel en   crivant le caract  re   juste  avant le nom de l attribut  Ainsi  avec notre fichier d exemple  le symbole  lt A  gauche  f gt   reconna  t tous les adjectifs au f  minin qui ne poss  dent pas le code gauche         Tous les codes qui ne sont pas d  clar  s dans le fichier tagset   def sont ignor  s par ELAG   Si une entr  e de dictionnaire contient un tel code  ELAG produira un avetissement et retirera  le code de l   entr  e     En cons  quence  si deux entr  es concurrentes ne diff  raient dans l automate du texte d o   rigine que par des codes non d  clar  s  ces entr  es deviendront indistinguables par le pro   gramme et seront donc unifi  es en une seule entr  e dans l automate r  sultat     Ainsi  le jeu d   tiquettes d  crit dans le fichier tagset  def peut suffire    r  duire l am   biguit    en factorisant des mots qui ne diff  rent que par des codes non d  clar  s et ceci in   d  pendamment des grammaires appliqu  es     Par exemple  dans la version la plus compl  te du dictionnaire du fran  ais  chaque emploi  distinct d un verbe est caract  ris   par une r  f  rence vers la table du lexique grammaire qui  le caract  rise  Nous avons consid  r   jusqu  
206. de W strictement compris entre  X et Y  w   U X   Y    L op  rateur  lt X Y gt  retire X   Y de W et donne une valeur        Une fois qu il a   t   appliqu    la s  quence qui reste dans la pile est U  et la variable    peut   tre utilis  e dans le reste du chemin      lt X  Y gt    On recherche    la fin du mot W le suffixe Y  Puis  on recherche    partir de la  position atteinte l occurrence de X la plus    gauche qui pr  c  de strictement celle de  Y  La variable    contient alors le plus long facteur    ongest  de W strictement compris  entre X et Y  W   U X    Y      e  lt X gt    Si aucune variable n est pr  sente  on recherche X comme suffixe de W  W  U  X      e  lt  Y gt  Si le facteur X est absent  le plus court facteur   est la premi  re lettre qui pr  c  de  strictement Y      e  lt   Y gt    Si le facteur X est absent  le plus long facteur    est le pr  fixe de W tel que  W      Y     Pour illustrer l   utilisation des ces op  rateurs  consid  rons le verbe reprendre         1  Le point repr  sente ici l op  ration de concat  nation                 60 CHAPITRE 3  DICTIONNAIRES  Verbe Op  rateur   Variable R  sultat  reprendre    lt re gt  reprend  reprendre    lt   gt    e reprendr  reprendre    lt    gt      reprendre        reprendre    lt re re gt    nd rep  reprendre    lt re  re gt       prend  reprendre    lt  re gt    d repren  reprendre    lt re  gt        reprendre  reprendre    lt   re gt     reprend  e  reprendre    lt re   gt      prendre   re        
207. de fr  quence     Dans le fichier tok_by_alph txt  chaque ligne est compos  e d   une unit    suivie  par le caract  re tabulation et le nombre d   occurrences de cette unit   dans le texte     Les lignes du fichier tok_by_freq txt sont form  es sur le m  me principe  mais  le nombre d occurrences appara  t avant le caract  re tabulation et l   unit       14 4 6 Fichier enter pos    Ce fichier est un fichier binaire contenant la liste des positions des retours    la  ligne dans le fichier   snt  Chaque position est l indice dans le fichier text cod d un  retour    la ligne ayant   t   remplac   par un espace  Ces positions sont des entiers  cod  s sur 4 octets     14 5 Automate du texte    14 5 1 Fichier text tfst    Le fichier text  t fst repr  sente l automate du texte  C est un fichier texte qui  commence par une ligne comportant dix chiffres qui indiquent le nombre de phrases  contenues dans l automate  Ensuite  pour chaque phrase  on dispose de l en t  te  suivante      e SXXXY   XXX   num  ro de la phrase   e foo foo foo   f  texte de la phrase     e a b c d e f g h   Y   pour chaque token de la phrase  il y a une paire  x y   x est l index du token dans le fichier tokens   txt  y est sa longueur en  caracteres     e X_Y4   X est l   offset du premier token de la phrase  en tokens depuis le d  but  du texte  Y est identique mais l offset repr  sente le nombre de caracteres     14 5  AUTOMATE DU TEXTE 321    Ensuite  tous les   tats de l automate sont cod  s  un par lign
208. de graphes    Il peut arriver que l   on souhaite appliquer plusieurs grammaires situ  es dans un m  me  r  pertoire  Pour cela  il est possible de construire automatiquement une grammaire    partir  d une arborescence de fichiers  Supposons par exemple que l   on ait l arborescence suivante      e Dicos      6 6  COLLECTION DE GRAPHES 143    vanille  fraise  pistache       FIGURE 6 38     Exemple de graphe        Banque     carte grf      Nourriture      x eau grf         pain grf         truc grf    Si l   on veut rassembler toutes ces grammaires en une seule  on peut le faire avec la com   mande  Build Graph Collection  dans le sous menu  FSGraph  gt  Tools   On configure cette  op  ration au moyen de la fen  tre de la figure 6 39     Building Graph Collection E x     Source directory              Set           Resulting GRF grammar                 Set         Cancel OK    FIGURE 6 39     Construction d une collection de graphes                Dans le champ  Source directory     s  lectionnez le r  pertoire racine que vous voulez ex   plorer  dans notre exemple  le r  pertoire Dicos   Dans le champ  Resulting GRF grammar    indiquez le nom de la grammaire produite     ATTENTION   ne placez pas la grammaire de sortie dans l arborescence que vous voulez  explorer  car dans ce cas  le programme va chercher    lire et      crire simultan  ment dans ce  fichier  ce qui provoquera un plantage     144 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Lorsque vous cliquerez sur  OK 
209. de mor   phologique  cf  section 6 4   On ne peut pas d  clarer un graphe dictionnaire comme diction   naire du mode morphologique de la maniere habituelle  cf  section 6 4 3   car ce n est pas un  fichier  bin  Quand on est en mode morphologique  les masques lexicaux qui n  cessitent la  consultation d un dictionnaire ne d  clenchent pas la consultation de graphes dictionnaires   En compensation  on dispose de plusieurs solutions        2  Les graphes dictionnaires morphologiques sont une exception  section 3 7 4       3 7  APPLICATION DE DICTIONNAIRES 69         eS        Yp    No            A    Tm    Md      Ep    Fm         AZ     Gd   Tb   Dy   Ho   Ver   Es      Ry   Rh   Pg   Ag  tg     Es    LL  Py  Am  Sm   Bk             Pr   Nd   Pm     nyju  Np     Nb   Mo  A    E A     La   Ce    Ac  GR a  Pa    FIGURE 3 19   Graphe dictionnaire des   l  ments chimiques    70 CHAPITRE 3  DICTIONNAIRES    3    eE        NPr    FIGURE 3 20     Graphe dictionnaire   tiquetant comme noms propres les mots inconnus com   men  ant par une majuscule    e On peut envisager d invoquer le graphe dictionnaire depuis la partie du graphe qui  est en mode morphologique     e Unitex produit de fa  on interne un dictionnaire des formes reconnues dans le texte par  un graphe dictionnaire  Si le nom du graphe dictionnaire contient l option b  voir ci   dessous Conventions de nommage   ce dictionnaire produit automatiquement est in   clus implicitement parmi les dictionnaires du mode morphologique 
210. de un genre d  fini  Ce type de fichier est n  cessaire pour exprimer le fait qu   un cer   tain mot se fl  chit en nombre  genre ou cas  sans avoir      num  rer chaque fois les valeurs  flexionnelles  singuler  pluriel  masculin  etc   qu il accepte     De fa  on similaire  pour le francais  le fichier Morphology  txt ressemble    ceci      French    lt CATEGORIES gt    Nb s p   Gen   m  f    lt CLASSES gt    noun    Nb  lt var gt    Gen  lt var gt    adj   Nb  lt var gt    Gen  lt var gt    adv     Toutefois  dans les syst  mes de flexion existants  de telles descriptions de cat  gories gram   maticales  cat  gories flexionnelles et valeurs ne sont pas toujours pr  sentes  Par exemple   selon les conventions DELA   20   les valeurs morphologiques des mots simples sont des  s  quences de caract  res contigus  e g  ms pour le masculin singulier  sans mention explicite  des cat  gories correspondantes  Afin que le programme soit compatible avec de tels sys   t  mes  on utilise une liste  contenue dans le fichier appel   Equivalences txt  qui d  crit  quelle caract  ristique flexionelle correspond a quelle paire cat  gorie valeur dans notre de   scription  Par exemple  les listes suivantes         Polish French   s   Nb   sing s Nb s  p Nb  pl p Nb p  M   Case   Nom f Gen f  D  Case   Gen m  Gen  m  C   Case   Dat   B   Case   Acc   I   Case   Inst   L   Case   Loc   V   Case   Voc   o  Gen   masc_pers   z Gen   masc_anim   r Gen   masc_inanim   f Gen  fem   n   Gen   neu    d
211. dis que le pluriel de celui ci a trois variantes      e chief justices    e lord justices  lords justice  lords justices  Ainsi  au moins l   un des exemples ci dessus doit   tre consid  r   comme lexicalis   pour que  la flexion automatique soit fiable     MULTIFLEX met en   uvre un formalisme fond   sur l unification qui permet de d  crire la  flexion des mots compos  s  88   Ses caract  ristiques sont d  crites dans la section 11 2  Ce    224 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    formalisme n  cessite que la description soit pleinement lexicalis  e   chaque mot compos    figurant dans un dictionnaire est muni d un code  ex   NC_NN  NC_NN2  etc   repr  sentant  son paradigme flexionnel  par exemple  dans un format de type DELA      aircraft carrier carrier N1  s   NC_NN  chief justice justice N1  s   NC_NN  lord lord N1  s  justice justice N1  s   NC_NN2    Cependant  la grande majorit   des mots compos  s peut   tre trait  e avec un petit nombre  de codes  Ainsi  la lexicalisation de la description consiste principalement a d  finir les mots  compos  s  qui respectent ou ne respectent pas la    grammaire        11 2 Formalisme de flexion des mots compos  s    Un formalisme de description de la morphologie des mots compos  s a   t   d  crit par  Agata Savary en 1985  88   Il est fond   sur des   tudes sur l anglais  le polonais et le francais   et en outre a   t   test   pour le serbe  59  et le grec  30   Il repose sur une repr  sentation  ind  pendante de la langue q
212. dit Mr  Fog  nt   7 Savez vous une chose  ajouta t il   capitaine  BeEntity PunctiontMilitary   7      Fogg   que ainsi con  ue   Suez    Londres  Rowan    directeur   MEntitye PunctionsAdministration  police   able Batulcar  sorte de Barnum am  riceain   directeur  NEntity Panctiont  Adainistration   d une t  esko  la grande cit   qu habite le mikado   empereur  WeEntityeFunction Aristocratic  eccl  siast  ecient quelques paroles  et     ce moment    le brigadier  NtEntitytMm  tiontMilitaryl g  n  ral  r  rehe du steamer  Quand il   tait maniable i le capitaine  JHEntite Puncrion Military  faisait   t    Phileas Fogg voulait aller    Liverpool    le capicaine  NtEnticy Pim  crioneMilitaryl ne voulait    tendant que J avais tort de jouer pique l le colone r   ty  ct n a fait une  r      Arriv      Suez  mercredi 9 octobre   11 heures  NtEnticyeTine Hour  matin      Total des heur  e lendemain  c   tait le 12 d  cembre  Du  121  sept heures  NEntity Tine Mour  du matin  au 21   u  t         Lt fe         t rapidement vers l est  Le lendemain       t Dare tPe vel     midi  wm  ion    ne partait que le surlendemain        J    iag zel  Et d ailleu  saki et Yokohama  Arriv   le matin m  me       l heure r    faux pont  tout y passa  Le lendemain  119 d  cembre  NtEnticytTinetDatetFelativel  on br  la la       FIGURE 12 19   Concordance de CasSys dans Unitex    12 4 2 Les diff  rents fichiers r  sultats d une cascade    CasSys conserve tous les textes cr    s par chaque graphe de 
213. dre  ajout  suppression  et appliquer la cascade     12 1 1 Cr  ation de la liste des transducteurs    Afin de pouvoir g  rer la liste de transducteur  le menu FSGraph comporte deux sous menus     New cascade  et  Edit cascade      Figure 12 1   Pour cr  er la liste des transducteurs  s  lec   tionnez  New cascade   Si vous souhaitez modifier une cascade existante  s  lectionnez  Edit  cascade      puis choisissez le nom de la cascade    ouvrir     FSGraph   Lexicon Grammar    New   Open    Ctri O  Save Ctri S  Save as      Save All   Page Setup   Print    Ctri P  Print All          Undo Ctrl Z  Redo Ctrl Y       Tools  gt   Format  gt   Zoom  gt        New Cascade  Edit Cascade           Close all          FIGURE 12 1   Menu  FSGraph  d Unitex et sous menu  New Cascade  et  Edit cascade        Le r  pertoire de la langue courante contient un sous r  pertoire nomm   CasSys dans  lequel se trouvent les fichiers de configuration d une cascade  Ce sont des fichiers textes  avec l extension  csc  ex   ma cascade csc     12 1  APPLIQUER UNE CASCADE DE TRANSDUCTEURS AVEC CASSYS 253  12 1 2 Edition de la liste des transducteurs    La fen  tre de configuration de CasSys  12 2  comporte trois parties      A Cassys Transducer Configuration   test csc          Disabled Replace   Until Fix Point  L  _ testGram fst2 i   testPoids fst2   ra G    jombres fst2 wI                                                                                              Look In   C Graphs      SEE e        
214. duire    Ainsi  dans l interface Unitex  MULTIFLEX la description d un mot simple se fait comme  suit      o vive vif A54  fs     o   A54 est le code flexionnel vif et fs forment la description morphologique de type DELA  des caract  ristiques pr  sentes dans le fichier Equivalences txt  cf  section 11 2 1   En  sachant que vive est le f  minin singulier de vif  on peut demander la g  n  ration du pluriel  sans avoir    pr  ciser explicitement le genre du pluriel de la forme souhait  e   puisque nous  voulons seulement modifier le nombre  le genre reste celui du mot d   origine vive  donc  f  minin        11 23 Paradigme de flexion des mots compos  s    Dans notre formalisme  la description morphologique des mots compos  s repose sur le  syst  me DELA dans la mesure o        e chaque mot compos   poss  de un code flexionnel    e un code flexionnel d  crit explicitement chaque forme fl  chie en termes de traitement     effectuer sur sa forme canonique  et de caract  ristiques    lui associer     Dans sa version Unitex  MULTIFLEX utilise des codes flexionnels qui renvoient    des graphes  Unitex compil  s au format   st2  Par exemple  figure 11 1 pr  sente le graphe de flexion  pour battle royal        FIGURE 11 1   Graphe de flexion pour battle royal    Selon les conventions d Unitex  trois constituants sont pr  sents dans battle royal   battle d  nomm       1  un espace d  nomm    2  et royal d  nomm    3  Si des variables apparaissent seules dans    228 CHAPITRE 11  FLEXION 
215. e  Si l     tat est final  la  ligne commence par t  Sinon  elle commence par    Toutes les transitions sont   crites  sous la forme de paires x y  x   tant le nombre de tag  y   tant le nombre d   tats de  destination  Remarquons que contrairement au format  fst2  les lignes doivent  finir par un espace  La derni  re ligne de la liste d   tats contient f     Enfin  tous les les tags sont cod  s  Par convention  le premier tag est toujours   p   silon     lt E gt     4    D autres   tiquettes doivent   tre soit des unit  s lexicales ou des entr  es au format  DELAF entre accolades  Elles sont cod  es comme suit       STD4   content  Qa b c x y zq       contenu est le contenu du tag  Les informations a b c x y z d  crivent la zone du texte  couverte par le tag      e a  offset de d  but en tokens depuis le d  but de la phrase   e b  offset de d  but en caract  res depuis le d  but du premier  token du tag     e c  offset de d  but en lettres logiques depuis le premier caract  re du tag  Ces in   formations sont utiles pour le cor  en  parce qu   un tag repr  sent une s  quence  de caract  res Jamo qui apparaissent    l   int  rieur d   un Hangul  L   offset en car   act  res n est donc pas assez pr  cis      e x  offset de fin en tokens depuis le d  but de la phrase   e y   offset de fin en caract  res depuis le d  but du dernier token du tag      e z   de fin en lettres logiques depuis le dernier caract  re du the tag  Dans des  automates de phrase cor  en  des formes de surf
216. e  celle ci sera ignor  e gr  ce au jeu  des priorit  s    Il y a trois niveaux de priorit  s  Les dictionnaires dont les noms sans extension se terminent  par   ont la priorit   la plus grande   ceux dont le nom se termine par   ont la priorit   la plus  faible  les autres dictionnaires sont appliqu  s avec une priorit   moyenne  L ordre d appli     cation de plusieurs dictionnaires ayant la m  me priorit   est sans importance  En ligne de  commande  l instruction      Dico ex snt alph txt ctr  bin cities  bin rivers bin regions  bin    appliquerait donc les dictionnaires dans l   ordre suivant  ex  snt est le texte auquel sont  appliqu  s les dictionnaires  alph   txt est le fichier alphabet utilis         1  cities  bin  2  regions  bin  3  rivers bin    4  ctr  bin    3 7 2 R  gles d application des dictionnaires    Outre la r  gle de priorit  s  l application des dictionnaires s effectue en respectant les  majuscules et les espaces  La r  gle du respect des majucules est la suivante      e s   il y a une majuscule dans le dictionnaire  alors il doit y avoir une majuscule dans le  texte      e s   il y a une minuscule dans le dictionnaire  il peut y avoir soit une minuscule soit une  majuscule dans le texte     Ainsi  l entr  e pierre   N  fs reconna  tra les mots pierre  Pierre et PIERRE  alors que  Pierre   N Pr  nom ne reconna  tra que Pierre et PIERRE  Les lettres minuscules et ma   juscules sont d  finies par le fichier alphabet pass   en param  tre au programme Dico
217. e  en une grammaire au format   fst2 qui sera utilis  e par le programme de recherche     4 8 2 Affichage des r  sultats    Une fois la recherche termin  e  la fen  tre de la figure 4 5 appara  t  indiquant le nombre  d   occurrences trouv  es  le nombre d unit  s lexicales reconnues  ainsi que le rapport entre ce  nombre et le nombre total d unit  s lexicales du texte     200 matches  644 recognized units   0 345  of the text is covered        FIGURE 4 5     R  sultats de la recherche    Apr  s avoir cliqu   sur  OK   vous verrez appara  tre la fen  tre de la figure 4 6 permettant  de configurer l affichage de la liste des occurrences trouv  es  Vous pouvez   galement faire  appara  tre cette fen  tre en cliquant sur  Display Located Sequences     dans le menu  Text    On appelle concordance la liste d occurrences     Le cadre  Modify text  offre la possibilit   de remplacer les occurrences trouv  es par les sor   ties produites  Cette possibilit   sera examin  e au chapitre 6     Le cadre  Extract units  vous permet de construire un fichier texte avec toutes les phrases  contenant ou non des occurrences  Le bouton  Set File  vous permet de s  lectionner le fichier  de sortie  Cliquez ensuite sur  Extract matching units  ou  Extract unmatching units  selon  que vous voulez extraire les phrases contenant les occurrences ou non     Dans le cadre  Show Matching Sequences in Context   vous pouvez s  lectionner la longueur  en caract  res des contextes gauche et droit des occurre
218. e  grammaticale  leurs codes s  mantiques  leurs codes flexionnels et la valeur zzz de  l attribut y y y s   il y figure un code de la forme yyy zzz     7 8 Affichage de la Table    Les automates de phrases peuvent   tre affich  es sous forme de tableau  Pour ce faire  il  vous suffit de s  lectionner l onglet  Tableau  dans la zone automate de texte  Vous verrez  alors un tableau comme indiqu   sur la figure 7 35     Ce tableau n est pas tout    fait   quivalent    l automate de phrase  car il affiche seulement    7 8  AFFICHAGE DE LA TABLE 195               Automaton   Table                                                                                       Filter grammatical semantic codes      Always show POS category  regardless filtering  Export all text as POS list        All    Only POS category    Use filter      Form POS sequence  1 POS sequence  2   DANS DANS  dans PREP Dnom z 1   LEQUEL LEQUEL lequel DET Dnom z 1  ms    Phileas Fogg  N Hum   Phileas Fogg N Hum   ET ET et CONJC   PASSEPARTOUT PASSEPARTOUT   s  se PRO PpvLE z1 3f5 3ms 3fp 3mp se PRO PpvLUI z1 3fs 3ms   ACCEPTENT ACCEPTENT accepter V z1 P3p S3p   RECIPROQUEMENT RECIPROQUEMENT r  ciproquement ADV z 1   L    la le DET Ddef zi fs la le PRO PpvLE z1 3fs   L UN L UN l un PRO Pind zi ms   UN UN  un A z2 ms UN  un DET Dind z1 ms   COMME COMME   comme  ADV z 1 COMME   comme  CONJS 1   MAT TRE MA  TRE ma  tre N zi ms    r r  IL  la le DET Ddef z1 fs la le PRO PpvLE z1 3fs   AUTRE AUTRE  autre DET Dadj ms fs
219. e  image avec un   diteur graphique  par exemple TheGimp   et collez votre image dans votre  document de la m  me facon que sous Windows     Image vectorielle    Si vous pr  f  rez une image vectorielle  vous pouvez exporter votre graphe vers le format  SVG  qui est utilisable avec des logiciels comme Inkscape   24    Il permet d   obtenir des  sorties PostScript utilisables dans des documents TEX     5 4 2 Impression d un graphe    Vous pouvez imprimer un graphe en cliquant sur  Print     dans le menu  FSGraph  ou  en appuyant sur  lt Ctrl P gt      ATTENTION   vous devez vous assurer que le parametre d orientation de l imprimante   portrait ou paysage  correspond bien    l orientation de votre graphe     5 4 LES GRAPHES EN DEHORS D UNITEX 117    Vous pouvez d  finir vos pr  f  rences d impression en cliquant sur  Page Setup  dans le menu   FSGraph   Vous pouvez   galement imprimer tous les graphes qui sont ouverts en cliquant  sur  Print All           118 CHAPITRE 5  GRAMMAIRES LOCALES    Chapitre 6    Utilisation avanc  e des graphes    6 1 Les types de graphes    Unitex peut manipuler plusieurs types de graphes qui correspondent aux utilisations  suivantes   flexion automatique de dictionnaires  pr  traitement des textes  normalisation  des automates de textes  graphes dictionnaires  recherche de motifs  lev  e d ambiguit  s et  g  n  ration automatique de graphes  Ces diff  rents types de graphes ne sont pas interpr  t  s  de la m  me fa  on par Unitex  Certaines choses 
220. e  texte  pour plus de d  tails  voir section 13 52 au sujet du programme XMLi zer   Quand vous  cliquez sur  OK   le nom d un fichier XML vous est demand   comme le montre la figure  10 2  Unitex construit alors  si besoin est  les versions XML de vos textes  et affiche le cadre  de la figure 10 3  Comme vous pouvez le constater  chaque texte est repr  sent   sous la forme  d une liste  chaque cellule comportant une phrase     213    214 CHAPITRE 10  ALIGNEMENT DE TEXTE       Target text     st         Alignment file  optional     oO       FIGURE 10 1     Fen  tre de s  lection des textes    aligner             XAlign  Source text    D My UnitexiFrenchiCorpusiA funtana fr bd   set    aka  gt                    DAM  EE Your source file is a  txt one  Please select the  Alignt destination file to be used by XAlign  TEI format           _  OK    FIGURE 10 2     Attention aux textes bruts    10 2  ALIGNER DES TEXTES    D iMy UnitexiXAlign funtana xml      Je vous demande pardon   ch  re madame  de ne pas  pouvoir vous r  pondre dans  otre langue    Je suis sans doute  sur  cette ile  la seule  personne qui ait oubli   la  m  moire d outre mer        cer scuze  stimat   doamna  ca nu pot  s   va raspund in limba dumneavoastr     Sint probabil sigura persoan   de pe  aceasta insula careia i s a sters din  memorie lumea de dincolo de mare     Ah  marea        Si insulele indepartate pierdute la  geana orizontului     Fara de veste vintul se pr  vale dinspre    ghn Tra mer        Et
221. e Concord C est gr  ce    cela que lorsque  l on clique sur une occurrence dans une concordance  celle ci est correctement  s  lectionn  e dans le texte     Tous les fichiers produits sont sauvegard  s dans le r  pertoire du texte     13 45 TrainingTagger       TrainingTagger  OPTIONS   lt txt gt     Ce programme g  nere automatiquement deux fichiers de donn  es Tagger    partir  d un corpus   tiquet    Ils sont utilis  s par le programme Tagger afin de calculer les  probabilit  s et lin  ariser l   automate texte  Le fichier corpus   tiquet   doit suivre le  format d  crit    la section 14 10 1  Ces fichiers contiennent des tuples  unigrammes   bigrammes et trigrammes   form  es par des balises et des mots  Dans le premier  fichier de donn  es  les   tiquettes sont de type  cat   i e  des codes grammaticaux   syntaxiques et s  mantiques   Dans le second fichier de domn  es  les   tiquettes sont  de type  morph   i e  des codes grammaticaux  syntaxiques  s  mantiques et flexion   nels      OPTIONS     e     a   all   indique que le programme doit produire tous les fichiers de don   n  es  par d  faut       e  c   cat   indique que le programme ne doit produire que les fichiers de  donn  es avec  cat      e  m   morph   indique que le programme ne doit produire que les fichiers de  donn  es avec  morph       e  n   no_binaries   indique que le programme ne doit pas compresser les  fichiers de donn  es en fichiers  bin  seulement dans ce cas les fichiers de don   n  es  dic son
222. e de e      e    ou     Voici l extrait du fichier alphabet du francais  qui d  finit les diff  rentes lettres   e           14 2 2 Alphabet de tri    L   alphabet de tri est un fichier texte qui d  finit les priorit  s des lettres d   une  langue lors du tri    l   aide du programme SortTxt Chaque ligne de ce fichier d  finit    314 CHAPITRE 14 FORMATS DE FICHIERS    un groupe de lettres  Si un groupe de lettres    est d  fini avant un groupe de lettres  B  n importe quelle lettre de A sera inf  rieure    n importe quelle lettre de B     Les lettres d   un m  me groupe ne sont distingu  es que si n  cessaire  Par exemple   si l   on a d  fini le groupe de lettre e         le mot   bahi sera consid  r   comme plus  petit que estuaire  lui m  me plus petit que   t    Comme les lettres qui suivent e  et    permettaient de classer les mots  on n   a pas cherch      comparer les lettres e et     car elles sont du m  me groupe  En revanche  si l   on compare les mots chant  s et  chantes  chantes sera consid  r   comme plus petit  En effet  il faut comparer les  lettres e et    pour distinguer ces mots  Comme la lettre e appara  t en premier dans  le groupe e  eg    elle est consid  r  e comme inf  rieure        Le mot chantes sera  donc consid  r   comme plus petit que le mot chant  s     Le fichier d   alphabet de tri permet de d  finir des   quivalences de caract  res  On peut  donc ignorer les diff  rences de casse et d   accent  Par exemple  si l   on veut ordonner  les lettr
223. e des fl  ches haut et    2 5  PR  TRAITEMENT DU TEXTE 41     F Word Lists in  home paumier unitex English Corpus ivanhoe_snt oo Y  Xi  DLF  13284 simple word lexical entri     a     DET Dind s   a    N s   Aaron   N PR Hum   abandoned   A  abandoned abandon V K 116 1I  abate   V WsPis P2s PipsP2ps  abated abate V K 116 126 13  abbey   N Conc s   abbot   N Hum s  abbots abbot N Hum p   abide   V W Pis P25 P1p P2p    om        ERR  413 unknown simple words       Filter unknown words with tags             DLC  274 compound lexical entries    absolute necessity   N XN z1 2  act of violence   N NPN z1 5 Andalusia  agnus castus  N XN NX Conc  andTermagaunt  all around   A DA z1   all comers  N XN z1 p   all in  A z1  Anglo Saxon  N XN Hum z1 s  Anglo Saxons Anglo Saxon N   as usual   A asA z1   as was    AtasV z1    ass s ears ass s ear N NsN     4  ill                     FIGURE 2 13     R  sultats de l application de dictionnaires sur un texte anglais    bas  voir figure 2 14   Le bouton  Set Default  vous permet de d  finir la s  lection courante  de dictionnaires comme s  lection par d  faut  Cette s  lection par d  faut sera utilis  e lors du  pr  traitement si vous choisissez l   option  Apply All default Dictionaries   Si vous effectuez  un clic droit au dessus d un nom de dictionnaire  la documentation du dictionnaire  si elle  existe  s affichera dans le cadre inf  rieur     2 5 6 Analyse des mots compos  s libres en n  erlandais  allemand  norv  gien et  russe    Dans ce
224. e des mod   ifications manuelles  Si le programme trouve un fichier sentenceN grf dans le    m  me r  pertoire que  lt t   st gt   il remplace l   automate de la phrase N par celle repr  sen   t  e par sentenceN grf  L automate du texte donn   entr  e est modifi       13 33 Reconstrucao       Reconstrucao  OPTIONS   lt index gt     Le programme g  n  re une grammaire de normalisation destin  e      tre appliqu  e  avant la construction d un automate pour un texte en langue portugaise  Le fichier   lt index gt  repr  sente une concordance qui doit   tre produite en mode MERGE to the  considered text a grammar that extracts all forms to be normalized  Cette grammaire  est nomm  e V Pro Suf etest stock  e dans le r  pertoire  Portuguese Graphs Normalizat     OPTIONS   e  a ALPH   alphabet ALPH   le fichier alphabet    utiliser      e  r ROOT   root ROOT   le dictionnaire invers    bin    utiliser pour retrou   ver les formes au futur et au conditionnel    partir des formes canoniques  Il a    t   obtenu en compressant le dictionnaire des verbes au futur et au condition   nel avec le param  tre   flip  voir section 13 8            e  d BIN   dictionary BIN  le dictionnaire  bin    utiliser        e  p PRO   pronoun_rules PRO  la grammaire   fst2 de r    criture des pronoms     13 34  REG2GRF 297    e  n PRO   nasal_pronoun_rules PRO   la grammaire  fst2 de r    crit   ure des pronoms nasaux      e  o OUT   output OUT   le nom du graphe  grf    g  n  rer    13 34 Reg2Grf  Reg2Grf 
225. e la grammaire ainsi que le mode d   ex   ploration      e  Ignore outputs    les sorties sont ignor  es       Separate inputs and outputs    les sorties sont affich  es group  es apr  s les entr  es   abc ABC       Merge inputs and outputs    chaque sortie est affich  e imm  diatement apr  s l entr  e  qui lui correspond  a A b B c C       Only paths    les appels aux sous graphes sont explor  s r  cursivement      Do not explore subgraphs recursively    les appels aux sous graphes sont affich  s sans    tre explor  s r  cursivement     Si l option  Maximum number of sequences  est coch  e  le nombre sp  cifi   sera le nombre  maximum de chemins g  n  r  s  Si l option n est pas s  lectionn  e  tous les chemins seront  g  n  r  s     Voici ce que l   on obtient pour le graphe de la figure 6 38 avec les param  tres par d  faut   ignorer les sorties  limite   100 chemins       Zz    B gt   B gt   B gt   B gt   B gt   B gt   B gt   B gt   B gt     2 222222             oe ce oy te Ca ee es ANA AA        lt bo   lt bo   lt bo   lt bo   lt bo   lt bo   lt bo   lt bo   lt bo    lace    1  lace    1  lace    la vanille  lace vanille             G GaGa G G amp G GG GG  bo Lu Lu ps ps ps L  H H H H H H    le gt   le gt   le gt     lace fraise  lace pistache    de  de  de  de  de  de  de  de  de          glace    la pistache  glace    la fraise  glace    la vanille  glace vanille   glace fraise   glace pistache  pistache   fraise   vanille    la fraise    La pistache    6 6 Collection 
226. e les codes grammaticaux  ta   ble 3 1  et s  mantiques  table 3 2   Dans le format de dictionnaires   lectroniques DELAF  les  codes grammaticaux sont ceux qui apparaissent en premier et codent la cat  gorie grammat   icale  mais dans les masques lexicaux d   Unitex  l   ordre dans lequel apparaissent les codes  grammaticaux et s  mantiques n   a pas d importance  Les trois masques lexicaux suivants  sont   quivalents       lt N Hum z1 gt    lt z1 N Hum gt    lt  Hum z1 N gt     Un masque lexical peut contenir un code s  mantique sans code de cat  gorie grammaticale     NOTE   il n   est pas possible d utiliser un masque n   ayant que des codes d interdiction   lt  N gt   et  lt  A z1 gt  sont donc des masques incorrects  Il est toutefois possible d   exprimer de telles  contraintes en utilisant des contextes  voir section 6 3      4 3 4 Contraintes flexionnelles    On peut   galement sp  cifier des contraintes portant sur les codes flexionnels  Ces con   traintes doivent obligatoirement   tre pr  c  d  es par au moins un code grammatical ou s     mantique  Elles suivent les m  mes conventions de format que les codes flexionnels pr  sents  dans les dictionnaires  Voici quelques exemples de masques lexicaux utilisant des contraintes  flexionnelles      e  lt A m gt  reconnait un adjectif au masculin      e  lt A mp gt  reconna  t un adjectif au masculin pluriel        2  Siles dictionnaires d  crivent un mot par deux entr  es dont une avec A z3 et l   autre avec seulement A  
227. e les pronoms personnels nominatifs   lt PRO PpvI1 gt   sont   tiquet  s morphologique   ment par une personne  un genre et nombre      e les pronoms pr  positionnels  en  y  n   ont aucun trait flexionnel     Toutes les combinaisons des traits flexionnels et discriminants qui apparaissent dans les  dictionnaires doivent   tre d  crites dans le fichier tagset  def  faute de quoi les entr  es  correspondantes seront rejet  es par ELAG     Dans le cas o   des mots d   une m  me sous cat  gorie diff  rent par leurs traits flexionnels   il est n  cessaire d   crire plusieurs lignes dans la partie complete  L inconv  nient de cette  m  thode de description est qu il devient difficile de faire la distinction entre de tels mots  dans une grammaire ELAG     Si l   on consid  re la description donn  e pr  c  demment en exemple  certains adjectifs du  fran  ais prennent un genre et un nombre  alors que d   autres n   ont aucun trait flexionnel   C est par exemple le cas de s  quences fig  es comme de bonne humeur qui ont un comporte   ment syntaxique tres proche de celui des adjectifs     De telles s  quences ont ainsi   t   int  gr  es dans le dictionnaire du francais en tant qu adjec   tifs invariables et donc sans trait flexionnel  Le probl  me est que si l   on veut faire r  f  rence  exclusivement    ce type d adjectifs dans une grammaire de d  sambiguisation  le symbole   lt A gt  ne convient pas  puisqu il donnera tous les adjectifs  Pour contourner cette difficult     il est po
228. ec son r  pertoire  _snt   Le fichier con   tenant la liste des transducteurs est un fichier dans lequel chaque ligne contient le  nom complet du transducteur suivi de son mode d application     270 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    A la place d   une liste  vous pouvez sp  cifier chaque fichier et mode d application  par un ensemble de couple d arguments pour repr  senter la liste  s   transducer _file  et  m   transducer _ policy    Le mode d application peut   tre MERGE ou REPLACE     L option de fichier  l option alphabet et l option fichier liste de transducteurs sont  obligatoires    Comme le programme Locate  ce programme enregistre les r  f  rences des occur   rences dans un fichier concord ind stock   dans le r  pertoire  _snt verb du  texte  Le fichier concord ind produit est dans le m  me format que celui d  crit  chapitre 14   mais la cascade peut   tre form  e de graphes appliqu  s en mode merge  ou replace  de ce fait  M ou  R    la premi  re ligne du fichier concord  ind n a pas  de sens dans ce contexte     13 7 CheckDic    CheckDic  OPTIONS  dic          Ce programme effectue la v  rification du format d   un dictionnaire de type DELAS  ou DELAF dic qui correspond au nom du dictionnaire    v  rifier    OPTIONS      e  f   delaf   v  rifie un dictionnaire de formes fl  chies         e  s   delas   v  rifie un dictionnaire de formes canoniques      e  r   strict  v  rification stricte de la syntaxe  la d  sp  cialisation des points  et virgule
229. ectroniques   la flexion verbale en grec  moderne  1990  These de doctorat  Universit   Paris 8  3 8     61  Tita KYRIACOPOULOU  Un syst  me d analyse de textes en grec moderne    repr  sentation des noms compos  s  In Actes du 5  me Colloque International de  Linguistique Grecque  13 15 septembre 2001  Sorbonne  Paris  2002  3 8     62  Tita KYRIACOPOULOU  Safia MRABTI  and AnastasiaYANNACOPOULOU  Le  dictionnaire   lectronique des noms compos  s en grec moderne  Lingvistice In   vestigationes  25 1   7 28  2002  Amsterdam Philadelphia   John Benjamins Pub   lishing Company  3 8     63  Jacques LABELLE  Le traitement automatique des variantes linguistiques en  fran  ais   l exemple des concrets  Lingvistice Investigationes  19 1   137 152   1995  Amsterdam Philadelphia   John Benjamins Publishing Company  3 8     64  Eric LAPORTE and Anne MONCEAUX  Elimination of lexical ambiguities by  grammars   The ELAG system  Lingvistice Investigationes  22  341 367  1998   Amsterdam Philadelphia   John Benjamins Publishing Company  7 3     65  Ville LAURIKARI  TRE home page  http   laurikari net tre  1 47     66  Christian LECL  RE  The lexicon grammar of french verbs   a syntactic database   In Kawaguchi Y  et alii  editor  Linguistic Informatics   State of the Art and the  Future  pages 29 45  Amsterdam  Philadelphia   Benjamins  2005  9 1     67  Judith N  LEVI  The Syntax and Semantics of Complex Nominals  Academic Press   New York London  1978  11 1     68  XAlign Alignement multi
230. egistrer le graphe dans le sous r  pertpoire Graphs de votre r  pertoire  de travail  Vous pouvez voir si le graphe a   t   modifi   apr  s le dernier enregistrement en  v  rifiant si le titre du graphe contient le texte  Unsaved      Un graphe peut contenir des boucles  Une boucle peut entourer une seule boite  comme  dans la fig  5 7  ou plusieurs  comme dans la fig  5 16  Le contenu de la boucle sera reconnu  n importe quel nombre de fois en s  quence  On peut fixer des limites au nombre de fois   mais uniquement pour une boucle autour d   une seule boite   voir la section 6 2 4     Lorsqu on modifie un graphe  on peut faire appara  tre  par un clic droit  un menu contextuel   fig  5 8  qui permet d effectuer les op  rations les plus usuelles          Create box    Surround with     Merge boxes Output variable        gt  Input variable    Export as new graph   Morphological mode       Save Left context  Save as    Right context    Page Setup Negative right context  Print                   Tools  gt   Format b  Zoom             FIGURE 5 8     Menu contextuel    e cr  er une bo  te  e enregistrer ou imprimer le graphe courant ou modifier les param  tres de la page    e les menus habituels  Tools    Format  et  Zoom    galement accessibles dans le menu   FSGraph     5 2    DITION DE GRAPHES 99    Si une ou plusieurs bo  tes sont s  lectionn  es  les menus suivants deviennent accessibles  et  permettent d effectuer plusieurs types d op  rations sur cet ensemble de bo  tes  Sin
231. elle fen  tre est alors affich  e   voir figure 5 26  qui contient les deux graphes avec des couleurs qui indiquent les types de  diff  rences entre les deux graphes   insertion  suppression  d  placement de bo  tes et change   ment de contenu d   une bo  te apparaissent respectivement en vert  rouge  mauve et jaune     Les six derniers boutons sont des raccourcis pour la d  finition d   une variable  du mode  morphologique ou d un contexte sur une ou plusieurs bo  tes s  lectionn  es  Ces boutons ne  sont activ  s que si une ou plusieurs bo  tes sont s  lectionn  es      110 CHAPITRE 5  GRAMMAIRES LOCALES             Graph Diff sx A          added   removed M moved M content changed           les bassins ni les docks          E E  n     2  i  mE                                                 FIGURE 5 26     DIFF         variable d   entr  e  voir section 5 2 5          variable de sortie  voir section 6 8    e  lt  gt   mode morphologique  voir section 6 4   e 5   contexte gauche  voir section 6 3    e     contexte droit  voir section 6 3     e 5     contexte droit n  gatif  voir section 6 3     5 3 Options de pr  sentation    5 3 1 Tri des lignes d une bo  te    Vous pouvez trier le contenu d une bo  te en la s  lectionnant et en cliquant sur  Sort Node  Label  dans le sous menu  Tools  du menu  FSGraph   Ce tri ne fait pas appel au programme  Sort Txt  Il s   agit d un tri basique qui trie les lignes de la bo  te selon l   ordre des caracteres  dans le codage Unicode     
232. ement ou de normalisation     Les variables qui font r  f  rence aux colonnes sont form  es du caract  re   suivi d   un nom de  colonne en lettres majuscules  les colonnes sont num  rot  es en partant de A      Exemple    C fait r  f  rence    la troisi  me colonne de la table     Lorsqu une variable doit   tre remplac  e par un   ou un    le signe     correspond    la suppres   sion du chemin passant par cette variable  Il est possible d effectuer l op  ration contraire en  faisant pr  c  der le caract  re     d un point d exclamation  Dans ce cas  c est lorsque la vari   able renvoie    un signe   que le chemin est supprim    Si la variable ne renvoie ni    un signe    ni    un signe    elle est remplac  e par le contenu de la cellule     Il existe   galement une variable sp  ciale    qui est remplac  e par le num  ro de la ligne  dans la table  Le fait que sa valeur soit diff  rente pour chaque ligne permet de l utiliser pour    208 CHAPITRE 9  LEXIQUE GRAMMAIRE  caract  riser facilement une ligne  Cette variable n   est pas affect  e par la pr  sence d   un point    d exclamation    sa gauche     La figure 9 3 montre un exemple de graphe param  tr   con  u pour   tre appliqu      la table  de lexique grammaire table 31H pr  sent  e sur la figure 9 4               le verbe n     ne v  rifie pas la propri  t   de la colonne A        NO V vers N    FIGURE 9 3     Exemple de graphe param  tr                E  Y_31H   OpenOffice org Calc  Fichier   diter Afficher Ins  rer For
233. ement ou indirectement depuis un m  me graphe  principal     152 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    e le graphe principal est compil   et transform   en transducteur fini  voir section 6 2 2      e la boite qui contient le masque lexical est commune    plus de chemins que celles qui  cherchent les codes s  mantiques dans la variable de dictionnaire      6 10 Application des graphes aux textes    Cette section concerne uniquement les graphes syntaxiques     6 10 1 Configuration de la recherche    Pour appliquer un graphe    un texte  vous devez ouvrir le texte  puis cliquer sur  Locate  Pattern     dans le menu  Text  ou appuyer sur  lt Ctrl L gt   Vous pouvez alors configurer votre  recherche gr  ce    la fen  tre de la figure 6 53     E Locate Pattern      Locate configuration   Advanced options       Locate pattern in the form of        Regular expression      e  Graph      Set     _  Activate debug mode                        Index Grammar outputs     Shortest matches  8  Are not taken into account   8  Longest matches    Merge with input text       All matches    Replace recognized sequences       Search limitation    8  Stop after 200   matches      Index all utterances in text   Search algorithm     8  Paumier 2003  working on text  quicker        automaton intersection  higher precision        FIGURE 6 53     Fen  tre de recherche d expressions       3  De cette fa  on  le masque lexical provoque une consultation des dictionnaires du mode morphologique  qu
234. ement un nom   bre par ligne  une position      Ceci convertit une liste de positions en utilisant le fichier d   offsets  Le fichier cr      contient a chaque ligne la nouvelle position suivi d   un   si le caract  re a cette posi   tion est dans le fichier d   arriv  e  suivi d un   si le caract  re a   t   supprim       e  p  lt list_to_create gt   T  lt offset_file_to_read gt     Utiliser  t    la place de  T produit la traduction inverse     13 14 DumpOffsets    Ce programme permet d     tudier et d   utiliser les fichiers de correspondance d   Off   sets  manipul   par certains outils Unitex comme Unxmlize  Normalize  Fst2Txt  To   kenize  Concord et GrfTest        DumpOffsets   merge  o  lt fichier_offsetsl gt   lt fichier_offsets2 gt    p  lt fichier_offset12 gt           IONS      lt     13 14  DUMPOFFSETS 281    En entr  e  le fichier offsets1  14 13 10  page 344   contient la correspondant des off   sets entre un fichier en version A et un fichier en version B  et offset2 contient la  correspondant des offsets entre ce fichier en version B et en version C  le fichier  fichier_offset12 r  sultant aura la correspondance entre les versions A et B           DumpOffsets  OPTIONS   o  lt fichier_versionl gt   n  lt fichier_Version2 gt    lt fichier_offset gt   p  lt fichier_dump gt           OPTIONS   e  f      full   Inclus des informations plus compl  tes    En entr  e  le fichier fichier_offset contient la correspondant des offsets entre le  fichier_versionl et le fic
235. emple      I do not like the  square bracket  N  sign    S     De tels tags permettent de lever des ambigu  t  s en interdisant tout autre interpr  tation  Dans  notre exemple  on ne pourra pas reconna  tre square bracket comme combinaison de deux  mots simples     Toutefois  la pr  sence de ces tags peut perturber l application des graphes de pr  traitement   L utilisateur dispose donc de la commande  Open Tagged Text     dans le menu  Text   gr  ce     laquelle il peut ouvrir un texte contenant des tags sans que les graphes de pr  traitements  ne soient appliqu  s  comme on le voit sur la figure 2 15     2 6  OUVERTURE D UN TEXTE TAGGU      Preprocessing  amp  Lexical parsing xl    Preprocessing    Sentence and Replace graphs should not be applied on tagged texts   Tokenizing    The text is automatically tokenized  This operation is language dependant   so that Unitex can handle languages with special spacing rules   Lexical Parsing       Apply All default Dictionaries       Cancel but tokenize text    C  Analyse unknown words as free compound words  this option    is available onty for Dutch  German  Norwegian  amp  Russian     C  Construct Text Automaton Cancel and close text    FIGURE 2 15     Pr  traitement d un texte taggu         43    CHAPITRE 2  CHARGEMENT D UN TEXTE    Chapitre 3    Dictionnaires    3 1 Les dictionnaires DELA    Les dictionnaires   lectroniques utilis  s par Unitex utilisent le formalisme DELA  Dic   tionnaires Electroniques du LADL   Ce formalisme
236. entrent    l   int  rieur des  tokens   sauf avec les filtres morphologiques   voir section 4 7   comme le montre la figure 6 30          2  502  fine        This does not work  We should use the  following morphological filter    lt  lt  un   able  gt  gt     FIGURE 6 30     Reconnaissance d     l  ments morphologiques    Cependant  les filtres morphologiques ne permettent pas n importe quelle requ  te  puisqu ils  ne peuvent pas faire r  f  rence aux informations contenues dans les dictionnaires  Ainsi  il  est impossible de formuler de cette mani  re une requ  te comme    un mot constitu   du pr  fixe  un suivi d un adjectif en able        Pour surmonter cette difficult    nous introduisons un mode morphologique dans le pro   gramme Locate  Il consiste    d  limiter une partie de votre grammaire avec les symboles    lt  et   gt   Dans cette zone  les donn  es sont reconnues lettre par lettre  comme le montre la  figure 6 31        FIGURE 6 31     Exemple de zone morphologique dans la grammaire    6 4 2 Les r  gles  Dans ce mode  le contenu du graphe n   est pas interpr  t   de mani  re habituelle     1  Il n   y a pas d espace entre les bo  tes  Ainsi  si on d  sire reconna  tre un espace  on doit  le rendre explicite avec      un espace entre guillemets      2  On peut toujours utiliser des sous graphes  mais la fin de la zone morphologique doit  se trouver dans le m  me graphe que son d  but     138    10     11     12     CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    
237. er  on  ou d  sactiver  off  la sor   tie standard    e  e  on off     error  on off    activer  on  ou d  sactiver  off  la sortie  erreur standard    Par exemple      UnitexToolLogger   SelectOutput  o off  e off     Normalize  Unitex English Corpus ivanhoe txt         13 51 Unxmlize    Ce programme supprime tous les tags xml d un fichier  xml ou  html donn   pour  produire un fichier texte traitable par Unitex  Unxmlize  OPTIONS   lt file gt        OPTIONS      e  o TXT   output TXT   fichier de sortie  Par d  faut  foo xml   gt  foo txt       e     output_offsets XXX   sp  cifie le fichier offset    produire    e      PRLG XXX   extrait dans le fichier XXX des informations utilis  es dans le  projet PRLG du grec ancien  exige   output_offsets     e  t   html   considere le fichier comme un fichier html  ne tient pas compte  de l   extension     e  x      xml   considere le fichier comme un fichier xml  ne tient pas compte de  l extension     310    CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    1   tolerate   essayez tol  rer des malformations de balisage              comment s IGNORE   chaque commentaire est supprim    par d  faut         comment s SPACE   chaque commentaire est remplac   par un simple espace           scripts IGNORE   chaque script block is removed           scripts SPACE   chaque commentaire est remplac   par un simple espace   par d  faut pour  html     Note   par d  faut  balises de script sont trait  es comme des balises normales  par  d  faut 
238. er texte original pour produire la concordance  comme le mon   tre la figure 7 34           e  lt TOKEN gt  ne reconna  t pas les tokens tel que d  finis dans tokens  txt  Il reconna  t  n importe quelle   tiquette de l automate du texte  Les   tiquettes reconnues peuvent    194 CHAPITRE 7  AUTOMATE DU TEXTE       DET Dnum z1  mp fp    FIGURE 7 33     Phrase de l automate qui ne reconna  t pas le motif huit    m  laient quelques jeunes   nglais  qui   i  le million en poche  allaient fonder loin des comptoirs de commerce     llion en poche  allaient fonder au loin des comptoirs de commerce     Le        Le  au    r au loin des comptoirs de commerce     Le   purser    l homme de confianc  omptoirs de commerce  5  Le   purser    l homme de confiance de la Compagn    rr    Le   purser    l homme de confiance de la Compaqnie  l   gal du capitaine    l homme de confiance de la Compagnie  l   gal du capitaine    bord  faisai                FIGURE 7 34     Une concordance surprenante pour le motif  lt le DET gt       tre plus longues que les tokens si ce sont des   tiquettes de mots compos  s  ou m  me  plus courtes  si l   automate comporte une analyse mophologique comme un comme le  montre la figure 3 23  page 72     e m  me sans entrer dans le mode morphologique  on peut d  finir des variables de dic   tionnaire  cf  section 6 4 4   Ensuite  on peut extraire de ces variables la forme fl  chie   la forme canonique et les codes des entr  es lexicales correspondantes  leur cat  gori
239. erbes  la forme  canonique est l infinitif  Cette information peut   tre omise comme dans l exemple  suivant         bo  te    merveilles  N zl fs    Cela signifie alors que la forme canonique est identique    la forme fl  chie  La forme  canonique est s  par  e de la forme fl  chie par une virgule     A z1 est la s  quence d informations grammaticales et s  mantiques  Dans notre ex   emple  A d  signe un adjectif  et z1 ndique qu il s   agit d   un mot courant  voir tableau  32      Toute entr  e doit comporter au moins un code grammatical ou s  mantique  s  par   de  la forme canonique par un point  S il y a plusieurs codes  ceux ci doivent   tre s  par  s  par le caract  re        mp   fp est la s  quence d informations flexionnelles  Ces informations d  crivent le  genre  le nombre  les temps et modes de conjugaisons  les d  clinaisons pour les langues     cas  etc  Ces informations sont facultatives  Un code flexionnel est compos   d un  ou plusieurs caract  res codant chacun une information  Les codes flexionnels doivent    tre s  par  s par le caract  re    Dans notre exemple  m signifie masculin  p pluriel et  f f  minin  voir tableau 3 3   Le caract  re   s interprete comme un OU logique  Ainsi     mp   fp signifie  masculin pluriel   ou  f  minin pluriel   Comme chaque caract  re cor   respond    une information  il est inutile d utiliser plusieurs fois un m  me caract  re   Ainsi  coder le participe pass   avec le code   PP serait strictement   quivalent    utilise
240. es b  c  et d sans tenir compte de la casse ni de la c  dille  on peut   crire les  lignes suivantes      Bb    cecc  pag       Ce fichier est facultatif  Lorsqu   aucun alphabet de tri n   est sp  cifi   au programme  SortTxt celui ci effectue un tri dans l   ordre d   apparition des caract  res dans le  codage Unicode     143 Graphes    Cette section pr  sente les deux formats de graphes   le format graphique  grf et  le format compil     fst2     14 3 1 Format  grf    Un fichier  grf est un fichier texte contenant des informations de pr  sentation  en plus des informations repr  sentant les contenus des bo  tes et les transitions du  graphe  Un fichier  grf commence par les lignes suivantes       Unigraph    SIZE 1313 9504   FONT Times New Roman  124  OFONT Times New Roman B 124  BCOLOR 1677721594   FCOLOR 04  ACOLOR 126322564                   14 3  GRAPHES 315    SCOLOR 1671168094  CCOLOR 2554  DBOXES yY  DFRAME y   DDATE y  DFILE y  DDIR y  DRIG ng  DRST ng  FITS 1004  PORIENT L     9    La premiere ligne  Unigraph est une ligne de commentaire  Les lignes suivantes  d  finissent les valeurs des param  tres de pr  sentation du graphe                        e SIZE x y  d  finit la largeur x et la hauteur y du graphe en pixels     e FONT name  xyz  d  finit la police utilis  e pour afficher le contenu des bo  tes   name repr  sente le nom de la police  x indique si la police doit   tre en gras ou  non  Si x vaut B  cela indique que la police doit   tre en gras  Pour une po
241. es bo  tes  ainsi que dans la zone de texte o   l on   dite le  contenu des bo  tes      e Output   police utilis  e pour afficher les sorties des bo  tes     Les param  tres de couleur sont    e Background   couleur de fond     e Foreground   couleur utilis  e pour le texte et le dessin des bo  tes      114    grid grf  X BOULOT Rechercheimanuelunitex resourcesimg                 of a graph displayed with                         CHAPITRE 5  GRAMMAIRES LOCALES          Presentation             Display Colors    v  Date Background    Set       File Name Foreground  a  C  Pathname Auxiliary Nodes    Set       Frame Selected Nodes  ETS  C  Right to Left   Comment Nodes    Set       Antialiasing   __  Enable antialising for rendering graphs       Icon Bar Position    West    North    East O South  None    Fonts  Courier 10 Pitch 10    Output   Dialog bold 12 Cancel    FIGURE 5 32     Configuration de l aspect d un graphe          e Auxiliary Nodes   couleur des bo  tes faisant appel    des sous graphes      e Selected Nodes   couleur utilis  e pour dessiner les bo  tes quand elles sont s  lection     n  es      e Comment Nodes   couleur utilis  e pour dessiner les bo  tes qui ne sont reli  es    aucune    autre     Les autres param  tres sont      5 4  LES GRAPHES EN DEHORS D UNITEX 115       Date   affichage de la date courante dans le coin inf  rieur gauche du graphe   File Name   affichage du nom du graphe dans le coin inf  rieur gauche du graphe      Pathname   affichage du n
242. es lexicaux des exemples pr  c  dents sont simples  Il est possible d exprimer  des motifs plus complexes en indiquant plusieurs codes grammaticaux ou s  mantiques  s     par  s par le caract  re    Si plusieurs codes sont pr  sents  le caract  re   est interpr  t   comme     et      une entr  e de dictionnaire ne sera alors reconnue que si elle poss  de tous les codes  pr  sents dans le masque  Le masque  lt N z1 gt  reconna  t ainsi les entr  es      broderies broderie N z1 fp  capitales europ  ennes capitale europ  enne N NA Conc HumColl zl fp             1     partir de la version 3 1b  ta  r  vision 4072 du 2 octobre 2015     78 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    mais pas     Descartes  Ren   Descartes N Hum NPropre ms  habitu     A z1 ms    On peut exclure des codes en les faisant pr  c  der du caract  re   au lieu de    Pour   tre  reconnue  une entr  e doit contenir tous les codes exig  s par le masque  sans aucun des codes  qu il interdit  Par exemple   lt A z3 gt  reconna  t toutes les entr  es qui ont le code A sans le code  z3  cf  table 3 2    Si on veut faire r  f  rence    un code contenant le caract  re    on doit le  d  sp  cialiser en le faisant pr  c  der d un       REMARQUE   Avant la version 2 1  l op  rateur de n  gation   tait le signe moins  Si l   on veut  utiliser d anciens graphes sans les modifier  il faut appeler Locate en ligne de commande  avec l option  g minus     La syntaxe des masques lexicaux ne fait aucune diff  rence entr
243. es locales 93  5 1 Formalisme des gramm  ires locales      coore cenad ewe ewe eS 93  S11 Griammairesaleebrigues s rct oe ee ee aw Re ES Ge a es 93   5 1 2 Grammaires alg  briques   tendues     des des ee nus    4 94   5 2   dition de o s x25 4 der os CRESS ee Ier SSSR Eds 94    921 Creatondungpraphe Less sex E AAA 94    TABLE DES MATI  RES 5    522 SOUS praphes oco es EE Ness sers 99   523    Manipulation des   oites  s s so co ee pe a pe de ue       102   SP SOPHIE   4 2 da due en Re dre de ab He eur ne ee pui 104   5 2 5 Variables d entr  e                                 106   526    opie de list  s     sireci ee dis redin de RARES SRE Res 106   547 Symboles SpEda  X  lt i eser r AE RES ERNES EE 108   5 2 8 Commandes de la barre d ic  nes                        108   50 SIOUOMS Ge pr  sentation s e coss eine Larsen SRE NULS RTS En OS 110  531  Tideslienes dd imebolle  lt      esame messe ar 110  A 44 de    PRS SEA ee a OMS ES we a wi Sue       110   Soo AUS Sauter ed der AAA AD 111   934 Alpnementdes BOIS 0  st eee eed we disais ee ae 111   5 3 5 Pr  sentation  polices et couleurs  lt  lt  lt  coco res bs ee Ghee eas 112   5 4 Les graphes en dehors d UniteX      23 cee eee EEE SHEE ERS EES 115  541 Inchision d un graphe dans un document    lt  o  2    s sess sess   115   542 PONT MERS  gt s cece sa at an A OE LE eS 116   6 Utilisation avanc  e des graphes 119  61 Lestypesdepraphes ieo ee a AAA 119  611 HORMIS eo hea ane ASA EN bre 119   6 1 2 Graphe  sde  pr  traitement  
244. es permet de v  rifier que les caract  res pr  sents dans le dictionnaire  sont coh  rents avec ceux pr  sents dans le fichier alphabet de la langue  Chaque caract  re est  suivi par sa valeur en notation hexad  cimale  Les listes de codes peuvent   tre utilis  es pour  v  rifier qu il n   y a pas de faute de frappe dans les codes du dictionnaire     Le programme CheckDic fonctionne avec des dictionnaires non comprim  s  c   est    dire  sous forme de fichiers texte  La convention g  n  ralement appliqu  e est de donner l exten   sion  dic   Pour v  rifier le format d   un dictionnaire  il faut tout d   abord l ouvrir en cliquant  sur  Open     dans le menu  DELA     Chargeons le dictionnaire de la figure 3 4  Pour lancer la v  rification automatique  cliquez  sur  Check Format     dans le menu  DELA   la fen  tre de la figure 3 5 appara  t alors  Cette  fen  tre vous permet de choisir le type du dictionnaire que vous voulez v  rifier  Les r  sultats  de la v  rification du dictionnaire de la figure 3 4  sont pr  sent  s sur la figure 3 6     La premi  re erreur est due au fait que le programme n ait pas trouv   de point  Le seconde   au fait qu il n   ait pas trouv   de virgule marquant la fin de la forme fl  chie  La troisi  me  erreur indique que le programme n a trouv   aucun code grammatical ou s  mantique     3 4  TRI 53    5 D  My Unitex English Dela agreeably dic            lagreed                   FIGURE 3 4     Exemple de dictionnaire      Check Dictionary Format  
245. et minuscules  67  pour l application des transducteurs   144  r    criture  93  R  pertoire  d  p  t de graphes  100  du texte  34  personnel de travail  23  27  98  217   340  syst  me Unitex  20  21  23  27  340  texte  266  R  p  tition  nombre de  127  REPLACE  144  153  325  R  seau de transitions r  cursif  94  Respect  de la casse  76  84  des espaces  122  des minuscules  majuscules  76  84  120   122  Respect de la casse  122  RTN  94  Russe  mots compos  s libres  41  295    S  Script de programmes Unitex  305  S  lection de la langue  27  S  lection multiple  102  copier coller  103  S  parateur  de phrases  81  319  341  S  parateurs de mots  33  Shortest matches  85  153  Sortie d un transducteur  113  ambiguit    105  153  associ  e    un appel de sous graphe   125    INDEX    avec variable  146  Squelette consonantique  63  Statistiques  298   STOP    38  SVG export de graphe  116  Symboles   lexicaux  185   non terminaux  93   sp  ciaux  108   terminaux  93    T  Taux d ambiguit    178  Tests sur les variables  150  Texte  automate du  77  296  301  304  conversion en texte lin  aire  301  normalisation  121  166  d  coupage en phrases  34    d  coupage en unit  s lexicales  38  302    modification  157  271  normalisation  33  294  pr  traitement  31  120  r  pertoire  266  r  pertoire du  34   TMate  367   Token  38   Tokenisation  38    Traitement des erreurs sur les variables     153   Transducteur  94  104   avec variables  106   de flexion  55  119   re
246. etween  Sheffield and the pleasant DET A  town of  Doncaster   5  The remains DET N  of this   The remains of this extensive DET A  wood  to be seen at the noble DET     seats of  to be seen at the noble DET N  seats of       FIGURE 6 56     Sorties ambigu  s pour the noble    Concordance  D My Unitex EnglishiCorpusiva    a a Bd    er Scott  S IN THAT PLEASANT DET A  DISTRICT  merry England which is DET N  watered by the  is watered by the river DET N  Don  there ex  ancient times a large DET A  forest  coverin  rest  covering the greater DET A  part of the  reater part of the beautiful DET A  hills and    ls and valleys which lie DET N  between Sheff  Sheffield and the pleasant DET A  town of Do  Doncaster   5  The remains DET N  of this ext   The remains of this extensive DET A  wood are  to be seen at the noble DET N  seats of Went  aunted of yore the fabulous DET A  Dragon of             FIGURE 6 57     Sortie unique the noble    Avec l option  Exit on variable error   Locate LocateTfst   mettent un message d erreur   comme le montre la figure 6 60     Avec l option  Backtrack on variable error   Locate LocateTfst arr  te l exploration du  chemin courant de la grammaire  Ainsi  les variables jouent le r  le d   interrupteurs qui coupent  les chemins lorsqu    elles sont ind  finies  Par exemple  l   application de la grammaire 6 58  produit seulement des sorties contenant des adjectifs   comme le montre la figure 6 61     156 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES  
247. eurs r  sultat que le JPEG  Et contrairement au PNG et au JPEG  qui sont  des fomats bitmap  le format SVG est un format vectoriel  ce qui permet souvent un meilleur  r  sultat  A l   aide du logiciel Inkscape  il est   galement possible de convertir le fichier SVG  en EPS ou en PDF  avec des lignes de commandes de ce type         Inkscape  z  E graph eps graph svg       Inkscape  z  A graph pdf graph svg    La seconde m  thode consiste    faire une capture d   cran    Sous Windows      Appuyez sur la touche  Imprime   cran  de votre clavier qui doit se trouver pr  s de la  touche F12  Lancez le programme Paint dans le menu  Accessoires  de Windows  Appuyez  sur  lt Ctrl V gt   Paint peut vous dire que l   image contenue dans le presse papiers est trop  grande et vous demander si vous voulez agrandir l image  Cliquez sur  Oui   Vous pou   vez maintenant   diter l   image de l   cran  S  lectionnez la zone qui vous int  resse  Pour cela   passez en mode s  lection en cliquant sur le rectangle en pointill   qui se trouve dans le coin  sup  rieur gauche de la fen  tre  Vous pouvez maintenant s  lectionner une zone de l image  avec la souris  Une fois votre zone s  lectionn  e  appuyez sur  lt Ctrl C gt   Votre s  lection est  maintenant dans le presse papier  il ne vous reste plus qu      aller dans votre document et     appuyer sur  lt Ctrl V gt  pour coller votre image     Sous Linux      Effectuez une capture d   cran  par exemple avec le programme xv   Retaillez ensuite votr
248. exicales est conserv  e  Par exemple  si l   on trouve le mot Here  on  conserve la majuscule  voir figure 7 1   Ce choix permet de ne pas perdre cette information  lors du passage    l automate du texte  ce qui pourra   tre utile pour des applications o   la  casse est importante  telle que la reconnaissance des noms propres     7 2 2 Normalisation de formes ambigu  s    Lors de la construction de l   automate  il est possible d effectuer une normalisation de  formes ambigu  s en appliquant une grammaire de normalisation  Cette grammaire doit  se nommer Norm fst2 et doit   tre plac  e dans votre r  pertoire personnel  dans le sous   r  pertoire  Graphs Normalization de la langue voulue  Les grammaires de normalisa   tion de formes ambigu  s sont d  crites    la section 6 1 3     Si une s  quence du texte est reconnue par la grammaire de normalisation  toutes les in   terpr  tations d  crites par la grammaire sont ins  r  es dans l   automate du texte  La figure  7 4 montre l extrait de la grammaire utilis  e pour le francais qui explicite l ambigu  t   de la  s  quence 1            la le  PRO PpvLE z1 3fs     FIGURE 7 4   Normalisation de la s  quence 1       Si l   on applique cette grammaire    une phrase fran  aise contenant la s  quence 1      on obtient  un automate de phrase similaire    celui de la figure 7 5     Dans l   automate obtenu  on peut voir que les quatre r  gles de r    criture de la s  quence 1     ont   t   appliqu  es  ce qui a ajout   quatre   tiquette
249. ext FST according to the DLF  DLC and tags ind files  previously built by the Dico program for the current text    Cancel   Construct FST          FIGURE 7 25   Configuration de la lin  arisation de l automate du texte       insectes nuisibles envahissent    maison    insecte nuisible envahir  N fs    DET mp N mp V P3p DET fs    FIGURE 7 26     L automate du texte lin  aris   avec les donn  es de type  morph     7 4 3 Cr  ation d un nouveau taggeur    Pour cr  er un nouveau taggeur pour votre langue  vous devez lancer le programme  TrainingTagger sur votre propre corpus annot    Le format du corpus annot   est d  crit dans  14 10 1  Comme nous le signalions    la section 7 4 1  vous devez faire attention au jeu d      tiquettes et    la morphologie  Avant de calculer un modele statistique  vous devez d  cider  quels dictionnaires et graphes de normalisation vous utiliserez pour construire l automate  du texte  Puis  vous devrez modifier le corpus annot   si la forme des mots ou le jeu d   ti   quettes ne sont pas identiques  Par exemple  si le graphe de normalisation transforme le mot  jusqu    en jusque  le mot correspondant dans le corpus annot   doit   tre jusque     Un taggeur pour le fran  ais est fourni avec Unitex  Il a   t   cr     avec un corpus annot   com   pos   d   tiquettes d  pourvues de codes s  mantiques et syntaxiques        7 5  MANIPULATION DE L AUTOMATE DU TEXTE 189  7 5 Manipulation de l   automate du texte    7 5 1 Affichage des automates de phrases    
250. f  pr  sent du conditionnel  pass   simple   infinitif   participe pr  sent  participe pass     futur       3                   x  Ww                                     ALR A    Ia l alklAalalH wI Nolu                 TABLE 3 3     Codes flexionnels usuels    Les codes pr  sent  s ne sont absolument pas limitatifs  Chaque utilisateur peut introduire  ses propres codes  et cr  er ses propres dictionnaires  Par exemple  on pourrait dans un but  p  dagogique introduire dans les dictionnaires anglais des marques indiquant les faux amis  fran  ais      bless   V faux ami b  nir  cask   N faux ami tonneau  journey   N faux ami voyage    Il est   galement possible d utiliser les dictionnaires pour stocker des informations parti   culi  res  Ainsi  on pourrait utiliser la forme fl  chie d une entr  e pour d  crire un sigle et la  forme canonique pour en donner la forme compl  te           ADN Acide D  soxyriboNucl  ique SIGLE  LADL  Laboratoire d Automatique Documentaire et Linguistique SIGLE  SAV Service Apr  s Vente SIGLE                   3 2  RECHERCHE D UN MOT DANS UN DICTIONNAIRE 51  3 2 Recherche d   un mot dans un dictionnaire    Vous pouvez rechercher un mot dans plusieurs dictionnaires de deux mani  res      Unitex 3 0beta  February 10  2011              Check Format    Ctrl  Transliterate      Sort Dictionary   Inflect      Compress into FST       Build Korean MWU dic graph       Close             FIGURE 3 1   Menu  DELA     Si vous avez ouvert un dictionnaire  la fen  tr
251. ff  rence    Les fichiers d   offsets de diff  rence sont lu et   crit par l outils Unxmlize 13 51    DumpOffsets 13 14   Normalize 13 30   Fst2Txt 13 22   Tokenize 13 44   Concord 13 9   et Grf Test  et lu par Tokenize 13 44   Ces fichiers textes sont constitu  es de lignes    contenant 4 entiers A B C D  Chaque ligne correspond    une modification du texte   exprim  e de la fa  on suivante   l intervalle  A  B  du texte     avant tout traitement       est remplac   par l intervalle  C  D  apr  s traitement  A  B  C et D   tant des posi   tions en caract  res dans les fichiers textes     Par exemple  si on applique le programme Normalize sur le texte  Hello world    avec deux espaces entre les deux mots   on aura une ligne comme ceci      5 7 5 6    signifiant qu   une s  quence de deux caract  res  les 2 espaces  a   t   remplac  e par  une s  quence d   un seul caract  re     Le principe est donc de produire un nouveau fichier d   offsets pour chaque ap   plication de programme modifiant le texte  en prenant en entr  e le fichier d offsets  produit par le programme pr  c  dent  Ainsi  en regardant le dernier fichier d   offsets  produit  on sait que pour chaque ligne A BC D  l intervalle  C  D  dans le fichier  snt  correspond    l intervalle  A  B  dans le fichier  txt de d  part    14 13 11 fichier d   offsets de zone commune    Les fichiers d offsets de zone commune sont lu et   crit par DumpOffsets  Ces    fichiers textes sont constitu  es de lignes contenant 4 entiers
252. fichier  grf produit est stock   dans le r  pertoire Graphs de l utilisateur  Les  autres fichiers  nomm  s text tfst  text tind se trouvent dans le r  pertoire  text        13 36 SortTxt    SortTxt  OPTIONS   lt txt gt        Ce programme effectue un tri lexicographique des lignes du fichier  lt txt gt    lt txt gt   doit repr  senter le chemin d   acc  s complet au fichier    trier     OPTIONS    e  n   no_duplicates   supprime les doublons  par d  faut       e  d   duplicates   conserve les doublons         e  r   reverse  trie en ordre d  croissant      e  o XXX   sort_order XXX   trie en utilisant l   ordre alphab  tique d  fini  par le fichier XXX  Si ce param  tre est abscent  le tri est effectu   selon l   ordre  des caract  res Unicode      e  1 XXX   line_info XXX   sauvegarde le nombre de lignes du fichier r     sultat dans le fichier XXX     e  t   thai   option    utiliser pour trier un texte Thai        e  f   factorize_inflectional_codes transformeles deux entr  es XXX YYY ZZZ  A  et XXX YYY ZZZ  B en l entr  e unique XXX YYY ZZZ  A  B    L op  ration de tri modifie le fichier texte  Par d  faut  le tri est effectu   dans l   ordre  des caract  res en Unicode  en supprimant les doublons     13 37 Stats    Stats  OPTIONS   lt ind gt        Ce programme calcule des statistiques    partir du fichier d index de concordances   lt ind gt      OPTIONS            e  m MODE   mode MODE   sp  cifie la sortie    produire      13 38  TABLE2GRF 299        0   s  quence reco
253. fin de ligne  figure 8 1   soit ins  rer la balise XML sp  cifique dans un document existant  TEILite  figure 8 3   Le pr  traitement des documents TXT ou XML g  n  re un fichier SNT  qui est utilis   pour la construction de l automate de s  quences  figure 8 2   Ce fichier peut    tre utilis   comme une entr  e  Le graphe produit ne reconna  tra que les s  quences qui sont  correctement d  limit  es  La production de grammaires locales est automatique uniquement     partir d   un corpus de s  quences bien d  finies  Si vous disposez d   un tel corpus  alors le  gain de temps est consid  rable              Tomorrow Tomorrow STOP    this week this week STOP    twice a month twice a month STOP    as soon as possible as soon as possible STOP   in the next few days in the next few days  FIGURE 8 1     TXT FIGURE 8 2   SNT     lt  xml version  1 0  encoding  UTF 16LE   gt     lt  DOCTYPE xml SYSTEM  teilite dtd  gt     lt TEI 2 lang  fr  gt     lt teiHeader gt             lt  teiHeader gt     lt text gt     lt body gt     lt p id  1  gt   am going to see three of them  lt seg type  sequence  gt tomorrow lt  seg gt    lt  p gt     lt p id  2  gt Here are suggestions of things to do  lt seg type  sequence  gt this week lt  seg gt  in London  lt  p gt     lt p id  3  gt These meetings will be held at least  lt seg type  sequence  gt twice a month lt  seg gt   lt  p gt     lt p id  4  gt We will bring forward an amended proposal  lt seg type  sequence  gt as soon as possible lt  seg g
254. fois  pour utiliser le taggeur sur l   automate du texte  on  doit faire attention au jeu d   tiquettes et    la morphologie  Le jeu d   tiquettes du mod  le  doit   tre identique    celui de l   automate du texte  Par exemple  si le mod  le statistique a   t    calcul   avec les   tiquettes DET pour les mots the  l   tiquette correspondante dans le texte  doit   tre DET  Unitex dispose d   une fonctionnalit   qui permet de changer la forme des mots  du texte  par exemple pour normaliser doesn t en does not  Appliquer des graphes de  remplacement ou de normalisation peut entrainer des modifications de la forme des mots   Si un tel traitement a   t   appliqu   au texte  il doit avoir   t   appliqu     galement au corpus  d entrainement  Si ces r  gles ne sont pas respect  es  le taggeur pourrait   tre incapable de  trouver le chemin souhait   dans l automate du texte           Le programme Training Tagger produit deux variantes de taggeur  Le premier supprime des  transitions sur la base de codes gramaticaux  s  mantiques  syntaxiques et flexionnels  par  exemple  the DET Ddef s au lieu de the DET Ddef p   Le second supprime les tran   sitions sur la base de codes gramaticaux  s  mantiques et syntaxiques  that  DET Ddem au  lieu de that  PRO P den   Ce traitement acc  l  re l entrainement et les informations flexion   nelles ne sont plus n  cessaires pour toutes les applications        7 4 2 Utilisation du Tagger    Pour lin  ariser l   automate du texte  vous devez choisir l 
255. fonction permet ainsi d obtenir  des objets plus simples    manipuler et sur lesquels peuvent s appliquer tous les algorithmes  classiques sur les automates     Pour compiler et transformer ainsi une grammaire  s  lectionnez la commande  Compile  Flatten FST2  dans le sous menu  Tools  du menu  FSGraph   La fen  tre de la figure 6 5  vous permet de configurer l op  ration d approximation     x   2  Expected result grammar format    8  equivalent FST2  subgraph calls may remain   O Finite State Transducer  can be just an approximation     Flattening depth     Maximum flattening depth  10       Cancel                FIGURE 6 5     Configuration de l approximation d une grammaire    Le cadre  Flattening depth  permet de pr  ciser le niveau d imbrication des sous graphes   Cette valeur repr  sente la profondeur maximale au del   de laquelle les appels    des sous   graphes ne seront plus remplac  s par les sous graphes eux m  mes     Le cadre  Expected result grammar format  permet de d  terminer le comportement du pro   gramme au del   de la limite indiqu  e  Si vous s  lectionnez l option  Finite State Trans   ducer   les appels aux sous graphes seront ignor  s  remplac   par  lt E gt   au del   de la pro   fondeur maximale  Cette option garantit ainsi l   obtention d un transducteur      tats finis     ventuellement non   quivalent    la grammaire de d  part  En revanche  l option  equivalent  FST2  indique au programme de laisser tels quels les appels aux sous graphes au del 
256. g   Les noms de fichiers  elg sont entres angles  Les lignes  commen  ant par une tabulation ont valeur de commentaire et sont ignor  es par le  programme Elag  Voici le fichier elag  rul fourni par d  faut pour le francais            PPVs PpvIL elgY  PPVs PpvLE elgY  PPVs  PpvLUI elgY   lt elag rub 0 elg gt Y  PPVs  PpvPR elgY  PPVs  PpvSeq elgY  PPVs SE elg   PPVs postpos elgY   lt elag rul 1 elg gt Y                      14 10  FICHIER TAGGEUR 335  14 10 Fichier taggeur    Cette section pr  sente les fichiers produits et utilis  s par les programmes Train   ingTagger et Tagger     14 10 1 Fichier corpus txt    Ce fichier est utilis   par le programme TrainingTagger afin de calculer les statis   tiques pour le programme Tagger  Il contient des phrases o   chaque mot est repr  sent    sur une ligne s  par  e    Chaque ligne repr  sentant un mot est constitu  e d   un mot  simple ou compos     suivie d une barre oblique et de l   tiquette du mot    Cette   tiquette est compos  e d un code grammatical  parfois suivi d   une         et  de codes syntaxiques ou s  mantiques  Les codes flexionnels sont sp  cifi  s apr  s un          Si le mot est un compos    les mots simples qui y figurent doivent   tre s  par  s  par un    _     Voici un exemple d   un fichier corpus txt      The DET Ddef s4  GATT N  sY  had V 13s4  formerly ADVY  a DET Dind sY  political AY  assessment  N sY  of  PREPY  the DET Ddef   s4  behavior N sY  of  PREPY  foreign_countries N pY    PONCTS  q  She PRO N
257. gladan kao vuk AC_A3XN2 s5ngea  hungry as a wolf    gladnim kao vuk gladan kao vuk AC_A3XN2 s6mgea  hungry as a wolf  gladnom kao vuk gladan kao vuk AC_A3XN2 s6fgea  hungry as a wolf  gladnim kao vuk gladan kao vuk AC_A3XN2 s6ngea  hungry as a wolf    11 3  INT  GRATION    UNITEX    gladnome kao vuk gladan kao vuk AC_A3XN2 s7mgda  hungry as a wolf  gladnom kao vuk gladan kao vuk AC_A3XN2 s7mgda  hungry as a wolf  gladnu kao vuk gladan kao vuk AC_A3XN2 s7mgka  hungry as a wolf  gladnoj kao vuk gladan kao vuk AC_A3XN2 s7fgea  hungry as a wolf  gladnome kao vuk gladan kao vuk AC_A3XN2 s7ngda  hungry as a wolf  gladnom kao vuk gladan kao vuk AC_A3XN2 s7ngda  hungry as a wolf  gladnu kao vuk gladan kao vuk AC_A3XN2 s7ngka  hungry as a wolf  gladni kao vuk gladan kao vuk AC_A3XN2 plmgea  hungry as a wolf  gladni kao vuci gladan kao vuk AC_A3XN2 plmgea  hungry as a wolf  gladni kao vukovi gladan kao vuk AC_A3XN2 plmgea  hungry as a wolf  gladne kao vuk gladan kao vuk AC_A3XN2 plfgea  hungry as a wolf  gladne kao vuci gladan kao vuk AC_A3XN2 plfgea  hungry as a wolf  gladne kao vukovi gladan kao vuk AC_A3XN2 plfgea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 plngea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 plngea  hungry as a wolf  gladna kao vukovi gladan kao vuk AC_A3XN2 plngea  hungry as a wolf                                                       gladnih kao vuk gladan kao vuk AC_A3XN2 p2mgea  hungry as a wolf   gladnih kao vuci gladan kao vuk AC_A3
258. gles d application  144  Transduction  94  Tri  297  298   de concordance  87  157  272   des lignes d une bo  te  110   d un dictionnaire  53  Types de graphes  119    U  Underscore  106  146  Unicode  28  110  275  311    391    Union d   expressions rationnelles  75  82  Unit   graphique  221   Unit   lexicale  75  302  304   Unitex JNI  267   UTF 8  273  326  327    Variable    code s  mantique  151  dans un graphe  146  dans un graphe param  tr    207  de dictionnaire  139  de sortie  99  149  d entr  e  99  106  dictionary entry  151  d   unification  229  interrogation  150  morphologique  139  non d  finie  106  red  finition  106  150    V  rification du format d   un dictionnaire     52 270    Zoom  110    
259. gt    lt   o cocca dv ae ec ewe been dew    120   6 13 Graphes de normalisation de l   automate du texte              121   614    Graphessyntaxigues         ae eee RP e doa BESS Hoe Es 122   615 Grimman  es ELAG oo    kares ee ee    ee    we 123   616 Grapes PARM  MES 2  lt   so eka we ee em t   med GO eas 123   6 2 Compilation d une grammaire    ve he EER SHE REESE YD 123  62 1  Compilaton dun graphe     s s s see ee    he oH eS 123   6 2 2 Approximation par un transducteur fini       lt 6 2 5 exes ee be es 124   O20 Co    traintes sur les Sales    2244 os ee eR e taob ts 125   6 24 Intervalle pour le nombre de r  p  titions                    127   62 5 Detection d erreurs occiso DU    ae dt et dire    128   6 3 COMOROS dadas a    dla due Aube    a ee de ane    128  0 3 1  Contextes droits  o secs cca ua na ar me sud e ee 129   63 2  COMEM  S gauch  s  lt  lt  es co eke eee em AAA 131   64 Lemodemorphologique   cos ises chee Ke ta be ER ERS EES 137  OAL POUR abs ode ee eee be Oe eee ee S 137  A i cg eer eh eee OOo eee OE Oe EE OEE EBS 137   643 Dictionnaires du mode morphologique                    138   644 Variables de dictionnaire                             139   63 Exploration des chemins d une grammaire   caco dir eut 141  Oe Collecion de NES       siens Loos un da a a FP ed babes 142  67 R  gles d application des transducteurs           ceded a santa tenue 144  6 7 1 Insertion    gauche du motif reconnu     6   o oo 144   67 2 Applicaiomen avant    lt 5 as 64444 44 
260. harg    Si l   on s  lectionne l option  Allow  concordance edition   on ne peut pas cliquer ainsi sur les occurrences  mais on peut   diter  la concordance comme du texte  Cela permet entre autres de s   y d  placer avec un curseur   ce qui peut   tre pratique si l   on travaille sur une concordance avec de grands contextes                    Analyze this language char by char          Enable morphological use of space          Semitic language           _  Right to left rendering for text             Right to left rendering for graphs       Text Font        Courier 10 Pitch 12  Concordance Font   Courier 10 Pitch 10    Html Viewer               usribinifirefox               Graph configuration                         FIGURE 4 7     S  lection d un navigateur pour l affichage des concordances    89    4 8  RECHERCHE    224 pey yotTym    sada sty Jo auo 09 Wotssaadxa 193ISTUTS E  STy umop Zem JTEU payoear ATaorzeos yotym  NEOTO 3108 E  Ya WelTTtm 30 wAtaz ayy 09 qguanbasqns sTdoad sjeiredss E  om 934 115 qayoel 242 aye OL  Ss  12pPUElURIH US111006 E  343 YITYM PUTH 3293 30   1N3 YTN paorey    Med 211806 E  mosaq nq     ameu uoxes ray Aq sao0h ays    SABTS UOXES E  AO 343 YATA 38e13u09 e   urmao3 moqo p21 318p 418n1 E  09 prnos ay UOTUM    aoueUSIUNON STU 1340 PUEMICS Ape31 e  uo UMOP 1123 Pue    11 UTYITM moaz 25018 Peq pabuoro1d e  J 18 geya paIe20u09 2q02 1addn styl      103 181 N99d E  aya JO UOTITQUE ayy UO0TITpadxa yser 13439eqn UT 4318d E  Ag    auamAolua Jo 139980 samo
261. hat  Ma   lt N ms gt    S     75    76 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    Par d  faut  Unitex tol  re que des mots avec des minuscules reconnaissent des mots   crits  avec des majuscules  Il est possible de forcer le respect de la casse en utilisant les guillemets   Ainsi   pierre  ne reconna  t que la forme pierre et non pas Pierre ou PIERRE                    NOTE   si l   on souhaite rendre la pr  sence d   un espace obligatoire  il faut le mettre entre  guillemets     43 Masques lexicaux    Un masque lexical est une requ  te qui reconna  t une unit   lexicale ou une suite d unit  s  lexicales   4 3 1 Symboles sp  ciaux    Il y a deux sortes de masques lexicaux  La premi  re cat  gorie regroupe les symboles  sp  ciaux ou m  ta symboles pr  sent  s dans la section 2 5 2  sauf  lt PNC gt  et  lt   gt    Le symbole   lt PNC gt   qui reconna  t des signes de ponctuation  n   est valide que pendant le pr  traitement     lt   gt  reconna  t un retour    ligne  mais tous les retours    la ligne ayant   t   remplac  s par  des espaces  ce symbole n   a plus aucune utilit   lors de la recherche de motifs   Les m  ta   symboles utilisables pour rechercher des motifs dans un texte sont les suivants      e  lt E gt    mot vide  ou epsilon  Reconnait la s  quence vide     e  lt TOKEN gt    reconna  t n importe quelle unit   lexicale sauf l   espace utilis   par d  faut  pour les filtres morphologiques      e  lt WORD gt    reconna  t n importe quelle unit   lexicale fo
262. he Civil Wars of the Roses   3  and here also flourished in ancient times those ba  ent times those bands of gallant outlaws  whose deeds have been rendered so popular in English  been rendered so popular in English song     Such being our chief scene  the date of our story  lish song  3  Such being our chief scene  the date of our story refers to a period towards the  owards the end of the reign of Richard I   when his return from his long captivity had become a  wards the end of the reign of Richard I   when his return from his long captivity had become an            gt                    FIGURE 4 2     R  sultat de la recherche du m  ta  lt    WORD gt     4 4 Concat  nation    On peut concat  ner des expressions rationnelles de trois facons  La premiere consiste     utiliser l op  rateur de concat  nation repr  sent   par le point  Ainsi  l expression       lt DET gt   lt N gt        reconna  t un d  terminant suivi par un nom  L espace peut   galement servir    concat  ner   L expression de l exemple suivant      le  lt A gt  chat  le lt A gt chat    reconna  t l unit   lexicale le  suivie d un adjectif et de l unit   lexicale chat  Les parenth  ses  servent    d  limiter une expression rationnelle  Toutes les expressions suivantes sont   quiv   alentes      82 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    le  lt A gt  chat    le  lt A gt   chat  le  lt A gt chat    le    lt A gt  chat   le    lt A gt     chat        45 Union    L union d expressions rationnelles se
263. he Licensor  except as required for rea   sonable and customary use in describing the origin of the Work and reproducing  the content of the NOTICE file     7  Disclaimer of Warranty  Unless required by applicable law or agreed to in writ   ing  Licensor provides the Work  and each Contributor provides its Contributions   on an  AS IS  BASIS  WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND   either express or implied  including  without limitation  any warranties or condi   tions of TITLE  NON INFRINGEMENT  MERCHANTABILITY  or FITNESS FOR A  PARTICULAR PURPOSE  You are solely responsible for determining the appropri   ateness of using or redistributing the Work and assume any risks associated with  Your exercise of permissions under this License     364 CHAPITRE 14 FORMATS DE FICHIERS    8  Limitation of Liability  In no event and under no legal theory  whether in tort  in   cluding negligence   contract  or otherwise  unless required by applicable law  such  as deliberate and grossly negligent acts  or agreed to in writing  shall any Contrib   utor be liable to You for damages  including any direct  indirect  special  incidental   or consequential damages of any character arising as a result of this License or out  of the use or inability to use the Work  including but not limited to damages for loss  of goodwill  work stoppage  computer failure or malfunction  or any and all other  commercial damages or losses   even if such Contributor has been advised of the  possibility of 
264. he Source form or documentation  if provided along with  the Derivative Works   or  within a display generated by the Derivative Works   if and wherever such third party notices normally appear  The contents of the  NOTICE file are for informational purposes only and do not modify the Li   cense  You may add Your own attribution notices within Derivative Works  that You distribute  alongside or as an addendum to the NOTICE text from the  Work  provided that such additional attribution notices cannot be construed as  modifying the License     You may add Your own copyright statement to Your modifications and may provide  additional or different license terms and conditions for use  reproduction  or distri   bution of Your modifications  or for any such Derivative Works as a whole  provided  Your use  reproduction  and distribution of the Work otherwise complies with the  conditions stated in this License     5  Submission of Contributions  Unless You explicitly state otherwise  any Contribu   tion intentionally submitted for inclusion in the Work by You to the Licensor shall  be under the terms and conditions of this License  without any additional terms or  conditions  Notwithstanding the above  nothing herein shall supersede or modify  the terms of any separate license agreement you may have executed with Licensor  regarding such Contributions     6  Trademarks  This License does not grant permission to use the trade names  trade   marks  service marks  or product names of t
265. hemin complet pour chaque transducteur  remar   quons que X doit se terminer par un antislash                        e  w DIC   morpho DIC   indique que DIC est un  bin dictionnaire    utiliser  en mode morphologique  Utiliser autant de  m XXX qu il y a de  bin  Vou  pouvez   galemnt s  parer plusieurs  bin par des deux points     e  1 TRANSDUCERS_LIST     transducers_list TRANSDUCERS_LIST  fichier  contenant la liste des transducteurs avec leur mode d application                     e  s transducer fst2   transducer_file transducer fst2  un trans   ducteur a appliquer         e  m output_policy   transducer_policy output_policy   le mode  d   application du transducteur sp  cifi        e  t TXT   text TXT  le fichier texte avec l extension   snt    modifier     e  i   in_ place   sigifie qu il faut utiliser les m  mes r  pertoires csc snt  pour chaque transducteur      e  d   no_ create _directory signifie que tous les r  pertoires snt  csc ex   istent d  ja et n   ont pas besoin d     tre cr  es      e  g minus   negation_operator minus   utilise moins comme op  ra   teur de n  gation pour les graphes version Unitex 2 0        e  g tilde   negation_operator tilde   utilise tilde comme op  ra   teur de n  gation  par d  faut       e  h   help   affiche cette aide    Cassys applique une liste de grammaires    un texte et sauve les s  quences recon   nues dans un fichier index nomm   concord  ind stock   dans le r  pertoire texte   Le fichier cible doit   tre un fichier snt av
266. hier_version2  En sortie  le fichier texte  lt fichier_dump gt  con   tiendra la comparaison des s  quences entre les 2 fichiers et v  rifiera leur coh  rence   Ce fichier est destin  e    une lecture manuelle  afin d   tudier le contenu du fichier  d offset          DumpOffsets  OPTIONS      convert_modified_to_common   lt fichier_offset_diff  rence gt   p  lt fichier_offset_zone_commune gt     OPTIONS      e  s N   old_size N   Contient la taille en caract  re de la version d   origine  du fichiet texte    e  S N   new_size N   Contient la taille en caract  re de la version d   arriv  e  du fichiet texte    Il faut obligatoirement sp  cifier une des deux tailles  Pour un fichier encod   en  UTF16BE_BOM  c   est la taille en octets  auquel on retranche 2 pour les 2 octets de  signature BOM et que l   on divise ensuite par 2 car chaque caract  re unicode prend  2 octets  En UTF8  la correspondance n   est pas imm  diate    Converti un fichier d   offset indiquant les caract  res supprim  s  tel que fournis  par les autres outils Unitex  en fichier indiquant les plages de caract  res identiques   14 13 11            DumpOffsets  OPTIONS    convert_common_to_ modified   lt fichier_ offset _ zone commune gt   p  lt fichier_ offset _diff  rence gt     OPTIONS      e  s N   old _size N   Contient la taille en caract  re de la version d   origine  du fichier texte    282 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  S N   new _size N  Contient la taille en caract  re de la
267. hrase    7 5 3 Param  tres de pr  sentation    Les automates de phrase sont soumis aux m  mes options de pr  sentation que les graphes   Ils partagent les m  mes couleurs et polices de caract  res  ainsi que l   utilisation de l effet  d antialiasing  Pour configurer l apparence des automates de phrase  vous devez modifier  la configuration g  n  rale en cliquant sur  Preferences     dans le menu  Info   Pour plus de  d  tails  reportez vous    la section 5 3 5     Vous pouvez   galement imprimer un automate de phrase en cliquant sur  Print     dans le  menu  FSGraph  ou en appuyant sur  lt Ctrl P gt   Assurez vous que le param  tre d orienta   tion de l imprimante est bien r  gl   sur le mode paysage  Pour r  gler ce param  tre  cliquez  sur  Page Setup  dans le menu  FSGraph      192 CHAPITRE 7  AUTOMATE DU TEXTE  7 6 Convertir l   automate du texte en texte lin  aire    Si l   automate du texte ne contient plus la moindre ambigu  t    il est possible de construire  un fichier texte correspondant    l unique chemin repr  sent   par cet automate  Pour cela   allez dans le menu  Text  et cliquez sur  Convert FST Text to Text      La fen  tre de la figure  7 31 vous permet alors de d  finir le fichier texte de sortie      F  Convert Text Automaton to Text     Output text file     D iMy UniteEnglishCorpusilinear snt   Set    Cancel                         FIGURE 7 31     Choix du fichier de sortie pour la lin  arisation de l automate du texte    Si l automate n   est pas compl 
268. hungry as a wolf  gladna kao vukovi gladan kao vuk AC_A3XN2 w2ngea  hungry as a wolf       Hh             gladna kao vuk gladan kao vuk AC_A3XN2 w4mgea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 w4mgea  hungry as a wolf  gladna kao vukovi gladan kao vuk AC_A3XN2 w4mgea  hungry as a wolf    gladne kao vuk gladan kao vuk AC_A3XN2 w4fgea  hungry as a wolf                                                                11 3  INT  GRATION    UNITEX 247    gladne  gladne  gladna  gladna  gladna    kao  kao  kao  kao  kao    vuci gladan kao vuk AC_A3XN2 w4fgea  hungry as a wolf  vukovi gladan kao vuk AC_A3XN2 w4fgea  hungry as a wolf  vuk gladan kao vuk AC_A3XN2 w4ngea  hungry as a wolf  vuci gladan kao vuk AC_A3XN2 w4ngea  hungry as a wolf  vukovi gladan kao vuk AC_A3XN2 w4ngea  hungry as a wolf        zxiro racyun  aliizxiro racyun   lt  3 Nb  n Case  c Anim   a  Gen   g gt        lt Nb  n Case  c Anim  a  Gen  g gt     FIGURE 11 28     Graphe de flexion NC_2XN1 de mots compos  s serbes        avio prevoznik 1 avioprevoznik     lt  3 Nb  n C ase  c Anim   a Gen     gt      lt Nb  n Case  c Anim  a  Gen  g    FIGURE 11 29   Graphe de flexion NC_2XN2 de mots compos  s serbes    predsednik drzxave  plural  predsednici dizxave i predsednici dizxava   lt  1 Nb s Case  c Anim   a Gen   g gt       lt Nb s Case  c Anim  a Gen  g gt     lt s2 gt        lt Nb p Case  c Anim  a Gen  g gt     32      lt Nb w Case  c Anim  a  Gen  g gt                     lt  1 Nb p Case  c Anim
269. i chevauche la fin d une nouvelle et le d  but de la suivante      e une   tiquette lexicale  aujourd    hui   ADV      e une s  quence de lettres contigu  s  les lettres sont d  finies dans le fichier alphabet de  la langue       e un  et un seul  caract  re diff  rrent d une lettre  i e  tous les caract  res non d  finis dans  le fichier alphabet de la langue courante  s   il s   agit d une newline  il est remplac   par  un espace     Pour les autres langues  le d  coupage est effectu   caract  re par caract  re     l exception du  d  limiteur de phrases  S  le marqueur  STOP  et des   tiquettes lexicales  Ce d  coupage  basique garantit le fonctionnement d Unitex  mais limite l optimisation des op  rations de  recherche de motifs     Quel que soit le mode de d  coupage  les retours    la ligne pr  sents dans un texte sont rem   plac  s par des espaces  Ce d  coupage est effectu   par le programme Tokenize   Ce pro   gramme produit plusieurs fichiers  stock  s dans le r  pertoire du texte      e tokens txt contient la liste des unit  s lexicales dans l   ordre o   elles ont   t   trouv  es  dans le texte      e text cod contient un tableau d   entiers   chaque entier correspondant    l indice d une  unit   lexicale dans le fichier tokens txt        e tok_by_freq txt contient la liste des unit  s lexicales tri  e par ordre de fr  quence                  e tok_by_alph txt contient la liste des unit  s lexicales tri  e par ordre alphab  tique      e stats n contient quelques s
270. i gladan kao vuk AC_A3XN2 p5ngea  hungry as a wolf  gladnima kao vuk gladan kao vuk AC_A3XN2 p6mgea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p6mgea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p6mgea  hungry as a wol  gladnim kao vuk gladan kao vuk AC_A3XN2 p6mgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p6mgea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p6mgea  hungry as a wol  gladnima kao vuk gladan kao vuk AC_A3XN2 p6fgea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p6fgea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p6fgea  hungry as a wol  gladnim kao vuk gladan kao vuk AC_A3XN2 p6fgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p6fgea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p6fgea  hungry as a wolf  gladnima kao vuk gladan kao vuk AC_A3XN2 p6ngea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p6ngea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p6ngea  hungry as a wol  gladnim kao vuk gladan kao vuk AC_A3XN2 p6ngea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p6ngea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p6ngea  hungry as a wolf  gladnima kao vuk gladan kao vuk AC_A3XN2 p7mgea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p7mgea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p7mgea  hungry as a wol  gladnim kao vuk gladan kao 
271. i le programme Locate  peut commencer en reconnaissant les espaces   par d  faut c est non        14 112 Fichier system _dic def    Le fichier system_dic def est un fichier texte d  crivant la liste des diction   naires du syst  me    appliquer par d  faut  Ce fichier se trouve dans le r  pertoire    340 CHAPITRE 14  FORMATS DE FICHIERS    de la langue courante  Chaque ligne correspond    un nom de fichier  bin file  Les  dictionnaires du syst  me doivent se trouver dans le r  pertoire syst  me Unitex      l int  rieur du sous r  pertoire  langue courante  Dela  Voici un exemple de  fichier         delacf  bing  delaf bin       14 113 Fichier user_dic def    Le fichier user_dic def est un fichier texte d  crivant la liste des dictionnaires  de l utilisateur    appliquer par d  faut  Ce fichier se trouve dans le r  pertoire de la  langue courante et a le m  me format que le fichier system _dic def  Les diction   naires de l utilisateur doivent se trouver dans le sous r  pertoire  langue courante     du r  pertoire personnel de travail        14 114 Fichiers  nom d utilisateur  cfg et  unitex cfg    Sous Linux et Mac OS  Unitex consid  re que le r  pertoire personnel de travail se  nomme unitex et qu il se trouve dans le r  pertoire racine de l utilisateur   HOME    Si vous voulez changer cet emplacement par d  faut  un fichier   unitex cfg est  cr     dans votre r  pertoire racine  et il contient le chemin vers votre r  pertoire de  travail Unitex  Ce fichier est un fichier UT
272. i n   est effectu  e qu une fois avant plusieurs recherches de codes s  mantiques  Si on v  rifie le code grammati   cal et un code s  mantique par un m  me masque lexical  ces masques deviennent plus nombreux dans l   ensemble  de la grammaire et ils provoquent plus de consultations des dictionnaires     6 10  APPLICATION DES GRAPHES AUX TEXTES 153    Dans le cadre intitul    Locate pattern in the form of   choisissez  Graph  et s  lectionnez votre  graphe en cliquant sur le bouton  Set   Vous pouvez choisir un graphe au format  grf  Uni   code Graphs  ou un graphe compil   au format     st2 format  Unicode Compiled Graphs    Si votre graphe est au format  grf  Unitex le compilera automatiquement avant de lancer la  recherche  Si vous cliquez sur  Activate debug mode   la concordance sera affich  e dans une  fen  tre dans laquelle vous trouverez l automate et  pour chaque s  quence reconnue  la liste  des   tats du chemin qui la reconna  t  Cette fen  tre est d  crite en d  tails    la section 6 10 7     Le cadre  Index  permet de s  lectionner le mode de reconnaissance      e  Shortest matches    donne la priorit   aux s  quences les plus courtes      e  Longest matches    donne la priorit   aux s  quences les plus longues  C est le mode  utilis   par d  faut     e  All matches    donne toutes les s  quences reconnues     Le cadre  Search limitation  permet de limiter ou non la recherche    un certain nombre  d occurrences  Par d  faut  la recherche est limit  e aux 200 pre
273. iante de casse   les lettres  minuscules restent minuscules  idem pour les majuscules  En outre  la liaison de deux bo  tes  est strictement   quivalente    la concat  nation de leurs contenus munie de la concat  nation  de leurs sorties  voir figure 6 2         FIGURE 6 2     Deux chemins   quivalents dans une grammaire de flexion    Les graphes de flexion doivent   tre compil  s avant de pouvoir   tre utilis  s par le pro   gramme de flexion     Pour plus de d  tails  voir section 3 5     6 1 2 Graphes de pr  traitement    Les graphes de pr  traitement sont destin  s      tre appliqu  s aux textes avant que ceux   ci soient d  coup  s en unit  s lexicales  Ces graphes peuvent   tre utilis  s pour ins  rer ou  remplacer des s  quences dans les textes  Les deux utilisations usuelles de ces graphes sont  la normalisation de formes non ambigu  s et le d  coupage en phrases     L interpr  tation de ces graphes dans Unitex est tr  s proche de celle des graphes syntaxiques  utilis  s pour la recherche de motifs  Les diff  rences sont les suivantes      e on peut utiliser le symbole sp  cial  lt   gt  qui reconna  t un retour    la ligne     e si l   on travaille en mode caract  re par caract  re  il est possible d utiliser le symbole  sp  cial  lt L gt  qui reconna  t une lettre  telle que d  finie dans le fichier alphabet      e il est impossible de faire r  f  rence aux dictionnaires      6 1  LES TYPES DE GRAPHES 121  e il est impossible d utiliser les filtres morphologiques   
274. iers    l adresse suivante  http   igm univ mlv fr  unitex     dans un r  per   toire  dossier  Unitex3 1beta que vous aurez pr  alablement cr      de pr  f  rence dans le  r  pertoire Program Files  et qui sera appel   dans ce manuel le r  pertoire syst  me Unitex        Apr  s la d  compression  le r  pertoire Unitex3 1beta  le r  pertoire syst  me Unitex  con   tient plusieurs sous r  pertoires dont un nomm   App  Ce dernier r  pertoire contient un  fichier nomm   Unitex  jar  Ce fichier est l ex  cutable Java qui lance l interface graphique   Il vous suffit de double cliquer dessus pour lancer le programme  Pour faciliter le lancement  du programme  il est conseill   de cr  er un raccourci vers ce fichier sur le bureau     1 4 Installation sous Linux    Pour installer Unitex sous Linux et MacOS  il est recommand   d     tre administrateur sys   t  me  D  compressez le fichier Unitex3 1beta zip dans un r  pertoire nomm   Unitex   au moyen de la commande suivante      1 5  INSTALLATION SOUS MACOS X 21    unzip Unitex3 lbeta zip  d Unitex  Ce r  pertoire sera appel   dans ce manuel le r  pertoire syst  me Unitex  Placez vous ensuite  dans le r  pertoire Unitex Src C   build  et lancez la compilation des programmes au  moyen de la commande     make install    ou si avez un ordinateur 64 bits avec la commande      make install 64BITS yes          Cr  ez ensuite un alias sur le mod  le suivant      alias unitex   cd       Unitex App    java  jar Unitex jar       15 Installation
275. iers sont  stock  s dans le r  pertoire du texte     294 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES  13 29 MultiFlex    MultiFlex  OPTIONS   lt dela gt        Ce programme effectue la flexion automatique d un dictionnaire DELA contenant  des formes canoniques 3 1 2  de mots simples ou compos  s  see chapter 11      OPTIONS            e  o DELAF   output DELAF   fichier DELAF de sortie     e  a ALPH   alphabet ALPH   fichier alphabet                 e  d DIR   directory DIR  le r  pertoire contenant les fichiers Morphology  et Equivalences et des graphes de flexion pour mots simples ou compos  s         e  K   korean   indique    MultiF lex qu il travaille sur du cor  en     e  s   only simple words   le programme tiendra compte des mots com   pos  s comme des erreurs            e  c   only compound words   le programme tiendra compte des mots sim   ples comme des erreurs                  e  p DIR   pkgdir DIR   indique le r  pertoire des graphes     e    rXXX   named_repositories XXX   d  claration des d  p  ts nomm  s  XXX  est form  e d une s  quence ou plus X Y   s  par  s par   o   X est le nom de d  p  t  d  sign   par le chemin Y  Vous pouvez utiliser cette option    plusieurs reprises      Remarquons que les transducteurs de flexion   fst2 sont automatiquement con   struits    partir des fichiers  grf correspondants en cas d   absence ou de fichiers   grf plus anciens     13 30 Normalize    Normalize  OPTIONS   lt text gt        Ce programme effectue une normalis
276. ifie les d  limiteurs gauche  L  et droit  R  qui entoureront  les items  Par d  faut  ces d  limiteurs sont nuls     e  s0  Str   si l   on tient compte des sorties de la grammaire  ce param  tre  sp  cifie la s  quence St r qui s  parera une entr  e de sa sortie  Par d  faut  il n   y  a pas de s  parateur      e  f a s sil on tient compte des sorties de la grammaire  ce param  tre sp  cifie  le format des lignes g  n  r  es   in0 inl out0 outl s ouin0 out0 inl outl   a   La valeur par d  faut est s      e  ss  stop   d  finit  str  comme la marque d   arr  t    l exploitation      lt stop gt     La valeur par d  faut est null     286    CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  v   ce param  tre produit l affichage de messages d informations    mode ver   bose       e  m  mode sp  cial pour description avec alphabet     e  rx  L   R     ce param  tre sp  cifie comment les cycles doivent   tre pr  sen   t  s L et R d  signent des d  limiteurs  Si l   on consid  re le graphe de la figure  13 4  voici les r  sultats que l   on obtient si l   on pose L     et R    x      il fait  tr  s tres x        il fait tr  s beau      ara  Qu  frees     FIGURE 13 4   Graphe avec un cycle    13 22 Fst2Txt    Ce    Fst2Txt  OPTIONS   lt fst2 gt        programme applique un transducteur    un texte en phase de pr  traitement     quand le texte n est pas encore d  coup   en unit  s lexicales    OPTIONS     e  t TXT   text TXT  le fichier texte    modifier  avec l extension  snt  
277. il n   y aura pas de match  S il r  ussit  c est     dire  s il peut atteindre la fin du contexte  le programme reviendra    la position pos dans le texte  et continuera l exploration de la grammaire    partir de la fin du contexte     Les poids  section 5 2 4  dans les contextes droits sont ignor  s     On peut   galement d  finir des contextes droits n  gatifs  en utilisant      comme d  but de  contexte  La figure 6 14 montre un graphe reconnaissant des nombres qui ne sont pas suivis  par th  La diff  rence avec les contextes positifs est que lorsque Locate essaie de recon   na  tre l expression d  crite dans le contexte  le fait d atteindre la fin du contexte est consid  r    comme un   chec  car cela signifie que l   on a reconnu une s  quence interdite     l inverse  si  la fin de contexte ne peut   tre atteinte  le programme Locate reviendra    la position pos  dans le texte et continuera l exploration de la grammaire    partir de la fin du contexte     Les contextes peuvent   tre plac  s n importe o   dans le graphe  y compris au d  but  La fig   ure 6 15 montre ainsi un graphe qui reconna  t un adjectif dans le contexte de quelque chose    130 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES  I      FIGURE 6 14     Utilisation d un contexte n  gatif    le  O    FIGURE 6 15     Recherche d   un adjectif non ambigu avec un participe pass      qui n   est pas un participe pass    Autrement dit  ce graphe reconna  t tous les adjectifs qui ne  sont pas ambigus avec des partic
278. il travaille sur du cor  en       u X   arabic_rules x  d  signe le fichier de configuration des r  gles ty   pographiques de l arabe      g X   negation_operator X   sp  cifie l op  rateur de n  gation    utiliser  dans les masques lexicaux  Les deux valeurs possibles de X sont moins et  tilde  par d  faut   Utiliser moins offre une compatibilit   descendante avec  les versions pr  c  dentes de Unitex     Options de limite de recherche      e  1   all   recherche toutes les s  quences reconnues  par d  faut          n N   number_of_matches N  stoppe apr  s les premiers N matches     Options du nombre d it  rations maximum par token      e  o N   stop_token_count N stoppe apr  s N it  rations sur un token     e  o N M   stop_token_count N M     met un warning apr  s N it  rations    sur un token et s arr  te apr  s it  rations M     Options du mode de reconnaissance      13 27  LOCATE 291    e  S   shortest matches     e  L   longest_matches  par d  faut         e  A   a11 matches     Options de sortie         e  1   ignore   ignore les sorties du transducteur  par d  faut      e  M   merge   ajoute les sorties du transducteur avec les s  quences reconnues         e  R   replace   remplace les s  quences reconnues par les sorties correspon   dantes du transducteur      e  p   protect_dic_chars   quand le mode  Mou  R est utilis     p protege  certains caract  res de l entr  e avec un antislash  Ceci est utile quand Locate  est appel  e par Dico afin d   viter la production de
279. imples et 50  pour ceux de mots compos  s     REMARQUE   pour les langues s  mitiques  un algorithme de compression particulier est  utilis   afin de r  duire la taille des fichiers  bin et  inf  Le fait qu   une langue soit consid     r  e comme s  mitique peut   tre configur   dans les pr  f  rences globales        3 7 Application de dictionnaires    Unitex peut manipuler soit des dictionnaires compress  s    bin  soit des graphes dictionnaires       st 2   Ces dictionnaires peuvent   tre appliqu  s soit lors du pr  traitement  soit explicite   ment en cliquant sur  Apply Lexical Resources     dans le menu  Text   Nous allons main   tenant d  tailler les r  gles de l application des dictionnaires  Le cas des graphes dictionnaires  sera abord   dans la section 3 7 3     3 7 1 Priorit  s    La r  gle de priorit   est la suivante   si un mot du texte a   t   trouv   dans un dictionnaire   ce mot ne sera plus pris en compte lors de l   application de dictionnaires ayant une priorit    inf  rieure     Cela permet d   liminer certaines ambiguit  s lors de l application des dictionnaires  Par ex   emple  le mot par a une interpr  tation nominale dans le domaine du golf  Si l   on ne veut    3 7  APPLICATION DE DICTIONNAIRES 67    pas envisager cet emploi  il suffit de cr  er un dictionnnaire filtre ne contenant que l entr  e  par   PREP et de le sauver en lui donnant la priorit   la plus haute  De cette mani  re  m  me  si le dictionnaire des mots simples contient l   autre entr  
280. ine understanding  thou mightst know Clericus clericum non decimat  5  that is  thine understanding  thou mightst know Clericus clericum non decimat  5   that is to say  we ch  derstanding  thou mightst know Clericus clericum non decimat  5  that is to say  we churchmen d  thou mightst know Clericus clericum non decimat  5  that is to say  we churchmen do not exhaust  ointed servants    It is true     replied Wamba   that I  being but an ass  am  nevertheless  hon  o   How call d you your Franklin  Prior Aymer    Cedric   answered the Prior  3   Cedric the Sa  all d you your Franklin  Prior Aymer    Cedric   answered the Prior  5   Cedric the Saxon     T  mer      Cedric     answered the Prior  5     Cedric the Saxon     Tell me  good fellow  are we near  road will be uneasy to find     answered Gurth  who broke silence for the first time     and the f    e A CO P 2 AS 2 ee n P e e      D                   FIGURE 4 1     R  sultat de la recherche du m  ta  lt  DIC gt     La n  gation d un masque lexical comme  lt V   G gt  reconna  t tous les mots sauf ceux qui peu   vent   tre reconnus par ce masque  Ainsi  le masque  lt  V G gt  ne reconnaitra pas la forme  anglaise being  m  me s il existe dans les dictionnaires du texte des entr  es non verbales pour  ce mot     being   A  being   N Abst s    being   N Hum s    Voici plusieurs exemples de motifs m  langeant les diff  rentes sortes de contraintes         e  lt A Hum  fs gt   adjectif non humain au f  minin singulier       
281. ines langues asiatiques et l ouver   ture  gr  ce    une distribution en logiciel libre  Ses caract  ristiques linguistiques sont celles  qui ont motiv   l   laboration des ressources   la pr  cision  l exhaustivit   et la prise en compte    13    14    TABLE DES MATI  RES    des ph  nom  nes de figement  notamment en ce qui concerne le recensement des mots com   pos  s     Quoi de neuf depuis la version 3 0      Voici les principales nouvelles fonctionnalit  s      Moteur plus rapide qui utilise moins de pile     Version am  lior  e de CasSys   nouveaux fichiers csc  ouverture de cascade possible  aussi avec le menu FSGraph  suppression du r  pertoire Share  application de graphe  jusqu au point fixe  graphes g  n  riques  red  normalisation du dernier fichier  chapitre  12      Introduction du malgache   Publication de main_UnitexTool_c comme API publique     Version am  lior  e de l   diteur de graphes   s  lection et   dition des boites  ouverture   sauvegarde  exportation comme image  5 2  5 4      Les commandes non applicables des menus sont maintenant gris  es        Introduction de l op  rateur  lt n LEMMA gt  pour la flexion en mode s  mitique  non en   core document        Introduction d   une liste de graphes et corpus r  cemment ouverts   Introduction d   une liste de fen  tres ouvertes   Compatibilit   am  lior  e avec Ruby     Introduction de InstallLingResourcePackage  un outil qui installe un paquetage  de ressources et de scripts dans un environnement cible  
282. ion de tous ces automates  correspondrait    l automate de tout le texte  On utilise donc le terme    automate du texte     m  me si l   on ne manipule pas r  ellement cet objet pour des raisons pratiques     163    164 CHAPITRE 7  AUTOMATE DU TEXTE       2335 sentences Here haunted of yore the fabulous Dragon of    E antley   Ea    Sentence      Reset Sentence Graph  Rebuild FST Text  Elag Frame             N NPN z1 p    FIGURE 7 2   Concurrence entre un mot compos   et une combinaison de mots simples    7 2  CONSTRUCTION 165  7 2 Construction    Pour construire l   automate d un texte  vous devez ouvrir ce texte  puis cliquer dans  le menu  Text  sur  Construct FST Text      Il est recommand   d   avoir d  coup   le texte en  phrases et de lui avoir appliqu   les dictionnaires  Si vous n avez pas d  coup   le texte en  phrases  le programme de construction d  coupera arbitrairement le texte en s  quences de  2000 unit  s lexicales au lieu de construire un automate par phrase  Si vous n avez pas ap   pliqu   les dictionnaires  les automates de phrase que vous obtiendrez ne seront constitu  s  que d   un seul chemin ne comportant que des mots inconnus     7 2 1 R  gles de construction de l   automate du texte    Les automates de phrase sont construits    partir des dictionnaires du texte  Le degr    d ambiguit   obtenu est donc directement li      la finesse de description des dictionnaires  utilis  s  Sur l   automate de phrase de la figure 7 3  on peut voir que le mot which
283. ipes pass  s     Dans les graphes tels que celui de la figure 6 15  le contexte droit n  gatif ne v  rifie pas  n  cessairement le m  me nombre de tokens que la boite qui le suit  Par exemple  avant que  le graphe de la figure 6 16 ne reconnaisse too  le contexte droit n  gatif v  rifie s   il apparait  dans une expression telle que too early ou too many        FIGURE 6 16     Un contexte qui ne v  rifie pas le m  me nombre de mots que la boite qui le  suit    On peut formuler des requ  tes complexes avec les contextes droits n  gatifs  Ainsi  la figure  6 17 montre un graphe qui reconna  t toutes les s  quences de deux noms simples qui ne sont  pas ambigu  s avec des mots compos  s  En effet  le motif  lt CDIC gt  lt  lt                 gt  gt   reconna  t un mot compos   contenant exactement un espace  et le motif  lt N gt  lt  lt            gt  gt   reconna  t un nom sans espace  c est    dire un nom simple  Ainsi  dans la phrase Black cats  should like the town hall  ce graphe reconna  tra Black cats  mais pas town hall  qui est un mot  compos       Il est possible d   imbriquer des contextes  Par exemple  le graphe de la figure 6 18 reconna  t  un nombre qui n est pas suivi par un point  sauf si ce point est suivi par un nombre  Ainsi   dans le texte 5 0 7  12  ce graphe reconnaitra 5  0 et 12     Les sorties qui se trouvent dans des bo  tes    l   int  rieur d un contexte sont ignor  es  En re   vanche  il est possible d utiliser une variable qui a   t   d  finie dans u
284. ire  en l   occurrence le  symbole  S   sont ins  r  es dans le texte  Ce programme prend en entr  e un fichier   snt et  le modifie     2 5 3 Normalisation de formes non ambigu  s    Certaines formes pr  sentes dans les textes peuvent   tre normalis  es  par exemple  la  s  quence fran  aise  l on  est   quivalente    la forme  on    Chaque utilisateur peut donc  vouloir effectuer des remplacements en fonction de ses besoins  Toutefois  il faut faire at   tention    ce que les formes normalis  es soient non ambigu  s  ou    ce que la disparition de  l ambigu  t   soit sans cons  quence pour l application recherch  e     Si l   on d  cide de remplacer la forme  audit  par     le dit   la phrase    La cour a proc  d      un audit des comptes de cette soci  t     sera remplac  e par la phrase incorrecte      La cour a proc  d      un    le dit des comptes de cette soci  t       Il faut donc   tre tr  s prudent lorsque l   on manipule la grammaire de normalisation  Il faut      galement faire attention aux espaces  En effet  si l   on remplace  c     par  ce  non suivi par un  espace  la phrase      Est ce que c   tait toi    sera remplac  e par la s  quence incorrecte    Est ce que ce   tait toi      Les symboles accept  s par les grammaires de normalisation sont les m  mes que ceux au   toris  s dans les grammaires de d  coupage en phrases  La grammaire utilis  e se nomme  Replace fst2 et se trouve dans le r  pertoire suivant         r  pertoire personnel     langue   Graphs P
285. is     7 3  LEV  E D AMBIGUI  T  S LEXICALES AVEC ELAG 179                NAME french   POS ADV   POS PRO   flex    pers 12 33   genre   f   nombre   s p   diser    subcat     complete    Pind  lt genre gt   lt nom  Pdem  lt genre gt   lt nom  Ppossis  lt genre gt   lt nom  Ppossip  lt genre gt   lt nom  Pposs2s  lt genre gt   lt nom  Pposs2p  lt genre gt   lt nom  Pposs3s  lt genre gt   lt nom  Pposs3p  lt genre gt   lt nom  PpvIL  lt genre gt   lt nom  PpvLE  lt genre gt   lt nom  PpvLUI  lt genre gt   lt nom  Ton  lt genre gt   lt nom  PpvPR   PronQ   Dnom   POS A    adjectifs  flex    genre  mf   nombre   s p   cat    gauche   g   droite  d   complete        Pind Pdem PpvIL PpvLUI PpvLE Ton PpvPR PronQ Dnom Ppossls           lt genre gt   lt nombre gt              bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt   bre gt      lt pers gt    lt pers gt    lt pers gt    lt pers gt       pour  de bonne humeur   A      lui  elle  moi  en y   ou qui que quoi  rien    Sse de de e H     au bord des larmes  A  par exemple    180    CHAPITRE 7  AUTOMATE DU TEXTE    POS V  flex     temps    pers    genre  nombre    JKPSTVWYGX    I  3    I  03Ra    F  2  f  P    complete           2    RKKXH0O0O UGQGQhHrdo O Ss     lt pers gt   lt nombre gt    lt pers gt   lt nombre gt    lt pers gt   lt nombre gt    lt pers gt   lt nombre gt    lt pers gt   lt nombre gt    lt pers gt   lt nombre gt    lt pers gt   lt nombre gt              s   eusse du
286. iss  and J  Pa   jzs  editors  Papers in Computational Lexicography  COMPLEX   pages 257 265   Budapest  Research Institute for Linguistics  Hungarian Academy of Sciences   1996  9 1     93  Simoneta VIETRI  On the study of idioms in italian  In Sintassi e morfolog  a  della lingua italiana  Congresso internazionale della Societ   di Linguistica Italiana   Roma  Bulzoni  1984  3 8     94  Du  ko VITAS  Svetla KOEVA  Cvetana KRSTEV  and Ivan OBRADOVIC  Tour  du monde through the dictionaries  In Matthieu Constant  Takuya Nakamura   Michele De Gioia  and Sara Vecchiato  editors  27th International Conference on  Lexis and Grammar  LGC 08   pages 249 256  September 2008  10    382 BIBLIOGRAPHIE    Index       46  67  75  82  96      78      35  76  79  122  138   x  82 131       46  47  106   1 20      46  57  81        67      46      46  104   1 50   2 50   3 80      46  99     lt   137    lt   gt   35  120   lt CDIC gt   76  138   lt DIC gt   76  80  138    lt E gt   39  76  79  82  95  120  122   lt FIRST gt   35  76  80  138   lt I   gt  57    lt L gt   120   lt LETTER gt   138   lt LOWER gt   35  76  80  138   lt MAJ gt   35  76  80  138   lt MIN gt   35  76  80  138   lt MOT gt   35  76  138   lt NB gt   35  76  79  138   lt PNC gt   35    lt PRE gt   35  76  80   lt R   gt  57   lt SDIC gt  76  138   lt TDIC gt   76    lt TOKEN gt   138  193   lt UPPER gt   35  76  80  138   lt WORD gt   35  76                                lt X n gt   57     47     gt   EVA   as  207  
287. iste les dictionnaires du  mode morphologique  si la pr  sence de dictionnaires   fst2 rend cette infor   mation n  cessaire  DICS repr  sente une liste de fichiers  bin  avec leur nom  complet  s  par  s par des points virgules               e  K   korean   indique    Dico qu il travaille sur du cor  en     278 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  s   semitic indique    Dico qu il travaille sur une langue s  mitique  n  ces   saire si Dico doit compresser un dictionnaire             e  u X   arabic_rules X  d  signe le fichier de configuration des r  gles ty   pographiques de l arabe          er X   raw X   indique que Dico devrait simplement produire un fichier de  sortie X contenant les mots simples et compos  s  sans exiger un r  pertoire  texte  Si X est omis  les r  sultats sont affich  s sur la sortie standard      lt dic_i gt  repr  sente le chemin d   acc  s complet    un dictionnaire  Le dictionnaire  doit   tre soit un dictionnaire compress   au format  bin  obtenu avec le programme  Compress  soit un graphe dictionnaire au format  fst2  voir section 3 7  page 66    Il est possible de donner des priorit  s aux dictionnaires  Pour les d  tails voir section  LA    Le programme Dico produit les fichiers suivants et les sauve dans le r  pertoire du  texte       e dif  dictionnaire des mots simples du texte        e dic  dictionnaire des mots compos  s du texte    e err  liste des mots inconnus du texte      e tags_err   mots simples inconnus qui ne so
288. ith two ass s ears Det tw0   and which was place  ber with a grave pace  followed by four attendants Det four   bearing in a table             FIGURE 6 27     R  sultats de l application de la grammaire de la figure 6 26          M     FIGURE 6 28     Une grammaire avec des contextes gauche et droit    les r  sultats  Par exemple  la grammaire de la figure 6 28 cherche des expressions comme  the animal    s  mais extrait seulement les noms  comme on peut le voir figure 6 29     Les poids  section 5 2 4  fonctionnent normalement dans les contextes gauches     136 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Concordance  D  My UnitexEnglish Corpusianhoe_snticoncord html      said Athelstane  upon whose memory the Abbot s good ale  for Burton was ala  mounted  some by the dexterity of their adversary s lance    some by the s    The javelin inflicted a wound upon the animal s shoulder  and narrowly mis    the Templar aimed at the centre of his antagonist s shield  and struck it  r   is not yet very far spent   let the archer s shoot a few rounds at the  he back of which was decorated with two ass s ears  and which was placed     taking their directions more from the Baron s eye and his hand than his       FIGURE 6 29     R  sultats de l application de la grammaire de la figure 6 28    6 4  LE MODE MORPHOLOGIQUE 137  6 4 Le mode morphologique    6 4 1 Pourquoi     Comme Unitex fonctionne sur une version  tokenis  e  du texte  il n   est pas possible de  faire des requ  tes qui 
289. itiques    Les langues s  mitiques comme l arabe ou l h  breu ne se fl  chissent pas de la m  me  mani  re que d   autres types de langues  Leur morphologie ob  it    une logique diff  rente   Dans ces langues  les mots se fl  chissent selon un squelette consonantique  Le processus de  flexion combine ce squelette avec des voyelles     Tout d   abord  voyons un cas o   on ne code que les consonnes dans le champ lemme de  l entr  e DELAS      ktb   V31 123    Le signe   avant le code grammatical indique que la grammaire de flexion est en mode  s  mitique  et la forme ktb qui figure dans le champ lemme est le squelette consonantique     64 CHAPITRE 3  DICTIONNAIRES    La figure 3 15 montre une grammaire jouet V31 123 grf qui illustre comment le mode  s  mitique fonctionne        yakotubu  h yalo2u3   lu      al 3ms  active Imperfect 3rd masc sing    FIGURE 3 15     Une grammaire de flexion jouet en mode s  mitique    Le mode s  mitique ob  it aux r  gles suivantes    1  Tous les op  rateurs standards de flexion peuvent   tre utilis  s  L  R  etc       2  Un chiffre repr  sente une lettre du champ lemme  1 pour la premi  re  2 pour la sec   onde  etc   Dans notre exemple  1  2 et 3 repr  sentent respectivement k  t et b  Si on  veut d  signer une lettre apr  s la neuvi  me  on doit prot  ger son num  ro avec des  chevrons    lt 10 gt      Le DELAF produit par cette grammaire est      yakotubu ktb V al3ms    Si on ne code que les consonnes dans le champ lemme et que deux entr  es
290. jokers ne seront  ajout  es    ce graphe  de telles s  quences peuvent   tre produites par des suppressions  ou des remplacements sur des s  quences courtes     8 3  RECHERCHE PAR APPROXIMATION 203    e pas d insertion de jokers au d  but ou    la fin d une s  quence    e chaque token d   une s  quence y compris le premier et le dernier peuvent   tre remplac  s  par un joker    Les graphes produits en utilisant des jokers contiennent de nombreuses s  quences erron  es  et doivent   tre confront  es avec le corpus au moyen de Locate pour ne garder que les  s  quences pertinentes  Ces s  quences peuvent   tre utilis  es pour produire un nouveau graphe   que vous voudrez peut   tre garder     Le graphe de la figure 8 8 a   t   produit avec remplacement de 1 token et avec l option   beautifying  activ  e   cf  figure 8 2     a month   lt TOKEN gt  XH soon      as  possible       the H next few days                         Tomorro       this week        lt TOKEN gt   twice  a                    lt TOKEN gt     as  lt TOKEN gt   soon       as  lt TOKEN gt    lt TOKEN gt      lt TOKEN gt        the  lt TOKEN gt   next       few       FIGURE 8 8     Automate avec un remplacement permis    204 CHAPITRE 8  AUTOMATE DE S  QUENCES    Chapitre 9    Lexique grammaire    Les tables de lexique grammaire sont un moyen compact de repr  senter les propri  t  s  syntaxiques des   l  ments d une langue  Il est possible de construire automatiquement des  grammaires locales    partir de ces tables 
291. k AC_A3XN2 p3ngea  hungry as a wol    gladnim kao vuk gladan kao vuk AC_A3XN2 p3ngea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p3ngea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p3ngea  hungry as a wol  gladne kao vuk gladan kao vuk AC_A3XN2 p4mgea  hungry as a wolf   gladne kao vuci gladan kao vuk AC_A3XN2 p4mgea  hungry as a wolf   gladne kao vukovi gladan kao vuk AC_A3XN2 p4mgea  hungry as a wolf  gladne kao vuk gladan kao vuk AC_A3XN2 p4fgea  hungry as a wolf  gladne kao vuci gladan kao vuk AC_A3XN2 p4fgea  hungry as a wolf  gladne kao vukovi gladan kao vuk AC_A3XN2 p4fgea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 p4ngea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 p4ngea  hungry as a wolf  gladna kao vukovi gladan kao vuk AC_A3XN2 p4ngea  hungry as a wolf  gladni kao vuk gladan kao vuk AC_A3XN2 p5mgea  hungry as a wolf  gladni kao vuci gladan kao vuk AC_A3XN2 p5mgea  hungry as a wolf    gladni kao vukovi gladan kao vuk AC_A3XN2 p5mgea  hungry as a wolf                                                                      246 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    gladne kao vuk gladan kao vuk AC_A3XN2 p5fgea  hungry as a wolf  gladne kao vuci gladan kao vuk AC_A3XN2 p5fgea  hungry as a wolf  gladne kao vukovi gladan kao vuk AC_A3XN2 p5fgea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 p5ngea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 p5ngea  hungry as a wolf  gladna kao vukov
292. l     tat initial     330 CHAPITRE 14  FORMATS DE FICHIERS  14 8 2 Fichier inf    Un fichier  inf est un fichier texte d  crivant les formes comprim  es associ  es     un fichier  bin  Voici un exemple de fichier   inf file     00000000064  _10 0 0 7 N4   PREPY   _3 PREPY   PREP _3 PREPY  1 1 N Hum mpY   3er 1 N AN Hum fsY       La premiere ligne du fichier indique le nombre de formes comprim  es qu il contient   Chaque ligne peut contenir une ou plusieurs formes comprim  es  S il y a plusieurs  formes  celles ci doivent   tre s  par  es par des virgules  Chaque forme comprim  e  est form  e d une s  quence permettant de retrouver une forme canonique    partir  d une forme fl  chie  suivie par la s  quence de codes grammaticaux  s  mantiques et  flexionnels associ  s    l entr  e     Le mode de compression de la forme canonique varie en fonction de la forme fl  chie   Si les deux formes sont exactement identiques  la forme comprim  e se r  sume aux  informations grammaticales  s  mantiques et flexionnelles  comme c est le cas dans  la ligne suivante        N Hum ms    Si les formes sont diff  rentes  le programme de compression d  coupe les deux formes  en unit  s  Ces unit  s peuvent   tre soit un espace  soit un tiret  soit une s  quence de  caract  res ne contenant ni espace ni tiret  Ce mode de d  coupage permet de prendre  efficacement en compte les flexions des mots compos  s     Si les formes fl  chies et canonique ne comportent pas le m  me nombre d unit  s  le  progr
293. l  chargeables     Ce type de description a aussi   t   utilis   pour les adjectifs   69    les noms pr  dicatifs   34     35    33    40    83    adverbes   46    71    ou les expressions fig  es  dans de nombreuses  langues   14    26    27    75    76    80    90    91    92    84    81    47       La figure 9 1 montre un exemple de table de lexique grammaire  Cette table concerne les  verbes admettant un compl  ment num  rique     205    206 CHAPITRE 9  LEXIQUE GRAMMAIRE  lolx     Fichier   diter Afficher Ins  rer Format Outils Donn  es Fen  tre Aide    acia RSR Ve IR BB  16 09  1ANHIOYIMOBEQIO Y    dy  arial   10    Gus  Hell        i   e e       Eg         CID E 1                                lt OPT gt Exemple      avoir    le fait que P      Dnum Nmes                               INO V Dnum V n    Aux  1  1    Ce salon  accepte  vingt personnes   Ce salon  accueille  vingt personnes  Max  accuse  80 kilos   Max  accuse  ses trente ans   On  admet  50 personnes dans cette salle  Ces cristawgaffectentgune forme g  om  trique  Les valeurs ont  affich    un repli   La plante  aime  l eau   Cette maison  approche  les deux millions   Ce terrain  arpente  30 arpents  Ma  atteint  80 kilos   Max  a   une soeur une voiture des sous    Ce sac  avoisine  les 20 kg    La montre  bat  les secondes   Son calme  cache   son une grandejangoisse    Ce bateau  cale  80 cm y  Mx  gt   A    accepter  accueillir  accuser  accuser  admettre  affecter  afficher  aimer  approcher  arpente
294. la cascade  Ceci peut    tre utile pour des tests  le d  bugage ou la v  rification de diff  rents r  sultats de la  cascade  Il est alors possible de corriger les erreurs selon l ordre d application des  graphes ou de trouver des erreurs dans leur   criture  Il est pratique d ajouter dans  la sortie d   un transducteur le nom de ce dernier  afin de voir dans le r  sultat final  quel motif a   t   reconnu par quel graphe     Si l   on applique une cascade au texte exemple txt  deux r  pertoires sont cr    s    exemple_snt et exemple_csc  Les fichiers cr    s dans exemple_csc sont les r     sultats obtenus par chaque graphe  Ces fichiers sont intitul  s selon le num  ro du  graphe qui les a produit  Par exemple  si le troisi  me graphe reconna  t un motif  les  r  sultats de l application de ce graphe seront stock  s dans le r  pertoire exemple_3  _0_snt le fichier exemple _3_0 snt contiendra le texte modifi       12 4  LES R  SULTATS D UNE CASCADE 263  12 43 Un texte au format de type XML pour les   tiquettes lexicales    En sortie  le r  sultat est fourni sous deux formes   le texte r  sultant directe   ment de l application des transducteurs  et un format de type XML dans lequel  les   tiquettes lexicales ont   t   transform  es en XML  Ce changement est fait dans  le but de proposer un texte plus manipulable    l utilisateur final  A partir de ce  format  il est possible d   utiliser l   un des nombreux outils de traitement du XML  Il  est   galement facile d appliquer des
295. la liste  Par d  faut  ces contextes sont vides  Si l   on applique  les contextes  lt  et   V gt     la liste suivante      eat  sleep  drink  play    read    on obtient la boite de la figure 5 24     108 CHAPITRE 5  GRAMMAIRES LOCALES     lt eat V gt    lt sleep V gt           lt drink V gt  O     lt play V gt    lt read V gt     FIGURE 5 24     Bo  te obtenue par copie d une liste avec ajout de contextes    5 2 7 Symboles sp  ciaux  L   diteur de graphes d Unitex interpr  te de fa  on particuli  re les symboles suivants    T ae ET NX    Le tableau 5 1 r  sume la signification pour Unitex de ces symboles  ainsi que la ou les fa  ons  de reconna  tre ces caract  res dans des textes                                         Caract  re   Signification Codage    les guillemets d  limitent des s  quences qui ne ym  doivent ni   tre interpr  t  es par Unitex  ni subir de  variantes de casse      s  pare les diff  rentes lignes bo  tes mam      sert    introduire    appel    un sous graphe we  Or         indique le d  but de la sortie d   une bo  te Ne   lt   lt  indique le d  but d un motif ou d un m  ta   lt   or   lt    gt   gt  indique la fin d   un motif ou d   un m  ta   gt   or   gt       sert    interdire la pr  sence de l   espace ia ae      sert    d  sp  cialiser la plupart des caract  res sp  ci  NN  aux             TABLE 5 1     Codage des symboles sp  ciaux dans l   diteur de graphes    5 2 8 Commandes de la barre d ic  nes    La barre d ic  nes pr  sente au dessus des
296. la zone    stocker dans une variable d   entr  e  soit on utilise  le bouton avec les parenth  ses rouges dans la barre d ic  nes au dessus du graphe  section  5 2 8   soit on cr  e deux boites  l   une contenant le nom de la variable encadr   par les car   act  res   et   pour le d  but de la zone  et l   autre par   et   pour la fin  Pour utiliser une  variable dans une sortie  on fait pr  c  der et suivre son nom du caract  re    voir figure 6 44      Les variables sont globales  Cela signifie qu   on peut d  finir une variable dans un graphe  et l appeler dans un autre  comme l illustrent les graphes de la figure 6 44  Si on applique  le graphe Tit leName en mode MERGE au texte Ivanhoe  on obtient la concordance de la  figure 6 45     Les sorties a variables peuvent   tre utilis  es pour d  placer des groupes de mots  En effet   l application d un transducteur en mode REPLACE n     crit dans le texte que les s  quences  produites par des sorties  Pour intervertir deux groupes de mots  il suffit donc de les stocker  dans des variables et de produire une sortie avec ces variables dans l   ordre souhait    Ainsi   le transducteur de la figure 6 46 appliqu   en mode REPLACE au texte Ivanhoe donne la  concordance de la figure 6 47     6 7  R  GLES D APPLICATION DES TRANSDUCTEURS 147    TitleName grf  XBOULOTiRecherchelmanuelunitexrresourcesigrf    n   7                                                          FIGURE 6 44     D  finition d une variable d entr  e dans un sous gr
297. les sont compos  s soit d une s  quence de 2  ou 3 tags  pour calculer la probabilit   de transition  ou d un mot pr  c  d   par 0 ou  1 tag  pour calculer la probabilit     mise   Les unit  s dans un tuple doivent   tre s     par  es par une tabulation  Ces tuples sont suivis par la s  quence de d  limiteurs       et ensuite un nombre entier repr  sentant le nombre d   occurrences de ce tuple dans  le corpus     Les noms de fichiers sont suffix  s par  cat  ou  morph   Dans la premier  les tuples  sont compos  s tags de codes grammaticaux  syntaxiques et s  mantiques  Dans le  second  les tuples sont compos  s de tags de codes grammaticaux  syntaxiques et  s  mantiques parfois suivis par un          et des codes flexionnels  Voici un exemple  d un fichier de donn  es avec des tags de type  cat       the   96309   those   2364   eyes   324   DET Ddef the   96304  DET Ddem those   1404  PRO Pdem those   964  N eyes   324   DET N  625418              N p     14 11  FICHIER DE CONFIGURATION 337  PREP DET N  258374    1    Voici un exemple d un fichier de donn  es avec des tags de type  morph          the   96309   those   2364   eyes   324   DET Ddef s the   44374  DET Ddef p the   51934  DET Ddem p those   1409  PRO Pdem p those   969  N p eyes   324   DET s N s  184894   PREP DET s Nis  269774    1    Une ligne sp  cifique est ajout  e    des fichiers de donn  es afin de d  terminer si le  fichier contient des tags de type  cat  ou  morph     Cette ligne contient CODE FEATURES
298. lice  normale  x doit   tre un espace  De la m  me mani  re  y vaut I si la police doit    tre en italique  un espace sinon  z repr  sente la taille de la police        e OFONT name xyz   d  finit la police utilis  e pour afficher les transductions   Les param  tres name  x  y  et z sont d  finis de la m  me mani  re que pour  FONT      BCOLOR x  d  finit la couleur de l arri  re plan du graphe  x repr  sente la couleur  au format RGB     FCOLOR x  d  finit la couleur de dessin du graphe  x repr  sente la couleur au  format RGB     e ACOLOR x  d  finit la couleur utilis  e pour dessiner les lignes des bo  tes qui  correspondent    des appels    des sous graphes  x repr  sente la couleur au for   mat RGB     e SCOLOR x  d  finit la couleur utilis  e pour   crire le contenu des bo  tes de com   mentaires  i e  les bo  tes qui ne sont reli  es    aucune autre   x repr  sente la  couleur au format RGB     e CCOLOR x  d  finit la couleur utilis  e pour dessiner les bo  tes s  lectionn  es  x  repr  sente la couleur au format RGB        e DBOXES x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de  compatibilit   avec les graphes Intex     316 CHAPITRE 14 FORMATS DE FICHIERS    e DFRAME x   dessine ou non un cadre autour du graphe selon que x vaut y  ou  n        e DDATE x  affiche ou non la date en bas du graphe selon que x vaut y  ou n     e DFILE x  affiche ou non le nom du fichier en bas du graphe selon que x vaut  y oun        e DDIR x affiche ou non le che
299. lier Le pavillon  le r  cit fut achev     cas particulier le sacrifice   comme dans un r  ve   cas particulier Le Carnatic     aborder Passepartout cas particulierlle premier  bien celle du   booby cas particulierlle plus neuf   4  l I                                         FIGURE 5 20     Poids dans les graphes    Les poids sont des valeurs enti  res  Pour donner    une boite le poids 1  on ins  re   1    dans la sortie de la boite  comme dans  lt E gt    1 5     Le poids d   un chemin est le dernier poids trouv   en parcourant le chemin  Un poids peut    tre nul  mais pas strictement n  gatif  Un chemin qui a un poids  m  me nul  a la priorit   sur  un chemin sans poids     Avec des poids  on peut d  finir une priorit   entre des chemins qui reconnaissent la m  me  s  quence  On ne peut pas d  finir une priorit   entre deux s  quences dont une est incluse  dans l   autre  cf  section 4 8 1   ni entre des s  quences qui se chevauchent  cf  section 6 7 3      Les poids ne sont valides qu      l   int  rieur du graphe  et non dans les sous graphes ni les  graphes appelants     106 CHAPITRE 5  GRAMMAIRES LOCALES  5 2 5 Variables d entr  e    Il est possible de s  lectionner des parties du texte reconnu par une grammaire au moyen  de variables d entr  e  Pour associer une variable d entr  e var1    une partie d une gram   maire  on utilise soit le bouton avec les parentheses rouges dans la barre d ic  nes au dessus  du graphe  section 5 2 8   soit les symboles sp  ciaux  varl  
300. ligne de tokens txt o   figure ce token  apres  avoir ajout   1 pour la ligne d   en t  te de tokens txt 14 4 4      346 CHAPITRE 14 FORMATS DE FICHIERS    Annexe      GNU Lesser General  Public License    Cette licence peut   galement   tre trouv  e ici  36      GNU LESSER GENERAL PUBLIC LICENSE  Version 2 1  February 1999    Copyright  C  1991  1999 Free Software Foundation  Inc  59 Temple Place  Suite 330   Boston  MA 02111 1307 USA Everyone is permitted to copy and distribute  verbatim copies of this license document  but changing it is not allowed      This is the first released version of the Lesser GPL  It also counts as the successor  of the GNU Library Public License  version 2  hence the version number 2 1      Preamble    The licenses for most software are designed to take away your freedom to share  and change it  By contrast  the GNU General Public Licenses are intended to guar   antee your freedom to share and change free software to make sure the software is  free for all its users    This license  the Lesser General Public License  applies to some specially des   ignated software packages typically libraries of the Free Software Foundation and  other authors who decide to use it  You can use it too  but we suggest you first think  carefully about whether this license or the ordinary General Public License is the  better strategy to use in any particular case  based on the explanations below    When we speak of free software  we are referring to freedom of use 
301. lingue  LORIA  2006   http    led loria fr   outils ALIGN align html  10  14 13 12          380 BIBLIOGRAPHIE     69  Annie MEUNIER  Nominalisation d adjectifs par verbes supports  1981  These de  doctorat  Universit   Paris 7  9 1     70  Sun Microsystems  Java  http   java sun com  1 2     71  Christian MOLINIER and Fran  oise LEVRIER  Grammaire des adverbes   description  des formes en  ment  Droz  Gen  ve  2000  9 1     72  Anne MONCEAUX  Le dictionnaire des mots simples anglais   mots nouveaux  et variantes orthographiques  Technical Report 15  IGM  Universit   de Marne   la Vall  e  1995  3 8     73  Marcello C  M  MUNIZ  Maria das Gra  as V  NUNES  and Eric LAPORTE   UNITEX PB  a set of flexible language resources for Brazilian Portuguese  In  Proceedings of the Workshop on Technology of Information and Human Language   2005  S  o Leopoldo  Brazil    Unisinos  3 8     74  OpenOffice org  http     www openoffice org  2 2  9 2 2     75  Dong Ho PAK  Lexique grammaire compar   fran  ais cor  en  Syntaxe des construc   tions compl  tives  PhD thesis  UQAM  Montr  al  1996  9 1     76  Soun Nam PARK  La construction des verbes neutres en cor  en  1996  Th  se de  doctorat  Universit   Paris 7  9 1     77  S  bastien PAUMIER and Dana Marina DUMITRIU  Editable text alignments and  powerful linguistic queries  In Matthieu Constant  Takuya Nakamura  Michele  De Gioia  and Sara Vecchiato  editors  27th International Conference on Lexis and  Grammar  LGC 08   pages 117 125  Septe
302. lioth  que dans laquelle on peut  ranger des graphes  et faire ensuite appel    ces graphes au moyen de    au lieu de     Pour utiliser ce m  canisme  il faut tout d   abord d  finir le r  pertoire de d  p  t dans le menu   Info gt Preferences    gt Directories   voir figure 5 11   Choisissez votre r  pertoire dans le cadre   Graph repository   Le r  pertoire de d  p  t est propre    la langue de travail  vous n   tes donc  pas oblig   d utiliser le m  me r  pertoire pour plusieurs langues     Supposons que l   on ait une arborescence comme celle de la figure 5 12  Si l   on souhaite faire  appel au graphe DET qui se trouve dans le sous r  pertoire Johnson  on utilisera l appel     Det   Johnson   DET  voir figure 5 13 1      ASTUCE   si vous voulez   viter de mettre dans vos graphes un chemin compliqu   comme    Det Johnson DET  vous pouvez cr  er un graphe nomm   DET que vous placerez     la racine du r  pertoire de d  p  t D   repository DET grf   Ce graphe contiendra sim   plement un appel au graphe     Det   Johnson DET  Vous pourrez alors mettre dans vos  graphes un simple appel        DET  Cela permet 1  de ne pas avoir de noms compliqu  s et  2  de pouvoir modifier les graphes du r  pertoire de d  p  t sans avoir    modifier tous vos             1  Dans un souci de clart    les appels    des graphes du r  pertoire de d  p  t sont affich  s sur fond kaki au lieu  de gris     5 2    DITION DE GRAPHES 101     E  Preferences for English         Morphological dictionaries 
303. lles pointent     Chaque ligne de d  finition de boite doit se terminer par un espace suivi d   un retour  a la ligne     318 CHAPITRE 14  FORMATS DE FICHIERS  14 3 2 Format  fst2    Un fichier   fst 2 est un fichier texte qui d  crit un ensemble de graphes  Voici un  exemple de fichier     st 2 file     00000000024   1 NP  1 1 4  22 224  3 3  t  f   2 Adj4  6151419     gt 4  Sthe DETY  A gt  ADJY              pretty    smal14    fq    La premi  re ligne repr  sente le nombre de graphes cod  s dans le fichier  Le d  but de  chaque graphe est identifi   par une ligne indiquant le num  ro et le nom du graphe     1 NP et 2 Adj dans le fichier ci dessus      Les lignes suivantes d  crivent les   tats du graphe  Si l     tat est terminal  la ligne  d  bute par le caract  re t et par le caract  re   sinon  Pour chaque   tat  la liste des  transitions est une suite   ventuellement vide de couples d entiers      e le premier entier indique le num  ro d   tiquette ou de sous graphe correspon   dant    la transition  Les   tiquettes sont num  rot  es    partir de 0  Les sous   graphes sont repr  sent  s par des entiers n  gatifs  ce qui explique que les num  ros  pr  c  dant les noms des graphes soient n  gatifs     e le deuxi  me entier repr  sente le num  ro de l     tat d arriv  e de la transition   Dans chaque graphe  les   tats sont num  rot  s    partir de 0  Par convention   l   tat 0 d un graphe est son   tat initial     Chaque ligne de d  finition d   tat doit se terminer par 
304. logs      Compress c  dela mydela dic      CheckDic   delaf c  dela mydela inf            OPTIONS apr  s CreateLog      e    g   no_create_log  ne pas cr  er de fichier log  Incompatible avec toutes  les autres options      e  p XXX   param_file XXX   charge un fichier de param  tres comme uni   tex_logging_parameters txt  Incompatible avec toutes les autres options     e  d XXX   directory XXX   Emplacement du r  pertoire o   le fichier log est  cr          e  1 XXX   log_file XXX   nom du fichier log    cr  er     e  i   store_input_file   enregistre le fichier d entr  e dans log  par d     faut       e  n   no_store_input_file  n   enregistre pas le fichier d entr  e dans log   emp  che de relancer le fichier log       e    o   store_output_file  enregistre le fichier de sortie dans log     e  u   no_store_output_file n enregistre pas le fichier de sortie dans log   par d  faut       e    s   store_list_input_file enregistre la liste de fichiers d entr  e dans  log  par d  faut          e  t   no_store_list_input_file n enregistre pas la liste de fichiers d en   tr  e dans log     13 51  UNXMLIZE 309    e  r   store list _output_file   enregistre la liste de fichiers de sortie  dans log  par d  faut          e  f   no_ store _ list _output_file   n   enregistre pas la liste de fichiers  de sortie dans log        UnitexToolLogger   SelectOutput  OPTIONS       cmd  l args      cmd  2 args    ete        OPTIONS apr  s SelectOutput      e  o  on off     output  on off    activ
305. lt Nb p gt     Apr  s r    criture de ces formes au format DELACE  on obtient les entr  es suivantes      battle royal  battle royal N  s  battle royals battle royal N  p  battles royal battle royal N  p    Remarquons que cette description est ind  pendante de la mani  re dont les formes fl  chies  des mots simples sont g  n  r  es parce que nous supposons que ce traitement est g  r   par  le module externe de flexion des mots simples  Dans la version Unitex de MULTIFLEX   nous g  n  rons le pluriel de royal du fait que nous connaissons son code flexionnel N1 qui  correspond au graphe de la figure 11 3     11 2  FORMALISME DE FLEXION DES MOTS COMPOS  S 229       s        P    FIGURE 11 3   Graphe de flexion N1 pour les mots simples qui se fl  chissent comme royal    Dans le paradigme flexionnel d un mot compos    chaque constituant est accompagn   de la  cat  gorie morphologique qui d  termine sa flexion  Les cat  gories inchang  es n   ont pas be   soin d     tre mentionn  es  Par exemple  dans bateau mouche les deux noms constituants ont  un genre d  termin   et ne se fl  chissent qu   en nombre   bateaux mouches  C est pourquoi  fig   ure 11 4  dans le graphe de flexion de ce mot compos    les bo  tes correspondantes ne contien   nent des assignations de valeurs que pour le nombre  Remarquons que les deux constituants  peuvent avoir ou non le m  me genre  ici bateau est masculin tandis que mouche est f  minin     e g  bateau mouche        lt Gen m Nb p gt     FIGURE 11 4  
306. lusieurs  bo  tes  et de la ou les relier    une autre     la diff  rence du mode normal  la ou les  transitions qui vont   tre cr    es sont affich  es pendant le d  placement du pointeur de  la souris      e relier des bo  tes    une autre bo  te en sens inverse   cet outil effectue la m  me chose que  le pr  c  dent  mais en reliant en sens inverse les bo  tes s  lectionn  es    la bo  te cliqu  e      e ouvrir un sous graphe   ouvre un sous graphe lorsque vous cliquez sur la ligne gris  e  correspondante dans une bo  te     Pour que le curseur retrouve sa forme initiale de fl  che blanche  faites un clic droit sur le  fond du graphe   les clics seront    nouveau interpr  t  s normalement     L ic  ne en forme de cl   anglaise est un raccourci pour ouvrir la fen  tre des options d af   fichage du graphe  Les deux suivantes permettent de voir les listes de graphes en relation  avec le graphe courant      e Le premier bouton affiche la liste des graphes appel  s par le graphe courant  e Le deuxi  me bouton affiche la liste des graphes qui appellent le graphe courant    Le bouton muni de deux fl  ches vertes rafra  chit le graphe courant en chargeant sa derni  re  version  Si un fichier  grf est modifi   alors que le graphe qu il contient est affich   dans une  fen  tre Unitex  une fen  tre pop up vous invitera    le recharger     Le bouton portant l ic  ne d une balance permet de comparer le graphe courant    un autre  graphe ou    une autre version du m  me graphe  Une nouv
307. m  avio prevoznikom  avio prevoznik NC_2XN2 N Comp  s6vm             avio prevozniku  avio prevoznik NC_2XN2 N Comp s7vm  avio prevoznici  avio prevoznik NC_2XN2 N Comp plvm  avio prevoznika  avio prevoznik NC_2XN2 N Comp p2vm  avio prevoznicima  avio prevoznik NC_2XN2 N Comp p3vm  avio prevoznike  avio prevoznik NC_2XN2 N Comp p4vm  avio prevoznici  avio prevoznik NC_2XN2 N Comp p5vm    avio prevoznicima  avio prevoznik NC_2XN2 N Comp p6vm  avio prevoznicima  avio prevoznik NC_2XN2 N Comp p7vm  avio prevoznika  avio prevoznik NC_2XN2 N Comp w2vm  avio prevoznika  avio prevoznik NC_2XN2 N Comp w4vm  avioprevoznik  avio prevoznik NC_2XN2 N Comp slvm  avioprevoznika  avio prevoznik NC_2XN2 N Comp s2vm  avioprevozniku  avio prevoznik NC_2XN2 N Comp s3vm  avioprevoznika  avio prevoznik NC_2XN2 N Comp s4vm  avioprevoznicye  avio prevoznik NC_2XN2 N Comp s5vm  avioprevoznikom  avio prevoznik NC_2XN2 N Comp s6vm  avioprevozniku  avio prevoznik NC_2XN2 N Comp s7vm  avioprevoznici  avio prevoznik NC_2XN2 N Comp plvm  avioprevoznika  avio prevoznik NC_2XN2 N Comp p2vm  avioprevoznicima  avio prevoznik NC_2XN2 N Comp p3vm  avioprevoznike  avio prevoznik NC_2XN2 N Comp p4vm  avioprevoznici  avio prevoznik NC_2XN2 N Comp p5vm  avioprevoznicima  avio prevoznik NC_2XN2 N Comp p6vm  avioprevoznicima  avio prevoznik NC_2XN2 N Comp p7vm                                                                                  11 3  INT  GRATION    UNITEX    avioprevoznika avio prevoznik NC_2XN2 N Comp w
308. mat Outils Donn  es Fen  tre Aide     A SEB asa Ivy  2B5B   6 0 1ANUIQYIMOBEQIO    SI      BIRX Sales  0      A      olx   x               lt OPT gt E        Aux   avoir                abandonner   Paul a  abandonne           abuser ee He ee   Max  abuse           acquiescer  L ek fe feb EE fF HE Max aSacquiesc     E de         adouber pk kk kb HE HE PaulSadoube     checs           agioter Rol klk klk ke kE ep 2 Max  agiote  sur les chan          agoniser   lo Ll LL   ep pp Max  agonise            archaiser   lo Ll ep o    Cet auteur  archaise  volc         arquer   be ob feb feb e eR Max agarqu  stoute la jou         arriver  tL Se a PH Max est  arriv      atermoyer  L h h       Max  atermoie              badauder badaud Max  badaude      Feuille 1   1 PageStyle_c31H 100  sto pe Somme 0          FIGURE 9 4     Table de lexique grammaire 31H    9 2  CONVERSION D UNE TABLE EN GRAPHES 209  9 2 4 G  n  ration automatique de graphes  Pour pouvoir g  n  rer des graphes    partir d   un graphe param  tr   et d   une table  il faut    tout d   abord ouvrir la table en cliquant sur  Open     dans le menu  Lexicon Grammar   voir  figure 9 5   La table doit avoir   t   pr  alablement convertie en texte Unicode         Unitex 2 1   current  XAlign File Edition Windows Info    IS           Text DELA FSGraph       Open     Compile to GRF       Close    FIGURE 9 5     Menu  Lexicon Grammar     La table s  lectionn  e est alors affich  e dans une fen  tre  voir figure 9 6   Si elle n appara
309. mber 2008  10  10 2     78  S  bastien PAUMIER and Jee Sun NAM  Un systeme de dictionnaire de mots  simples du cor  en  In Kakoyianni Doa  57   pages 481 490  6 9 3     79  Adam PRZEPI  RKOWSKI and Marcin WOLINSKI  The Unbearable Lightness of  Tagging   A Case Study in Morphosyntactic Tagging of Polish  In Proceedings  of the 4th International Workshop on Linguistically Interpreted Corpora  EACL 2003   2003  11 1 1  11 2 2     80  Roger Bruno RABENNILAINA  Le verbe malgache  AUPELF UREF et Universit    Paris 13  Paris  1991  9 1     81  Elisabete RANCHHOD  Frozen adverbs  comparative forms como c in por   tuguese  Lingvistic   Investigationes  15 1   141 170  1991  Amsterdam   Philadelphia   John Benjamins Publishing Company  3 8  9 1     82  Elisabete RANCHHOD  Ressources linguistiques du portugais impl  ment  es  sous intex  In C  Fairon  editor  Analyse Lexicale et Syntaxique   Le syst  me IN   TEX  Lingvisticae Investigationes  pages 263 277  Amsterdam Philadelphia    John Benjamins Publishing Company  1998  3 8    BIBLIOGRAPHIE 381     83  Elisabete RANCHHOD  Probl  mes de traduction automatique des constructions     verbes supports  Lingvistice Investigationes  23 2   253 267  2001  Amsterdam   Philadelphia   John Benjamins Publishing Company  9 1     84  Elisabete RANCHHOD and Michele DE GIOIA  Comparative romance syn   tax  frozen adverbs in italian and in portuguese  Lingvistice Investigationes   20 1   33 85  1996  Amsterdam Philadelphia   John Benjamins Publishing 
310. me Txt 2F st 2 afin d ajouter des interpr  tations a l automate du texte   La grammaire de la figure 3 22 reconnait des mots form  s par le pr  fixe un suivi d   un ad   jectif  Si on l applique comme graphe dictionnaire  on obtient de nouveaux chemins dans  l    automate du texte comme le montre la figure 3 23  Remarquons que lorsque deux tags cor   respondent a des analyses dans la m  me unit   lexicale  le lien entre eux est affich   par une  ligne discontinue     EV FST Text is oa Bw    It is unlucky to travel where your path is crossed by a monk  a          2335 sentences    hare  or a howling dog  until you have eaten your next meal    Sentence   1 692      away   said Cedric  impatiently           Reset Sentence Graph    Rebuild FST Text    Elag Frame    Automaton   Table                   Explode    Implode    Apply Elag Rule                               FIGURE 3 23     Chemin ajout   par un graphe dictionnaire morphologique    3 8  BIBLIOGRAPHIE 73  3 8 Bibliographie  Le tableau 3 4 donne quelques r  f  rences relatives aux dictionnaires   lectroniques de    mots simples et compos  s  Pour plus de d  tails  consultez la page de r  f  rences sur le site  web d   Unitex   http    www igm univ mlv fr  unitex                               Langue Mots simples Mots compos  s  English  58    72   15    87   French  19    20    63   20    38    89    46   Modern Greek  2    17    60   61    62   Italian  28    29   93   Spanish  8   7   Portuguese  25    85    82    73   81
311. me fl  chie ou la forme canonique contient le caract  re    Si c est le cas   le programme remplace l entr  e par deux entr  es   une o   le caract  re   est remplac   par un  espace  et une o   il est remplac   par un tiret  Ainsi  l entr  e suivante      grand m  res  grand m  re N fp  est remplac  e par les deux lignes suivantes      grand m  res  grand m  re N fp  grand m  res  grand m  re N fp    NOTE   si vous souhaitez   crire une entr  e contenant le caract  re    d  sp  cialisez le avec le  caract  re   comme dans l exemple suivant      E  mc2    FORMULI          E     Cette op  ration de remplacement a lieu lors de la compression du dictionnaire  Une fois  le dictionnaire comprim    les signes   d  sp  cialis  s sont remplac  s par de simples    Ainsi   si l   on comprime un dictionnaire contenant les lignes suivantes         E     E mc2   FORMUL  grand m  re   N fs    et que l on applique ce dictionnaire au texte         Ma grand m  re m a expliqu   la formule E mc2     on obtiendra les lignes suivantes dans le dictionnaire de mots compos  s du texte         E     E mc2   FORMUL  grand m  re   N fs    48 CHAPITRE 3  DICTIONNAIRES    Factorisation d entr  es    Plusieurs entr  es ayant les m  mes formes fl  chie et canonique peuvent   tre regroup  es  en une seule    condition qu elle aient les m  mes codes grammaticaux et s  mantiques  Cela  permet entre autres de regrouper des conjugaisons identiques pour un m  me verbe      glace glacer V z1 P1s P3s S1s S3s Y2s  
312. me to time  Such  new versions will be similar in spirit to the present version  but may differ in  detail to address new problems or concerns     Each version is given a distinguishing version number  If the Linguistic Re   source specifies a version number of this License which applies to it and  any  later version   you have the option of following the terms and conditions either    374 CHAPITRE 14 FORMATS DE FICHIERS    of that version or of any later version published by the Free Software Founda   tion  If the Linguistic Resource does not specify a license version number  you  may choose any version ever published by the Free Software Foundation     11  If you wish to incorporate parts of the Linguistic Resource into other free pro   grams whose distribution conditions are incompatible with these  write to the  author to ask for permission     NO WARRANTY    12  BECAUSE THE LINGUISTIC RESOURCE IS LICENSED FREE OF CHARGE   THERE IS NO WARRANTY FOR THE LINGUISTIC RESOURCE  TO THE  EXTENT PERMITTED BY APPLICABLE LAW  EXCEPT WHEN OTH   ERWISE STATED IN WRITING THE COPYRIGHT HOLDERS AND OR  OTHER PARTIES PROVIDE THE LINGUISTIC RESOURCE  ASIS  WITH   OUT WARRANTY OF ANY KIND  EITHER EXPRESSED OR IMPLIED   INCLUDING  BUT NOT LIMITED TO  THE IMPLIED WARRANTIES  OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PUR   POSE  THE ENTIRE RISK AS TO THE QUALITY AND PERFORMANCE  OF THE LINGUISTIC RESOURCE IS WITH YOU  SHOULD THE LIN   GUISTIC RESOURCE PROVE DEFECTIVE  YOU ASSUME THE COST
313. me you redistribute the Linguistic Resource  or any work based on the  Linguistic Resource   the recipient automatically receives a license from the  original licensor to copy  distribute  link with or modify the Linguistic Re   source subject to these terms and conditions  You may not impose any further    14 13  PLUSIEURS AUTRES FICHIERS 373    10     restrictions on the recipients    exercise of the rights granted herein  You are not  responsible for enforcing compliance by third parties with this License       If  as a consequence of a court judgment or allegation of patent infringement or    for any other reason  not limited to patent issues   conditions are imposed on  you  whether by court order  agreement or otherwise  that contradict the con   ditions of this License  they do not excuse you from the conditions of this Li   cense  If you cannot distribute so as to satisfy simultaneously your obligations  under this License and any other pertinent obligations  then as a consequence  you may not distribute the Linguistic Resource at all  For example  if a patent  license would not permit royalty free redistribution of the Linguistic Resource  by all those who receive copies directly or indirectly through you  then the only  way you could satisfy both it and this License would be to refrain entirely from  distribution of the Linguistic Resource     If any portion of this section is held invalid or unenforceable under any par   ticular circumstance  the balance of the sec
314. ment donn    T1       EILite ou des fichiers au format txt ou SNT quand ils sont    pr  trait  s pour cette t  che avec des marqueurs   STOP    ce programme construit un unique    automate qui reconna  t toutes les s  quences contenues dans le document     On doit porter une attention particuli  re    la construction de la liste de s  quences qui doivent      tre reconnues par le graphe        Ce chapitre pr  sente les formats de fichiers support  s par le programme Seq2Gri  struction de l   automate de s  quences et l   utilisation de jokers     8 1 Corpus de s  quences    f  la con     Nous appelons corpus de s  quences ou corpus qualifi   une liste de s  quences d   un ou plusieurs    mots que l   on veut reconna  tre par une grammaire locale repr  sent  e par un seul g    raphe     Le corpus de s  quences est stock   dans un seul fichier qui peut avoir l   un des formats    suivants      e fichiers texte brut  dans lequel les s  quences sont d  limit  es par des fins de li    gnes    e fichiers SNT d  ja pr  trait  s par ce menu   les s  quences sont d  limit  es par  STOP        e fichiers TEILite dont les s  quences sont d  limit  es par un tag xm1 de la forme       lt seg type  sequence  gt example lt  seg gt            199    200 CHAPITRE 8  AUTOMATE DE S  QUENCES    Puisque le corpus contient des s  quences sp  cifiques  il doit   tre fait    la main  Cela signifie  que vous devez soit   crire toutes les s  quences dans un fichier texte brut et les s  parer par  une 
315. mi  res occurrences     Le cadre  Grammar outputs  concerne le mode d utilisation des sorties  Le mode  Merge  with input text  permet d ins  rer les s  quences produites par les sorties  Le mode  Replace  recognized sequences  permet de remplacer les s  quences reconnues par les s  quences pro   duites  Le troisi  me mode ignore les sorties  Ce dernier mode est utilis   par d  faut     Dans le cadre  Search algorithm   vous pouvez sp  cifier si vous voulez effectuer la recherche  sur le texte en utilisant le programme Locate ou sur l automate du texte avec LocateTfst   Par d  faut  la recherche est faite avec le programme Locate  comme Unitex l   a toujours fait  jusqu      maintenant  Si vous d  sirez utiliser LocateTfst  lisez la section 7 7     Une fois vos param  tres fix  s  cliquez sur  SEARCH  pour lancer la recherche     6 10 2 Options de recherche avanc  es    Si vous s  lectionnez l onglet  Advanced options   vous voyez le cadre de la figure 6 54     L option  Ambiguous output policy  est illustr  e par le graphe de la figure 6 55  Lorsqu   un  d  terminant est suivi par un mot pouvant   tre un nom ou un adjectif  il peut produire deux  sorties distinctes pour la m  me s  quence d entr  e  le transducteur est dit ambigu      Si nous appliquons ce graphe sur le texte Ivanhoe avec l option  Allow ambiguous outputs      celle par d  faut   nous obtenons la concordance de la figure 6 56  Comme vous pouvez le  constater  deux sorties sont produites pour la s  quence the
316. min complet d   acc  s au fichier en bas du graphe  selon que x vaut y  ou n   Cette option n est prise en compte que si le param  tre  DFILE a la valeur y        e DRIG x  dessine le graphe de droite    gauche ou de gauche    droite selon que  x vaut y  ou n        e DRST x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de  compatibilit   avec les graphes Intex        e FITS x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de  compatibilit   avec les graphes Intex        e PORIENT x  cette ligne est ignor  e par Unitex  Elle est conserv  e par souci de  compatibilit   avec les graphes Intex     e   cette ligne est ignor  e par Unitex  Elle sert    indiquer la fin des informations  d en t  te     Les lignes suivantes donnent le contenu et la position des bo  tes du graphe  Les  lignes suivantes correspondent    un graphe reconnaissant un chiffre      34     lt e   gt   84 248 1 2 Y     272 2480    s 1 2 3 4 5 6 7 8 9 0  172 248 1 1 4             La premi  re ligne indique le nombre de bo  tes du graphe  imm  diatement suivi  d un retour    la ligne  Ce nombre ne doit jamais   tre inf  rieur    2  car un graphe est  toujours sens   poss  der un   tat initial et un   tat final     Les lignes suivantes d  finissent les bo  tes du graphe  Les bo  tes sont num  rot  es  a partir de 0  Par convention  l     tat 0 est l     tat initial et l     tat 1 est l     tat final  Le  contenu de l     tat final doit toujours   tre vide     Chaque bo  
317. modifica   tions manuelles  Pour cela  cliquez sur le bouton  Rebuild FST Text   Toutes les phrases pour  lesquelles des modifications ont   t   faites sont alors remplac  es dans l automate du texte par  leur version modifi  e  Le nouvel automate du texte est ensuite recharg   automatiquement     Lev  e manuelle des ambiguit  s    L   automate du texte peut contenir de nombreux chemins   tiquet  s en raison de l am   biguit   lexicale  Vous pouvez lever les ambiguit  s avec des grammaires ELAG ou s  lec   tionner manuellement les chemins corrects pour l   un ou tous les graphes de l automate de  phrase  Vous devez pour cela effectuer un clic droit sur la bo  te que vous voulez garder  lorsque plusieurs bo  tes avec diff  rentes   tiquettes sont propos  es  Les bords de la bo  te  s  lectionn  e deviendront plus gras tandis que les autres bo  tes appara  tront gris  es  voir  figure 7 29      Vous pouvez alors cliquer sur le bouton  Remove greyed states  pour ne garder que les  bo  tes s  lectionn  es  figure 7 30      7 5  MANIPULATION DE L AUTOMATE DU TEXTE 191    EV Fst lext i             2607 sentences Here haunted of yore the fabulous Dragon of Wantley         Sentence         Reset Sentence Graph    Rebuild FST Text  Elag Frame                          Remove greyed states  gt   Automaton   Table  Explode    V Kills Ls Bs Ilp 2p L3p        Implode       Apply Elag Rule    4                             FIGURE 7 30     Suppression de bo  tes ambigu  s dans l automate de p
318. mpl  te  figure 5 17         2  Si vous travaillez sous KDE  d  sactivez  lt Alt Click gt  dans kcontrol     5 2    DITION DE GRAPHES    E  Sentence grf  home paumier unitex French Graphs Preprocessing Sentence           DEE             h       ex    w                           Cas g  n  ral  Ponctuation                            Called graphs                       LA               gt  AbrPoint     gt  AbrPointMilFin    gt  Abr_nbAmb     gt  LettreMaj     gt  LettreMin     gt  Millions     gt  MotsComposesAvecMaj    gt  MotsSuivisDeLettreMaj    gt  NN     gt  NenN     gt  Nombres     gt  PhTh     gt  Prenoms     gt  Symboles1Maj    gt  abr_nb   cas2   cas3   cas4     gt  crochets  crochets     gt  motifAnthro     gt  motifSymboles    gt  nb_abr     gt  parTel     gt  parentheses  parentheses     gt  rois     gt  sigles                      FIGURE 5 15     Affichage de la liste de tous les graphes appel  s       FIGURE 5 17     S  lection de bo  tes   loign  es       Lorsque des bo  tes sont s  lectionn  es  vous pouvez les d  placer en cliquant et en d  pla  ant  le curseur sans rel  cher le bouton  Pour annuler la s  lection  cliquez sur une zone vide du  graphe   si vous cliquez sur une bo  te  toutes les bo  tes de la s  lection seront reli  es    celle ci     Vous pouvez effectuer un copier coller sur plusieurs bo  tes  comme dans la figure 5 18  Pour  cela  s  lectionnez les et appuyez sur  lt Ctrl C gt  ou cliquez sur  Copy  dans le menu  Edit    Votre s  lection multi
319. ms for distribution of such executables    When a  work that uses the Library  uses material from a header file that is part  of the Library  the object code for the work may be a derivative work of the Library  even though the source code is not  Whether this is true is especially significant if  the work can be linked without the Library  or if the work is itself a library  The  threshold for this to be true is not precisely defined by law    If such an object file uses only numerical parameters  data structure layouts and  accessors  and small macros and small inline functions  ten lines or less in length    then the use of the object file is unrestricted  regardless of whether it is legally a  derivative work   Executables containing this object code plus portions of the Li   brary will still fall under Section 6     Otherwise  if the work is a derivative of the Library  you may distribute the ob   ject code for the work under the terms of Section 6  Any executables containing that  work also fall under Section 6  whether or not they are linked directly with the Li   brary itself    6  As an exception to the Sections above  you may also combine or link a  work  that uses the Library  with the Library to produce a work containing portions of  the Library  and distribute that work under terms of your choice  provided that the  terms permit modification of the work for the customer   s own use and reverse en     352 CHAPITRE 14 FORMATS DE FICHIERS    gineering for debugging 
320. ms of Section 1 above  provided that you also meet all of these  conditions     a  The modified work must itself be a software library    b  You must cause the files modified to carry prominent notices stating that you  changed the files and the date of any change    c  You must cause the whole of the work to be licensed at no charge to all third  parties under the terms of this License    d  If a facility in the modified Library refers to a function or a table of data to be  supplied by an application program that uses the facility  other than as an argument  passed when the facility is invoked  then you must make a good faith effort to ensure  that  in the event an application does not supply such function or table  the facility  still operates  and performs whatever part of its purpose remains meaningful     For example  a function in a library to compute square roots has a purpose that  is entirely well defined independent of the application  Therefore  Subsection 2d  requires that any application supplied function or table used by this function must  be optional   if the application does not supply it  the square root function must still  compute square roots     These requirements apply to the modified work as a whole  If identifiable sec   tions of that work are not derived from the Library  and can be reasonably con   sidered independent and separate works in themselves  then this License  and its  terms  do not apply to those sections when you distribute them as sepa
321. n contexte  comme c est    6 3  CONTEXTES 131            ane rr            lt N gt  lt  lt    n JH   gt  gt   lt N gt  lt  lt           gt  gt        FIGURE 6 17     Utilisation avanc  e des contextes    35  o   428            FIGURE 6 18     Imbrication de contextes    le cas sur la figure 6 19   Sil   on applique ce graphe en mode MERGE au texte the cat is white   on obtient en sortie      the  lt pet name  cat  color  white   gt  is white    Ss     lt pet name      Y 10      color    C    gt        FIGURE 6 19     Variable d  finie dans un contexte    6 3 2 Contextes gauches    Il est   galement possible de rechercher une expression X si elle se trouve seulement  apr  s une expression Y    videmment  il   tait d  j   possible de le faire avec une grammaire  semblable    celle de la figure 6 20  Cependant  avec ce type de grammaire  le contexte gauche  est inclus dans la s  quence reconnue  comme le montre la figure 6 21     Pour   viter cela  on peut utiliser le symbole  x qui indique la fin du contexte gauche de  l expression qu   on d  sire reconna  tre  Ce symbole est repr  sent   par une   toile verte dans  le graphe  comme le montre la figure 6 22  L effet d un tel contexte est d utiliser une partie  de la grammaire pour calculer la s  quence reconnue  sans que cette partie ne figure dans le  r  sultat  voir figure 6 23      132    CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES       FIGURE 6 20     Reconnaissance d un nom pr  c  d   d un d  terminant num  ral    Concor
322. n may publish revised and or new versions of  the Lesser General Public License from time to time  Such new versions will be sim   ilar in spirit to the present version  but may differ in detail to address new problems  or concerns    Each version is given a distinguishing version number  If the Library specifies a  version number of this License which applies to it and  any later version   you have  the option of following the terms and conditions either of that version or of any later  version published by the Free Software Foundation  If the Library does not specify  a license version number  you may choose any version ever published by the Free  Software Foundation    14  If you wish to incorporate parts of the Library into other free programs whose  distribution conditions are incompatible with these  write to the author to ask for  permission  For software which is copyrighted by the Free Software Foundation   write to the Free Software Foundation   we sometimes make exceptions for this  Our  decision will be guided by the two goals of preserving the free status of all deriva   tives of our free software and of promoting the sharing and reuse of software gen   erally     NO WARRANTY    15  BECAUSE THE LIBRARY IS LICENSED FREE OF CHARGE  THERE IS NO  WARRANTY FOR THE LIBRARY  TO THE EXTENT PERMITTED BY APPLICA   BLE LAW  EXCEPT WHEN OTHERWISE STATED IN WRITING THE COPYRIGHT  HOLDERS AND OR OTHER PARTIES PROVIDE THE LIBRARY  AS IS  WITH   OUT WARRANTY OF ANY KIND  EITHER 
323. n param  tre de notre syst  me   chaque fois que MULTIFLEX est utilis   avec un module  externe pour les mots simples  celui ci doit d  cider comment une s  quence de caract  res est  divis  e en constituants     Dans notre formalisme  les constituants sont repr  sent  s par des variables num  riques  1    2   3  etc  Par exemple avec Unitex  la s  quence    e Athens    04    comprend cinq constituants envoy  s    MULTIFLEX de cette fa  on     1   Afhens   2    lt space gt    3      4 0   5  4       Chaque constituant d un mots compos   suceptible d   tre fl  chi doit   tre morphologique   ment identifi    Cette identification doit permettre de fournir les informations n  cessaires  afin que n importe quelle forme fl  chie de ce mot puisse   tre g  n  r  e    la demande  Par  exemple dans      e m  moire vive    nous devons savoir que vive est le f  minin singulier de vif  et ainsi   tre capable de g  n  rer le  f  minin pluriel  vives  Dans MULTIFLEX nous supposons que ce module externe de traite   ment des mots simples est responsable de leur identification et de la g  n  ration de leurs  formes fl  chies     Dans Unitex  la g  n  ration des formes fl  chies est fortement inspir  e du systeme DELA    20    Pour g  n  rer une ou plusieurs formes fl  chies d un mot  nous devons conna  tre      11 2  FORMALISME DE FLEXION DES MOTS COMPOS  S 227  e sa forme canonique  e son paradigme flexionnel  appel   code flexionnel     e les caract  ristiques flexionnelles des formes    pro
324. nce A  on ne tient  pas compte du contexte dans lequel A appara  t  Par exemple  il est impossible de rechercher    6 3  CONTEXTES 129    avec un graphe normal toutes les occurrences du mot president  sauf celles qui sont suiv   ies par of the republic     Il est toutefois possible de tenir compte du contexte dans les graphes syntaxiques  Dans  ce cas  les graphes ne sont plus des grammaires alg  briques  mais des grammaires contex   tuelles qui n ont pas les m  mes propri  t  s th  oriques       6 3 1 Contextes droits    On d  finit un contexte droit en d  limitant une zone du graphe avec des bo  tes contenant     and     repr  sentant respectivement les d  but et fin de contexte qui sont repr  sent  s  dans le graphe par des crochets verts  Le d  but et la fin d un contexte doivent appara  tre  dans le m  me graphe     2       1 0    FIGURE 6 13     Utilisation d un contexte droit    La figure 6 13 montre un exemple simple de contexte  Ce graphe reconna  t tous les nombres  qui sont suivis par l euro  la livre ou le dollar  mais sans que le symbole d unit   n   apparaisse  dans les occurrences trouv  es  c   est    dire dans la concordance     Les contextes s interpretent de la fa  on suivante  Supposons que l   on rencontre un d  but de  contexte lors de l application d une grammaire    un texte  et notons pos la position courante  dans le texte    cet instant  Le programme Locate va ensuite chercher    reconna  tre l expres   sion d  crite dans le contexte  S il   choue  
325. nces qui seront affich  es dans la con   cordance  Si une occurrence a une longueur inf  rieure    la taille du contexte droit  la ligne  de concordance sera compl  t  e avec le nombre de caract  res n  cessaire  Si une occurrence a  une longueur sup  rieure    la taille du contexte droit  elle est affich  e en entier     4 8  RECHERCHE 87    Located sequences        Statistics  Modify text    Resulting  snt file     Extract units    Extract matching units Extract unmatching units    Concordance presentation     _  Use a web browser to view the concordance   better for more than 2000 matches        Show differences with previous concordance             Show matching sequences in context    Context length   Stopat  Sort according to     Len   adjcnars IS   comenten  x  Right _55 chars     S     Build concordance       FIGURE 4 6     Configuration de l affichage des occurrences trouv  es    NOTE   en thai  la taille des contextes est mesur  e en caract  res affichables et non en car   act  res r  els  Cela permet de conserver l alignement des lignes de concordance malgr   la  pr  sence de caract  res diacritiques qui se combinent    d   autres lettres au lieu de s afficher  comme des caract  res normaux     Vous pouvez s  lectionner le mode de tri    appliquer dans la liste  Sort According to   Le  mode  Text Order  affiche les occurrences dans l   ordre o   elles apparaissent dans le texte   Les six autres modes permettent de trier en colonnes  Les trois zones d   une ligne so
326. ne langue agglutinante qui poss  de une morphologie tr  s particuli  re   les  mots sont form  s de caract  res repr  sentant des syllabes appel  s Hangul  mais un caract  re  Hangul correspond    plusieurs caract  res de l alphabet JAMO  Par exemple  vous pouvez  voir figure 7 37 deux exemples de caract  res Hangul suivis de leus   quivalents en alphabet  Jamo     AH    o       O AIO    r or    FIGURE 7 37     Caract  res et leurs   quivalents en alphabet Jamo    En outre  les morph  mes ne correspondent pas n  c  ssairement    des caract  res Hangul  Par  exemple  la figure 7 38 montre qu   un token donn    en vert  doit   tre analys   comme une  combinaison de deux   l  ments   un verbe et un modifieur    Le probl  me est que le modifieur n   est form   que d   un caract  re Jamo qui se combine  avec le dernier caract  re Hangul du verbe pour donner le dernier caract  re Hangul du mot  entier  en vert   Les tokens en vert correspondent    des tokens non   tiquet  s  Les tokens non    tiquet  s ne sont pas surlign  s en vert pour les autres langues     Par cons  quent  il est pr  f  rable pour les utilisateurs cor  ens d   crire des grammaires avec  un m  lange de Hangul et de caract  res Jamo  Ainsi  une grammaire comme celle de la figure  7 39 reconna  tra des s  quences comme celles de la figure 7 40     7 9  LE CAS PARTICULIER DU COR  EN 197       FIGURE 7 38     D  composition d un caract  re Hangul    FIGURE 7 39     Une grammaire avec deux lettres Jamo       E   A St
327. nement d ex  cution Java    Unitex est compos   d   une interface graphique   crite en Java et de programmes externes    crits en C C    Ce m  lange de langages de programmation permet d   avoir une application  rapide et portable sous diff  rents syst  mes d exploitation     Afin de pouvoir utiliser l interface graphique  il faut pr  alablement installer un environ   nement d ex  cution  commun  ment appel   machine virtuelle ou JRE  Java Runtime Envi   ronment      Pour fonctionner en mode graphique  Unitex n  cessite une version 1 6  ou plus r  cente  de  Java  Si vous avez une version trop ancienne de Java  Unitex se bloquera apr  s que vous  ayez choisi votre langue de travail     Vous pouvez t  l  charger librement la machine virtuelle correspondant    votre syst  me d   ex   ploitation sur le site de Sun Microsystems   70      l adresse suivante  http    java sun   com     Si vous travaillez sous Linux ou MacOS  ou si vous utilisez une version de Windows g  rant  des comptes personnels pour les utilisateurs  il vous faudra demander    votre administra   teur syst  me d installer Java     1 3 Installation sous Windows    Si vous d  sirez installer Unitex sur une machine Windows multi utilisateurs  il est pr     f  rable de demander    votre administrateur de le faire  Si vous   tes l utilisateur unique de  votre machine  vous pouvez effectuer l installation vous m  me     D  compressez le fichier Unitex3 1beta zip ouUnitex3 0 zip      vous pouvez t  l  charger  ces fich
328. ng divided into two bands of equal numbers  might fig          FIGURE 6 23     R  sultats de l application de la grammaire de la figure 6 22    134 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Toutes les sorties produites par un contexte gauche sont ignor  es  comme on peut le voir  dans la concordance de la figure 6 25  qui donne les r  sultats obtenus avec la grammaire de  la figure 6 24     one  two  three  four    ES a    0    seven  N     eight   nine   ten       FIGURE 6 24     Sorties ignor  es dans un contexte gauche    Concordance  D  My Unitex English Corpusivanhoe_snticoncord html      e courses  and cast to the ground three  N antagonists   5  I add  that seven of  utes to keep at sword s point his three  N antagonists   turning and wheeling with      entinels to give the alarm when any one  N approaches    5  But I trust soon to ga   omanlike and bravely  5  Of twenty four  N arrows   shot in succession  ten were fi    started up and bent their bows  5  Six  N arrows  placed on the string were pointe  he back of which was decorated with two  N ass s ears   and which was placed about  These two squires were followed by two  N attendants   whose dark visages  white t  ber with a grave pace  followed by four  N attendants   bearing in a table covered  ake part  3  and being divided into two  N bands  of equal numbers  might fight it               FIGURE 6 25     R  sultats de l application de la grammaire de la figure 6 24    Toutefois  on peut m  moriser des inf
329. ng mod   ifications to it  For a library  complete source code means all the source code for all  modules it contains  plus any associated interface definition files  plus the scripts  used to control compilation and installation of the library    Activities other than copying  distribution and modification are not covered by  this License   they are outside its scope  The act of running a program using the Li   brary is not restricted  and output from such a program is covered only if its contents  constitute a work based on the Library  independent of the use of the Library in a  tool for writing it   Whether that is true depends on what the Library does and what  the program that uses the Library does     350 CHAPITRE 14 FORMATS DE FICHIERS    1  You may copy and distribute verbatim copies of the Library   s complete source  code as you receive it  in any medium  provided that you conspicuously and ap   propriately publish on each copy an appropriate copyright notice and disclaimer of  warranty   keep intact all the notices that refer to this License and to the absence of  any warranty   and distribute a copy of this License along with the Library    You may charge a fee for the physical act of transferring a copy  and you may at  your option offer warranty protection in exchange for a fee    2  You may modify your copy or copies of the Library or any portion of it  thus  forming a work based on the Library  and copy and distribute such modifications or  work under the ter
330. ngs of Nobel Symposium 51  pages 297 315  Stockholm  Almqvist Wiksell   1982  9 1     43  Maurice GROSS  On structuring the lexicon  Quaderni di Semantica  4 1   107     120  1983  9 1     44  Maurice GROSS  Lexicon grammar and the syntactic analysis of french  In Pro   ceedings of the 10 th International Conference on Computational Linguistics  COL   ING   84   Stanford  California  1984  9 1     45  Maurice GROSS  A linguistic environment for comparative romance syntax   In Ph  Baldi  editor  Papers from the XIIth Linguistic Symposium on Romance Lan   guages  volume IV 26  of Amsterdam studies in the theory and history of linguistic  science  pages 373 446  Amsterdam   Philadelphia   Benjamins  1984  9 1     46  Maurice GROSS  Grammaire transformationnelle du francais  3   Syntaxe de l ad   verbe  ASSTRIL  Paris  1986  3 8  9 1     47  Maurice GROSS  Lexicon grammar  the representation of compound words  In  COLING 1986 Proceedings  pages 1 6  Bonn  1986  9 1     48  Maurice GROSS  Methods and tactics in the construction of a lexicon grammar   In Linguistics in the Morning Calm 2  Selected papers from SICOL  pages 177 197   Seoul   Hanshin  1986  9 1     49  Maurice GROSS  Linguistic representations and text analysis  In Linguistic Unity  and Linguistic Diversity in Europe  pages 31 61  London   Academia Europaea   1991  9 1     50  Maurice GROSS  Constructing lexicon grammars  In Atkins and Zampolli  edi   tors  Computational Approaches to the Lexicon  pages 213 263  Oxfor
331. nit  s reconnues dans le texte sont  enregistr  es dans un fichier appel   concord n  Ces deux fichiers sont stock  s dans  le r  pertoire du texte     13 28 LocateTfst    LocateTfst  OPTIONS   lt fst2 gt        Ce programme applique une grammaire    l   automate du texte  et sauve l indes des  s  quences reconnues dans un fichier concord  ind  comme le fait Locate     OPTIONS      e  t TFST   text TFST   chemin complet du fichier texte  sans omettre l ex   tension      e  a ALPH   alphabet ALPH   chemin d acces complet au fichier alphabet    e  K   korean   indique    LocateTfst qu il travaille sur du cor  en     e  g X   negation_operator X   sp  cifie l op  rateur de n  gation    utiliser  dans les masques lexicaux  Les deux valeurs possibles de X sont moins et  tilde  par d  faut   Utiliser moins offre une compatibilit   descendante avec  les versions pr  c  dentes de Unitex     Options de limite de recherche      e  1   all   recherche toutes les s  quences reconnues  par d  faut          e  n N   number_of_matches N  stoppe apr  s les premiers N matches     Options du mode de reconnaissance    e  S   shortest matches     e  L   longest_matches  par d  faut         e  A   a11 matches     Options de sortie      13 28  LOCATETFST 293    e  1   ignore   ignore les sorties du transducteur  par d  faut         e  M   merge   ajoute les sorties du transducteur avec les s  quences reconnues         e  R   replace   remplace les s  quences reconnues par les sorties correspon   d
332. nnue avec contexte gauche et droit   nombre d   occur   rences         1   cooccurrences   nombre d   occurrences          2   cooccurrences   nombre d occurrences   z score   e  a ALPH   alphabet ALPH  fichier alphabet    utiliser    e  o OUT   output OUT   fichier de sortie   e  1 N   left N   longueur du contexte gauche en tokens   e  r N   right N   longueur du contexte droit en tokens      e  c N   case N   traitement de la casse   0   non respect de la casse  1    respect de la casse  par d  faut         13 38 Table2Grf       Table2Grf  OPTIONS   lt table gt     Ce programme g  n  re automatiquemient des graphes    partir de la table de lexique   grammaire  lt table gt  et d un graphe patron    OPTIONS      e  r GRF   reference_graph GRF   nom du graphe patron        e  o OUT     output 0UT   nom du graphe r  sultant principal     e  s XXX   subgraph_pattern XXX   si ce param  tre optionnel est sp  ci   fi    tous les sous graphes produits seront nomm  s en fonction de ce motif   Afin d   avoir des noms non ambigus  nous vous recommandons d inclure     dans le param  tre  rappelons que    sera remplac   par le num  ro de ligne  de l entr  e dans la table   Par exemple  si vous d  finissez le param  tre par  le motif    subgraph      grf     les noms de sous graphe seront de la forme     subgraph 0013 grf     Par d  faut  les noms de sous graphe ressemblent        result_0013 grf    ou   result grf    est le graphe r  sultant principal        13 39 Tagger       Tagger  O
333. non encore document        Introduction de RunScript  qui ex  cute dans l   environnement cible des scripts in   stall  s par InstallLingResourcePackage  non encore document     Avec ces deux  outils  on peut mettre au point des op  rations Unitex dans un environnement et les d     ployer dans un autre        Introduction de l option  match word boundaries  dans l algorithme de recherche par  intersection d automates  7 7    avec cette option  active par d  faut pour la plupart des  langues  enlever and en lever ne matchent pas  non encore document        Suivi am  lior   des offsets  c   est    dire de la diff  rence entre les adresses d   une m  me  position dans un corpus suivant diff  rentes versions du corpus  13 14      Compilation quotidienne d   ex  cutables pour Windows  32 bit  64 bit   GNU Linux   Intel  Intel 64 bit  et OS X  10 7       TABLE DES MATI  RES 15    e Installateurs automatiques pour toutes ces plates formes     IMPORTANT   certains formats de fichiers ayant   t   chang  s et de nouveaux ayant   t    ajout  s  nous vous recommandons d effectuer un nouveau pr  traitement de vos textes en  particulier si vous utilisez l automate du texte     16 TABLE DES MATI  RES  Contenu    Le chapitre 1 d  crit comment installer et lancer Unitex   Le chapitre 2 pr  sente les diff  rentes   tapes de l analyse d un texte     Le chapitre 3 d  crit le formalisme des dictionnaires   lectroniques DELA et les diff  rentes  op  rations qui peuvent leur   tre appliqu  s     Le
334. ns des autres  Autrement dit  une entr  e ne peut  pas prendre plus d   une valeur pour un m  me attribut  En revanche  il peut exister des    7 3  LEV  E D   AMBIGUITES LEXICALES AVEC ELAG 181      tiquettes ne prenant aucune valeur pour un attribut donn    Par exemple  pour d  finir  l   attribut niveau_de_langue pouvant prendre les valeurs z1  z2 et z3  on   crira la  ligne suivante      niveau_de_ langue   zl 22 23    mais cet attribut n   est pas forc  ment pr  sent pour tous les mots     e discr   cette partie est constitu  e de la d  claration d un unique attribut  La syntaxe est  la m  me que dans la partie cat et l   attribut d  crit ici ne doit pas y   tre r  p  t    Cette  partie permet de diviser la cat  gorie grammaticale en sous cat  gories discriminantes  dans lesquelles les entr  es ont des attributs flexionnels similaires  Pour les pronoms  par exemple  une indication de personne est attribu  e aux entr  es appartenant    la  sous cat  gorie des pronoms personnels mais non aux pronoms relatifs  Ces d  pen   dances sont d  crites dans la partie complete     e complete   Dans cette partie est explicit   l   tiquetage morphologique des mots ap   partenant    la cat  gorie grammaticale courante  Chaque ligne d  crit une combinaison  valide de codes flexionnels en fonction de leur sous cat  gorie discriminante  si une  telle cat  gorie a   t   d  clar  e   Lorsqu un nom d attribut appara  t entre angles   lt  et  gt     cela signifie que n importe quelle valeur de
335. ns issues des dictionnaires du mode  morphologique  Ces variables sont appel  es variables de dictionnaire ou variables mor   phologiques  L   initialisation d une variable de ce type doit   tre associ  e    une boite con   tenant un motif qui fait r  f  rence    des informations contenues dans un dictionnaire du  mode morphologique     l exception du motif  lt DIC gt   On met  xxx  en sortie de la bo  te  o            1     partir de la version 3 1b  ta  r  vision 4072 du 2 octobre 2015   2  Les dictionnaires du texte sont compil  s pendant l application initiale des dictionnaires  section 3 7   non  pas pendant la recherche de motifs     140    CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    xxx est un nom correct de variable  cf  section 5 2 5   Ceci affecte    une variable d  nomm  e  xxx l entr  e de dictionaire reconnue par le motif  Dans la suite des chemins qui passent par  la boite  on peut obtenir la forme fl  chie  la forme canonique et les codes fournis par l entr  e  avec  xxx INFLECTEDS   xxx LEMMAS et  xxx CODES   comme le montre la figure 6 34                 On peut   galement u    tiliser les motifs suivants      e  xxx CODE GRAMS   fournit seulement le premier code grammatical  cens     tre la  cat  gorie grammaticale    e  xxx CODE SEMS   fournit tous les autres codes  s  par  s par des    s   il en existe       e Sxxx CODE F        LEX    fournit tous les codes flexionnels s  par  s par des    s   il en existe    e  xxx CODE ATTR yyy  renvoie la valeur d 
336. nsducteurs peut   tre utilis  e pour ins  rer des informations dans  les textes  en particulier pour marquer les motifs reconnus   il est possible d utiliser  toute sorte de marques               etc  ou des balises xml comme  lt xxx gt   lt  xxx gt    mais CasSys propose une mani  re particuli  re d annoter les motifs reconnus  offrant  certaines possibilit  s que nous pr  sentons maintenant     Unitex d  coupe les textes en tokens de diff  rentes sortes comme le marqueur de fin  de phrase S  le marqueur STOP  des s  quences de lettres contigu  s  des   tiquettes  lexicales aujourd   hui  ADV  etc  Les   tiquettes lexicales sont utilis  es dans CasSys  de mani  re particuli  re  Une   tiquette lexicale  entre accolades  est habituellement  utilis  e pour   viter les ambigu  t  s  voir les explications    la section 2 5 4 et    la sec   tion 7 5 1   Par exemple  dans un texte  si vous avez le token  curly brackets  N   ni   curly  ni  brackets  ne seront reconnus  mais seulement la s  quence toute enti  re   curly brackets   Une   tiquette lexicale peut contenir une information lexicale com   plexe comme N Pers Hum  fs  Dans un graphe  il est possible de chercher un token  en utilisant l information contenue dans un masque lexical   par exemple  on peut    crire  lt  N gt  pour chercher un nom   lt  Pers Hum gt  pour un   tre humain ou  lt  Pers gt    Ces masques lexicaux sont d  crits dans le chapitre  Recherche d expressions ra   tionnelles  section 4 3 1     Dans CasSys  n
337. nse because it does Less to  protect the user s freedom than the ordinary General Public License  It also pro   vides other free software developers Less of an advantage over competing non free  programs  These disadvantages are the reason we use the ordinary General Pub   lic License for many libraries  However  the Lesser license provides advantages in  certain special circumstances    For example  on rare occasions  there may be a special need to encourage the  widest possible use of a certain library  so that it becomes a de facto standard  To  achieve this  non free programs must be allowed to use the library  A more frequent  case is that a free library does the same job as widely used non free libraries  In this  case  there is little to gain by limiting the free library to free software only  so we use  the Lesser General Public License     14 13  PLUSIEURS AUTRES FICHIERS 349    In other cases  permission to use a particular library in non free programs en   ables a greater number of people to use a large body of free software  For example   permission to use the GNU C Library in non free programs enables many more peo   ple to use the whole GNU operating system  as well as its variant  the GNU Linux  operating system    Although the Lesser General Public License is Less protective of the users    free   dom  it does ensure that the user of a program that is linked with the Library has  the freedom and the wherewithal to run that program using a modified version of  
338. nt le  contexte gauche  l occurrence et le contexte droit  Les occurrences et les contextes droits  sont tri  s de gauche    droite  Les contextes gauches sont tri  s de droite    gauche  Le mode    utilis   par d  faut est  Center  Left Col    La concordance est produite sous la forme d un  fichier HTML     88 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    Lorsque les concordances atteignent plusieurs milliers d occurrences  il est pr  f  rable de les  afficher avec un navigateur web  Firefox  11   Netscape  12   Internet Explorer  etc      Pour cela  cochez la case  Use a web browser to view the concordance   voir figure 4 6    Cette option est activ  e par d  faut lorsque le nombre d occurrences est sup  rieur    3000   Pour d  finir le navigateur qui sera utilis    cliquez sur  Preferences     dans le menu  Info    Cliquez sur l onglet  Text Presentation  et s  lectionnez le programme    utiliser dans le cadre   Html Viewer   voir figure 4 7      Si vous choisissez d ouvrir la concordance    l   int  rieur d   Unitex  vous verrez une fen  tre  comme celle de la figure 4 8  L option  Enable links  activ  e par d  faut permet de consid  rer  les occurrences comme des liens hypertextes  Ainsi  quand on clique sur une occurrence   cela ouvre la fen  tre du texte et y s  lectionne la s  quence reconnue  De plus  si l automate  du texte est construit et que cette fen  tre n est pas r  duite sous forme d ic  ne  l automate  de la phrase contenant l occurrence cliqu  e est c
339. nt pas reconnus par le fichier  tags ind     e tags ind   s  quences    ins  rer dans l automate du texte  see section 3 7 3   page 68      e stat_dic n  fichier contenant les nombres de mots simples  compos  s et  inconnus du texte     NOTE   Les fichiersd1f  dlc  err and tags_err ne sont pas tri  s  Utilisez le pro   gramme Sort Txt pour le faire     13 13 DumpOffsets          Utilisation  DumpOffsets  OPTIONS   lt txt gt    lt txt gt   fichier d   offsets d origine    Ce programme permet d     tudier et d   utiliser les fichiers de correspondance d   Off   sets  manipul   par certains outils Unitex comme Unxmlize  Normalize  Fst2Txt  To   kenize  Concord et GrfTest     OPTIONS     13 13  DUMPOFFSETS 279  e  o X   01d X   nom du fichier d   origine  e  n X     new X   nom du fichier d arriv  e  e  p X     output X   nom du fichier de sortie  e  f      full  ajouter le texte courant  e  q   quiet   ne pas afficher de message  e  c   no_escape_sequence   don t escape text sequence  e  h   help  cet aide    Exemple         UnitexToolLogger Normalize  r   resource Norm txt   work text_file txt        output_offsets   work text_file_offset txt   UnitexToolLogger DumpOffsets  o   work text_file offset txt  n   work    p   work dump dump_offsets txt   work text_file offset txt                Autre Utilisation  DumpOffsets   m   merge   OPTIONS   lt txt gt            lt txt gt   fichier d   offsets d   origine    Fusionner deux fichiers d   offsets produits par deux modifications s
340. o inf contient des codes qui permettent de reconstruire le dictionnaire d o   rigine    partir des formes fl  chies contenues dans mon_dico bin     L automate minimal contenu dansmon_dico bin est une repr  sentation des formes fl  chies  o   tous les pr  fixes et suffixes communs sont factoris  s  Par exemple  l   automate minimal  des mots me  te  se  ma  ta et sa peut   tre repr  sent   par le graphe de la figure 3 17        FIGURE 3 17     Repr  sentation d un exemple d automate minimal    Pour comprimer un dictionnaire  ouvrez le puis cliquez sur  Compress into FST  dans le  menu  DELA   La compression est ind  pendante de la langue et du contenu du dictionnaire   Les messages produits par le programme sont affich  s dans une fen  tre qui ne se ferme  pas automatiquement  Vous pouvez ainsi voir la taille du fichier  bin  obtenu  le nombre    66 CHAPITRE 3  DICTIONNAIRES    de lignes lues ainsi que le nombre de codes flexionnels produits  La figure 3 18 montre le  r  sultat de la compression d   un dictionnaire de mots simples     essages with a colored background are generated by the interface  not by the external programs     Compressing     Minimizing     Minimization done   Binary file  111437 bytes    13976 lines read  2179 INF entries created  11358 states  16340 transitions                Cancel       FIGURE 3 18     R  sultat d une compression    A titre indicatif  les taux de compression g  n  ralement observ  s sont d environ 95  pour  les dictionnaires de mots s
341. o2q 24 u  ayn meu UEULON E  238 4324 peu qayoel STH  S      souearadde 91188308  23101 E  n pmoq  sTepues  s     HAsqney QUATOUE 10    Jats ui  pom e  qeya des ayq 30 31ed STU of sem 11        ABSENT Ul13por e  ptseuos aq 44tu pinos aq  aanasod ames ayy UT aput E  Y 2TAUTEp e Auem TIM    aT 30qqy ue aq 03    M ATUEN F  TY aptsaq sserzh ayy uodn ZeT yotym 33235 13318n5 Huot e  211895 futaq    1N0T00 ayy ang  gjarn DTJSEUON huoT E   pUMO01   ayy 09   T1EaU Pau9ea21 qotqa    41019 13007 Huot e  UTE 243 UT Ppa20TT03 oyn asoa 30 suo    1201014 APT Y  Taneaq aq Jo 21ed 1298216 2342   UTI13409    153107 2b18T E  se pue  S imoTTaA 29  TIG YATM PaUTT    PATIOS TES pooh E  13px0 sty 03 1ado0o1d ssaap aTou      ya pue    adseo usprTob E  s10M 3243 23103234 SaATI1E sy usqa  querTeb qual  41313      Te azaymasTa pue PIOETA ayy 03 200101 Jo 39104 31439  E  BAG 124 TS UTU PEU ay      Z4iadezp Jo 39314 913581083  e  daap e  g fTTTm Jo pue a6eanos Jo UOTI13X3 peulMiejep E  TY 03 SSaUU129    TRuoTaTppe 2AE   m01q sty uo 1695 dasp E    pue  a3oueua3moo STU oq SSaUU131S TEUOT  Pappe ay 124080 2393 OL  Ss   sanojToo quaz  se suoxes oThuy 343 30 30uaqstxa IJ YA  Jo 28042 aXIT  212q 83204 IA 2331    JTE  YITM Pa312409 sem Peau sty  Ss     arom pues  Jo ahaeyo ayq UT ST PUE    SaATT 23n1q ay  ogur uns 243 Jo asouanTJutT ayq Aq paqgozo  UTU ayhneq PEU UOTIENIATE pue uotssajord  aTtym  3auoxos9 e HuttTqmasaz  yxaom Uado   Jo 55019 e  YQOTO 3aqTym UT  1n9 SEM 3213  SB paaToaut UT Jo paezey UTEZI IUA  S
342. of produced subgraphs                    D My UnitexiFrenchiGraphsiTestGraph_   grt Set                Cancel Compile    FIGURE 9 7     Configuration de la g  n  ration automatique de graphes       Le cadre  Name of produced subgraphs  permet de pr  ciser le nom des graphes qui seront  g  n  r  s  Afin d     tre certain que tous les graphes auront des noms distincts  il est conseill    d utiliser la variable     cette variable sera remplac  e pour chaque entr  e par le num  ro  de celle ci  garantissant ainsi que tous les graphes auront un nom diff  rent  Par exemple   si l   on remplit ce cadre avec le nom  TestGraph grf  et si les sous graphes sont nom   m  s  TestGraph_   grf   le sous graphe g  n  r      partir de la 16   ligne sera nomm     TestGraph_0016 grf            Les figures 9 8 et 9 9 montrent deux graphes g  n  r  s en appliquant le graphe param  tr   de  la figure 9 3 a la table 31H     La figure 9 10 montre le graphe principal obtenu      lt archaiser V G gt     NO   tre V ant               le verbe n  0007 ne v  rifie pas la propri  t   de la colonne A     FIGURE 9 8     Graphe g  n  r   pour le verbe archaiser    9 2  CONVERSION D UNE TABLE EN GRAPHES 211          NO V vers N    FIGURE 9 9     Graphe g  n  r   pour le verbe badauder    TestGraph_0119  TestGraph_0120  TestGraph_0121  TestGraph_ 0122  TestGraph_0123  TestGraph_0124  TestGraph_0125  TestGraph_0126  TestGraph_0127  TestGraph_0128  TestGraph_0129  TestGraph_0130  TestGraph_0131    FIGURE 9 10    
343. oici sa repr  sentation en Unicode Big Endian    BOM header U n i t e x q B  FEFF 0055   006E   0069   0074   0065   0078   00 OD 00 OA 03 B2    v e r s i O n 4  00 2D 0076   0065   0072   0073   0069   00 6F 00 6E 00 0D 00 OA                                     TABLE 14 2     Repr  sentation hexad  cimale d un texte Unicode Big Endian    Voici sa repr  sentation Unicode en UTF 8                                             BOM header   U   n   i t e   x 4 B  EF BBBF 55   6E   69   74   65   78   ODOA   CEB2     e r s i o n 4  2D 76   65 72  73   69   6F 6E OD OA                                           TABLE 14 3   Repr  sentation hexad  cimale d un texte Unicode UTF 8    En Unicode Little Endian  les octets de poids fort et de poids faible ont   t   invers  s   ce qui explique que le caract  re d   en t  te soit cod   par FF FE au lieu de FE FF  idem       pour 00 0D et 00 OA qui sont devenus respectivement 0     14 2 Fichiers d alphabet       D 00 and 0A 00     Il y a deux sortes de fichiers d alphabet   un fichier qui d  finit les caract  res d une  langue et un fichier indiquant des pr  f  rences pour le tri  Le premier est d  sign    sous le terme alphabet  et le second sous celui alphabet de tri     14 2 1 Alphabet    Le fichier d alphabet est un fichier texte d  crivant tous les caract  res d une langue   ainsi que les correspondances entre lettres minuscules et majuscules  Ce fichier doit          14 2  FICHIERS D ALPHABET 313    s appeler Alphabet  t xt et doit se t
344. olice si la sortie est fichier HTML  Les  param  tres concernant la police sont ignor  s si la sortie n   est pas au format  HTML     e     only_ambiguous  Affiche seulement les occurrences identiques avec une  sortie ambigu    dans l   odre du texte        e   only_matches   cette option d  finit un mode sans contexte  En outre si elle  est utilis  e avec  t    t ext  Concord n   entoure pas les s  quences reconnues  de tabulations    e  1 X   left X   nombre de caract  res    gauche des occurrences  par d     faut 0   Dans le mode Thai  ceci correspond au nombre de caract  res non dia   critiques     e  r X   right X nombre de caract  res  non diacritiques dans le mode Thai      droite des occurrences  par d  faut 0   Si l   occurrence est plus petite que cette  valeur  la ligne de concordance est compl  t  e jusqu      right  Si l occurrence est  plus longue que la valeur d  finie par right  elle est n  anmoins enti  rement  conserv  e     NOTE   Pour   left et   right  vous pouvez ajouter le caract  re s pour  arr  ter au premier symbole de fin de phrase  S   Par exemple  si vous mettez  40s comme valeur de gauche  le contexte gauche sera au plus    40 caracteres   moins si le  S  est trouv   avant     Options de tri     e     TO  ordre dans lequel les occurrences apparaissent dans le texte  par d     faut      e     LC  contexte gauche comme premier tri  occurrence comme second tri   e     LR  contexte gauche  contexte droit    e     CL  occurrence  contexte gauche     e
345. om du graphe avec son chemin complet dans le coin in   f  rieur gauche du graphe  Cette option n   a d effet que si l option  File Name  est s  lec   tionn  e      Frame   dessine un cadre autour du graphe     Right to Left   inverse le sens de lecture du graphe  voir exemple de la figure 5 33                     FIGURE 5 33     Graphe se lisant de droite    gauche    Vous pouvez r  tablir les param  tres par d  faut en cliquant sur le bouton  Default   Si vous  cliquez sur le bouton  OK   seul le graphe courant sera modifi    Pour modifier les pr  f  rences  par d  faut d   une langue  cliquez sur  Preferences     dans le menu  Info  et choisissez l   on   glet  Graph Presentation        5 4    Les graphes en dehors d   Unitex    5 4 1 Inclusion d un graphe dans un document    Pour inclure un graphe dans un document  il faut en faire une image  Pour cela  une  premi  re m  thode consiste    exporter votre graphe vers un format d image   PNG  JPEG ou    SVG     Pour cela  allez dans le menu  FSGraph  et cliquez sur  Export as image   Choisissez    ensuite le type de fichier  Vous obtiendrez ainsi une image pr  te      tre int  gr  e dans un    116 CHAPITRE 5  GRAMMAIRES LOCALES    document ou      tre   dit  e avec un logiciel de retouche d images  Afin de rendre l   image plus  lisse  vous pouvez activer l antialiasing pour le graphe qui vous int  resse  Contraitement au  JPEG  le format PNG utilise une compression sans perte de qualit    donc le PNG donne  toujours un meill
346. ombre de phrases  C  r  f  rence PRLG  si elle existe  D la forme fl  chie pr  sente dans le texte  E le lemme  s   il existe    F les codes  s   il y en a  Pour fonctionner  cette option doit re appel  e pour des fichier concord ind  qui  ne contiennent pas de token S ni espace    Autres options                  e  d DIR   directory DIR   indique au programme qu    il ne doit pas tra   vailler avec le m  me r  pertoire que  lt index gt  mais avec DIR         a ALPH   alphabet ALPH   fichier alphabet utilis   pour le tri     e  T   thai   option    utiliser pour les concordances en Thai     Le r  sultat de l   application de ce programme est un fichier concord txt si la con   cordance a   t   construite en mode texte  un fichier concord html pour les modes      html    glossanet ou   script  et un fichier texte dont le nom a   t   d  fini  par l utilisateur si le programme a construit une version modifi  e du texte     En mode   htm1  l occurrence est cod  e comme un lien  La r  f  rence associ  e    ce  lien est de la forme  lt a href  X Y Z  gt  Xet Y repr  sentent les positions de d  but  et de fin de l occurrence en caract  res dans le fichier text_name snt  Z repr  sente  le num  ro de la phrase dans laquelle appara  t l occurrence     13 10  CONCORDIFF 275  13 10 ConcorDiff          ConcorDiff  OPTIONS   lt concorl gt   lt concor2 gt     Ce programme prend deux fichiers de concordance et produit une page HTML  montrant les diff  rences entre ces deux concordances  voir 
347. omin 3fsY  closed V 13s4  easily ADVY  her DET Poss3fs pY  eyes N p4  when CONJY  some DET Dadj p   infractions N p4  might V 13p4  appear V W4  justified V K4  against PREPY  higher Aq                                                 336 CHAPITRE 14  FORMATS DE FICHIERS    interests N p4    PONCTS    q  REMARQUE   Les phrases doivent   tre d  limit  es par des lignes vides     Le format  t xt peut   galement   tre utilis    voir section 14 4 1   Chaque mot du  texte doit   tre repr  sent   par une   tiquette lexicale valide    aujourd    hui   ADV    et les phrases sont d  limit  es par  S   Voici l exemple pr  c  dent dans le format     EXC                The   DET Ddef s   GATT   N s   had   V 13s   formerly   ADV    a   DET Dind s   political  A   assessment   N s   of   PREP    the   DET Ddef s   behavior   N s   of   PREP   foreign countries       PONCT   S   She   PRO Nomin 3fs   closed   V 13s   easily   ADV    her   DET Poss3fs p   eyes   N p   when   CONJ   some   DET Dadj p    infraction   N p   might   V 13p   appear   V W   justified   V K   lagainst   PREP   higher  A   interests   N p      PONCT   5                                      14 10 2 Le fichier de donn  es du taggueur    The TrainingTagger programme genere deux fichiers de donn  es  par d  faut   utilis   par le programme Tagger afin de calculer un mod  le de Markov cach   d or   dre 2  Ces fichiers contiennent des tuples unigram  bigramme et trigramme extraits  du corpus   tiquet   corpus txt  Les tup
348. on  ils  sont inutiles et donc d  sactiv  s     e entourer les bo  tes s  lectionn  es avec la d  finition d une variable d entr  e ou de sortie   d un contexte au sens de la section 6 3  ou des d  limiteurs du mode morphologique   Ces op  rations sont   galement r  alisables avec la barre d outils de la fen  tre d   dition  du graphe  voir section 5 2 8      e fusionner les bo  tes s  lectionn  es    e exporter les bo  tes s  lectionn  es en tant que nouveau graphe    5 2 2 Sous graphes    Pour faire appel    un sous graphe  il faut indiquer son nom dans une bo  te en le faisant  pr  c  der du caract  re    Si vous entrez dans une bo  te le texte suivant         alpha  beta gamma  E  greek delta grf    vous obtiendrez une bo  te similaire    celle de la figure 5 9     alpha  beta    gamma    E greek delta grf       FIGURE 5 9     Graphe faisant appel aux sous graphes beta et delta    Vous pouvez indiquer le nom complet du graphe  E   greek delta grf  ou simplement  le nom sans le chemin d acc  s  beta   dans ce cas  le sous graphe est suppos   se trouver  dans le m  me r  pertoire que le graphe qui y fait r  f  rence  Il est d  conseill   d utiliser des  noms de graphes comportant des chemins absolus  car cela nuit    leur portabilit    Si vous  utilisez un nom de graphe absolu  comme c est ici le cas pour E  greek delta grf le  compilateur de graphe   mettra un avertissement  voir figure 5 10         Pour les m  mes raisons de portabilit    il est d  conseill   d utiliser  
349. on  on a une boucle infinie qu Unitex ne peut pas   liminer     a  HEO    FIGURE 6 9     Boucle infinie due    un appel    un sous graphe reconnaissant epsilon    La troisieme possibilit   de boucle infinie concerne les appels r  cursifs    des sous graphes   Consid  rons les graphes Det et DetCompose de la figure 6 10  Chacun de ces graphes peut  appeler l autre sans rien lire dans le texte  Le fait qu aucun des deux graphes ne comporte d      tiquette entre l     tat initial et l   appel    l   autre graphe est capital  En effet  s   il y avait au moins  une   tiquette diff  rente d   epsilon entre le d  but du graphe Det et l   appel    Det Compose   cela signifierait que les programmes d   Unitex explorant le graphe Det devraient lire le motif  d  crit par cette   tiquette dans le texte avant d appeler r  cursivement Det Compose Dans ce  cas  les programmes ne pourraient boucler ind  finiment que s ils rencontraient une infinit    de fois le motif dans le texte  ce qui ne peut pas arriver     6 2  COMPILATION D UNE GRAMMAIRE 127    E Det grf  X  BOULOTiRecherch   o 7    Bd DetCompose grf  X BOULOTiRecherchel   o    E DI           lt DET gt     less     Da  HeH                                     FIGURE 6 10     Boucle infinie caus  e par deux graphes s appelant l   un l   autre    6 24 Intervalle pour le nombre de r  p  titions    Pour reconna  tre des s  quences de tokens dans laquelle un motif appara  t une fois  plusieurs  fois ou jamais  on peut associer un intervalle
350. on 2 5 4  AUCUN des m  tas ne peut   tre utilis   pour  reconna  tre le marqueur  STOP   pas m  me  lt TOKEN gt      4 3 2 R  f  rence aux informations fournies par les dictionnaires    La seconde sorte de masques lexicaux regroupe ceux qui font appel aux informations  contenues dans les dictionnaires du texte  Les quatre formes possibles sont      e  lt lire gt    reconna  t toutes les entr  es qui ont lire comme forme canonique  On re   marque que cette forme est ambigu   si 1 i re est aussi un code grammatical ou s  man   tique     e  lt lire  gt    reconna  t toutes les entr  es qui ont lire comme forme canonique  Ce  masque lexical n   est pas ambigu avec le pr  c  dent     e  lt be V gt   reconna  t toutes les entr  es qui ont lire comme forme canonique et qui ont  le code grammatical V     e  lt V gt    reconna  t toutes les entr  es qui ont le code grammatical v  Ce masque lexical est  ambigu comme le premier  Pour lever l ambuguit    on peut utiliser  lt  V gt  ou  lt  V gt      e  lirons lire V ou lt lirons  lire V gt  reconnait toutes les entr  es qui ont lir   ons comme forme fl  chie  1ire comme forme canonique et qui ont le code grammat   ical V  Ce type de masque n   a d int  r  t que si l   on travaille sur l automate du texte o    sont explicit  es les ambiguit  s des mots  Lorsque l on effectue une recherche sur le  texte  ce masque reconna  t la m  me chose que la simple unit   lexicale lirons     4 3 3 Contraintes grammaticales et s  mantiques    Les masqu
351. op_check   active la v  rification d   erreurs   d  tection de boucles      e  n   no_loop_check   d  sactive la v  rification d erreurs  par d  faut        a ALPH   alphabet ALPH   sp  cifie le fichier d   alphabet    utiliser pour  faire le d  coupage en unit  s lexicales du contenu des bo  tes de la grammaire     e  c   char_by_char   le d  coupage se fait caract  re par caract  re  Si ni  c  ni  a ne sont utilis  s  le d  coupage s effectue en prenant des suites de lettres  Unicode                 e  d DIR   pkgdir DIR   d  finit le r  pertoire de d  p  t    utiliser pour com   piler la grammaire  voir section 5 2 2  page 99      e  e   no_ empty_graph_ warning   pas d   mission de warning quand les  graphes reconnaissent le mot vide  Cette option est utilis  e par MultiFlex  pour ne pas effrayer les utilisateurs par des messages d   erreurs inad  quats  lorsqu ils construisent une grammaire de flexion qui reconna  t le mot vide     e  t   tfst_ check  v  rifie si le graphe donn   peut   tre consid  r   comme un  automate de phrases ou non     e  s   silent_grf_name n affiche pas le nom des graphes  n  cessaire pour  l utilisation de fichiers log sur plusieurs syst  mes       288 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  r XXX   named_repositories XXX  d  claration de noms de r  pertoires  de d  p  t  XXX est form   d   une s  quence d un ou plusieurs X Y  s  par  s par        o   X est le nom du r  pertoire de d  p  t d  sign   par le chemin Y  Vous pouvez  
352. option  Linearize with the Tag   ger  dans la fen  tre de configuration pour construire l automate du texte  cf  figure 7 25    Avec cette option  le programme lin  arise chaque phrase de l automate  Vous devez   gale   ment s  lectionner le fichier de donn  es du taggeur  avec l extension   bin   en cliquant sur le  bouton  Set   Le fichier de donn  es du taggeur suffix   par  morph  est la premi  re variante   avec les codes flexionnels  et celle suffix  e par  cat  est la seconde  sans codes flexionnels    Si vous utilisez les donn  es de type  morph   vous devez   galement cliquer sur  Normalize  accordind to Elag tagset def   pour plus de d  tails  voir section 13 39 au sujet du programme  Tagger      Par exemple  l automate du texte  de la figure 7 24  est la sortie de la lin  arisation de l auto   mate du texte de la figure 7 23 avec la version  cat   La lin  arisation de l automate avec la  version  morph  se trouve figure 7 26     188 CHAPITRE 7  AUTOMATE DU TEXTE     E  Construct the Text FST    Normalization       Build clitic normalization grammar  available only for Portuguese  Portugal        lv  Apply the Normalization grammar        home sigogne unitex French Graphs Normalization Norm  grf   Set    WW  Clean Text FST              C  Normalize according to Elag tagset def       W  Linearize with the Tagger   home sigogne unitex French Dela corpus_data_cat bin   Set            Use Following Dictionaries previously constructed     The program will construct the t
353. ormations avec des variables  voir section 6 7 5  et les  utiliser en dehors du contexte gauche  comme le montrent la grammaire de la figure 6 26 et  son r  sultat dans la figure 6 27     On peut invoquer dans une grammaire un graphe qui contient des contextes gauches  mais  cela n  cessite d   tre vigilant  Au moment o   le contexte gauche est exclu de la s  quence  reconnue  toutes les s  quences qui avaient   t   reconnues par des graphes appelants en sont  exclues   galement  car la s  quence qui sera finalement reconnue devra   tre contigu    Les  sorties correspondant aux s  quences exclues sont ignor  es elles aussi     Ainsi  avec des contextes gauche et droit  on peut faire une distinction entre les motifs util   is  s pour reconna  tre des points du texte  et la d  limitation des s  quences    extraire dans    6 3  CONTEXTES 135        DO  seven  Det  num          eight      nine  ten       FIGURE 6 26     Utilisation d   une variable dans un contexte gauche    Concordance  D  My Unitex English Corpusivanhoe_snticoncord html    e courses  and cast to the ground three antagonists Det three   5  I add  that sia  utes to keep at sword s point his three antagonists Det three   turning and whee    entinels to give the alarm when any one approaches Det one   5  But I trust soon  omanlike and bravely   5  Of twenty four arrows Det four   shot in succession  te  started up and bent their bows  5  Six arrows Det 5ix  placed on the string wer  he back of which was decorated w
354. oss roads cross roads NC_XXNs p   heads of government head of government NC_NofNs p  heads of governments head of government  NC_NofNs p  head of government head of government  NC_NofNs s  notaries public  notary public NC_NsNs p   notary public  notary public NC_NsNs s                                                 11 3  INT  GRATION    UNITEX 235    notary publics notary public NC_NsNs p  rolling stone  rolling stone NC_XXN s  rolling stones  rolling stone NC_XXN p  students    union  student union NC_Ns N s  students    unions  student union NC_Ns N p  students union  student union NC_Ns   N s  students unions  student union NC_Ns N p  s  S                                              tudent union  student union NC_Ns N s  tudent unions  student union NC_Ns N p                      FIGURE 11 10     Graphe de flexion N1 de FIGURE 11 11     Graphe de flexion N3 de mots  mots simples anglais simples anglais       e g  angle of reflection  lt Nb  n gt     FIGURE 11 12     Graphe de flexion NC_NXXXX de mots compos  s anglais       e g  advance booking office    FIGURE 11 13     Graphe de flexion NC_XXXXN de mots compos  s anglais    hse Hse pisans    0     e g  air brake  lt Nb  n gt     FIGURE 11 14     Graphe de flexion NC_XXN de mots compos  s anglais    236 CHAPITRE 11  FLEXION DES MOTS COMPOS  S  e g  birth date    Eee   EEE 5232     FIGURE 11 15     Graphe de flexion NC_NN_NofN de mots compos  s anglais       Hese Hse Hs      lt Nb p gt     e g  criminal police    FIGURE
355. oto  grf     home paumier Unitex2  1 beta App toto  grf        home paumier Unitex2  1 beta App UnitexToolLogger    CreateLog  d   home paumier                                         O  O  O  O  O  O  O  O  A  O          FIGURE 13 3     Console    13 3 Unitex JNI    Vous pouvez utilisez Unitex avec JNI by en incluant les imports suivants      import fr umlv unitex 3jni UnitexJni   import java io x   import fr umlv unitex x        Ceci vous permet de charger en m  moire les dictionnaires   bin   les grammaires  ou graphes dictionnaires   fst2  et les fichiers alphabet et de les garder en m  moire  de mani  re persistante  Vous utilisez alors le nom de fichier renvoy   par la foncton  loadPersistent      268 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES  String persistentAlphabet   UnitexJni loadPersistentAlphabet        unit          String persistentFst2   UnitexJni loadPersistentFst2       unitex Frenc  String persistentDictionary   UnitexJni loadPersistentDictionary          unitex French Dela communesFR  bin          13 4 Param  tres de codage des fichiers textes    Unitex utilise Unicode pour les fichiers textes 14 1  Tous les programmes qui  lisent ou   crivent des fichiers textes partagent les m  mes param  tres d encodage   Les formats possibles sont utf16le bom  utf16le no bom  utfl6be bom  utf16be no   bom  utf8 bom  utf8 no bom  qui correspondent    Unicode Big Endian  Little Endian  et UTF 8  avec ou sans  Unicode byte order mark   bom  au d  but du fichier  Po
356. ots simples    Comme d  crit dans la section 3 1 2  une ligne de DELAS se compose g  n  ralement d une  forme canonique et d   une s  quence de codes grammaticaux ou s  mantiques      aviatrix N4 Hum  matrix N4 Math  radix N4    Le premier code rencontr   est interpr  t   comme le nom de la grammaire a utiliser pour  fl  chir la forme canonique  Il y a deux formes possibles      e N4   nom de la grammaire N4 fst2  codes grammaticaux N  le plus long pr  fixe  uniquement compos   de lettres     e N NC_XXX    nom de la grammaire NC_XXX  fst 2  codes grammaticaux N    Ces grammaires de flexion seront automatiquement compil  es si besoin est  Dans l exemple  ci dessus  toutes les entr  es seront fl  chies avec une grammaire nomm  e N4     Pour lancer la flexion  cliquez sur  Inflect     dans le menu  DELA   La fen  tre de la figure 3 7  permet d indiquer au programme de flexion le r  pertoire dans lequel se trouvent les gram   maires de flexion  Par d  faut  le sous r  pertoire Inflection du r  pertoire de la langue  courante est utilis    On peut aussi sp  cifier quels types de mots le dictionnaire est suppos    contenir  Si une entr  e non conforme est rencontr  e  un message d   erreur sera affich       56 CHAPITRE 3  DICTIONNAIRES     F  Inflection   j  Directory where inflectional FST2 are stored          home igm unitex English Inflection   Set             a  Allow both simple and compound words     Allow only simple words       Allow only compound words       Cancel Inflect
357. ouncil   566 0 0 570 10 0 the national convulsions   590 0 0 594 5 0 the inferior gentry   626 0 0 630 11 0 the English constitution   696 0 0 700 4 0 the petty kings    813 0 0 817 5 0 the certain hazard  896 0 0 900 5 0 the great Barons    938 0 0 942 3 0 the very edge             La premi  re ligne indique dans quel mode de transduction la concordance a   t    calcul  e  Les trois valeurs possibles sont         e  1   les transductions ont   t   ignor  es      e  M   les transductions ont   t   ins  r  es dans les s  quences reconnues  mode  MERGE       e  R  les transductions ont remplac   les s  quences reconnues  mode REPLACE      Chaque occurrence est d  crite par une ligne  Les lignes commencent par les posi   tions de d  but et de fin de l   occurrence  Ces positions correspondent aux offsets  d  finis dans le fichier tag  t fst  voir 14 5 1         Si le fichier comporte la ligne d   en t  te  1  la position de fin de chaque occurrence  est imm  diatement suivie d   un retour a la ligne  Dans le cas contraire  elle est suivie  d   un espace et d   une chaine de caract  res  En mode REPLACE  cette chaine corre   spond    la transduction produite pour la s  quence reconnue  En mode MERGE  elle  repr  sente la s  quence reconnue dans laquelle ont   t   ins  r  es les transductions  En  mode MERGE ou REPLACE  c   est cette chaine qui est affich  e dans la concordance   Si les transductions ont   t   ignor  es  le contenu de l occurrence est extrait du fichier  texte    
358. ous utilisons la marque lexicale de mani  re particuli  re  Une cascade  de transducteurs est int  ressante pour localiser un   lot de certitude  Il est n  cessaire  pour ce type de syst  me d   viter que des motifs pr  c  demment reconnus soient  ambigus avec ceux reconnus par les graphes suivants  Pour   viter cela  on   tiquette  les motifs reconnus par les graphes sous la forme   et   fag1 tag2 tagn   o   tagl  tag2   etc  sont vos propres   tiquettes      Pour expliciter ce comportement  voici un exemple tr  s simple  Le texte sur lequel  nous travaillons est     bac a b c cc a b b ba ab a b bca a bc abaabc   Le graphe grfAB  12 7  reconna  t la s  quence ab dans le texte et lui ajoute l   tiquette    lexicale  a b  AB   Ce graphe appliqu   en mode MERGE ajoute   et   AB  dans le  texte     FIGURE 12 7     Le graphe grfAB    Le texte r  sultant est   bac  a b   AB  c cc  a b  AB  b ba ab  a b   AB  bca  a b   AB  c abaabc     12 3  GRAPHES G  N  RIQUES 259    Maintenant le motif a b est   tiquet   AB  La partie  a ou b seul  de ce motif ne peut  pas l   tre    cause de l   tiquetage de a b     Apr  s ce graphe  la cascade applique un autre graphe nomm    tag AB   12 8  con   tenant le masque lexical  lt AB gt   Il reconnait toutes les s  quences lexicalement   ti   quet  es par le graphe pr  c  dent        FIGURE 12 8     Le graphe tag AB    Le texte r  sultant est   bac fla b  AB  c   ABC  cc  a b  AB  b ba ab  a b   AB   bca  BCA   la  b  AB  c   ABC  abaabc     La con
359. ouvera aussi la licence 2 clause BSD qui s applique    la biblioth  que TRE   utilis  e par Unitex pour les filtres morphologiques     TABLE DES MATI  RES 17  Contributions    Unitex    Unitex est n   comme un pari sur la puissance de la philosophie Open Source dans le  monde universitaire  voir http   igm univ mlv fr  unitex why_unitex html    en s appuyant sur l hypoth  se que les gens seraient int  ress  s    partager leurs connaissances  et leurs comp  tences dans un tel projet ouvert        e Olivier Blanc   a int  gr   le syst  me ELAG    Unitex  originellement con  u par Eric La   porte  Anne Monceaux et certains de leurs   tudiants  a   galement   crit RebuildTfst   anciennement appel   MergeTextAutomaton     e Matthieu Constant   auteur de Grf2Fst2    e Julien Decreton   auteur de l   diteur de texte int  gr      Unitex  a aussi r  alis   la fonc   tionnalit   undo de l   diteur de graphe    e Claude Devis   ajout des filtres morphologiques  fond   sur la librairie TRE  e Hyun Gue Huh  auteur de l outil de g  n  ration de dictionnaires cor  ens  e Claude Martineau   a travaill   sur la flexion des mots simples dans MultiFlex    e Sebastian Nagel   a optimis   de nombreuses parties du code  il a   galement adapt    PolyLex pour l allemand et le russe    e Alexis Neme   a optimis   Dico et Tokenize  a aussi int  gr   Locate dans Dico pour  accepter des graphes dictionnaires    e Aljosa Obuljen   auteur de Stats  e S  bastien Paumier   d  veloppeur principal  e Agata Sa
360. par des tabulations et les lignes par des retours    la ligne     Pour convertir une table avec OpenOffice org Calc  sauvegardez la au format texte  exten   sion  csv   Le programme vous propose ensuite de param  trer la sauvegarde au moyen  d une fen  tre comme celle de la figure 9 2  Choisissez le codage  Unicode   s  lectionnez la  tabulation comme s  parateur de colonnes  et ne pr  cisez pas de d  limiteur de texte     Export de texte 3 E x     Options de champ    Jeu de caract  res  Unicode y  RE   E Annuler    S  parateur de champ   rab  y   S  parateur de texte   Y   Aide            I Largeur de colonne fixe       FIGURE 9 2     Configuration de la sauvegarde d une table avec OpenOffice org Calc    Lors de la g  n  ration des graphes  Unitex saute la premi  re ligne  consid  r  e comme don   nant les en t  tes des colonnes  Vous devez donc vous assurer que les en t  tes des colonnes  occupent exactement une ligne  S il n   y a pas de ligne d en t  te  la premi  re ligne de la ta   ble sera ignor  e  et s il y a plusieurs lignes d en t  te  elles seront interpr  t  es    partir de la  deuxi  me comme des lignes de la table     9 2 3 Les graphes param  tr  s    Les graphes param  tr  s sont des graphes dans lesquels apparaissent des variables fai   sant r  f  rence aux colonnes d   une table de lexique grammaire  On utilise g  n  ralement  ce m  canisme avec des graphes syntaxiques  mais rien n emp  cherait de construire des  graphes param  tr  s de flexion  de pr  trait
361. par un masque M  il faut qu   au moins  un code flexionnel de E contienne tous les caract  res d au moins un code flexionnel de M   Consid  rons l exemple suivant         E s  pare  s  parer V W P1s P3s S1s S3s Y2s  M  lt V P2s Y2 gt     Aucun code flexionnel de E ne contient    la fois les caract  res P  2 et s  Cependant  le code  Y2s de E contient bien les caracteres Y et 2  Le code Y2 est inclus dans au moins un code de  E  le masque lexical M reconna  t donc l entr  e E     4 3 5 N  gation d un masque lexical    Il est possible de faire la n  gation d un motif au moyen du caract  re   plac   imm  di   atement apr  s le caract  re  lt   La n  gation est possible sur les m  tas  lt WORD gt    lt LOWER gt     lt UPPER gt    lt FIRST gt     lt DIC gt  ainsi que sur les masques lexicaux ne comportant que des  codes grammaticaux  s  mantiques ou flexionnels  i e   lt  V z3 P3 gt    Les motifs   et     sont la n  gation l un de l autre  Le m  ta  lt  WORD gt  peut reconna  tre toutes les unit  s lex   icales qui ne sont pas form  es de lettres  sauf le s  parateur de phrases  S  et  bien s  r           3  Et sur leurs   quivalents d  pr  ci  s  lt MOT gt   lt MIN gt    lt MAJ gt    lt PRE gt   Voir section 4 3 1     80 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    le marqueur  STOP   La n  gation est sans effet sur  lt NB gt    lt SDIC gt    lt CDIC gt    lt TDIC gt  et   lt TOKEN gt      La n  gation est interpr  t  e d une fa  on particuli  re dans les m  tas  lt  DIC g
362. part de  chaque phrase sous la forme d   une suite de 4 octets en little endian     14 5 3 Fichier cursentence grf    Le fichier cursentence grf est g  n  r   par Unitex lors de l affichage d   un au   tomate de phrase  Le programme Fst2Grf construit un fichier  grf repr  sentant  l automate d une phrase    partir du fichier text  fst2     NOTE   les sorties des bo  tes sont utilis  es pour coder les offsets  tels que d  finis  dans  tfst  Les offsets sont s  par  s par des espaces  Voici  par exemple  quelques  lignes qui representent la premi  re phrase d Ivanhoe            Ivanhoe 0 0 0 0 6 0  100 200 2 3 4 Y   by  bys PARTI Z O0 0 2 1 0  220 150256     by by PREP  2 O0 0 2 1 0  220 50256     Sir sir N Hum s  4 0 O0 4 2 0 310 200 1 99             324 CHAPITRE 14  FORMATS DE FICHIERS  14 54 Fichier sentenceN grf    Lorsque l utilisateur modifie l automate d une phrase  cet automate est sauveg   ard   sous le nom sentenceN grf  o   N repr  sente le num  ro de la phrase    un tel graphe contient des offsets dans les sorties des bo  tes du graphe  voir note  section 14 5 3      145 5 Fichier cursentence txt    Lors de l extraction de l automate phrase  le texte de la phrase est enregistr   dans  le fichier appel   cursentence txt  Ce fichier est utilis   par Unitex pour afficher  le texte de la phrase sous l automate  Ce fichier contient le texte de la phrase  suivie  d un saut de ligne     14 5 6 The cursentence tok file    Lors de l extraction de l automate phrase  les num  
363. ple est maintenant dans le presse papiers d Unitex  Vous pouvez alors  coller cette s  lection en pressant  lt Ctrl V gt  ou en cliquant sur  Paste  dans le menu  Edit      104 CHAPITRE 5  GRAMMAIRES LOCALES     F  monday grf  Unsaved        Monday  Tuesday  Wednesday  Thursday  Friday  Saturday  Sunday    Friday  Saturday  Sunday                      FIGURE 5 18     Copier coller d une s  lection multiple    NOTE  Vous pouvez coller une s  lection multiple dans des graphes diff  rents de celui dont  elle est issue     Pour supprimer des boites  s  lectionnez les  effacez le texte qu   elles contiennent  c   est a dire  le texte affich   dans le champ situ   en haut de la fen  tre  et appuyez sur Enter     On ne peut pas supprimer l   tat initial ni l     tat final     5 2 4 Sortie    Il est possible d   associer une sortie    une bo  te  Pour cela  on utilise le caract  re sp  cial     Tous les caract  res situ  s    droite de celui ci seront consid  r  s comme faisant partie de la  sortie  Ainsi  le texte one two three number donne la bo  te de la figure 5 19        number    FIGURE 5 19     Exemple de sortie    5 2    DITION DE GRAPHES 105    Pour cr  er une boite vide avec une sortie contenant number  on   crit  lt E gt  number  exem   ple   la boite la plus    droite dans la figure 5 21 est vide et a une sortie   La sortie associ  e     une bo  te est repr  sent  e en gras sous celle ci     Poids   On peut attribuer un poids    des bo  tes d un transducteur  Ainsi  lorsq
364. pour  xml           normal_tags IGNORE   chaque tag diff  rent est supprim    par d  faut pour  xml            normal_tags SPACE   chaque tag diff  rent est remplac   est remplac   par  un unique espace  par d  faut pour  html     13 52 XMLizer    XMLizer  OPTIONS   lt txt gt        Ce programme prend un fichier texte brut  lt txt gt  et produit le fichier   quivalent au  format TEI ou XML  La diff  rence entre TEI et XML est que les fichier TEI contien   nent une en t  te de type TEI     OPTIONS      x   xm1   produit un fichier a XML    t   tei   produit un fichier TEI  par d  faut       n XXX   normalization XXX   d  signe le fichier de r  gles de normalisa   tion    utiliser  voir section 14 13 6        o O  UT   output OUT   nom optionnel du de fichier de sortie  par d  faut    file txt  gt  file xml       a ALPH   alphabet ALPH   fichier alphabet         s SEG   segmentation_grammar SEG   grammaire de d  limitation de  phrase    utiliser  Cette grammaire devrait ressembler    la grammaire Sentence grf  utilis  e lors du pr  traitement d un corpus  mais elle peut comporter l   tiquette  sp  ciale  P   pour indiquuer les limites de paragraphe     Chapitre 14    Formats de fichiers    Ce chapitre pr  sente les formats des diff  rents fichiers lus ou g  n  r  s par Unitex   Les formats des dictionnaires DELAS et DELAF sont d  j   pr  sent  s aux sections  SLL etal     NOTE   dans ce chapitre  le symbole repr  sentera le retour    la ligne  Sauf indica   tion contraire  tous
365. q  g  Anim g  a  Comp a  b  Comp b  c  Comp c  d  Det d  k  Det k   e  Det e    Consid  rons l extrait du DELAC serbe suivant  les codes flexionnels des mots simples peu   vent   tre diff  rents de ceux pr  sents dans Unitex       zxiro racyun racyun Nl ms1lq  NC_2XN1 N Comp   avio prevoznik  prevoznik N10 mslv   NC_2XN2 N Comp   predsednik  predsednik N10 mslv  drzxave  drzxava N600 fs2q   NC_N2X1 N Comp   Ujedinxene  Ujedinxen Al aefplg  nacije nacija N600 fplq   NC_AXN3 N Comp NProp Org   Kosovo  Kosovo N308 nslq  i Metohija Metohija N623 fslq   NC_N3XN N Comp NProp Top Reg  istrazxni istrazxni A2 admslg  sudija sudija N679 mslv   NC_AXNF N Comp   Mirosinka  Mirosinka N1637 fslv  Dinkicx  Dinkicx N1028 mslv   NC_ImePrezime N Comp Hum PersName  gladan gladan A18 akmslg  kao vuk vuk N128 mslv  AC_A3XN2 hungry as a wolf    Les graphes de flexion correspondants se trouvent de la figure 11 28 a la figure 11 35     Le DELACF r  sultant de la flexion par MULTIFLEX du DELAC pr  c  dent est le suivant      zxiro racyun  zxiro racyun NC_2XN1 N Comp slqm   zxiro racyuna  zxiro racyun NC_2XN1 N Comp s2qm  zxiro racyunu  zxiro racyun NC_2XN1 N Comp s3qm  zxiro racyun  zxiro racyun NC_2XN1 N Comp s4qm   zxiro racyune  zxiro racyun NC_2XN1 N Comp s5qm  zxiro racyunom  zxiro racyun NC_2XN1 N Comp s6qm  zxiro racyunu  zxiro racyun NC_2XN1 N Comp s7qm                   242 CHAPITRE 11  FLEXION DES MOTS COMPOS  S    zxiro racyuni zxiro racyun NC_2X  zxiro racyuna  zxiro racyun NC_2X  zxiro r
366. ques  2002  Th  se de doctorat   Universit   de Tours  12     32  A Simple English Axis Generator  http   nlp cs nyu edu GMA docs   HOWTO axis  13 9     33  Jacqueline GIRY SCHNEIDER  Syntax and lexicon   Blessure  wound   noeud   knot   caresse  caress     SMIL  Journal of Linguistic Calculus  3 4  55 72  1978   9 1     34  Jacqueline GIRY SCHNEIDER  Les nominalisations en francais  L op  rateur faire  dans le lexique  Droz  Geneve Paris  1978  9 1     35  Jacqueline GIRY SCHNEIDER  Les pr  dicats nominaux en fran  ais  Les phrases sim   ples    verbe support  Droz  Geneve Paris  1987  9 1     36  GNU  Lesser General Public License  http    www gnu org licenses   lgpl html  1 1  14 13 12     37  Gaston GROSS  D  finition des noms compos  s dans un lexique grammaire   Langue Francaise  87  1990  11 1     38  Gaston GROSS  Les expressions fig  es en fran  ais  Noms compos  s et autres locutions   Ophrys  Paris  1996  3 8  11 1     39  Maurice GROSS  M  thodes en syntaxe  Hermann  Paris  1975  9 1     40  Maurice GROSS  Sur quelques groupes nominaux complexes  In J  C  Cheva   lier et M  Gross  editor  M  thodes en grammaire fran  aise  pages 97 119  Paris    Klincksieck  1976  9 1    378 BIBLIOGRAPHIE     41  Maurice GROSS  Taxonomy in syntax  SMIL  Journal of Linguistic Calculus  3   4  73 96  1978  9 1     42  Maurice GROSS  Simple sentences  Discussion of Fred W  Householder s paper   analysis  synthesis and improvisation   In Sture Allen  editor  Text Processing   Proceedi
367. quettes avec une   tiquette par token et de supprimer les autres  Le r  sultat  est un automate du texte avec un seul chemin  voir section 7 6 pour convertir un automate  lin  aire en un texte lin  aire   Le choix du chemin d  pend de son score  Le chemin avec le    186 CHAPITRE 7  AUTOMATE DU TEXTE               lt PRO PpvLE gt    lt PRO PpvLUI gt    lt PRO PpvPR gt    lt PRO T on gt     FIGURE 7 22   Grammaire ELAG optimis  e v  rifiant l accord entre verbe et pronom    meilleur score est choisi et les autres supprim  s Le score d   un chemin est calcul   par un  mod  le statistique entrain   sur un corpus annot    Ce mod  le utilise des fichiers de donn  es  du taggeur produites par le programme Training Tagger  vour section 13 45   Par exemple   vous pouvez voir figure 7 23  l automate du texte original sur la phrase Les insectes nuisibles  envahissent la maison  L automate du texte apr  s lin  arisation est celui de la figure 7 24        nuisibles    FIGURE 7 23     Automate du texte de Les insectes nuisibles envahissent la maison     7 4  LIN  ARISATION DE L AUTOMATE DU TEXTE AVEC LE TAGGEUR 187             Les   insectes nuisibles   envahissent          le insecte nuisible envahir  maison   B      N fs    DET fp mp  N mp V T3p S3p P3p DET fs PONCT    FIGURE 7 24     Automate du texte lin  aris      7 4 1 Compatibilit   du jeu d   tiquettes    Le jeu d   tiquettes du taggeur est identique    celui du corpus d entrainement ou en est  une variante  voir ci dessous   Toute
368. r     appliquer    ce transduc   teur  Le format d   une ligne du fichier csc est  Name_and_path_of_transducer Merge  Voici un exemple de fichier de cascade csc      C  apps my_unitex French Graphs grfl fst2  Merge    C  apps my_unitex French Graphs grf2 fst2  Replace                14 13 Plusieurs autres fichiers    Pour chaque texte  Unitex cr  e plusieurs fichiers contenant des informations des   tin  es      tre affich  es dans l interface graphique  Cette section d  crit ces diff  rents  fichiers     14 13 1 Fichier dlf n  dlc n  err n et tags_err n    Ces trois fichiers sont des fichiers texte se trouvant dans le r  pertoire du texte   Ils contiennent respectivement les nombres de lignes des fichiers d1f  dlc  err et  tags_err  Ces nombres sont suivis par un retour    la ligne     14 13 2 Fichier stat dic n   Ce fichier est un fichier texte se trouvant dans le r  pertoire du texte  Il est form    de trois lignes  contenant les nombres de lignes des fichiers d1f  dlc and err   14 13 3 Fichier stats n    Ce fichier texte se trouve dans le r  pertoire du texte et contient une ligne de la  forme suivante      3949 sentence delimiters  169394  9428 diff  tokens  73788  9399   simple forms  438  10  digits        Les nombres indiqu  s s   interpr  tent de la fa  on suivante      e sentence delimiters   nombre de s  parateurs de phrases   S       e tokens   nombre total d   unit  s lexicales du texte  Le nombre pr  c  dant diff  indique le nombre d   unit  s diff  rentes      
369. r   P seul      ceci est un exemple est un commentaire  Les commentaires sont facultatifs et  doivent   tre introduits par le caract  re    Les commentaires sont supprim  s lorsque  l   on comprime les dictionnaires     REMARQUE IMPORTANTE   il est possible d utiliser le point et la virgule dans une entr  e  de dictionnaire  Pour cela  il faut les d  sp  cialiser avec le caract  re        3  1415 PI NOMBRE  Organisation des Nations Unies O  N  U   SIGLE          ATTENTION   chaque caract  re est pris en compte dans une ligne de dictionnaire  Par ex   emple  si vous introduisez des espaces  ceux ci seront consid  r  s comme faisant partie int     grante des informations  Dans la ligne suivante      3 1  LES DICTIONNAIRES DELA 47    g  t g  sir V z1 P3s  voir ci g  t    l   espace qui pr  c  de le caract  re   sera consid  r   comme faisant partie d un code flexionnel     4 caract  res compos  s de P  3  s et d un espace     Il est possible d ins  rer des lignes de commentaires dans un dictionnaire DELAF ou DELAS   en faisant d  buter la ligne par le caract  re    Exemple      L entr  e nominale pour  par    est un terme de golf  par   N z3 ms    Mots compos  s avec espace ou tiret    Certains mots compos  s comme grand m  re peuvent s   crire avec des espaces ou avec  des tirets  Pour   viter de devoir d  doubler toutes les entr  es  il est possible d utiliser le  caract  re     Lors de la compression du dictionnaire  le programme Compress v  rifie pour  chaque ligne si la for
370. r  atteindre  avoir  avoisiner  battre  cacher                                            Feuille 1   1   PageStyle_c32NM Somme 0    FIGURE 9 1     Table de lexique grammaire 32NM    9 2 Conversion d une table en graphes    9 2 1 Principe des graphes param  tr  s    La conversion d une table en graphes s effectue au moyen du m  canisme des graphes  param  tr  s  Le principe est le suivant   on construit un graphe qui d  crit des constructions  possibles  Ce graphe fait r  f  rence aux colonnes de la table gr  ce    des variables  On g  n  re  ensuite  pour chaque ligne de la table  une copie de ce graphe dans laquelle les variables  sont remplac  es en fonction du contenu des cellules situ  es    l intersection des colonnes  correspondantes et de la ligne trait  e  Si une cellule de la table contient le signe   la variable  correspondante est remplac  e par  lt E gt   Si la cellule contient le signe     la bo  te contenant la  variable correspondante est supprim  e  ce qui d  truit du m  me coup les chemins passant  par cette bo  te  Dans tous les autres cas  la variable est remplac  e par le contenu de la cellule        9 2 2 Format de la table    Les tables de lexique grammaire sont g  n  ralement cod  es    l   aide d   un tableur comme  OpenOffice org Calc   74    Pour pouvoir   tre utilis  es par Unitex  les tables doivent   tre  cod  es en texte Unicode selon la convention suivante   les colonnes doivent   tre s  par  es    9 2  CONVERSION D UNE TABLE EN GRAPHES 207    
371. r  de la figure 3 20  Le   dans le nom du graphe lui donne  une priorit   basse afin qu il soit appliqu   apr  s le dictionnaire g  n  ral  Pour fonctionner   ce graphe se base sur les mots qui sont toujours inconnus apr  s le passage du dictionnaire  g  n  ral  Les crochets correspondent    une d  finition de contexte  voir la section 6 3      Comme les graphes dictionnaires sont appliqu  s par le moteur du programme Locate  ils  peuvent utiliser tout ce que le programme Locate autorise  En particulier  il est possible  d utiliser les filtres morphologiques  section 4 7  et le mode morphologique  section 6 4    Ainsi  le graphe de la figure 3 21 utilise ces filtres pour reconna  tre les nombres en chiffres  romains  Notons qu il utilise   galement des contextes afin d   viter  par exemple  que C ne  soit pris comme chiffre romain quand il est suivi par une apostrophe     Par d  faut  les graphes dictionnaires sont appliqu  s en mode MERGE  Il est possible de les  appliquer en mode REPLACE  en ajoutant    leur le nom le suffixe  r  Celui ci se combine  avec les priorit  s   et          bagpipe r fst2 McAdam r  fst2 phtirius r  fst2    Exporter les entr  es produites comme dictionnaire du mode morphologique    Les entr  es produites par un graphe dictionnaire sont consult  es par le programme  Locate quand il rencontre des masques lexicaux qui n  cessitent la consultation d un dic   tionnaire     Cependant  cette fonctionnalit   est restreinte quand le masque lexical est en mo
372. r  requis pour la flex   ion des mots compos  s  Cependant  cette condition est rarement suffisante  Par exemple  en  anglais  les formes plurielles de    e battle cry  e battle royal    e battle of nerves    il n   est pas seulement n  cessaire de savoir comment g  n  rer les pluriels de battle  royal et cry   mais aussi de savoir quelles formes fl  chies de ces constituants se combinent entre elles      e battle cries  e battle royals  or battles royal     e battles of nerves  mais pas    battles cries      battles royals      battles of nerve_    Formellement  une description explicite et compl  te du paradigme flexionnel des mots   compos  s doit r  pondre aux questions suivantes      e A quelle cat  gorie grammaticale appartient le mot compos    nom  adjectif  etc   et  donc quelles cat  gories flexionnelles  nombre  genre  cas  etc   sont elles pertinentes  pour lui   79  se prononce pour une d  finiton fond  e sur la morphosyntaxe des cat     gories grammaticales   une cat  gorie grammaticale devrait pleinement d  terminer les  cat  gories flexionnelles dans lesquelles le mot se fl  chit ainsi que celles qui sont lexi   calement fix  es pour le mot  Par exemple  en polonais  un nom a un genre et se fl  chit  en nombre et en cas     Quelles sont les exceptions aux cat  gories flexionnelles d  termin  es ci dessus  Par  exemple  en polonais        wybory powszechne     lections g  n  rales     11 1  MOTS COMPOS  S 223    est un nom compos   qui n   a pas de forme au sing
373. r  sum    de la ligne de commande utilis  e pour ex  cuter l outil         e test_info list_file_in txt   une liste des fichiers lus par l outil  La  premiere colonne est la taille du fichier  la seconde est crc32  la troisieme le  nom du fichier      e test_info list_file_out txt   une liste des fichiers cr    s par l outil  La  premi  re colonne est la taille du fichier  la seconde est crc32  la troisi  me le nom  du fichier               e test_info std_out txt   le contenu de sortie standard de la console                     e test_info std_err txt   le contenu de sortie erreurs de la console     e src xxx   une copie du fichier lu par l outil  n  cessaire pour faire fonctionner     nouveau le log      e dest xxx   une copie du fichier cr     par l outil    Si la seconde ligne de unitex_logging_parameters txt contient 0  ces fichiers ne  sont pas enregistr  s   si cette ligne contient 1  ils sont enregistr  s      344 CHAPITRE 14 FORMATS DE FICHIERS  14 139 R  gles typographiques de l arabe   arabic_typo_rules txt    Pour l arabe  la recherche dans le dictionnaire peut   tre param  tr  e avec un  fichier qui d  crit si certaines variations typographiques sont autoris  es ou non  Ce  fichier est constitu   de lignes comme celles ci      fatha omission YES    o   fatha omission est le nom de la r  gle  Pour une description compl  te de  toutes les r  gles disponibles  il faut consulter le fichier Arabic h dans les sources  du programme     14 13 10 fichier d   offsets de di
374. r 2 distinct lemmas              O compound entry for 0 distinct lemma    1          All chars used in forms       Y    1                            1        2 grammatical semantic codes used in dictionary             INTIY  INTJ warning  1 suspect char  1 space    SPACE I NT J 4                      O inflectional code used in dictionary       q             Remarquons que les codes flexionnels de eat ne sont pas signal  s  puisque une  erreur s   est produite dans cette ligne     14 9 Fichiers ELAG    14 9 1 Fichier tagset de    See section 7 3 6  page 178     334 CHAPITRE 14  FORMATS DE FICHIERS  14 9 2 Fichiers  lst    LES FICHIERS  LST NE SONT PAS COD  S EN UNICODE   Un fichier   1st contient une liste de noms de fichiers  grf  Si le nom d un fichier    n est pas absolu  il est relatif    l emplacement du fichier elag 1st  Voici le fichier  elag  lst fourni pour le francais         PPVs PpvIL grtY  PPVs  PpvLE grtY  PPVs  PpvLUI gr  tY  PPVs  PpvPR grtY  PPVs PpvSeq grtY  PPVs SE grff  PPVs postpos grff          14 9 3  elg files    Les fichiers  e1g contiennent des r  gles ELAG compil  es  Ces fichiers sont au  format  fst2     14 9 4 Fichier  rul    LES FICHIERS  RUL NE SONT PAS COD  S EN UNICODE     Un fichier   rul contient diff  rents fichiers  elg qui compose un ensemble de r     gles ELAG  Un fichier  rul est constitu   d autant de parties qu il y a de fichiers   elg  Chaque partie est compos  e de la liste des grammaires ELAG qui correspon   dent    un fichier  el
375. r CSN       med goe EEE Oe a Da 323  14 54  Fichier sentenceN SI       eh eee eee REA OER Pw s 324  14 5 5 Fichier cursentence txt                              324  14 5 6 The cursentence tok file                             324  14 5 7 Fichiers tfst_tags_by_freq txt et tfst_tags_by_alph txt            324   T46 Concordances od a Lau ae Ba do n  e de ee Eo ee ee ERS 324  1461  Fichier c  oncord ind  s    Les 25 068 445464 6h ea Bee Sie boss 324  14 6 2 Fichier concord txt        oao ee ew ee 326  14 6 3 Fichier concord html                               326  1464 Fichter dif html  5 2 Lui hee hd ie  we a a we 327   147 Dictionaries dui texte   cocos lt Ewa a pau wR OE we D 328  Wat UPC US oo ol He thea he Be He RS ESR 328    MR AE cana Be be a oe ee Be oe a a 328    10 TABLE DES MATI  RES    147 3 taps em mr diese Hoe AA A A SEER ES ERS 328   EPA MR as Den pete orties Oe eee F arte 328   143 DICHONRGIES coc bu da sida hu a da ba he ee EN ba ee eee 329  LR o ea          Dune ee Shaka    da dan lie su nee 329   L  O H  ROS onda ah does OS ds eee a TR Tee hada 330   14 8 3 Fichier information sur un dictionnaire                    331   148 4 Fichier CHECK DIC TAT c re su sue eus sd mad ea 331   14 9 Fichiers ELAG   o cd secca cu du ca ua uma au uma esse esse 333  149 1 Peter ele  econo ra de Es 333   149 2 Fichiers lst 2 4 24 sa 04 du    due    de da a ee eee 0 334   149 3 ARR dar ire Re PEER edit   Ree RE bas 334   HIA  Feher lo arta et ea ve is ered ve eu 334   14 10 Fichier 
376. r appropri    Tous les d  tails sur l   utilisation des jokers se trouvent dans    la section 8 3    e choisissez le r  pertoire o   le graphe sera enregistr       Construct sequence automaton    1  Choose your sequence corpus     2  Options    Apply beautifying algorithm   Exact case matching   fontana aa tchi ti          3  Choose your output directory    home adrien unitex French Graphs   Set                Create graph    FIGURE 8 4     Menu automate de s  quences       Construct sequence automaton    1  Choose your sequence corpus     2  Options    Apply beautifying algorithm   Exact case matching   fonclanal na tchi ti    Operations  C  Insert     C  Replace  C  Delete           o   joker s     3  Choose your output directory      home adrien unitex French Graphs set       Create graph                FIGURE 8 5     Menu options de l automate de  s  quences    Vous pouvez voir figures 8 6 et 8 7 les graphes sans jokers produits avec ou sans  beautify      202 CHAPITRE 8  AUTOMATE DE S  QUENCES                        net days  2                       soon possible                                     as month        twice    in the     next     few                                                                    FIGURE 8 7     Automate avec l option  beau   ae tify             FIGURE 8 6     Automate sans l option  beau   tify     8 3 Recherche par approximation    Lorsque vous effectuez un  Locate  sur un texte en utilisant un graphe produit avec  le programme Seq2Grf  
377. r des commentaires dans un graphe     Si vous souhaitez ajouter un commentaire dans un graphe  vous devez cr  er une bo  te qui  commence par    Le texte de la bo  te est affich   en vert  et peut contenir des lignes vides  La    bo  te ne peut avoir  ni de transition entrante  ni de transition sortante  voir figure 5 5      Pour relier une bo  te    une autre  il faut cliquer sur la bo  te de d  part  puis sur la bo  te    5 2    DITION DE GRAPHES 97      al  grf Vhome paumier unitex French Graphs   Unsaved        9 P p i       si a h lt c  alors on a         COFD  dixit  toto    FIGURE 5 5     Bo  te contenant un commentaire    de destination  S il y a d  j   une transition entre les deux bo  tes  celle ci est enlev  e  Il est  possible d effectuer cette m  me op  ration en cliquant d   abord sur la bo  te de destination   puis sur la bo  te de d  part tout en pressant sur la touche Shift  Dans notre exemple  une fois  la bo  te reli  e    l     tat initial et    l     tat final du graphe  on obtient le graphe de la figure 5 6                        FIGURE 5 6     Graphe reconnaissant des pronoms anglais    REMARQUE   si vous double cliquez sur une bo  te  vous relierez cette bo  te    elle m  me   voir figure 5 7   Pour annuler  double cliquez une nouvelle fois sur la bo  te     98 CHAPITRE 5  GRAMMAIRES LOCALES       FIGURE 5 7     Bo  te reli  e    elle m  me    Cliquez sur  Save as     dans le menu  FSGraph  pour enregistrer le graphe  Par d  faut   Unitex propose d enr
378. r passage dans la boucle     Par d  faut Locate et LocateTfst consid  rent que les variables non d  finies sont vides   On peut modifier ce comportement  voir section 6 10 2   De plus  il est possible dans un  graphe d interroger une variable pour savoir si elle a   t   initialis  e ou non  section 6 7 5      5 2 6 Copie de listes    Il peut   tre pratique d effectuer un copier coller d une liste de mots ou d expressions  depuis un   diteur de texte vers une bo  te dans un graphe  Afin d   viter de devoir copier  manuellement chaque terme  Unitex propose un m  canisme de copie de listes  Pour l utili   ser  s  lectionnez votre liste dans votre   diteur de texte et copiez la au moyen de  lt Ctrl C gt  ou    5 2    DITION DE GRAPHES 107    January  February  March  April  May    June   lt B gt          July     el 4   August  year   month   September  October  November  December    month year       FIGURE 5 22   Interversion du mois et de l   ann  e dans une date    de la fonction de copie int  gr  e a votre   diteur  Cr  ez ensuite une boite dans votre graphe   et utilisez  lt Ctrl V gt  ou la commande  Paste  du menu  Edit  pour la coller dans la bo  te   Vous verrez alors apparaitre la fen  tre de la figure 5 23     O Choose your left and right contexts            item        FIGURE 5 23     S  lection de contexte pour la copie d   une liste          Cette fen  tre vous permet de d  finir les contextes gauche et droit qui seront ajout  s automa   tiquement a chaque terme de 
379. r une cascade de Transducteurs avec CasSys                 252  12 1 1 Cr  ation de la liste des transducteurs                     252  12 1 2 Edition de la liste des transducteurs                      253  AS SDL d une CSM  L  a es A dus ire she a 255  12 14 Partage d un fichier liste de transducteurs en cascade            256   T22 Cas EME  Lu ue se mesure lent dune 256  12 21 Typ  ed  egraph   utilis      gt  lt   erdam e tanri there be HS 256  1222 Applicaton aN AI 256  12 2 3 R  gles utilis  es dans unecascade     o 6k gos e 257  1224 Marquage de motifs dans CasSys   2    2 eee ee ee ees 258   DOME MES  Espa p kop paoi AO tete es 259  12 3 1 D  claration d   un graphe g  n  rique      2 284429 oca 260    12 3 2 Structure d un graphe BEN  NQUe  lt  ss Lu Dub e scs s e poa   260    8 TABLE DES MATI  RES    12 4 Les r  sultats d   une cascade                               262  1241 Affichage des r  sultats dela cascade     o   44 oc cci sus or    262  12 42 Les diff  rents fichiers r  sultats d une cascade                 262  124 3 Un texte au format de type XML pour les   tiquettes lexicales            263   13 Utilisation des programmes externes 265   131 Creation de eee lOp s s o cc he re is ic ed tetes 266   13 4 Laconsole oca 5 42 Ee EL e ae  Ow eS DR ES 267   13 3  Unites INT   4 5 4 4 ba cae ea Dee eee Ee ee ee a ee aa 267   13 4 Param  tres de codage des fichiers textes  gt  oie che ee she dore do 268   135 Build SM WuDE  co aoe    dun aura aaa non date dettes 268 
380. ra   tions qui peuvent leur   tre appliqu  es  en particulier la lev  e d ambiguit  s au moyen du  programme ELAG  Depuis la version 2 1  il est possible d effectuer des recherches de motifs  sur l   automate du texte  voir section 7 7      7 1 Pr  sentation    L   automate du texte permet d exprimer toutes les interpr  tations lexicales possibles des  mots  Ces diff  rentes interpr  tations sont les diff  rentes entr  es pr  sentes dans les diction   naires du texte  La figure 7 1 montre l   automate de la quatri  me phrase du texte Ivanhoe     On peut voir sur la figure 7 1 que le mot Here poss  de ici trois interpr  tations  adjectif  ad   verbe et nom   haunted deux  adjectif et verbe   etc  Toutes les combinaisons possibles sont  exprim  es  car chaque interpr  tation de chaque mot est reli  e    toutes les interpr  tations des  mots suivants et pr  c  dents     En cas de concurrence entre un mot compos   et une s  quence de mots simples  l automate  contient un chemin   tiquet   par le mot compos    parall  le aux chemins exprimant les com   binaisons de mots simples  Ceci est illustr   par la figure 7 2  o   le mot compos   courts of  law est concurrent avec une combinaison de mots simples     Par construction  l   automate du texte ne contient pas de boucle  On dit que l   automate du  texte est acyclique     NOTE   le terme    automate du texte    est un abus de langage  En effet  il y a en r  alit   un  automate pour chaque phrase du texte  Cependant  la concat  nat
381. ram  tres de codage des fichiers textes   268  Parenth  ses  81  Pixellisation  111  Poids  105  Point de synchronisation  173  Portugais  normalisation des clitiques  167  296  POSIX  83  Pr  f  rences  115  Priorit       la s  quence de gauche  145     la s  quence la plus longue  146  entre dictionnaires  66  Programmes externes  BuildKrMwuDic  268  Cassys  269  CheckDic  52  270  331  Compress  47  64  271  329  Concord  271  ConcorDiff  159  275  Convert  275             390    Dico  40  67  68  277  DumpOffsets  278  280  Elag  176  178  282  334  ElagComp  175  178  184  282  Evamb  283  Extract  283  Flatten  124  283  Fst2Check  284  Fst2Grf 189  Fst2List  285  Fst2Txt  36 286  Grf2Fst2  123  287  ImplodeTfst  289  Locate  68  289  LocateTfst  292  MultiFlex 294  Normalize  266  294  PolyLex  41  295  RebuildTfst  296  Reconstrucao  169  296  Reg2Grf 297  Seq2Grf  297  Sort Txt  53  298  313  Stats  298  Table2Grf  299  Tagger  299  TagsetNormTfst  300  TEI2Txt  300  Tfst2Grf  301  Tfst2Unambig  192  301  Tokenize  38  302  TrainingTagger  303  Txt2Tfst  304  Uncompress  305  UnitexTool  305  UnitexToolLogger  306  Untokenize  305  Unxmlize  309  XMLizer  310  Propri  t  s syntaxiques  205                         R  Recherche dans un dictionnaire  51  Recherche de motifs  152  292    INDEX    Reconstruction de l   automate du texte  296  Recursive Transition Network  94  R  f  rence aux informations dans les dic   tionnaires  77  122  R  gles  espace  67  majuscules 
382. rammaire    un texte et construit un fichier d index  des occurrences trouv  es     OPTIONS     e  t TXT   text TXT   chemin complet du fichier texte  sans omettre l exten   sion  snt     e  a ALPH   alphabet ALPH   chemin d acces complet au fichier alphabet      290    CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES                 m DICS   morpho DICS   ce param  tre optionnel indique quels diction   naires morphologiques sont utilis  s  s ils sont exig  s par des dictionnaires     st 2  DICS repr  sente une liste de fichiers  bin  avec leurs chemins complets  s     par  s par des points virgules             s   start_on_space ce param  tre indique que la recherche va commencer     n importe quelle position dans le texte  m  me avant un espace  Ce param  tre  ne devrait   tre utilis   que pour effectuer des recherches morphologiques       x   dont_start_on_space   interdit au programme de reconnaitre des  s  quences commen  ant par un espace  par d  faut        c   char_by_char   ce param  tre facultatif permet d appliquer le trans   ducteur en mode caract  re par caract  re  Cette option doit   tre utilis  e pour  les textes en langues asiatiques comme le Tha        w   word_by_word  fonctionne en mode mot par mot  par d  faut                   d DIR   sntdir DIR   met les fichiers produits dans le r  pertoire au lieu  DIR au lieu du r  pertoire texte  Notez que DIR doit se terminer par un s  para   teur de fichier    or                     K   korean   indique Locate qu 
383. ran  ais      AAAAaaaa  Bb  CCCC    54       CHAPITRE 3  DICTIONNAIRES    Check Results    Line 1  unexpected end of line  agreeably  ADV   Line 2  unexpected end of line   agreed INTJ   Line 4  empty grammatical or semantic code    File  D  My Unitex English Dela agreeably dic  Type  DELAF   5 lines read   2 simple entries for 2 distinct lermas   0 compound entry for O distinct lemma    FIGURE 3 6     R  sultats d une v  rification automatique    3 5  FLEXION AUTOMATIQUE 55    Dd  E      Fe                        Les caract  res pr  sents sur une m  me ligne sont consid  r  s comme   quivalents quand le  contexte le permet  Lorsqu il faut comparer deux caract  res   quivalents  on les compare  selon l   ordre dans lequel ils apparaissent de gauche    droite sur la ligne  On peut voir sur  l extrait ci dessus qu on ne fait pas de diff  rence entre minuscules et majuscules  et qu   on  ignore les accents ainsi que la c  dille     Pour trier un dictionnaire  ouvrez le  puis cliquez sur  Sort Dictionary  dans le menu  DELA    Par d  faut  le programme cherche toujours    utiliser le fichier Alphabet_sort  txt  Si ce   fichier est absent  le tri se fait selon l indice des caract  res dans le codage Unicode  En mod    ifiant ce fichier  vous pouvez d  finir vos propres pr  f  rences de tri     Remarque   apr  s l application des dictionnaires sur un texte  les fichiers d1f  dlc et err  sont automatiquement tri  s avec ce programme     3 5 Flexion automatique    3 5 1 Flexion des m
384. rase   120  Granularit   des dictionnaires  165  Graphe    388    alignement des bo  tes  111   antialiasing  111   appel    un sous graphe  99   approximation par transducteur fini   124  283   commentaires  96   compilation  123  287   connexion des bo  tes  97   cr  ation d   une bo  te  95   de flexion  55  119   d  tection d erreur  128  284  287   dictionnaire  68   enregistrement  98   export en PNG  115   export en SVG  116   format  314   inclure dans un document  115    INDEX    Installation  sous Linux  20  sous MacOS X  21  sous Windows  20  Intervalle  127    J  Jamo  57  321  Java  Apple Java 1 6 runtime  22  JRE  20  machine virtuelle  20  Runtime Environment  20  Jeu d   tiquettes ELAG  178  JRE  20    L  LADL  13  45  205    options d affichage  polices et couleurs  Langages alg  briques  94    112   param  tr    123  206   pr  sentation  110   principal  299  303   r  pertoire de d  p  t  100   suppression de bo  tes  104   syntaxique  122   types de  119   variables  106   zoom  110  Graphe dictionnaire  68   morphologique  70  Grille  112    H  Hangul  57  294  321    I  Impression  automate de phrase  191  d   un graphe  116  Inclure un graphe dans un document  115  Informations  flexionnelles  46  grammaticales  46  s  mantiques  46    Langages hors contexte  94  Langues s  mitiques  63  Lemme  46  Lev  e d ambiguit  s  171  175  Lexique grammaire  205   table  205  299  303  LGPL  347  LGPLLR  369  Licence   Apache 2 0  361   BSD  357   LGPL  19  347   
385. rate works   But when you distribute the same sections as part of a whole which is a work based  on the Library  the distribution of the whole must be on the terms of this License   whose permissions for other licensees extend to the entire whole  and thus to each  and every part regardless of who wrote it    Thus  it is not the intent of this section to claim rights or contest your rights to  work written entirely by you   rather  the intent is to exercise the right to control the  distribution of derivative or collective works based on the Library    In addition  mere aggregation of another work not based on the Library with the  Library  or with a work based on the Library  on a volume of a storage or distribu   tion medium does not bring the other work under the scope of this License    3  You may opt to apply the terms of the ordinary GNU General Public License  instead of this License to a given copy of the Library  To do this  you must alter all  the notices that refer to this License  so that they refer to the ordinary GNU General    14 13  PLUSIEURS AUTRES FICHIERS 351    Public License  version 2  instead of to this License   If a newer version than version  2 of the ordinary GNU General Public License has appeared  then you can specify  that version instead if you wish   Do not make any other change in these notices    Once this change is made in a given copy  it is irreversible for that copy  so the or   dinary GNU General Public License applies to all subsequent 
386. re affich  e contient un champ qui vous permet  d effectuer une recherche  Si le mot appara  t dans le dictionnaire  le bouton  Find  surligne  la premi  re entr  e correspondante  Si plusieurs entr  es correspondent  vous pouvez les par   courir en cliquant sur les deux boutons en forme de fl  che     E  home paumier unitex French Dela dela fr public dic              phtirius Find   4    gt        phtalonitriles phtalonitrile N mp  phtalyl  PFx   phtal  ine  N fs   phtal  ines  phtal  ine N fp  phtanite  N is  phtanites phtanite N fp  phtiriase  N ts  phtiriases phtiriase N fp  phtiriasique  A ms is    15 imp  phtisie  N z2 fs  phtisie dorsale   N NA fs  phtisie tuberculeuse   N NA fs  phtisies phtisie N z2 fp  phtisies qalopantes phtisie qalopante  N NA z2 fp   phtisies ulc  reuses phtisie ulc  reuse N NA  fp  phtisiog  ne  A ms fs  phtisiog  nes phtisiog  ne A mp   p  phtisiologie  N fe  phtisiologies phtisiologie N fip  phtisiologique  A ms is  pbtisiologiquess htisiologique A mp fp  4 IlL                            FIGURE 3 2     Recherche d un mot dans un dictionnaire    Vous pouvez aussi rechercher un mots dans plusieurs dictionnaires en cliquant sur le bou   ton  Lookup  du menu  DELA   Vous pouvez ensuite s  lectionner les dictionnaires dans  lesquels rechercher le mot que vous avez entr       52 CHAPITRE 3  DICTIONNAIRES                                                       E Dictionary Lookup  gt  Da  Select dictionaries to look up into   User resources System reso
387. reprocessing Replace    Comme pour le d  coupage en phrases  cette grammaire est utilis  e avec le programme  Fst2Txt   mais cette fois en mode REPLACE  ce qui signifie que les entr  es reconnues par  la grammaire sont remplac  es par les s  quences produites par celle ci  On peut voir sur la  figure 2 11 une grammaire qui normalise des contractions verbales en anglais     2 5  PR  TRAITEMENT DU TEXTE 37             Shouldn t     Should not    Ls   is          FIGURE 2 11     Grammaire de normalisation de formes verbales en anglais    38 CHAPITRE 2  CHARGEMENT D UN TEXTE    2 5 4 D  coupage du texte en unit  s lexicales    Certaines langues  en particulier les langues asiatiques  utilisent les s  parateurs de fa  on  diff  rente des langues occidentales   les espaces peuvent   tre interdits  facultatifs ou obli   gatoires  Pour pouvoir g  rer ces particularit  s au mieux  Unitex d  coupe les textes d   une  mani  re d  pendante de la langue  Ainsi  les langues comme le francais sont trait  es selon le  principe suivant      Une unit   lexicale peut   tre    e soit le d  limiteur de phrases  S       e le marqueur  STOP   Contrairement au d  limiteur de phrases  S   le marqueur  STOP   ne peut JAMAIS   tre reconnu par une grammaire  de quelque fa  on que ce soit  Il peut    tre utilis   dans un corpus pour d  limiter des   lements  Par exemple  si un corpus est  form   de nouvelles s  par  es par   STOP    il est impossible pour une grammaire de re   conna  tre une s  quence qu
388. res manipul  es par ELAG ont une syntaxe particuli  re  Elles comportent  deux parties  que nous appelerons partie si et alors  La partie si d une grammaire ELAG se  divise en deux zones d  limit  es par des bo  tes contenant le symbole  lt     gt   La partie alors est  divis  e de la m  me fa  on au moyen du symbole  lt   gt   La signification d une grammaire est  la suivante   dans l   automate du texte  si l   on trouve une s  quence reconnue par la partie si  alors elle doit aussi   tre reconnue par la partie alors de la grammaire  faute de quoi elle sera  retir  e de l automate du texte     La figure 7 12 montre un exemple de grammaire  La partie si reconnait un verbe    la deux   i  me personne du singulier suivi par un tiret et tu  soit en tant que pronom  soit en tant que    172    CHAPITRE 7  AUTOMATE DU TEXTE    a  E FST Text oom Bd  1003 sentences aun moran t  n anda iuumuem  dantunmumala    anmiana sa Wn  4  Sentence   13   fi i                Reset Sentence Graph    Rebuild FST Text  Elag Frame    Explode             Implode    FIGURE 7 11     Automate de la figure 7 9 apr  s nettoyage                   If  tu  follows a verb in the 2nd person singular  and a dash  then it is a pronoun and not the  past participle of  taire         lt PRO PpvIL 2s gt    lt V K gt           lt PRO PpvIL 2s gt           FIGURE 7 12     Exemple de grammaire ELAG elag tu grf    participe pass   du verbe taire  La partie alors impose que tu soit alors consid  r   comme  pronom  La fig
389. rm  e de lettres    e  lt LOWER gt    reconna  t n importe quelle unit   lexicale form  e de lettres minuscules    e  lt UPPER gt    reconna  t n importe quelle unit   lexicale form  e de lettres majuscules      e  lt FIRST gt    reconna  t n importe quelle unit   lexicale form  e de lettres et commen  ant  par une majuscule         e  lt DIC gt    reconna  t n importe quel mot figurant dans les dictionnaires du texte   e  lt SDIC gt    reconna  t n importe quel mot simple figurant dans les dictionnaires du texte     e  lt CDIC gt    reconna  t n importe quel mot compos   figurant dans les dictionnaires du  texte         e  lt TDIC gt    reconna  t n importe quelle unit   lexicale taggu  e comme  XXX  XXX  XXX       e  lt NB gt    reconna  t n importe quelle suite de chiffres contigus  1234 est reconnue mais  pas 1 234      e    interdit la pr  sence de l espace     4 3  MASQUES LEXICAUX 77    Les anciens codes correspondant     lt WORD gt    lt LOWER gt    lt UPPER gt  et  lt FIRST gt    taient re   spectivement  lt MOT gt    lt MIN gt    lt MAJ gt  et  lt PRE gt   Ils restent op  rationnels afin de conserver la  compatibilit   descendante du syst  me avec les graphes existants  mais ils sont maintenant  d  pr  ci  s  c est    dire qu   on recommande de les   viter dans les graphes con  us pour fonc   tionner avec les versions plus r  centes 1  pour ne pas faire augmenter inutilement le nombre  de masques lexicaux en usage                 NOTE   comme il a   t   dit en secti
390. rom FRENCH to Unicode Little Endian     a  Replace   O Rename source with suffix   old        FIGURE 2 2   Conversion automatique d un texte non Unicode    conversion de tous les fichiers  Si une erreur survient lors du traitement d un fichier  par  exemple  un fichier qui serait d  j   en Unicode   le traitement continue avec le fichier suivant      E  Transcode Files    Source encoding  Destination encoding     Replace            Rename source with prefix  O Rename source with suffix   O Name destination with prefix   8  Name destination with suffix   Prefix suffix     ut   6   Selected files  a    D iMy Unitex English Corpusinovel txt  D  My Unitex English Corpus  wiki monoide en txt                   Remove Files    Transcode    Cancel       FIGURE 2 3     Conversion de fichiers    Pour obtenir du texte au bon format  vous pouvez   galement utiliser un traitement de texte  comme le logiciel libre OpenOffice org   74   ou Microsoft Word  et sauvegarder votre doc   ument au format  Texte unicode   Dans OpenOffice Writer  vous devez choisir le format   Coded Text    txt   puis le codage  Unicode  dans la fen  tre de configuration comme le  montre la figure 2 4    Par d  faut  le codage propos   sur un PC est toujours Unicode Little Endian  Les textes ainsi  obtenus ne contiennent plus d   informations de formatage  police  couleurs  etc   et sont pr  ts       tre utilis  s avec Unitex     30 CHAPITRE 2  CHARGEMENT D UN TEXTE  LT i x    ce  Dore initie F    Annuler  Saut de p
391. ros de tokens qui composent  la phrase sont enregistr  s dans un fichier nomm   cursentence tok  Ce fichier  contient une ligne par token  chaque ligne   tant compos  e de 2 entiers x y   x est le  num  ro de token  y est sa longueur en caract  res     Voici le contenu de ce fichier pour la premi  re phrase d   Ivanhoe                  0 74 Ivanhoe  1 1      2 2    by   1 1      3 34 Sir   1 1      4 64 Walter  1 1      5 5 Scott   1 1                      14 5 7 Fichiers tfst tags by_freq txt et tfst tags by_alph txt  Ces fichiers contiennent tous les tags qui apparaissent dans l   automate du texte    class  s par fr  quence et par ordre alphab  tique     14 6 Concordances    14 6 1 Fichier concord ind    Le fichier concord  ind est l index des occurrences trouv  es par les programmes  Locate ou LocateTfst lors de l application d une grammaire  C est un fichier    14 6  CONCORDANCES 325    texte qui contient les positions de d  but et de fin de chaque occurrence    ventuelle   ment accompagn  es d   une cha  ne de caract  res si la concordance a   t   obtenue en  prenant en compte les   ventuelles transductions de la grammaire  Voici un exemple  de fichier                               M4   59 0 0 63 3 0 the ADJ  greater  part   67 0 0 71 4 0 the beautiful hills   87 0 0 91 3 0 the pleasant town   123 0 0 127 4 0 the noble seats    157 0 0 161 5 0 the fabulous Dragon   189 0 0 193 3 0 the Civil WarsY   455 0 0 459 11 0 the feeble interference   463 0 0 467 6 0 the English C
392. rouver dans la racine du r  pertoire de la langue  concern  e  Sa pr  sence est obligatoire pour qu   Unitex puisse fonctionner     Exemple   le fichier d alphabet de l anglais doit se trouver dans le r  pertoire     English     Chaque ligne du fichier alphabet doit avoir l   une des 3 formes suivantes  suivie par  un retour    la ligne      e  71 amp    un di  se suivi de 2 caract  res X and Y indique que tous les caract  res  compris entre les caract  res X et Y sont des lettres  Tous ces caract  res sont  consid  r  s comme   tant    la fois minuscules et majuscules  Ce mode est utile  pour d  finir les alphabets des langues asiatiques comme le cor  en  le chinois ou  le japonais o   il n   y a pas de distinction de casse et o   le nombre de caract  res  rendrait tr  s fastidieuse une   num  ration compl  te      e Aa  2 caract  res X et Y indiquent que X et Y sont des lettres et que X est  l   quivalent en majuscule de la lettre Y     e Y  un unique caract  re X d  finit X comme une lettre    la fois minuscule et  majuscule  Ce mode est utile pour d  finir un caract  re asiatique de mani  re  ponctuelle     Pour certaines langues comme le fran  ais  il arrive qu      une lettre minuscule cor   respondent plusieurs majuscules  For example      qui peut avoir comme majuscule  soit E ou     Pour exprimer cela  il suffit d utiliser plusieurs lignes  L inverse est   gale   ment vrai      une majuscule peuvent correspondre plusieurs minuscules  A  nsi  E  peut   tre la majuscul
393. rtaines langues comme le norv  gien  il est possible de former des mots compos  s  libres en soudant leurs   l  ments  Par exemple  le mot aftenblad signifiant journal du soir est  obtenu en combinant les mots aften  soir  et blad  journal   Le programme PolyLex explore  la liste des mots inconnus apr  s application des dictionnaires au texte et essaye d analyser  chacun de ces mots comme un mot compos    Si un mot poss  de au moins une analyse  il est  retir   de la liste des mots inconnus et les lignes de dictionnaires produites pour ce mot sont  ajout  es au dictionnaire des mots simples du texte     42 CHAPITRE 2  CHARGEMENT D UN TEXTE    Lexical Resources      Select the dictionaries to be applied  You can sort them one by one  using the arrows  Note that system dictionaries are given to the Dico  program before the user ones        User resources System resources          IPfxV Lidia bin   dico lidia bin       ight click a dictionary to get information about it    Graphe dictionnaire reconnaissant les chiffres romains    Ce dictionnaire reconna  t les chiffres romains en majuscules  depuis 1 jusqu    4999  Son avantage par rapport au dictionnaire  RomNum bin est qu il ne prend pas comme chiffres romains L  C  D   M et MM dans les contextes suivants           Set Default       FIGURE 2 14     Param  trage de l application des dictionnaires    2 6 Ouverture d   un texte taggu      Un texte taggu   est un texte contenant des entr  es lexicales entre accolades comme par  ex
394. rtions of the Software     THE SOFTWARE IS PROVIDED  AS IS   WITHOUT WARRANTY OF ANY KIND   EXPRESS OR IMPLIED  INCLUDING BUT NOT LIMITED TO THE WARRANTIES  OF MERCHANTABILITY  FITNESS FOR A PARTICULAR PURPOSE AND NON   INFRINGEMENT  IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLD   ERS BE LIABLE FOR ANY CLAIM  DAMAGES OR OTHER LIABILITY  WHETHER  IN AN ACTION OF CONTRACT  TORT OR OTHERWISE  ARISING FROM  OUT  OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEAL   INGS IN THE SOFTWARE     365    366 CHAPITRE 14 FORMATS DE FICHIERS    Annexe E   Licence open source TMate  de SVNKit    Voici la licence  la note de copyright et la clause de non responsabilit   pour SVNKit   une bibliotheque open source de TMate Software     This license applies to all portions of TMate SVNKit library which are not externally   maintained libraries  e g  Ganymed SSH library      All the source code and compiled classes in package org tigris subversion javahl ex   cept SvnClient class are covered by the license in JAVAHL LICENSE file    Copyright    2004 2009  TMate Software    Redistribution and use in source and binary forms  with or without modification   are permitted provided that the following conditions are met      1  Redistributions of source code must retain the above copyright notice  this list  of conditions and the following disclaimer     2  Redistributions in binary form must reproduce the above copyright notice  this  list of conditions and the following disclaimer in the
395. rucao     e  s   semitic   indique que l algorithme de compression pour langue s  mi   tique doit   tre utilis    Cette option utilis  e avec des langues s  mitiques comme  l arabe r  duit sensiblement la taille du dictionnaire produit      e     v1  produit un fichier  bin ancienne mani  re      e     v2   produit un fichier  bin nouvelle mani  re  mieux comprim   et sans  limitation de taille de fichier    16 Mb  par d  faut     Ce programme prend en param  tre un dictionnaire DELAF et le compresse   La compression d un dictionnaire dico dic produit deux fichiers      e dico bin  fichier binaire contenant l   automate minimal des formes fl  chies  du dictionnaire      e dico inf   fichier texte contenant des formes comprim  es permettant de re   construire les lignes du dictionnaire    partir des formes fl  chies contenues dans  l   automate     Pour plus de d  tails sur les formats de ces fichiers  voir chapitre 14     13 9 Concord       Concord  OPTIONS   lt index gt     Ce programme prend en param  tre un fichier d   index de concordance produit par  le programme Locate et produit une concordance  Il peut   galement produire une    272 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    version du texte modifi  e prenant en compte les transductions associ  es aux occur   rences  Voici la description des param  tres      OPTIONS      e  f FONT   font FONT   nom de la police de caract  res    utiliser si la sortie  est fichier HTML      e  s N   fontsize N   taille de la p
396. s         e  t   tolerate   tol  re des points et des virgules non d  sp  cialis  s  par d     faut       e  n   no space _ warning   tol  re des espaces dans les codes grammaticaux s  mantiques     e  p   skip_path   n affiche pas le chemin complet du dictionnaire  utiles  pour la compatibilit   de fichiers de log sur plusieurs syst  mes       e  a ALPH   alphabet ALPH   indique le fichier alphabet    utiliser     Le programme teste la syntaxe des lignes du dictionnaire  Il dresse   galement la  liste des caract  res pr  sents dans les formes fl  chies et canoniques  la liste des codes  grammaticaux et syntaxiques ainsi que la liste des codes flexionnels utilis  s  Les  r  sultats de la v  rification sont stock  s dans un fichier nomm   CHECK_DIC TXT              13 8  COMPRESS 271    Le choix de   strict permet de d  tecter l   utilisation de points non d  sp  cial   is  s dans la forme fl  chie ou de virgules non d  sp  cialis  es dans la forme canon   ique  L option   tolerate se comporte comme dans les versions Unitex 2 0 et an   t  rieures et ne les d  tecte pas     13 8 Compress       Compress  OPTIONS  dictionary    OPTIONS           e  o BIN   output BIN   d  finit le fichier de sortie  Par d  faut  un fichier  xxx dic produit un fichier xxx bin     e       f1ip indique que les formes fl  chies et canoniques doivent   tre inver   s  es dans le dictionnaire comprim    Cette option est utilis  e pour construire  un dictionnaire invers   n  cessaire au programme Reconst
397. s    ce texte     2 5 2 D  coupage en phrases    Le d  coupage en phrases est une   tape importante du pr  traitement car elle va permettre  de d  finir des unit  s de traitement linguistique  Ce d  coupage sera utilis   par le programme  de construction de l automate du texte  Contrairement    ce que l   on pourrait penser  la re   cherche des limites de phrases n   est pas un probl  me trivial  Consid  rons le texte suivant      La famille a appel   le Dr  Martin en urgence     Le point qui suit Dr est suivi d   un mot commen  ant par une majuscule   il pourrait donc   tre  consid  r   comme un point de fin de phrase  ce qui serait faux  Afin d   viter les probl  mes de  ce genre  dus    des ambigu  t  s des symboles de ponctuation  on utilise des grammaires qui  d  crivent les diff  rents contextes o   peuvent appara  tre les limites de phrases  La figure 2 10  montre un exemple de grammaire de d  coupage en phrases     Placement des marques de s  paration de phrases  S                                         Cas g  n  ral    Ponctuation  parentheses    crochets                                        Ponctuation suivie de cas particuliers  sigles  noms  symboles                 Sigles  pr  noms  anthroponymes     gt  oe    Mots compos  s ou suivis d une lettre majuscule  symboles              cas3       Cas particuliers  Abr  viations Graphe r  alis   par   cas4 Nathalie Friburger  LI Tours   Anne Dister  Univ  de Li  ges   Denis Maurel  LI Tours                 FIGURE 2 1
398. s License  whose  permissions for other licensees extend to the entire whole  and thus to each  and every part regardless of who wrote it    Thus  it is not the intent of this section to claim rights or contest your rights  to work written entirely by you  rather  the intent is to exercise the right  to control the distribution of derivative or collective works based on the  Linguistic Resource     14 13  PLUSIEURS AUTRES FICHIERS 371    In addition  mere aggregation of another work not based on the Linguistic  Resource with the Linguistic Resource  or with a work based on the Lin   guistic Resource  on a volume of a storage or distribution medium does  not bring the other work under the scope of this License     3     program that contains no derivative of any portion of the Linguistic Re   source  but is designed to work with the Linguistic Resource  or an encrypted  form of the Linguistic Resource  by reading it or being compiled or linked with  it  is called a  work that uses the Linguistic Resource   Such a work  in isolation   is not a derivative work of the Linguistic Resource  and therefore falls outside  the scope of this License     However  combining a  work that uses the Linguistic Resource  with the Lin   guistic Resource  or an encrypted form of the Linguistic Resource  creates a  package that is a derivative of the Linguistic Resource  because it contains por   tions of the Linguistic Resource   rather than a  work that uses the Linguistic  Resource   If the pa
399. s SFX   les fichiers sources sont renomm  s avec le suffixe SFX   toto txt    totoSFX txt      e     sd SFX   les fichiers destinations sont renomm  s avec le suffixe SFX     Options HTML    Convert offre des options sp  ciales pour les fichiers HTML  Vous pouvez utiliser  une combinaison des options suivantes      e     dnc  Decode Normal Chars    des s  quences comme seacute   amp  120   et  amp  xF8  sont d  cod  es comme un unique caract  re unicode  sauf si elles  representent un caract  re de contr  le HTML      e     dcc  Decode Control Chars    amp lt   amp gt   amp amp  et  amp quot  sont d  cod  s  comme  lt   gt   amp  et les quote  de m  me pour leur repr  sentation d  cimales et hex   ad  cimales       e     eac  Encode All Chars    chaque caract  re non support   par l encodage de  sortie est repr  sent   par une cha  ne comme 4457     e     ecc  Encode Control Chars     lt   gt   amp  et les quote sont encod  s par   1t   amp gt   samp  et  amp quot     Par d  faut  toutes les options HTML sont d  sactiv  es     Autres options         e  m   main names   imprime la liste des noms principaux des encodage      e  a   aliases   imprime la liste des alias d encodage        e  A   all infos   imprime toutes les information concernant tous les en   codages      e  i X   info X  imprime toutes les information concernant l encodage X     Les encodages prennent leurs valeurs dans la liste suivante  liste non exhaustive   voir ci dessous       FRENCH  ENGLISH  GREEK  THA
400. s chapitres 4 et 5 pr  sentent les diff  rents moyens d effectuer des recherches de motifs  dans des textes  Le chapitre 5 d  crit en d  tail l   utilisation de l   diteur de graphe     Le chapitre 6 est consacr   aux diff  rentes utilisations possibles des grammaires  Les partic   ularit  s de chaque type de grammaires y sont pr  sent  es     Le chapitre 7 pr  sente le concept d automate du texte et d  crit les propri  t  s de cette notion   Ce chapitre d  crit   galement les op  rations sur cet objet  en particulier  comment d  sam     biguiser les items lexicaux avec le programme ELAG     Le chapitre 9 contient une pr  sentation des tables du lexique grammaire  et la description  d une m  thode de construction de grammaires fond  es sur ces tables     Le chapitre 10 d  crit le module d   alignement de texte bas   sur l outil XAlign     Le chapitre 11 d  crit le module de flexion des mots compos  s  en tant que compl  ment du  syst  me de flexion des mots simples  pr  sent   au chapitre 3     Le chapitre 12 d  crit le syst  me de cascade de transducteur CasSys     Le chapitre 13 contient une description d  taill  e des programmes externes qui composent le  syst  me Unitex     Le chapitre 14 contient une description de tous les formats de fichiers utilis  s par Unitex     Le lecteur trouvera en annexe la licence LGPL sous laquelle le code source Unitex est diffus     ainsi que la licence LGPLLR qui s applique pour les donn  es linguistiques distribu  es avec  Unitex  Il y tr
401. s dans l   automate  Ces   tiquettes ne sont    7 2  CONSTRUCTION 167    accumulation des  accumulation de    NDET Dnom1 4    accumulation       N z1 fs       PRO PpvLE z1 3fs    FIGURE 7 5     Automate normalis   avec la grammaire de la figure 7 4    pas concurrentes avec les deux chemins pr  existants pour la s  quence 1    gr  ce    l heuris   tique  keep best paths   voir section 7 2 4   La normalisation    la construction de l automate  du texte permet d   ajouter des chemins    l   automate  pas d en supprimer  La suppression des  chemins est partiellement faite par l heuristique  keep best paths  si elle est s  lectionn  e   Pour aller plus loin  vous devez utiliser les fonctionnalit  s de d  sambiguisation du syst  me  ELAG    7 2 3 Normalisation des pronoms clitiques en portugais    En portugais  les verbes au futur et au conditionnel peuvent   tre modifi  s par l inser   tion d   un ou deux pronoms clitiques entre le radical et le suffixe du verbe  Par exemple  la  s  quence dir me ao  ils me diront   correspond    la forme verbale complete dir  o  associ  e au  pronom me  En vue de pouvoir effectuer des manipulations sur cette forme r    crite  il est  n  cessaire de l introduire dans l automate du texte  en parall  le de la s  quence d   origine   Ainsi  l utilisateur pourra rechercher l   une ou l   autre forme selon ses besoins  Les figures 7 6  et 7 7 montrent l automate d   une phrase avant et apr  s normalisation des clitiques     168 CHAPITRE 7  AUTOMATE DU 
402. s dans un m  me processus  afin d   acc  l  rer le traitement  Cela se fait en  invoquant des commandes imbriqu  es entre parenth  ses comme ceci      UnitexTool   SelectOutput  OPTIONS       cmd  l args      cmd  2 args    ete           306 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    Par exemple  si vous souhaitez faire un locate et construire la concordance  vous  pouvez utiliser la commande suivante         UnitexTool   Locate   tD  My Unitex English Corpus ivanhoe snt    D  My Unitex English regexp fst2      aD  My Unitex English Alphabet txt   L  I  n200       morpho D  Unitex2 0 English Dela dela en public bin   b  Y      Concord  D  My Unitex English Corpus ivanhoe_snt concord ind     fCourier new   s12  140  r55 CL html       aD  My Unitex English Alphabet_sort txt                                              OPTIONS      e  o  on off     output  on off    activer  on  ou d  sactiver  off  la sor   tie standard    e  e  on off     error  on off    activer  on  ou d  sactiver  off  la sortie  erreur standard    Par exemple      UnitexTool   SelectOutput  o off  e off     Normalize  Unitex English Corpus ivanhoe txt      13 50 UnitexToolLogger    UnitexToolLogger  lt utilities gt     Ce programme est un surensemble de UnitexTool  Il permet d   ex  cuter    nouveau  un fichier de log  ulp  Il peut   galement enregistrer une session d   UnitexTool en  cours d ex  cution et cr  er un fichier de log  ulp  Si UnitexToolLogger est utilis    comme UnitexTool  avec uniq
403. s la forme canonique du mot compos    Par exemple  la figure 11 6 contient un graphe  d  crivant la flexion pour le masculin comme pour le f  minin des mots compos  s de type  Nom Nom et Nom Adjectif  La premi  re bo  te contient l affectation du genre par double signe    gale pour la variable  g  ce qui signifie que cette variable a pour genre celui du premier  constituant  Pour bateau mouche c est le masculin parce que bateau est masculin tandis que  pour main courante c est le f  minin     Sito Mam ans         lt Gen  g Nb  n gt     e g  bateau mouche    FIGURE 11 6     Graphe de flexion bateau mouche avec deux types d instanciation    Quand une affectation par double symbole   gale coexiste avec une affectation par simple  symbole   gale  sur le m  me chemin et pour la m  me variable  l affectation par double sym   bole   gale pr  vaut sur l   autre   la variable est instanci  e une seule fois  Par exemple  sur la  figure 11 6 la sortie finale contient Gen  g  mais  g prend une seule valeur d  termin  e par  le premier constituant     Le syst  me d   unification est particuli  rement utile pour des langues    la flexion riche  Par  exemple  en polonais la plupart des noms se fl  chissent en nombre  2 valeurs  et en cas   7 valeurs   ce qui implique au moins 14 formes diff  rentes  si des variantes et des formes    11 2  FORMALISME DE FLEXION DES MOTS COMPOS  S 231    syncr  tiques diff  rent   Ce score est encore plus   lev   pour les adjectifs qui se fl  chissent  en nom
404. s liens r  els renvoyant vers le serveur web  de l application GlossaNet  Pour plus d information sur GlossaNet  consulter les  liens sur le site web d   Unitex  http     www igm univ mlv fr  unitex      Voici un exemple de fichier       lt html lang en gt Y   lt head gt Y    1        lt meta http equiv  Content Type  content  text html   charset UTF 8  gt Y   lt title gt 6 matches lt  title gt Y   lt  head gt    lt body gt Y   lt table border  0  cellpadding  0  width  100    style  font family     Arial Unicode MS     font size  12  gt 4   lt font face  Courier new  size 3 gt Y  on  there  lt a href  116 124 2  gt extended lt  a gt   nbsp  i amp nbsp   lt br gt              14 6  CONCORDANCES 327     amp nbsp extended  lt a href  125 127 2  gt in lt  a gt   nbsp  ancient   nbsp   lt br gt    amp nbsp  Scott  S  lt a href  32 34 2  gt IN lt  a gt  amp nbsp  THAT PL amp nbsp   lt br gt   STRICT of  lt a href  61 66 2  gt merry lt  a gt    amp nbsp  Engl  nbsp   lt br gt    S IN THAT  lt a href  40 48 2  gt PLEASANT lt  a gt  amp nbsp  D amp   nbsp   lt br gt    amp nbsp which is  lt a href  84 91 2  gt watered lt  a gt    amp nbsp  by amp nbsp   lt br gt   S ront     lt  td gt  lt  table gt  lt  body gt Y    lt  htm1 gt 4                      La figure 14 2 montre la page correspondant au fichier ci dessus     F concordance  Da    o m Bd      MATTRE  L AUTRE  TRE COMME DOMESTIQUE  _     tait habit  e     UN COMME MA  TRE  l un des membres  la maison portant                   
405. s pouvez    tout moment changer de langue en cliquant  sur  Change Language     dans le menu  Text   Si vous changez de langue  le programme  fermera  s   il y en a  toutes les fen  tres relatives au texte courant  La langue courante est  indiqu  e sur la barre de titre de l interface graphique     27    28 CHAPITRE 2  CHARGEMENT D UN TEXTE  CCE x   2  User  paumier    Choose the language you want    to work on           FIGURE 2 1     S  lection de la langue au lancement d Unitex    2 2 Format des textes    Unitex manipule des textes Unicode  Unicode est un standard qui d  crit un codage uni   versel des caract  res  Chaque caract  re se voit attribuer un num  ro unique  ce qui permet  de repr  senter des textes sans avoir    tenir compte des codages propres aux diff  rentes  machines et ou syst  mes d exploitation  Unitex utilise une repr  sentation cod  e sur deux  octets du standard Unicode 3 0  appel  e Unicode Little Endian  pour plus de d  tails  voir     16       Les textes fournis avec Unitex sont d  ja au format Unicode  Si vous essayez d   ouvrir un texte  qui n   est pas au format Unicode  le programme vous proposera de le convertir automatique   ment  voir figure 2 2   Cette conversion se base sur la langue courante   si vous travaillez en  francais  Unitex vous proposera de convertir votre texte 1  en supposant qu il est cod   avec  un codage fran  ais  Par d  faut  Unitex vous propose soit de remplacer le texte original  soit  de renommer le fichier d   origine
406. s section is held invalid or unenforceable under any particular  circumstance  the balance of the section is intended to apply  and the section as a  whole is intended to apply in other circumstances    It is not the purpose of this section to induce you to infringe any patents or  other property right claims or to contest validity of any such claims  this section has  the sole purpose of protecting the integrity of the free software distribution system    354 CHAPITRE 14 FORMATS DE FICHIERS    which is implemented by public license practices  Many people have made gener   ous contributions to the wide range of software distributed through that system in  reliance on consistent application of that system  it is up to the author donor to  decide if he or she is willing to distribute software through any other system and a  licensee cannot impose that choice    This section is intended to make thoroughly clear what is believed to be a conse   quence of the rest of this License    12  If the distribution and or use of the Library is restricted in certain countries  either by patents or by copyrighted interfaces  the original copyright holder who  places the Library under this License may add an explicit geographical distribu   tion limitation excluding those countries  so that distribution is permitted only in  or among countries not thus excluded  In such case  this License incorporates the  limitation as if written in the body of this License    13  The Free Software Foundatio
407. s une voyelle e    Il est possible de combiner ces filtres   l  mentaires pour former des filtres plus complexes      e  lt  lt  ailble  gt  gt   finit par able ou ible  e  lt  lt    anti pro      gt  gt  commence par anti ou pro  suivi par un tiret facultatif    e  lt  lt     rst   aeiouy    2     gt  gt    mot form   de 2 ou plus s  quences commen  ant  par un r  s ou t suivi d une voyelle non accentu  e    e  lt  lt      1  1  e   gt  gt   ne commence pas par 1 ou alors la deuxi  me lettre n est pas  un e  c est    dire n importe quel mot sauf ceux qui commencent par le  De telles con   traintes peuvent   tre exprim  es plus simplement en utilisant des contextes  voir 6 3      Par d  faut  un filtre morphologique tout seul est consid  r   comme s appliquant au m  ta   lt TOKEN gt   c est    dire    n   importe quelle unit   lexicale sauf l   espace et le marqueur  STOP    En revanche  lorsqu un filtre suit imm  diatement un motif  il s applique    ce qui est reconnu  par le motif  Voici quelques exemples de telles combinaisons      e  lt V K gt  lt  lt i  gt  gt    participe pass   finissant par i    e  lt CDIC gt  lt  lt   gt  gt    mot compos   contenant un tiret       e  lt CDIC gt  lt  lt      gt  gt   mot compos   contenant deux espaces   e  lt A  fs gt  lt  lt  pro gt  gt   adjectif f  minin singulier commen  ant par pro   e  lt DET gt  lt  lt     u     u  n      un       gt  gt   d  terminant diff  rent de un   e  lt  DIC gt  lt  lt es  gt  gt    mot qui n est pas d
408. sabilit   pour Xerces2  Java Parser  un analyseur syntaxique XML utilis   par XAlign   68       Copyright    1999 2010 The Apache Software Foundation  All Rights Reserved   Apache License  Version 2 0  January 2004  http     www apache org   licenses    TERMS AND CONDITIONS FOR USE  REPRODUCTION  AND DISTRIBUTION    1  Definitions     License  shall mean the terms and conditions for use  reproduction  and distribu   tion as defined by Sections 1 through 9 of this document     Licensor  shall mean the copyright owner or entity authorized by the copyright  owner that is granting the License     Legal Entity  shall mean the union of the acting entity and all other entities that  control  are controlled by  or are under common control with that entity  For the  purposes of this definition   control  means  i  the power  direct or indirect  to cause  the direction or management of such entity  whether by contract or otherwise  or  ii   ownership of fifty percent  50   or more of the outstanding shares  or  iii  beneficial  ownership of such entity     You   or  Your     shall mean an individual or Legal Entity exercising permissions  granted by this License     Source  form shall mean the preferred form for making modifications  including  but not limited to software source code  documentation source  and configuration  files     Object  form shall mean any form resulting from mechanical transformation or  translation of a Source form  including but not limited to compiled object 
409. section 5 2 8   soit avec     xxx   et     xxx    Elles apparaissent en bleu  voir figure 6 49   Cette grammaire appliqu  e en mode MERGE  au texte Ivanhoe produit la concordance visible sur la figure 6 50        256 matches    also flourished in ancient times those bands output NOUN  of gallant outlaws  whose deeds have     n and oppression possessed by the great Barons output NOUN   that they never wanted the pretext    were fought many of the most desperate battles output NOUN  during the Civil Wars of the Rose  orest  covering the greater part of the beautifulfoutput ADJ  hills and valleys which lie betw  ds of gallant outlaws  whose deeds have been output NOUN  rendered so popular in English    ish bosom  and at the certain hazard of being output ADJ  involved as a party in whatever rash  red so popular in English song  S  Such being output ADJ  our chief scene  the date of our stoy  ish bosom  and at the certain hazard of being output NOUN  involved as a party in whatever ras     ammm loman Tm md ECS nn om de p dam PE ti tt am nn   Ill       v                               FIGURE 6 50   Concordances obtenues avec la grammaire de la figure 6 49    Au moment o   une variable de sortie est initialis  e  les s  quences de sortie du transducteur  ne sont pas   mises dans la sortie correspondant    l occurrence courante  elles sont seulement  m  moris  es dans la variable de sortie cr    e par cette op  ration  Par exemple  les sorties ADJ  et NOUN de la figure figure 6 49 n 
410. section 6 10 6  page 159     lt concorl1 gt  et  lt concor2 gt  fichiers de concordances   ind  doivent avoir des noms  absolus  car Unitex en d  duit le texte sur lequel elles ont   t   calcul  es      OPTIONS    e  o X   out X   page HTML de sortie     e  f FONT   font FONT   police    utiliser dans le page HTML de sortie        e  s N   size  N  taille de police    utiliser dans le page HTML de sortie      e  d   diff_only ne pas afficher les s  quences identiques      13 11 Convert    Convert  OPTIONS   lt text_1 gt    lt text_2 gt   lt text_3 gt             Ce programme permet de transcoder des fichiers textes     OPTIONS     e  s X   src X   encodage d   entr  e                     e  d X   dest X   encodage de sortie  par d  faut LITTLE ENDIAN      Options de translit  ration  seulement pour l arabe       e  F   delaf   l entr  e est un DELAF et l   on veut seulement translit  rer les  formes fl  chies et canoniques         e  S   delas   l entr  e est un DELAS et l   on veut seulement translit  rer les  formes canoniques     Options de sortie         e  r   replace  la conversion   crase les fichiers source  par d  faut      e  o file   output file   nom du fichier de destination  seulement un  fichier    convertir       e       ps PFX  les fichiers sources sont renomm  s avec le pr  fixe PFX  toto txt    gt PFXtoto txt      276 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e      pd PFX   les fichiers destinations sont renomm  s avec le pr  fixe PFX     e     s
411. see is addressed as   you     A  linguistic resource  means a collection of data about language prepared so  as to be used with application programs     The  Linguistic Resource   below  refers to any such work which has been dis   tributed under these terms  A  work based on the Linguistic Resource  means  either the Linguistic Resource or any derivative work under copyright law    that is to say  a work containing the Linguistic Resource or a portion of it  ei   ther verbatim or with modifications and or translated straightforwardly into  another language   Hereinafter  translation is included without limitation in  the term  modification       369    370    CHAPITRE 14 FORMATS DE FICHIERS     Legible form  for a linguistic resource means the preferred form of the re   source for making modifications to it     Activities other than copying  distribution and modification are not covered  by this License   they are outside its scope  The act of running a program us   ing the Linguistic Resource is not restricted  and output from such a program  is covered only if its contents constitute a work based on the Linguistic Re   source  independent of the use of the Linguistic Resource in a tool for writing  it   Whether that is true depends on what the program that uses the Linguistic  Resource does       You may copy and distribute verbatim copies of the Linguistic Resource as you    receive it  in any medium  provided that you conspicuously and appropriately  publish on each copy
412. si votre processeur est de type  Intel  comme Xeon   alors vous avez un processeur 64 bits     22 CHAPITRE 1  INSTALLATION D UNITEX  1 5 1 Utiliser Apple Java 1 6 runtime    Si vous utilisez Mac OS X 10 5  ou ult  rieur  sur des processeurs Intel 64 bits  vous pou     vez simplement utiliser le Java 1 6 d Apple  Vous pouvez l obtenir    partir de https     support apple com kb DL1359    Vous pouvez aller dans Application   gt  Utilities   gt  Java Preferences pour v  rifier la pr  sence  de  Java SE 6  dans la liste  Java Applications      Option 1   modifier le runtime par d  faut pour Java Applications    Si vous n utilisez pas une autre application Java qui a besoin de Java 1 5  vous pouvez  simplement mettre  Java SE 6  en haut de la liste   Applications Java  dans Utilitaire de  pr  f  rence Java     Option 2   Cr  er un alias pour lancer Java 1 6  Si vous ne voulez pas modifier les param  tres globaux de Java  vous pouvez cr  er un alias  alias jre6   System Library Frameworks JavaVM framework Versions  1 6 Commands   jre6  jar Unitex jar  Ensuite lancer Unitex depuis un terminal   1 5 2 Comment rendre tous les fichiers visibles sur Mac OS  Voir http    www macworld com article 51830 2006 07 showallfinder html   Ou essayez tout de suite    Tapez    defaults write com apple Finder AppleShowAllFiles ON  Ensuite red  marrez le Finder      killall Finder              Terminal     bash     75x5     381       FIGURE 1 1     Red  marrez le Finder    1 6  PREMI  RE UTILISATION 
413. silon     Il n   est pas possible d associer une sortie    un appel    un sous graphe  De telles sorties sont  ignor  es par Unitex  Il faut donc utiliser une bo  te vide situ  e imm  diatement    gauche de  l appel au sous graphe pour porter la sortie  voir figure 6 7      Les grammaires ne doivent pas non plus comporter de boucles infinies  car les programmes  d Unitex ne pourraient jamais terminer l exploration de telles grammaires  Ces boucles peu   vent   tre dues    des transitions   tiquet  es par le mot vide epsilon ou    des appels de sous   graphes r  cursifs     Les boucles dues    des transitions par le mot vide peuvent avoir deux origines dont la pre   mi  re est illustr  e par la figure 6 8  Ce type de boucle est d   au fait qu   une transition par  le mot vide ne peut pas   tre   limin  e automatiquement par Unitex lorsqu elle est munie  d une sortie  Ainsi  la transition par le mot vide de la figure 6 8 ne sera pas supprim  e et  provoquera une boucle infinie     126 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    DET is ignored on this path       DET    but not on this one    FIGURE 6 7   Comment associer une sortie    un appel de sous graphe     lt E gt   Ue 5 0  ADJ   N  FIGURE 6 8     Boucle infinie due    une transition par le mot vide avec sortie    La seconde cat  gorie de boucle par epsilon concerne les appels    des sous graphes pouvant  reconna  tre le mot vide  Ce cas de figure est illustr   par la figure 6 9   si le sous graphe Adj  reconnait epsil
414. sont des fichiers  txt qui ont   t   pr  trait  s par Unitex  Ces fichiers ne  doivent pas contenir de tabulation  Ils ne doivent pas non plus contenir plusieurs  espaces ou retours a la ligne cons  cutifs  Les seules accolades autoris  es dans des  fichiers   snt sont celles du s  parateur de phrases  S  et celles des   tiquettes lexi   cales    aujourd    hui   ADV          14 43 Fichier text cod    Le fichier text   cod est un fichier binaire contenant une suite d   entiers repr  sen   tant le texte  Chaque entier i renvoie au token d indice i dans le fichier tokens t xt  Ces entiers sont cod  s sur 4 octets     NOTE   les tokens sont num  rot  s    partir de 0     14 4 4 Fichier tokens txt    Le fichier tokens txt est un fichier texte contenant la liste de toutes les unit  s  lexicales du texte  La premi  re ligne de ce fichier indique le nombre d unit  s con   tenues dans le fichier  Les unit  s sont s  par  es par des retours    la ligne  Quand une    320 CHAPITRE 14 FORMATS DE FICHIERS    s  quence est trouv  e dans le texte avec des variantes de casse  chaque variante est  cod  e par une unit  e distincte     NOTE   les retours    la ligne   ventuellement pr  sents dans le fichier   snt sont cod  s  comme des espaces  Il n   y a donc jamais d unit   codant le retour    la ligne     14 4 5 Fichier tok_by_alph txt et tok_by_freq txt    Ces deux fichiers sont des fichiers texte qui contiennent la liste des unit  s lexi   cales tri  e par ordre alphab  tique ou par ordre 
415. sse puisse fusse   je     1 p     lt nombre gt      lt genre gt   lt nombre gt     Le symbole   indique que le reste de la ligne est en commentaire  Un commentaire peut  appara  tre    n importe quel endroit dans le fichier  Le fichier commence toujours par le mot    NAME      Suivi par un identifiant  french  dans l exemple   La suite du fichier est constitu  e    de sections POS  pour Part Of Speech  partie du discours   une pour chaque cat  gorie gram   maticale  Chaque section d  crit la structure des   tiquettes des entr  es lexicales appartenant     la cat  gorie grammaticale concern  e  Chaque section se compose de 4 parties qui sont  toutes optionnelles      flex   cette partie   num  re les codes flexionnels relatifs    la cat  gorie grammaticale   Par exemple  les codes 1  2  3 qui d  notent la personne de l entr  e  sont des codes per   tinents pour les pronoms mais pas pour les adjectifs  Chaque ligne d  crit un attribut  flexionnel  genre  temps  etc   et est compos  e du nom de l attribut  suivi du signe   et  des valeurs qu il peut prendre   Par exemple  la ligne suivante d  clare un attribut pers  pouvant prendre les valeurs 1  2 or 3     pers   1 2 3    cat   cette partie d  clare les attributs syntaxiques et s  mantiques qui peuvent   tre  attribu  s aux entr  es appartenant a la cat  gorie grammaticale concern  e  Chaque ligne  d  crit un attribut et les valeurs qu   il peut prendre  Les codes d  clar  s pour un m  me  attribut doivent   tre exclusifs les u
416. ssible de nier un attribut flexionnel  en   crivant le caract  re     juste avant une des  valeurs possibles pour cet attribut  Ainsi  le symbole  lt A   m p gt  reconna  t tous les adjectifs  qui n   ont ni genre ni nombre  A l   aide de cet op  rateur  il est maintenant possible d   crire  des grammaires comme celles de la figure 7 19  qui imposent l accord en genre et en nom   bre entre un nom et l adjectif qui le suit   Cette grammaire conservera l analyse correcte de  phrases comme   Les personnes de bonne humeur m insupportent     Il est toutefois recommand   de limiter l usage de l op  rateur    car cela nuit    la lisibilit    des grammaires  Il est pr  f  rable de distinguer les   tiquettes qui acceptent diff  rentes com   binaisons flexionnelles au moyen de sous cat  gories discriminantes d  finies dans la partie  discr     Codes optionnels    Les codes syntaxiques et s  mantiques optionnels sont d  clar  s dans la partie cat  Ils peu   vent   tre utilis  s dans les grammaires ELAG comme les autres codes  La diff  rence est que       2  Cette grammaire n est pas compl  tement correcte  car elle   limine par exemple l analyse correcte de la  phrase   J ai recu des coups de fil de ma mere hallucinants     7 3  LEVEE D AMBIGUI  T  S LEXICALES AVEC ELAG 183       FIGURE 7 19     Grammaire ELAG v  rifiant l accord en genre et en nombre entre un nom et  l adjectif qui le suit    ces codes n interviennent pas pour d  cider si une   tiquette doit   tre rejet  e comme invali
417. st franz txt bak  xt G novel txt G test_tagges snt   p5 xml A novel txt bak IN  test_tagges txt   p5_xalign snt    skepticism txt G toto snt     p5_xalign txt G test franz snt G uima_0 snt   y test franz txt Ey uima_0 txt       File Name     skepticism  td       FIGURE 2 8     Ouverture d   un texte Unicode    as free compound words  est utilis  e en norv  gien pour analyser correctement les mots    2 5  PR  TRAITEMENT DU TEXTE 33    Preprocessing  amp  Lexical parsing y t x     Preprocessing       lv  Apply graph in MERGE mode    EnglishiGraphsiPreprocessing SentenceiSentence gri  Set                          v  Apply graph in REPLACE m    lexEnglishiGraphsiPreprocessing Replace Replace grfl Set          Tokenizing    The text is automatically tokenized  This operation is language dependant   so that Unitex can handle languages with special spacing rules        Lexical Parsing                            7  Apply All default Dictionaries gol  Ja  Analyse unknown words as free compound words  this option Cancel but tokenize text  is available only for Dutch  German  Norwegian  amp  Russian  m  Construct Text Automaton Cancel and close text                FIGURE 2 9     Fen  tre de pr  traitement    compos  s libres form  s par soudure de mots simples  Enfin  l option  Construct Text Au   tomaton  est utilis  e pour construire l automate du texte  Cette option est d  sactiv  e par  d  faut  car elle entra  ne une forte consommation de m  moire et d espace disque si le texte  es
418. strazxni sudija N XNF N Comp  7vms   istrazxnom sudiji istrazxni sudija NC_AXNF N Comp 7vms   istrazxni sudijo istrazxni sudija NC_AXNF N Comp  5vms   istrazxni sudija istrazxni sudija NC_AXNF N Comp 5vms   istrazxnim sudijom istrazxni sudija NC_AXNF N Comp  6vms   Dinkicx Mirosinka Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName slvf  Dinkicx Mirosinke Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s2vf  Dinkicx Mirosinki Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s3vf  Dinkicx Mirosinku Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s4vf  Dinkicx Mirosinka Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s5vf  Dinkicx Mirosinkom Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s6vf  Dinkicx Mirosinki Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s7vf                                           C_A  C_A                                           Mirosinka Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName slvf  Mirosinke Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s2vf  Mirosinki Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s3vf  Mirosinku Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s4vf  Mirosinka Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName  s5vf  Mirosinkom Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s6vf  Mirosinki Dinkicx Mirosinka Dinkicx NC_ImePrezime N Comp Hum PersName s7vf                                                                   gladni kao
419. such damages     9  Accepting Warranty or Additional Liability  While redistributing the Work or  Derivative Works thereof  You may choose to offer  and charge a fee for  accep   tance of support  warranty  indemnity  or other liability obligations and  or rights  consistent with this License  However  in accepting such obligations  You may act  only on Your own behalf and on Your sole responsibility  not on behalf of any other  Contributor  and only if You agree to indemnify  defend  and hold each Contributor  harmless for any liability incurred by  or claims asserted against  such Contributor  by reason of your accepting any such warranty or additional liability     END OF TERMS AND CONDITIONS    Annexe D   Licence MIT de LibYAML    Voici la licence  la note de copyright et la clause de non responsabilit   pour la bib   lioth  que open source LibYAML d analyse syntaxique YAML 1 1   crite en C     Copyright    2006 Kirill Simonov    Permission is hereby granted  free of charge  to any person obtaining a copy of this  software and associated documentation files  the  Software    to deal in the Soft   ware without restriction  including without limitation the rights to use  copy  mod   ify  merge  publish  distribute  sublicense  and   or sell copies of the Software  and to  permit persons to whom the Software is furnished to do so  subject to the following  conditions      The above copyright notice and this permission notice shall be included in all copies  or substantial po
420. such modifications    You must give prominent notice with each copy of the work that the Library is  used in it and that the Library and its use are covered by this License  You must  supply a copy of this License  If the work during execution displays copyright no   tices  you must include the copyright notice for the Library among them  as well as  a reference directing the user to the copy of this License  Also  you must do one of  these things     a  Accompany the work with the complete corresponding machine readable source  code for the Library including whatever changes were used in the work  which  must be distributed under Sections 1 and 2 above   and  if the work is an executable  linked with the Library  with the complete machine readable  work that uses the  Library     as object code and  or source code  so that the user can modify the Library  and then relink to produce a modified executable containing the modified Library    It is understood that the user who changes the contents of definitions files in the  Library will not necessarily be able to recompile the application to use the modified  definitions     b  Use a suitable shared library mechanism for linking with the Library  A suit   able mechanism is one that  1  uses at run time a copy of the library already present  on the user s computer system  rather than copying library functions into the exe   cutable  and  2  will operate properly with a modified version of the library  if the  user installs one  
421. suis V P1s     suis V Y2s P2s P1ls   M N mp ms   Mdiba  de DET Dind fp mp fs ms     de PREP     de PREP z1    de la DET Dind z1 fs     de PREP z1 des DET Dind z1l mp  fp     de PREP z1   du DET Dind z1 ms     de la DET Dind z1 fs     des DET Dind z1 mp fp      du DET Dind zl ms  LG   ville N fs    S                                196 CHAPITRE 7  AUTOMATE DU TEXTE      Automaton   Table                                                                                                          Filter grammatical semantic codes   v  Always show POS category  regardless filtering  Export all text as POS list      AI    Only POS category    Use filter      A Z    Form POS sequence  1 POS sequence  2   DANS DANS dans PREP Dnom  LEQUEL LEQUEL  lequel DET Dnom ms    Phileas Fogg  N Hum  Phileas Fogg N Hum  ET ET et CONJC  PASSEPARTOUT   8  se PRO PpvLE 3fs 3ms 3fp 3mp se  PRO PpvLUI 315 3ms 31p 3m  ACCEPTENT ACCEPTENT accepter V P3p S3p  R  CIPROQUEMENT RECIPROQUEMENT r  ciproquement ADV  L  la le DET Ddef fs la le PRO PpvLE 3fs  L UN L UN l un PRO Pind ms   UN UN un A ms UN un DET Dind ms  COMME COMME   comme  ADV COMME   comme  CONJS   MATTRE MATTRE ma  tre N ms   r  L  la le DET Ddef fs la le PRO PpvLE 3fs  AUTRE AUTRE  autre  DET Dadj ms fs   COMME COMME   comme   ADV COMME   comme  CONJS  DOMESTIQUE DOMESTIQUE domestiquer V Kms DOMESTIQUE  domestique A ms                        FIGURE 7 36     Affichage d   une table filtr  e    7 9 Le cas particulier du cor  en    Le cor  en est u
422. t         lt Gen m Nb s Case 4 Anim  a gt         lt  1 Gen m Nb s Case 4 Anim  a Det d gt        FIGURE 11 33   Graphe de flexion NC_AXNF de mots compos  s serbes    11 3  INT  GRATION    UNITEX 249    feminin name  first name  sumame   Katarina Jovanovic     lt  1 Anim   a Gen f Case  c Nb s gt        lt  2 gt     lt  3 Nb s Anim  a  Gen   g1 Case 1 gt             lt  3 Nb s  Anim  a Gen   g1 Case 1 gt        lt  2 gt      lt  1 Anim   a Gen f Case  c Nb     feminine name  surname  first name   Jovanovic Katarina      we      lt Nb s Case  c Anim  a  Gen f gt         masculine name  first name  surname   Ljuba Popovic b s   Case fc Anim fa   Gen m gt      lt  1 Anim   a  Gen mCase  c Nb s gt        lt  2 gt      lt  3 Nb        s Anim  a Gen   gl Case  c gt   H        masculine name  surname  first name   Popovic Ljuba     lt  3Nb s  Anim  a   Gen   g1 Case 1 gt       lt  2 gt      lt  1 Anim   a  Gen m Case  c Nb s gt           FIGURE 11 34   Graphe de flexion NC_ImePrezime de mots compos  s serbes    gladan kao vuk       Es          lt  1 Nb s Case  c  Gen  g Anim   a Det  d Comp   cp gt       lt Nb s Case  c Gen  g Anim  a  Det  d  Comp  cp gt          Es              lt  1Nb p Case   c Gen  g Anim   a Det  d Comp   cp gt         lt Nb p Case  c Gen  g Anim  a  Det  d  Comp  cp gt         lt  1 Nb w Case 5c Gen  g Anim   a Det  d Comp   cp gt             net     FIGURE 11 35   Graphe de flexion AC_A3XN2 de mots compos  s serbes    250 CHAPITRE 11  FLEXION DES MOTS COMPOS
423. t    lt   LOWER gt     lt  UPPER gt  et  lt  FIRST gt    Au lieu de reconna  tre toutes les formes qui ne sont pas re   connues par le m  ta sans la n  gation  ces motifs ne donnent que des formes qui sont des  s  quences de lettres  Ainsi  le m  ta  lt  DIC gt  permet d obtenir les mots inconnus du texte  cf   figure 4 1   Ces formes inconnues sont le plus souvent des noms propres  des n  ologismes  et des fautes d   orthographe        15  Concordance  D    My Unitex EnglishCorpus ivanhoe_snticoncord html    istresses of the oppressed     If Prior Aymer rode hard in the chase  or remained long at the b  emained long at the banquet    if Prior Aymer was seen  at the early peep of dawn  to enter the  whatsoever to atone for them     Prior Aymer  therefore  and his character  were well known to  beisance  and received his  benedicite  mes filz   in return     But the singular appearance of  ance  and received his  benedicite  mes filz   in return     But the singular appearance of his  y could scarcely attend to the Prior of Jorvaulx  question  when he demanded if they knew of an  raising his voice  and using the lingua Franca  or mixed language  in which the Norman and Saxo  st servants of Mother Church   repeated Wamba to himself    but  fool as he was  taking care no  iding would carry them to the Priory of Brinxworth  where their quality could not but secure th  ch would bring them to the hermitage of Copmanhurst  where a pious anchoret would make them sha  d not dizzied th
424. t   lt jp gt    lt p id  5  gt We will have to decide  lt seg type  sequence  gt in the next few days lt  seg gt  how we take all this together  lt  p gt    lt  body gt     lt ftext gt     lt  TEI 2 gt     FIGURE 8 3     TEILite    8 2 Utilisation    Pour cr  er un automate de s  quences  cliquez sur  S  quence Construct Automate  dans  le menu  Text   Vous verrez alors appara  tre la fen  tre de la figure 8 4    Cette fen  tre vous permet de d  finir les param  tres pour produire un automate s  quence   Vous devez suivre ces trois   tapes      e choisissez le corpus s  quences   celui ci peut   tre un fichier dont le format est l   un des  trois formats d  crits dans la section pr  c  dente  Le format de fichier est automatique   ment d  tect   en fonction de l extension de fichier     e d  finissez les options sp  cifiques    Apply the beautifying algorithm  placera chaque  bo  te de mani  re    ce que le graphe r  sultant soit le plus petit et le plus facile    lire  que possible   Exact case matching  mettra les tokens litt  raux entre accolades dans le    8 2  UTILISATION    201    graphe afin que ceui ci ne reconnaisse pas des tokens avec les m  mes lettres mais avec    des diff  rences de casse     Vous pouvez d  finir des options suppl  mentaires pour produire un graphe qui permet  une reconnaissance approximative   vous pouvez fixer le nombre de jokers    utiliser  pour produire de nouvelles s  quences d  riv  es des s  quences du corpus original  et  choisir le joke
425. t gen  r  s      e  b   binaries   indique que le programme doit compresser les fichiers de  donn  es en fichiers  bin files  par d  faut       304 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  o XXX   output XXX   motif utilis   pour nommer les fichiers de sortie du  taggueur XXX_data_cat bin et XXX_data_morph bin  par d  faut   nom  de fichier sans extension corpus de textes       e  s   semitic   indique que l algoritme de compression s  mitique doit   tre  utilis        13 46 Txt2Tfst       Txt2Tfst  OPTIONS   lt txt gt  Ce programme construit l automate du texte     Le param  tre  lt t xt  gt  doit repr  senter le chemin d acc  s complet au fichier texte  sans  omettre l extension   snt    OPTIONS   e  a ALPH   alphabet ALPH   fichier alphabet     e  c   clean   indique que la r  gle de conservation des meilleurs chemins   voir section 7 2 4  doit   tre utilis  e      e  n XXX   normalization_grammar XXX   nom de la grammaire de nor   malisation qui doit   tre appliqu  e    l automate de texte        e  t TAGSET   tagset TAGSET   fichier de jeu d   tiquete Elag pour la nor   malisation des entr  es du dictionnaire      e  K   korean   indique    Txt2Tfst qu il traite du cor  en     Si le texte a   t   d  coup   en phrases  le programme construit un automate pour  chaque phrase  Si ce n est pas le cas  le programme d  coupe arbitrairement le texte  en s  quences de 2000 unit  s lexicales et construit un automate pour chacune de ces  s  quences     Le r  sultat es
426. t trop volumineux  La construction de l automate du texte sera abord  e dans le chapitre 7     NOTE   si vous cliquez sur  Cancel but tokenize text   le programme effectuera malgr   tout  la normalisation des s  parateurs et le d  coupage en unit  s lexicales   cliquez sur  Cancel and  close text  pour annuler compl  tement l op  ration     2 5 1 Normalisation des s  parateurs    Les s  parateurs usuels sont l   espace  la tabulation et le retour    la ligne  On peut rencon   trer plusieurs s  parateurs cons  cutifs dans des textes  mais comme cela n est d aucune utilit    pour une analyse linguistique  on normalise ces s  parateurs selon les r  gles suivantes      e toute suite de s  parateurs contenant au moins un retour    la ligne est remplac  e par  un unique retour    la ligne    e toute autre suite de s  parateurs est remplac  e par un espace     La distinction entre espace et retour    la ligne est conserv  e    cette   tape car la pr  sence  de retours    la ligne peut intervenir dans le d  coupage du texte en phrases  Le r  sultat de  la normalisation d un fichier appel   mon_texte txt est un fichier situ   dans le m  me  r  pertoire que le  txt et dont le nom est mon_texte snt     NOTE  lorsque l   on pr  traite un texte depuis l interface graphique  un r  pertoire nomm      34 CHAPITRE 2  CHARGEMENT D UN TEXTE    mon_texte snt est cr     imm  diatement apr  s la normalisation  Ce r  pertoire  appel   r  per   toire du texte  contiendra toutes les donn  es relative
427. t un fichier nomm   text  t fst qui est sauvegard   dans le r  pertoire  du texte  Un autre fichier text  t ind est aussi produit     NOTE   Ce programme essaye   galement d utiliser le fichier tags  ind s il existe   voir section 14 7 4      13 47  UNCOMPRESS 305  13 47 Uncompress       Uncompress  OPTIONS   lt bin gt   Ce programme d  compresse un dictionnaire  bin en un fichier texte  dic     OPTIONS      e  o OUT   output OUT   nom du fichier de sortie optionnel  par d  faut    file bin gt file dic         13 48 Untokenize    Untokenize  OPTIONS   lt txt gt        Untokenize et reconstruit le texte orgininal  La liste des token est stock  e dans le  fichier tokens   txt et le texte cod   dans text   cod  Le fichier enter   pos contient  la position en tokens de tous les retours    la ligne Ces fichiers se trouvent dans le  r  pertoire XXX_snt o   XXX est sans son extension  lt txt gt      OPTIONS     e  d X   sntdir xX   utilise le r  pertoire X au lieu du r  pertoire texte   remar   quez que X doit se terminer par un antislash       e  n N   number_token N   ajoute le num  ro de token chaque N token        e  r N   range N     met seulement les tokens du num  ro N    la fin     e  r N M   range N M    met seulement les tokens du num  ro N    M     13 49 UnitexTool  UnitexTool  lt utilities gt     Ce programme est un programme qui vous permet d ex  cuter tous les programmes  externes d   Unitex Avec lui  vous pouvez enchainer les commandes afin qu   elles soit  ex  cut  e
428. t2   Si vous laissez la souris sur  le nom du graphe  une info bulle appara  t avec le chemin complet du graphe   Les graphes dont le fichier source n est pas trouv   apparaissent en italique et en  rouge     e Merge  Si le transducer doit   tre appliqu   en mode merge     e Replace   Si le transducer doit   tre appliqu   en mode replace     254 CHAPITRE 12  CASCADE DE TRANSDUCTEURS    e Until fix point   Si le transducteur doit   tre appliqu   une fois ou plusieurs fois  jusqu      ce que le texte soit inchang   c est    dire qu   un point fixe est atteint  voir  1222      3  Au centre se trouvent les boutons d  crits ci dessous      e    Up   Down      Top     Bottom    sont utilis  s pour modifier l   ordre des transduc   teurs dans la liste  ils d  placent le transducteur s  lectionn         Up    et    Down    d     placent le transducteur s  lectionn   d   une ligne vers le haut ou vers le bas     Top     et    Bottom    le positonnent au d  but ou    la fin de la liste     e    Delete    permet de supprimer le transducteur s  lectionn   de la liste des transduc   teurs     e    Add    ajoute un transducteur  pr  c  demment s  lectionn    dans la liste  Il rem   place le gisser d  poser pr  alablement d  crit     e    View    ouvre le graphe s  lectionn   aussi bien dans l explorateur de fichiers que  dans la liste de transducteurs  Il est tr  s utile d   avoir un acces rapide    n importe  quel transducteur aussi bien pour y jeter un coup d   ceil que pour le modifier 
429. tagger cara did 335  1410 1 Fichier corpus ixt  s scie L   au BE A OES 335   14 10 2 Le fichier de donn  es du taggueur     c o   cosmos sarira ritas 336   14 11 Fichier de CONSUMO   gt    risa RARA ES 337  1411 1 Fichier Config  gt  le cda done Be dd we ae ee AA 337   14 11 2 Fichiersystem dicdef ori AAA 339   1411 3 Fichier user dic def                                 340   14 11 4 Fichiers  nom d   utilisateur  cfg et  unitex cfg                 340   14 12 Fichiers CasSyS 2     che ec eee PERO d   dede ARA 341  14121 Fichiers de configuration CasSys se   oo  s c   cca mao ro 341  14 13Plusieurs autres fichiers                                 341  14 131 Fichier difn  dlc n errn et ASS EMO    ocio  4 341   112 2 PIC UE STAT diem eare    2       te    ee De a ah bn ds EOS 341   14 13 3 Fichier statsn                                   341   14134 Fichier concord i 2 3   1  ua Lada bide edhe ee te 342   14 13 5 Fichier concord_H  tn         2 4444 48 488 a droni ve es 342   14 13 6 Fichier r  gles de normalisation        44 cou uses een ee eb ews 342   14 13 7 Fichier de mots interdits                             343   1413 8 Fichierde l   g    sooro so xi EH GS Ee SHEER SH AS 343   14 13 9 R  gles typographiques de l arabe   arabic_typo_rules txt          344  14 13 1Gichier d   offsets de diff  rence                          344   14 13 1 fichier d   offsets de zone commune                       344  14 13 1fichier d offs  ts uima    lt   gt   6 es 4 du du man ea e a 345   
430. tatistiques sur le texte     2 5  PR  TRAITEMENT DU TEXTE 39    Le d  coupage du texte    Un sou c est un sou   donne la liste d unit  s lexicales suivantes   UN ESPACE sou c     est un   On peut remarquer qu il est tenu compte de la casse  Un et un sont deux unit  s distinctes      mais que chaque unit   n est cod  e qu une fois  En num  rotant ces unit  s de 0    7  ce texte  peut   tre repr  sent   par la s  quence d entiers d  crite dans le tableau suivant            Indice 011211 311 4  1 2 5  Unit   lexicale   UN sou est UN sou  correspondante                                              TABLE 2 1     Repr  sentation du texte Un sou c est un sou     Pour plus de d  tails  voir le chapitre 14              FIGURE 2 12     Unit  s lexicales d un texte anglais tri  es par fr  quence    40 CHAPITRE 2  CHARGEMENT D UN TEXTE  2 5 5 Application de dictionnaires    L application de dictionnaires consiste    construire le sous ensemble des dictionnaires  ne contenant que les formes pr  sentes dans le texte  Ainsi  le r  sultat de l application des  dictionnaires du francais au texte Igor mange une pomme de terre produit le dictionnaire de  mots simples suivant      de   DET z1   de   PREP z1   de   XI z1l  mange manger V zl P1s P3s S1s S3s Y2s  pomme   A zl ms fs mp fp   pomme   N z1 fs  pomme pommer V z3 P1s P3s S1s S3s Y2s  terre  N zl fs  terre terrer V z1 P1s P3s S1s S3s Y2s  une   N zl fs   une  un DET z1 fs                         ainsi que le dictionnaire de mots compos  s
431. te JKL  utilisez le test suivant         Sabc EQUAL  JKLS  on peut   galement tester si le contenu est diff  rent avec UNEQUAL     Si vous d  sirez comparer des variables en ignorant les variantes de casse  vous pouvez  utiliser les tests suivants      Sabc EQUALCC xyz   ou  Sabc UNEQUALCC xyz        6 9 3 Recherche d   un code s  mantique dans une variable de dictionnaire    On peut chercher dans une variable de dictionnaire  section 6 4 4  un    code s  mantique     au sens de la section 3 1 1  Pour cela  on ins  re dans la sortie d   une boite une s  quence  respectant la syntaxe suivante         Sabc EQ Conc     Ce test agit comme un interrupteur qui permet de bloquer l exploration de la grammaire si  Conc ne figure pas parmi les    codes s  mantiques    de la variable de dictionnaire abc  On  peut chercher un seul code a la fois dans une variable  Pour v  rifier plusieurs codes  on met  plusieurs boites en s  rie     Cette fonctionnalit   est utilis  e pour de grandes grammaires de graphes dictionnaires mor   phologiques  en vue de dissocier dans des boites distinctes la v  rification d   un code gram   matical et de    codes s  mantiques    qui viennent ensuite  comme dans  78   page 486  On teste  le code grammatical avec un masque lexical  puis on fait de m  me pour les codes s  man   tiques en les cherchant dans la variable de dictionnaire correspondante  Cette dissociation  peut acc  l  rer l   application des graphes si      e tous les graphes sont invoqu  s direct
432. te de texte  t fst selon un fichier de jeu d      tiquettes  en supprimmant les codes dictionnaire non d  clar  s et les entr  es lexi   cales incoh  rentes  Les caract  ristiques flexionnelles ne pas sont factoris  es afin que   rouge   A fs ms  soit divis   en deux   tiquettes  rouge   A  fs  et  rouge   A ms      OPTIONS     e  o OUT   output OUT   automate de texte r  sultant  Par d  faut  l automate  du texte donn   en entr  e est modifi        e  t TAGSET   tagset TAGSET   nom du fichier de description du jeu d   ti   quettes    13 41 TERTxt    TEI2Txt  OPTIONS   lt xml gt           Produit un fichier de texte brut    partir du fichier TEI  lt xm1 gt      OPTIONS      13 42  TFST2GRF 301    e  o TXT   output TXT   nom du fichier de texte de sortie  Par d  faut  le  fichier de sortie porte le m  me nom que celui d   entr  e  rempla  ant  xml by  EXT     13 42 Tfst2Grf    Tfst2Grf  OPTIONS   lt tfst gt        Ce programme extrait un automate de phrase en format  grf format    partir d un  automate du texte donn       OPTIONS        e  s N   sentence N  le nombre de phrases    extraire      e  o XXX   output XXX   motif utilis   pour nommer le fichier de sortie XXX  grf   XXX txt et XXX tok  defaut cursentence      e  f FONT   font FONT   d  finit la police    utiliser en sortie  grf     default Times new Roman    e  z N   fontsize N  d  finit la taille de police  defaut 10    Le programme produit les fichiers suivants et les enregistre dans le r  pertoire du    texte     
433. te du graphe est d  finie par une ligne qui doit avoir le format suivant      contenu X Y N transitions 4    14 3  GRAPHES 317    contenu est une cha  ne de caract  res entour  e de guillemets qui repr  sente le con   tenu de la bo  te  Cette cha  ne peut   ventuellement   tre pr  c  d  e d   un s dans le cas  d un graphe Intex import     ce caract  re est alors ignor   par Unitex  Le contenu de la  cha  ne est le texte qui a   t   entr   dans le contr  le de texte de l   diteur de graphes  Le  tableau 14 4 donne le codage des deux s  quences sp  ciales qui ne sont pas cod  es  telles quelles dans les fichiers  grf         S  quence dans l   diteur de graphe   S  quence dans le fichier  grf                 X                        TABLE 14 4     Codage des s  quences sp  ciales    NOTE   les caract  res compris entre  lt  et  gt  ou entre   et   ne sont pas interpr  t  s   Ainsi  le caract  re   contenu dans la cha  ne  le  lt A Conc gt   n est pas interpr  t    comme un s  parateur de lignes  car le motif  lt A Conc gt  est interpr  t   en priorit       X and Y repr  sentent les coordonn  es de la bo  te en pixels  La figure 14 1 montre  comment ces coordonn  es sont interpr  t  es par Unitex      0 0      x y     FIGURE 14 1     Interpr  tation des coordonn  es des bo  tes    N repr  sente le nombre de transitions qui sortent de la boite  Ce nombre doit tou   jours valoir 0 pour l     tat final     Les transitions sont d  finies par les num  ros des boites vers lesquelles e
434. te en alphabet Jamo  ensuite  la derni  re lettre Jamo est  supprim  e  Si le caract  re n   est ni un Jamo  ni un Hangul  une erreur est produite     e    latin dot  ins  re une limite de syllabe  Ceci a un effet de ford  si le haut de la pile  contient des lettres Jamo  elles sont recombin  es en Hangul     Voici un exemple qui d  crit la flexion de choose en chosen gr  ce    la s  quence d   op  ra   teurs LLDRRn      e   tape 0   initialisation de la pile avec la forme canonique   on place le curseur apr  s la  derni  re lettre                               c h lo lo sle       e Etape 1  on d  cale le curseur vers la gauche      LLDRRn                               58 CHAPITRE 3  DICTIONNAIRES    Etape 2   on d  cale une seconde fois le curseur vers la gauche      LLDRRn          c h lolo sle                                 tape 3   on d  cale tout ce qui est    droite du curseur vers la gauche      LLDRRn           cijhlofsle                               e Step 4  on d  cale le curseur vers la droite      LLDRRn         ve  alo  se                               e Step 5   on d  cale encore le curseur vers la droite      LLDRRn                               e Step 6  on   crit un n    LLDRRn                 cjhlofs eln                   Une fois la s  quence d op  rateurs   puis  e  on prend le contenu de la pile jusqu avant le  curseur pour former la forme fl  chie  ici chosen         Le programme de flexion Inflect explore tous les chemins de la grammaire de flexion en
435. the Library    The precise terms and conditions for copying  distribution and modification fol   low  Pay close attention to the difference between a  work based on the library  and  a  work that uses the library   The former contains code derived from the library   whereas the latter must be combined with the library in order to run     GNU LESSER GENERAL PUBLIC LICENSE  TERMS AND CONDITIONS FOR COPYING  DISTRIBUTION AND  MODIFICATION    0  This License Agreement applies to any software library or other program  which contains a notice placed by the copyright holder or other authorized party  saying it may be distributed under the terms of this Lesser General Public License   also called  this License    Each licensee is addressed as  you     A  library  means a collection of software functions and or data prepared so  as to be conveniently linked with application programs  which use some of those  functions and data  to form executables    The  Library   below  refers to any such software library or work which has been  distributed under these terms  A  work based on the Library    means either the Li   brary or any derivative work under copyright law   that is to say  a work containing  the Library or a portion of it  either verbatim or with modifications and or trans   lated straightforwardly into another language   Hereinafter  translation is included  without limitation in the term  modification       Source code  for a work means the preferred form of the work for maki
436. tics    dans le cadre    Located sequences     le panneau    de la figure 4 9 appara  t  Ce panneau permet d effectuer des calculs statistiques sur les  s  quences pr  alablement index  es        Located sequences         Concordance  Mode       a  collocates by z score    2 collocates by frequency      contexts by frequency   Sizes of contexts in non space tokens     Left  1  Right       Case sensitivity               e  case sensitive       case insensitive    Compute statistics    FIGURE 4 9     Panneau statistiques       Dans le panneau    Mode    il est possible de choisir le type de statistiques d  sir        e collocates by frequency   montre les unit  s lexicales pr  sentes dans le contexte de la  s  quence reconnu     e collocates by z score   le me m  mes informations avec  en plus  number of occurrences  of the collocate in the match context and in the whole corpus  z score of the collocate     4 8  RECHERCHE 91    e contexts by frequency   montre les unit  s lexicales avec les contextes gauche et droit   voir au dessous      count    est le nombre d occurrences d une s  quence reconnue don   n  e  munie de contexte     Dans le second panneau  on choisit la longueur des contextes gauche et droit    utiliser en  tokens sans espace  NOTE   Cette notion de contexte n   a rien    voir avec celle utilis  e dans  les grammaires     Dans le dernier panneau  on peut permettre ou non la variation de casse  Si cette variation  est permise  the et THE sont consid  r  es comme
437. tiliser le mode morphologique et les filtres  morphologiques  et faire r  f  rence aux informations pr  sentes dans les dictionnaires     CasSys n est pas compatible avec les fichiers fst2 en mode debug  6 10 7   Quand on ap   plique un graphe en mode debug avec le menu Text gt Locate Pattern  le syst  me com   pile le graphe dans un format sp  cial de mode debug  Pour obtenir un fichier au format  fst2 normal  recompilez le graphe  soit avec le menu FSGraph  soit en ligne de commande   soit en d  cochant le mode debug avant d appliquer le graphe avec Locate Pattern     12 2 2 Application it  rative    Cassys peut appliquer un graphe sur un texte de mani  re it  rative tant que de nouvelles  concordances sont obtenues  Ce comportement est s  lectionn   ou non pour chaque graphe  selon que la case Until fix point est coch  e ou non  Cette section pr  sente le comporte   ment de cette option    Consid  rons par exemple le graphe 12 6 qui reconnait AB et le remplace par A     12 2  CASSYS EN D  TAIL 257      a          A       FIGURE 12 6     Transducteur qui modifie BA en A    Consid  rons le texte B B B A A A  L application du graphe 12 6 sur ce texte avec Until fix  point donne              initial text B B B A A A  it  ration 1 B B A A A  1match  it  ration 2 B A A Al lmatch  it  ration 3 A A Al lmatch  it  ration 4 A A A   Omatch                Durant les trois premi  res it  rations  une concordance est obtenue  le graphe est alors  appliqu      nouveau au texte r  sultant
438. tion is intended to apply  and the  section as a whole is intended to apply in other circumstances     It is not the purpose of this section to induce you to infringe any patents or  other property right claims or to contest validity of any such claims  this sec   tion has the sole purpose of protecting the integrity of the free resource dis   tribution system which is implemented by public license practices  Many peo   ple have made generous contributions to the wide range of data distributed  through that system in reliance on consistent application of that system  it is  up to the author  donor to decide if he or she is willing to distribute resources  through any other system and a licensee cannot impose that choice     This section is intended to make thoroughly clear what is believed to be a con   sequence of the rest of this License       If the distribution and or use of the Linguistic Resource is restricted in cer     tain countries either by patents or by copyrighted interfaces  the original copy   right holder who places the Linguistic Resource under this License may add  an explicit geographical distribution limitation excluding those countries  so  that distribution is permitted only in or among countries not thus excluded  In  such case  this License incorporates the limitation as if written in the body of  this License     The Free Software Foundation may publish revised and  or new versions of the  Lesser General Public License for Linguistic Resources from ti
439. tre sp  ciale  voir figure 6 65   divis  e en trois parties      En haut    droite  se trouve la fen  tre de concordance  Elle est identique    la fen  tre  habituelle dans laquelle les s  quences reconnues apparaissent en bleu     En bas    droite se trouve le graphe utilis   par Locate     A gauche  il y a un tableau divis   en trois colonnes    Tag    Output  et  Matched    Chaque token de la s  quence reconnue appara  t dans la colonne  Matched   la colonne  Tag   indique le contenu de la bo  te de l   automate qui l   a reconnue  et si elle poss  de une sortie   elle appara  t dans la colonne  Output      Pour chaque s  quence reconnue de la concordance  si on clique dessus  le tableau est mis     jour  Si on clique sur une ligne du tableau  le syst  me colore la bo  te correspondante dans  le graphe  On peut ainsi voir pour chaque occurrence reconnue dans le texte quel chemin  de l automate la reconnait  Le nombre en rouge au dessus d une bo  te indique le nombre de  s  quences du texte pour lesquelles cette bo  te a reconnu un token     Quand on applique un graphe en mode debug avec le menu Text gt Locate Pattern  le  syst  me le compile en un fichier fst2 dans un formal sp  cial de mode debug  qui n est pas  compatible avec CasSys  Voir la section 12 2 1 pour r  soudre ce probl  me        6 10  APPLICATION DES GRAPHES AUX TEXTES    E Concordance  C Documents and Settings adurand Mes documents UNITEXEnglish Corpusivanhoe_snticoncordhtmi             Tag Output   Matched
440. tre une expression rationnelle et une gram   maire  Cliquez sur  Regular expression      Le cadre  Index  permet de s  lectionner le mode de reconnaissance      e  Shortest matches    donne la priorit   aux s  quences les plus courtes For instance  if  your grammar can recognize the sequences very hot chili and very hot  the first one will  be discarded      e  Longest matches    donne la priorit   aux s  quences les plus longues  C   est le mode  utilis   par d  faut     e  All matches    donne toutes les s  quences reconnues     Le cadre  Search limitation  permet de limiter ou non la recherche    un certain nombre  d occurrences  Par d  faut  la recherche est limit  e aux 200 premi  res occurrences     Les options du cadre  Grammar outputs  ne concernent pas les expressions rationnelles   Elles sont d  crites    la section 6 10  De m  me pour les options de l onglet  Advanced op   tions   voir section 6 10 2      86 CHAPITRE 4  RECHERCHE D EXPRESSIONS RATIONNELLES    Dans le cadre  Search algorithm   on d  finit si l   on veut effectuer la recherche dans le texte  avec le programme Locate ou dans l automate du texte avec le programme LocateTfst   Par d  faut la recherche est effectu  e avec le programme Locate  Pour utiliser LocateTfst   il est utile de se r  f  rer    la section 7 7           Entrez une expression et cliquez sur  Search  pour lancer la recherche  Unitex va transformer  l expression en une grammaire au format  grf  Cette grammaire va ensuite   tre compil  
441. ty  including a cross claim or counter   claim in a lawsuit  alleging that the Work or a Contribution incorporated within  the Work constitutes direct or contributory patent infringement  then any patent li   censes granted to You under this License for that Work shall terminate as of the date  such litigation is filed     4  Redistribution  You may reproduce and distribute copies of the Work or Deriva   tive Works thereof in any medium  with or without modifications  and in Source or  Object form  provided that You meet the following conditions      1  You must give any other recipients of the Work or Derivative Works a copy of  this License  and    2  You must cause any modified files to carry prominent notices stating that You  changed the files  and    14 13  PLUSIEURS AUTRES FICHIERS 363    3  You must retain  in the Source form of any Derivative Works that You dis   tribute  all copyright  patent  trademark  and attribution notices from the Source  form of the Work  excluding those notices that do not pertain to any part of the  Derivative Works   and    4  If the Work includes a  NOTICE  text file as part of its distribution  then any  Derivative Works that You distribute must include a readable copy of the at   tribution notices contained within such NOTICE file  excluding those notices  that do not pertain to any part of the Derivative Works  in at least one of the  following places   within a NOTICE text file distributed as part of the Deriva   tive Works   within t
442. u une s  quence est  reconnue par plusieurs chemins avec des sorties diff  rentes  transducteur ambigu   seul un  chemin de poids maximal sera conserv    Apr  s un  Locate   la concordance ne comportera  qu une seule fois la s  quence reconnue  et avec la sortie appropi  e  figure 5 20        Concordance  C  Documents and Settings adurand Mes documents UNITEX Fren    no a E  17191 matches  rester dans l Inde  cas g  n  rallvotre salut n   t                                                  _ Vous n abusez pas   cas g  n  rallvotre pr  sence r  ort de mon ma  tre  cas g  n  rallvotre ma  tre      t l air de la mer  _ cas g  n  rallvotre ma  tre  jd  r      _ Bordeaux  _ cas g  n  rallvotre cargaison  e l oc  an Indien  S  Et  cas g  n  rallvotre ma  tre  My  st moi  _ Cet homme est  cas g  n  rallvotre domestique  man  _ Et cet homme est  cas g  n  rallvotre domestique  la  monsieur Fix  c est  cas g  n  rallvotre affaire  y  nt    sa marche  C est  cas g  n  rallvotre m  tier  et     offre caution  _ C est  cas g  n  rallvotre droit    y  r  ve     Le Carnatic    cas particulier lle Carnatic  ppa la terre du pied  cas particulier le gueux   g    0   cas g  n  ral  d un homme du monde  cas particulier Le capitaine       articuler une parole  cas particulier Le pari du gd       e l on parl  t de lui  cas particulier Le gouverner       jusqu    la stupeur  cas particulier Le tour du    agner le temps perdu  cas particulier Le train  le          dent sur la lumi  re    cas particu
443. uccessives du  texte     OPTIONS    e  o X   old X   nom du fichier d   origine    e  n X   output X   nom du fichier d   offset issu de la fusion       Autre Utilisation  DumpOffsets   v   convert_modified_to_common   OPTIONS   lt            lt txt gt   fichier d   offsets d   origine    Cr  e un fichier d   offset des chaines identiques dans le fichier original et le fichier  modifi    Au moins une taille doit   tre fournie     OPTIONS      e  s N   old_size N   taille en caract  re de la version d   origine du fichier  texte    e  S N   new_size n   taille en caract  re de la version d   arriv  e du fichier  texte    280 CHAPITRE 13  UTILISATION DES PROGRAMMES EXTERNES    e  p X     output X   nom du fichier d   offsets courant    e  h   help  cet aide          Autre Utilisation  DumpOffsets   M   convert_modified_to_common   OPT   lt txt gt   fichier d   offsets d   origine    Cr  e un fichier d   offsets a partir des offsets des chaines identiques dans le fichier  original et le fichier modifi    Il faut obligatoirement sp  cifier les deux tailles     OPTIONS      e  s N   old_size N   taille en caract  re de la version d   origine du fichier  texte    e  S N   new_size n   taille en caract  re de la version d   arriv  e du fichier  texte    e  p X     output X   nom du fichier d   offsets courant    e  h   help  cet aide       Autre Utilisation  DumpOffsets  o  lt list_of_position_file_to_read txt gt      lt list_of_position_file_to_read txt gt  est un fichier avec seul
444. ue vous pouvez utiliser un alignement existant comme un ensemble de liens obligatoires  en tant qu   entr  es du processus d   alignement  Ceci peut   tre tr  s utile si vous souhaitez  travailler avec des mots apparent  s  Pour plus de d  tails au sujet des mots apparent  s et de  XAlign  voir  77      216 CHAPITRE 10  ALIGNEMENT DE TEXTE    D  My UnitexiXAlignfuntana xml    78 s entre d  chirent   Ne inc  p  tin  m s   le vener  m pe  amindou   in timp ce ele se devor    ous plait  reciproc   nu scrieti asta  v   rog  cineva  on pourrait me le ar putea s   m   trag   la r  spundere  79feprocher     ntr o buna zi     je ne suis ici que  depuis quelques minutes  un  quart d   heure tout au plus     N am comandat nimic  v   asteptarn pe  dumneavoastr        8  All sentences Plain text All sentences Plain text  8               O Matched sentences Matched sentences         All sentences HTML All sentences HTML           Aligned with target concordance Aligned with source concordance O    Locate    Clear alignment Save alignment Save alignment as             FIGURE 10 4     Phrases align  es    D  My UnitexiXAlign funtana xm     E  E             EE Continentul  numit o 10  E Oui  c   tait l Italie  rame Terra Ferma   Comme vous  madame  comme italia  11    ous   Ou comme Altea  ma ch  re  12    comme Altea   13  Pina mai ieri Leag  nul civilizatiei  noastre  lingvigtii sustin chiar ca  apartinem unei arii italice        All sentences Plain text  8      8  All sentences Plain text
445. uement les param  tres contenant des lignes de com   mande pour des programmes Unitex externes   et qu   un fichier contenant un chemin  etnomm   unitex_logging_parameters_count txt est pr  sent dans le r  pertoire courant   alors un fichier de log  ulp pour la session en cours sera cr      Le fichier  ulp est un  fichier zip comprim    compatible avec unzip   qui peut   tre utile pour le d  bogage        UnitexToolLogger RunLog  OPTIONS   lt ulp gt        OPTIONS after RunLog      e  m   quiet   n   met pas de messages lors de l ex  cution         e  v   verbose     met des messages lors de l ex  cution      13 50  UNITEXTOOLLOGGER 307                    d DIR   rundir DIR   chemin o   le fichier log est ex  cut         r newfile ulp   result newfile ulp   nom du fichier ulp r  sultat  cr              c   clean   supprime le fichier de travail apr  s l ex  cution         k   keep   conserve le fichier de travail apr  s l ex  cution          s file txt   summary file txt   fichier    avec comparaison de lo  P 8                    e file txt   summary error file txt  fichier de synth  se avec com   paraison des erreurs       b   no benchmark   ne pas enregistrer le temps d ex  cution dans les fichiers  log      n   cleanlog  supprime le r  sultat ulp apr  s ex  cution     1   keeplog   garde le r  sultat ulp apr  s ex  cution       o NameTool   too1 NameToo    lance seulement les log pour NameToo          i N   increment N  incr  menter le nom de fichier  lt ulp gt  de 0    N 
446. ui doit   tre compl  t  e par l   ensemble des   l  ments caract  ris   tiques d   une langue donn  e  Dans cette section  nous donnons une description d  taill  e de  ce formalisme     11 2 1 Caract  ristiques morphologiques de la langue    Lorsque l   on traite les mots compos  s d une langue  il faut d  finir les caract  ristiques  g  n  rales de cette langue  Ces donn  es se trouvent dans deux fichiers textes     Le fichier Morphology txt indique les cat  gories grammaticales  nom  adjectif       cat     gories flexionnelles  nombre  genre  cas      et leurs valeurs  masculin  f  minin  singulier   nominatif       Consid  rons l exemple suivant      Polish    lt CATEGORIES gt    Nb   sing  pl   Case   Nom  Gen  Dat  Acc  Inst  Loc  Voc   Gen   masc_pers  masc_anim  masc_inanim  fem  neu   lt CLASSES gt     noun    Nb  lt var gt    Case  lt var gt    Gen  lt fixed gt     adj   Nb  lt var gt    Case  lt var gt    Gen  lt var gt     adv     Le fichier ci dessus indique que pour le polonais  trois cat  gories flexionnelles sont consid     r  es   le nombre  Nb   le cas  Case   et le genre  Gen   On donne pour chaque cat  gorie la  liste exhaustive des valeurs qu   elle peut prendre  singulier et pluriel pour le nombre  etc       11 2  FORMALISME DE FLEXION DES MOTS COMPOS  S 225    Ensuite  chaque cat  gorie grammaticale est d  crite selon les cat  gories qui varient avec la  flexion  et celles qui sont d  finies  Par exemple  un nom se fl  chit en nombre et en cas et  poss  
447. uissent   tre r   analys  es par celui ci  Pour cette raison   quand une s  quence a   t   introduite dans le texte  l application du transducteur se poursuit  apr  s cette s  quence  Cette r  gle ne concerne que les transducteurs de pr  traitement  car  lors de l   application de graphes syntaxiques  les sorties ne modifient pas le texte parcouru   mais un fichier de concordances distinct du texte     6 7 3 Priorit      gauche    Lors de l application d une grammaire locale  les occurrences qui se chevauchent sont  toutes index  es  Nous consid  rons  ici  de vrai chevauchements d occurrence comme abc  et bcd  et pas d   occurrences imbriqu  es comme abc et bc  Lors de la construction de la  concordance  toutes ces occurrences sont pr  sent  es  voir figure 6 43      iver Don  there extended  in ancient  times a large forest  covering the gr    r Don  there extended in  ancient times  a large forest  covering the great  here extended in ancient  times a  large forest  covering the greater part    FIGURE 6 43     Occurrences se chevauchant dans une concordance    En revanche  si vous modifiez le texte au lieu de construire une concordance  il est n  ces   saire de choisir parmi ces occurrences lesquelles seront prises en compte  Pour cela  Unitex    146 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    applique la r  gle de priorit   suivante   la s  quence la plus    gauche l emporte     Si l   on applique cette r  gle aux trois occurrences de la concordance pr  c  dente  l oc
448. ulier  cependant son nom t  te wybory  en poss  de une      e Quelles sont les caract  ristiques flexionnelles  forme canonique  cat  gorie grammati   cale  paradigme flexionnel  etc   des constituants simples du mot compos     Par exem   ple  en fran  ais  porte est un verbe non fl  chi dans        porte avion   alors que c   est un nom fl  chi dans      porte fen  tre   qui prend un s au pluriel      portes fen  tres    e Comment doit on combiner les formes fl  chies des constituants simples pour g  n  rer  les formes fl  chies du compos     Par exemple  pour fl  chir battle of nerves et battle cry  nous devons fl  chir respectivement le premier et le dernier constituant     11 12 Approche lexicale ou grammaticale de la description morphologique    Une   tude pr  c  dente   87   a confirm   le statut particulier des mots compos  s les situant     la fronti  re de la morphologie et de la syntaxe  Leur structure compositionnelle sugg  re  une productivit   qui ne pourrait gu  re   tre trait  e sans une approche grammaticale    Toutefois  certaines de leurs propri  t  s morphologiques  syntaxiques et s  mantiques ex   cluent leur traitement seulement en termes des propri  t  s de leurs constituants  Par exem   ple  dans les deux exemples ci dessous      e chief justice  e lord justice    il y a peu d indices automatiquement accessibles indiquant que le dernier est morphologique   ment un syntagme nominal anglais standard prenant un s    son dernier constituant au  pluriel  tan
449. un espace  La fin de chaque  graphe est marqu  e par une ligne contenant un f suivi d   un espace et d   un retour     la ligne     14 4  TEXTES 319    Les   tiquettes sont d  finies apr  s le dernier graphe  Si la ligne d  bute par le caract  re    cela signifie que le contenu de l   tiquette doit   tre recherch   sans variante de casse   Cette information n est utile que lorsque l   tiquette est un mot  Si la ligne d  bute  par le caract  re    les variantes de casse sont autoris  es  Si une   tiquette porte une  transduction  les s  quences d entr  e et de sortie sont s  par  es par le caract  re     exemple   the DET   Par convention  la premi  re   tiquette doit toujours   tre le mot  vide   lt E gt    et ce  m  me si cette   tiquette n   est utilis  e dans aucune transition        La fin du fichier est indiqu  e par une ligne contenant le caract  re f suivi d   un retour     la ligne     14 4 Textes    Cette section pr  sente les diff  rents fichiers utilis  s pour repr  senter des textes     14 4 1 Fichiers  txt    Les fichiers  t xt doivent   tre des fichiers texte cod  s en Unicode Little Endian   Ces fichiers ne doivent pas contenir d   accolade ouvrante ou fermante     moins qu   elles  soient utilis  es pour   crire un s  parateur de phrase   S   ou une   tiquette lexicale  valide   aujourd    hui   ADV    Les retours    la ligne doivent   tre cod  s par les  deux caract  res sp  ciaux de valeurs hexad  cimales 000D and 000A           14 4 2 Fichiers  snt     snt 
450. ur  le format d entr  e  vous pouvez sp  cifier plusieurs encodages   bom  avec bom   codage s  par  es par des virgules  mais seulement un encodage   no bom  sans bom      OPTIONS        e  k ENCODING   input_encoding ENCODING   format du texte source  Peut  contenir plusieurs valeurs s  par  es par des virgules                  e    q ENCODING   output_encoding ENCODING  format du texte de sortie              Par d  faut  les valeurs sont    input_encoding utf16le bom utf16be bom ut  f8 bom      output_encoding utf16le bom     13 5 BuildKrMwuDic    BuildKrMwuDic  OPTIONS  dic             Ce programme g  n  re des graphes de flexion pour les mots compos  s    partir d   un  tableau dic qui d  crit chaque constituant de chaque mot compos   OPTIONS      e  o GRF   output GRE   fichier  grf    produire                 e  d DIR   directory DIR   r  pertoire de flexion qui contient les graphes  de flexion n  c  ssaires pour produire les variantes morphologiques des racines         e  a ALPH   alphabet ALPH  fichier alphabet    utiliser            e  b BIN   binary BIN  dictionnaire des mots simples de type  bin    utiliser      13 6  CASSYS 269  13 6 Cassys    Cassys  OPTIONS   lt snt gt        Ce programme applique une liste ordonn  e de grammaires    un texte et construit  un index des occurrences trouv  es  OPTIONS      e  a ALPH   alphabet ALPH  fichier alphabet de la langue     e  r X   transducer_dir X   prend un transducteur dans le r  pertoire X   ainsi ne donnez pas le c
451. ur  plusieurs langues  fran  ais  anglais  grec  italien  espagnol  allemand  tha    cor  en  polonais   norv  gien  portugais  etc         Les grammaires sont des repr  sentations de ph  nom  nes linguistiques par r  seaux de tran   sitions r  cursifs  RTN   un formalisme proche de celui des automates      tats finis  De nom   breuses   tudes ont mis en   vidence l ad  quation des automates aux probl  mes linguistiques  et ce  aussi bien en morphologie qu   en syntaxe ou en phon  tique  Les grammaires manip   ul  es par Unitex reprennent ce principe  tout en reposant sur un formalisme encore plus  puissant que les automates  Ces grammaires sont repr  sent  es au moyen de graphes que  l utilisateur peut ais  ment cr  er et mettre    jour     Les tables de lexique grammaire sont des matrices d  crivant les propri  t  s de certains mots   De telles tables ont   t     labor  es pour tous les verbes simples du fran  ais dont elles d  crivent  les propri  t  s syntaxiques  L exp  rience ayant montr   que chaque mot a un comportement  quasi unique  ces tables permettent de donner la grammaire de chaque   l  ment de lexique   d   o   le nom de lexique grammaire  Unitex permet de construire des grammaires    partir de  telles tables     Unitex est un moteur permettant d exploiter ces ressources linguistiques  Ses caract  ris   tiques techniques sont la portabilit    la modularit    la possibilit   de g  rer des langues pos   s  dant des syst  mes d   critures particuliers comme certa
452. urces  tagger_data_simple bin tagger_data_cat bin    tagger_data_compound bin profession bin  pronouns FR bin Prolex PaysCapitales bin  test bin motsGramf  bin  suf_dc bin Prolex Toponymes bin E  communesFR  bin prenom s bin F  testfix  bin dela fr public bin  rac_arabe bin tagger data morph bin  new verbs FR bin test bin   ajouts80jours bin   Extrait DelquefM2 bin   Lum hin    Clear selection Refresh lists   Word   Parie                       Paris   N PR DetZ Toponyme Ville IsoFRims is  Paris   N PR DetZ Toponyme Ville ms fs  paris  pari N z1 mp                   FIGURE 3 3     Recherche d   un mot dans plusieurs dictionnaires    3 3 V  rification du format du dictionnaire    Lorsque les dictionnaires sont de taille importante  il devient fastidieux de les v  rifier a  la main  Unitex contient le programme CheckDic qui v  rifie automatiquement les diction   naires DELAF et DELAS     Ce programme effectue une v  rification de la syntaxe des entr  es  Pour chaque entr  e mal  form  e  le programme affiche le num  ro de ligne  le contenu de cette ligne et la nature de  l erreur  Les r  sultats de l analyse sont sauv  s dans un fichier nomm   CHECK_DIC TXT  qui est affich   une fois la v  rification termin  e  En plus des   ventuels messages d erreurs  ce  fichier contient la liste de tous les caract  res utilis  s dans les formes fl  chies et canoniques  la  liste des codes grammaticaux et s  mantiques ainsi que la liste des codes flexionnels utilis  s   La liste des caract  r
453. ure 6 53  si le mode debug est activ   dans le champ  Locate pattern in the form of   la    160 CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    Violet  identical sequences with different outputs   Red  similar but different sequences   Green  sequences that occur in only one of the two concordances  Grey background previous matches White background new matches  sa barbe de l eau    quatre vingt quatre degr  s Fahrenheit au   sa barbe de l eau    quatre vinat quatre degr  s Fahrenheit au       eau    quatre vingt quatre degr  s Fahrenheit au lieu de quat          hrenheit au lieu de quatre vingt six _  et il attendait son  hrenheit au lieu de quatre vinat six _  et il attendait son  jeu de quatre vingt six _  et il attendait son aie    se pr  senter entre onze heures et onze heures et demie   S        ntre onze heures et onze heures et demie   S Phileas Fogg  c  s son fauteuil  les deux pieds rapproch  s comme ceux d un so  s son fauteuil  les deuxfunit  s  pieds rapproch  s comme ceux  roch  s comme ceux d un soldat 4 la parade  les mains appuy  e  roch  s comme ceux d un unit  s  soldat    la parade  les mains          es et l ann  e  S  A onze heures et demie sonnant  Mr  Fogg d  tique     dit il   S Un gar  on   g   d une trentaine d ann  es s  tique     dit il   S Un unit  s  gar  on   g   d une trentaine d   Jean Passepartout  un surnom qui m est rest    et que justif       FIGURE 6 64     Exemple de comparaison de concordances    concordance est affich  e dans une fen  
454. ure 7 13 montre le r  sultat de l application de cette grammaire sur la phrase   Feras tu cela bient  t     On peut voir sur l   automate du bas que le chemin correspondant     tu participe pass   a   t     limin       7 3  LEV  E D AMBIGUI  T  S LEXICALES AVEC ELAG 173         A  gt   3 sentences Feras tu cela bient  t 7    Sentence         Reset Sentence Graph    Rebuild FST Text  close elag frame    Explode  Implode  Feras    faire                V z1 F2s  Apply Elag Rule    ES    Explode  4       PRO PpviIL     Implode    Replace             FIGURE 7 13     R  sultat de l application de la grammaire de la figure 7 12    Point de synchronisation    Les parties si et alors d   une grammaire ELAG sont divis  es en deux par le deuxi  me  symbole  lt   gt  dans la partie si  et par le deuxi  me symbole  lt   gt  dans la partie alors  Ces  symboles forment un point de synchronisation  Cela permet d   crire des r  gles dans lesquelles  les contraintes si et alors ne sont pas n  cessairement align  es  comme c   est par exemple le cas  sur la figure 7 14  Cette grammaire s interprete de la mani  re suivante   si on trouve un tiret  suivi par il  elle ou on  alors ce tiret doit   tre pr  c  d   par un verbe    ventuellement suivi  de  t  Ainsi  si l   on consid  re la phrase de la figure 7 15 commen  ant par Est il  on peut voir  que toutes les interpr  tations non verbales de Est ont   t   supprim  es        174 CHAPITRE 7  AUTOMATE DU TEXTE    a dash followed by il   elle  or on
455. usuels  Code Signification Exemple  z1 langage courant blague  22 langage sp  cialis   s  pulcre  23 langage tr  s sp  cialis   houer  Abst abstrait bon go  t  Anl animal cheval de race  AnlColl   animal collectif troupeau  Cone concret abbaye  ConcColl   concret collectif d  combres  Hum humain diplomate  HumColl   humain collectif vieille garde  ja verbe transitif foudroyer  i verbe intransitif fraterniser  en particule pr   verbale  PPV  obligatoire   en imposer  se verbe pronominal se marier  ne verbe    n  gation obligatoire ne pas cesser de                   TABLE 3 2     Quelques codes s  mantiques    NOTE   les descriptions des temps du tableau 3 3 correspondent au francais  N  anmoins  la  plupart de ces d  finitions se retrouvent dans plusieurs langues  infinitif  pr  sent  participe  pass    etc       50 CHAPITRE 3  DICTIONNAIRES    Malgr   une base commune    la plupart des langues  les dictionnaires contiennent des par   ticularit  s de codage propres    chaque langue  Ainsi  les codes de flexion variant beaucoup  d une langue    une autre  n   ont pas   t   d  crits ici  Pour une description exhaustive de tous  les codes utilis  s dans un dictionnaire  nous vous recommandons de vous adresser directe   ment    l   auteur du dictionnaire        Code   Signification   masculin   f  minin   neutre   singulier   pluriel   1st  2nd  3rd personne  pr  sent de l indicatif  imparfait de l indicatif  pr  sent du subjonctif  imparfait du subjonctif  pr  sent de l imp  rati
456. utiliser cette option    plusieurs reprises      e     debug   compile les graphes en mode debug     e  v check_variables   v  rifier la validit   de sortie afin d   viter des expres   sions avec variables malform  es     Le r  sultat est un fichier portant le m  me nom que le graphe pass   en param  tre   mais avec l extension   fst2 Ce fichier est sauvegard   dans le m  me r  pertoire que   lt grf gt      13 24 GrfDiff       GrfDiff  lt grfl gt   lt grf2 gt   fichier fichiers  grfacomparer  OPTIONS        e   output X sauve le r  sultat   ventuel dans X au lieu de l afficher    Compare les fichier  grf et affiche leurs diff  rence sur la sortie standard  Renvoie  0 s   il sont identiques modulo le r  ordonnancement des bo  tes et des transitions  1 si  ils sont diff  rents  2 en cas d   erreur    Voici les indications que GrfDiff peut   mettre      e P name   pr  sentation d   une propri  t   a chang    name  nom propri  t   name   SIZE  FONT          e M a b  une bo  te est d  plac  e  a num  ro de bo  te dans  lt grf1 gt   b num  ro de  bo  te dans  lt grf2 gt     e C a b  le contenu d une bo  te a chang    a num  ro de bo  te dans  lt grf1 gt    b num  ro de bo  te dans  lt grf2 gt     e A x une bo  te a   t   ajout  e  x num  ro de bo  te dans  lt grf2 gt   e R x une bo  te a   t   supprim  e  x num  ro de bo  te dans  lt grf1 gt     e T ab x y unetransition a   t   ajout  e  a b src et dst num  ros de bo  tes dans   lt grf1 gt   x y src et dst num  ros de bo  tes dans 
457. uting the Library  or any work based on  the Library   you indicate your acceptance of this License to do so  and all its terms  and conditions for copying  distributing or modifying the Library or works based  on it    10  Each time you redistribute the Library  or any work based on the Library    the recipient automatically receives a license from the original licensor to copy  dis   tribute  link with or modify the Library subject to these terms and conditions  You  may not impose any further restrictions on the recipients    exercise of the rights  granted herein  You are not responsible for enforcing compliance by third parties  with this License    11  If  as a consequence of a court judgment or allegation of patent infringement  or for any other reason  not limited to patent issues   conditions are imposed on  you  whether by court order  agreement or otherwise  that contradict the conditions  of this License  they do not excuse you from the conditions of this License  If you  cannot distribute so as to satisfy simultaneously your obligations under this License  and any other pertinent obligations  then as a consequence you may not distribute  the Library at all  For example  if a patent license would not permit royalty free  redistribution of the Library by all those who receive copies directly or indirectly  through you  then the only way you could satisfy both it and this License would be  to refrain entirely from distribution of the Library    If any portion of thi
458. variable de dictionnaire habituelle  de la fa  on  d  crite ci dessus   on peut obtenir la forme fl  chie  la forme canonique et les codes donn  s  dans l entr  e  sa cat  gorie grammaticale  ses codes s  mantiques  ses codes flexionnels et la  valeur zzz de l   attribut yyy s   il y figure un code s  mantique de la forme yyy zzz     6 5 Exploration des chemins d   une grammaire    Il est possible de g  n  rer les chemins reconnus par une grammaire  par exemple pour  v  rifier qu elle engendre correctement les formes attendues  Pour cela  ouvrez le graphe  principal de votre grammaire et assurez vous que la fen  tre du graphe est bien la fen  tre  active  la fen  tre active poss  de une barre de titre bleu  tandis que les fen  tres inactives ont  une barre de titre grise   Allez ensuite dans le menu  FSGraph   puis dans le sous menu   Tools   et cliquez sur  Explore graph paths   La fen  tre de la figure 6 37 appara  t alors     S Explore graph paths       Graph   BOULOTRechercheimanuelunitetresourcesigmiglace grf        8  Ignore outputs     Separate inputs and outputs    O Merge inputs and outputs          lv  Maximum number of sequences  100 Cancel      a  Ontypaths    Do not explore subgraphs recursively             FIGURE 6 37     Exploration des chemins d   une grammaire    Le cadre sup  rieur contient le nom du graphe principal de la grammaire a explorer  Les    142    CHAPITRE 6  UTILISATION AVANC  E DES GRAPHES    options suivantes concernent la gestion des sorties d
459. vary   auteure de MultiFlex    e Gilles Vollant   auteur de UnitexTool  a optimis   beaucoup d aspects du code d   U   nitex  m  moire  vitesse  compatibilit   multi compilateur  etc     e Patrick Watrin   auteur de XMLi zer  a travaill   sur l int  gration de XAlign    Unitex  e Anthony Sigogne   auteur de Tagger et de TrainingTagger    e Nathalie Friburger   auteure de CaSsys    Il faut ajouter que Unitex serait inutile sans les pr  cieuses ressources linguistiques qu il ren   ferme  Toutes ces ressources sont le fruit d   un   norme et difficile travail effectu   par des  personnes qui ne doivent pas   tre oubli  es  Certaines sont cit  es dans les avertissements qui  sont fournis avec les dictionnaires  une information compl  te est disponible sur      http   igm univ mlv fr  unitex linguistic_data_bib html       18 TABLE DES MATI  RES  Si vous utilisez Unitex dans des projets de recherche       Unitex a   t   utlis   dans plusieurs projets de recherche  Certains sont list  s dans la sec   tion    Related works    de la page d accueil d Unitex  Si vous avez effectuer des travaux de  recherche avec Unitex  ressources  projet  article  these       et si vous d  sirez qu ils soient  r  f  renc  s sur le site envoyez un mail    unitex univ mlv fr     Chapitre 1    Installation d   Unitex    Unitex est un systeme multi plateformes capable de fonctionner aussi bien sous Win  dows que sous Linux ou MacOS  Ce chapitre d  crit l installation et le lancement d   Unitex  pour chacun
460. vous trouverez uniquement des s  quences pr  sentes dans le cor   pus de s  quences original  Des s  quences proches de celles du corpus original peuvent    tre pr  sentes dans le texte et   tre ignor  es parce qu   elles ne figurent pas dans ce cor   pus  Ces s  quences devraient   tre incluses dans l   automate de s  quences  Afin d inclure ces  s  quences  vous devez appliquer les trois sortes de jokers et produire ainsi un graphe qui  reconna  t toutes les s  quences du corpus  et les nouvelles s  quences   Chaque joker  permet  d appliquer une op  ration pour g  n  rer de nouvelles s  quences        e insertion   pour chaque s  quence  ajouter    l automate toutes les s  quences o    lt TOKEN gt   a   t   ins  r   entre deux mots de la s  quence originale     e remplacement   pour chaque s  quence  ajouter    l automate toutes les s  quences o   i  tokens ont   t   remplac  s par  lt TOKEN gt     e suppression   pour chaque s  quence  ajouter    l automate toutes les s  quences o   un  token a   t   supprim      Chacune de ces op  rations peut   tre appliqu  e plusieurs fois aux s  quences originales  L ap   plication de cette grammaire    un texte permet d introduire des approximations dans la  recherche des s  quences du texte    Si les jokers sont utilis  s  les graphes produits suivent les r  gles suivantes      e les s  quences originales et les s  quences d  riv  es sont incluses dans l automate     e aucune s  quence vide  ni une s  quence compos  e uniquement de 
461. vuk AC_A3XN2 p7mgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p7mgea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p7mgea  hungry as a wolf  gladnima kao vuk gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnim kao vuk gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p7fgea  hungry as a wolf  gladnima kao vuk gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladnima kao vuci gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladnima kao vukovi gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladnim kao vuk gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladnim kao vuci gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladnim kao vukovi gladan kao vuk AC_A3XN2 p7ngea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 w2mgea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 w2mgea  hungry as a wolf  gladna kao vukovi gladan kao vuk AC_A3XN2 w2mgea  hungry as a wolf  gladne kao vuk gladan kao vuk AC_A3XN2 w2fgea  hungry as a wolf  gladne kao vuci gladan kao vuk AC_A3XN2 w2fgea  hungry as a wolf  gladne kao vukovi gladan kao vuk AC_A3XN2 w2fgea  hungry as a wolf  gladna kao vuk gladan kao vuk AC_A3XN2 w2ngea  hungry as a wolf  gladna kao vuci gladan kao vuk AC_A3XN2 w2ngea  
462. x   istants ne sont pas modifi  s  Ainsi  si vous avez choisi de modifier le texte courant  les mod     ifications sont imm  diatement effectives  Vous pouvez alors lancer de nouvelles recherches  sur le texte     ATTENTION   si vous avez choisi d appliquer votre graphe en ignorant les sorties  toutes  les occurrences seront effac  es du texte     6 10 5 Extraction des occurrences    Vous pouvez extraire toutes les phrases du texte qui contiennent ou non des occurrences   Pour cela  choisissez un nom de fichier de sortie gr  ce au bouton  Set File  dans le cadre   Extract units   figure 6 62   Cliquez ensuite sur un des boutons  Extract matching units  ou    6 10  APPLICATION DES GRAPHES AUX TEXTES 159       4      AB D  My Unitex English Corpus anhoe snt    2343 sentence delimiters  186612  9300 diff  tokens  83774  9274  simple forms  25  9  di     81970 occurrences  13284 DLF entries  simple words  273 occurrences  274 DLC entries         5  IN THAT PLEASANT DISTRICT of merry England which is  watered by the river Don  there extended in ancient times a  large forest  covering the greater part of the beautiful  hills and valleys which lie between Sheffield and the  pleasant town of Doncaster  5  The remains of this extensive  wood are still to be seen at the noble seats of Wentworth  of  Varncliffe Park  and around Rotherham  S  Here haunted of    yore the fabulous Dragon of Wantley   3  here were fought many    of the most desverate battles during the Civil Wars of the    
463. y correspond    deux  entr  es dans le dictionnaire  Le mot Sir correspond   galement    deux entr  es du diction   naire  mais comme la forme canonique de ces entr  es est sir  elle est affich  e puisqu elle  diff  re de la forme fl  chie par une minuscule        FIGURE 7 27     Automate de la premi  re phrase Ivanhoe    7 5 2 Modifier manuellement l   automate du texte    Il est possible de modifier manuellement les automates de phrase  sauf ceux qui appa   raissent dans le cadre r  serv      ELAG  cadre du bas   Vous pouvez ajouter ou supprimer des  bo  tes ou des transitions  Lorsqu un graphe est modifi    il est sauvegard   dans le r  pertoire  du texte sous le nom sentenceN grf  o   N repr  sente le num  ro de la phrase        190 CHAPITRE 7  AUTOMATE DU TEXTE    Lorsque vous s  lectionnez une phrase  si un graphe modifi   existe pour cette phrase  celui   ci est affich    Vous pouvez alors r  initialiser l automate de cette phrase en cliquant sur le  bouton  Reset Sentence Graph   voir figure 7 28         2344 sentences Ivanhoe by Sir Walter Scott    Sentence Y       Reset Sentence Graph    Rebuild FST Text  close elag frame               N ProperNoun PREP N ProperNoun    Apply Elag Rule                FIGURE 7 28     Automate de phrase modifi      Lors de la construction de l automate d un texte  tous les graphes de phrase modifi  s pr  sents  dans le r  pertoire du texte sont effac  s     NOTE   vous pouvez reconstruire l   automate du texte en prenant en compte vos 
464. y together with other library facilities not covered by this  License  and distribute such a combined library  provided that the separate distribu     14 13  PLUSIEURS AUTRES FICHIERS 353    tion of the work based on the Library and of the other library facilities is otherwise  permitted  and provided that you do these two things     a  Accompany the combined library with a copy of the same work based on  the Library  uncombined with any other library facilities  This must be distributed  under the terms of the Sections above    b  Give prominent notice with the combined library of the fact that part of it  is a work based on the Library  and explaining where to find the accompanying  uncombined form of the same work    8  You may not copy  modify  sublicense  link with  or distribute the Library ex   cept as expressly provided under this License  Any attempt otherwise to copy  mod   ify  sublicense  link with  or distribute the Library is void  and will automatically ter   minate your rights under this License  However  parties who have received copies   or rights  from you under this License will not have their licenses terminated so long  as such parties remain in full compliance    9  You are not required to accept this License  since you have not signed it  How   ever  nothing else grants you permission to modify or distribute the Library or its  derivative works  These actions are prohibited by law if you do not accept this Li   cense  Therefore  by modifying or distrib
465. ymboles qui ne peuvent pas   tre r    crits par des r  gles sont ap   pel  s symboles terminaux  Les membres droits des r  gles sont des suites de symboles non   terminaux et terminaux  Le symbole epsilon not   e d  signe le mot vide  Dans la grammaire  ci dessus  S est un symbole non terminal et a un terminal  S peut se r    crire soit en un  a suivi d un S  soit en mot vide  L op  ration de r    criture par l application d une r  gle est  appel  e d  rivation  On dit qu   une grammaire reconna  t un mot s   il existe une suite de d  riva   tions qui produit ce mot  Le non terminal qui sert de point de d  part    la premi  re d  rivation  est appel   axiome     La grammaire ci dessus reconna  t ainsi le mot aa  car on peut obtenir ce mot depuis l   axiome  S en effectuant les d  rivations suivantes      D  rivation 1   r    criture de l   axiome en aS  So aS    D  rivation 2   r    criture du S du membre droit en aS    93    94 CHAPITRE 5  GRAMMAIRES LOCALES    S   gt  as  gt  aas    D  rivation 3   r    criture du S to e  S     aS     a  gt  aa       On appelle langage d une grammaire l   ensemble des mots reconnus par celle ci  Les langages  reconnus par les grammaires alg  briques sont appel  s Languages alg  briques ou Langages  hors contexte     5 1 2 Grammaires alg  briques   tendues    Les grammaires alg  briques   tendues sont des grammaires alg  briques o   les membres  droits des r  gles ne sont plus des suites de symboles mais des expressions rationnelles   Ainsi 
466. ystems  and issue tracking systems that are managed by  or on  behalf of  the Licensor for the purpose of discussing and improving the Work  but  excluding communication that is conspicuously marked or otherwise designated in  writing by the copyright owner as  Not a Contribution      Contributor  shall mean Licensor and any individual or Legal Entity on behalf of  whom a Contribution has been received by Licensor and subsequently incorporated  within the Work     2  Grant of Copyright License  Subject to the terms and conditions of this License   each Contributor hereby grants to You a perpetual  worldwide  non exclusive  no   charge  royalty free  irrevocable copyright license to reproduce  prepare Derivative  Works of  publicly display  publicly perform  sublicense  and distribute the Work  and such Derivative Works in Source or Object form     3  Grant of Patent License  Subject to the terms and conditions of this License  each  Contributor hereby grants to You a perpetual  worldwide  non exclusive  no charge   royalty free  irrevocable  except as stated in this section  patent license to make   have made  use  offer to sell  sell  import  and otherwise transfer the Work  where  such license applies only to those patent claims licensable by such Contributor that  are necessarily infringed by their Contribution s  alone or by combination of their  Contribution s  with the Work to which such Contribution s  was submitted  If You  institute patent litigation against any enti
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
A1 User Mannuel-0219_EN    DEWALT DW03201  RD-960D    Bedienungsanleitung Aquila T 200_070810b    Hunde- und Katzenschreck  取扱説明書 - 山田照明  5 - American Standard    Copyright © All rights reserved. 
   Failed to retrieve file