Home
        these-mathieu-mangeo..
         Contents
1.                         128  C 13 article provenant du FeM apr  s r  cup  ration                             133  C 14 article provenant du DHO apr  s r  cup  ration                           133  C 15 r  sultat de la fusion entre le FeM et le DHO                            134  C 16 organisation logique d   une base lexicale                               135  C 17    exemple de eraphe UNE  iure ear de de dite a ae du D AN De dame 139  C 18 r  gime d ENSEIGNER sous forme d   automate                          140  C 19 types simples des sch  mas XML                                  142  C 20 sch  ma g  n  ral de l   environnement et ses API                           147  C 21 transformation et   dition d   un document XHTML                         165  C 22 transformation et   dition d   un document rtf                            167  D 1 vue globale de la base lexicale Papillon                              173  D 2 macrostructure du dictionnaire Papillon                              177  D 3 axies reli  es par des liens de raffinement                               178  D 4 page d accueil du serveur Papillon                                  182  D 5 organisation des sch  mas XML dans le projet Papillon                      188  D 6 architecture du serveur Papillon                                  197  D 7 tables de la base de donn  es de Papillon                               198  D 8 interface java permettant de cr  er des liens entre lexies                       200  D 9   d
2.                       46  4 2 3    REVISIONES EN  T  ES aura ie nu ra Fest ee A 46   4 3  Construction  sp  cialis  e  pour des dictionnaires de traduction automatique                   47  4 3  1  Introduction  6 2 544 28 paca passe sa ex patentes ee dues  47  4 3 2  Les manuels d indexage 222 4544 84 auf og done Lung eut eh    48  43 3  DISCUSSION  1 a    de Hu RME NE NN RU NU INTER  49   4 4  Construction  sp  cialis  e  pour des dictionnaires d   usage   l   outil DECID             49  44 1  Introduction      4  4444 dass be ee eee teen ere Ea G 49  4 4 2  L   diteur sp  cialis   DECID                                 50  443  DISCUSSION  a 4 5 ed somme drum A AA A a dors 50   4 5  Construction  en ligne  par des contributeurs   le projet SAIKAM                 51  45 L  Introduction  cara bd vd dame des ee date ut 51  4 5 2  Interface de r  daction en ligne                                51  4 5 3  Interface de consultation           ees trepe r EER EFET ES 53  4 54  DISCUSSION 4 i404 84 Se ee hee ee RRR Ge A as E arte    53   4 6  CONCLUSION  e 5 408 hd a do a ae a hy dd wk  A a  a aa 54  5  Standards li  s 4 la repr  sentation de dictionnaires 55  5 1  Pour les caract  res   Unicode et ses transcriptions                            55  5 2  Pour la structure des documents  le balisage                               56  5 2 1  Le standard des   diteurs  SGML                              56  5 2 2  Un standard plus r  cent  XML et ses d  riv  s                        56   5
3.                     31  2 2 3  Consultation de plusieurs dictionnaires  le site dictionary com               32  2 2 4  Consultation d   une base terminologique multilingue  EURODICAUTOM         33  2 2 5  Conclusion   one e aoe se ae Eds    ins due dau aie de axe 35   3  Outils de manipulation de dictionnaires 37  3 1  Une m  thode de r  cup  ration de dictionnaires  R  CUPDIC                    37  dll  Pr  sentation  ald Gs  fae ee RL LAUSANNE NT Sheer dee 37  3 1 2  Exemple d   article avant r  cup  ration                            37  3 1 3  Grammaire de r  cup  ration                                 38  3 1 4  Exemple d   article apr  s r  cup  ration                            39   3 2  Un outil de manipulation de dictionnaires   PRODUCDIC                     40  32 il  Presentaci   airada obus peser TE be e D 40  32 2  EXCMple ra ica e dale a dec or gh ar ue ct 41   FS CONCIUSION iia a a es a Sa dems     42  4  M  thodes de construction de dictionnaires 43  4 1  Constructions  directe  et  d  mocratique   exemple du FeM                    44  4 11  Introduction   lt  24       doe GS    E a ga dE MR ee semis 44  4 1 2  M  thode de construction  d  mocratique  des articles                        44  4 1 3  Bilan de la m  thode    5  44 wd ns aus a ee bass bass 45   4 2  Cr  ation  classique  avec un   diteur structur   SGML                        45  4 2 1  Introduction       ue due    dau pute de n   be DA de deu te 45  4 2 2  Pr  paration des articles                
4.                    ___   Acception fran  aise   lien om je A E demo  Y   UWT  lenme ent tags  sx  f   cat  gorie    La   tags 4  Vocable   prop  morphosynt  Acception UNL     lemme   indexeur   universal word    categorie g liste d  lemme    mot vedette    prop  morphosynt    liste d   uw    tags    indexeur   indexeur    liste d   uwf    liste d  uwf     unite lexicale   unite lexicale                FIG  B 11     vision interne de la base lexicale         Chaque instance de la classe Acception UNL est li  e    une ou plusieurs instances de la classe  Acception fran  aise  Chaque Vocable est lui aussi li      une ou plusieurs instances de cette classe   Une instance de la classe Acception fran  aise peut   tre li  e    un nombre quelconque de Vocables  et ou d Acceptions UNL     2 1 3  R  daction des articles    Nous avons repris la solution employ  e pour la construction du dictionnaire FeM  Cette technique a  permis de corriger  compl  ter ou cr  er 20 000 entr  es contenant 50 000 acceptions en 9 mois  Nous avons  ensuite am  lior   la technique en s  parant le travail en deux parties     La base de donn  es centrale est g  r  e par un lexicologue  Il r  cup  re d   abord plusieurs dictionnaires  qu il fusionne  Il cr  e une description des entr  es de la base sous forme de grammaire  Gr  ce    cette des   cription  il pr  pare le r  sultat de cette fusion sous forme de fichiers Word    qui sont envoy  s aux indexeurs   Dans un deuxi  me temps  il r  cup  re les fichiers 
5.                   74  1 2 1  Pr  sentation  24   eee hee ces  Le 4 da ad in ben Rad ain ent ue 74   12 2  Architecture  de Dico Web  rosou uct dia    x BUS de aude DUR La ua ue 74   k23 Interface de  DICOWED  Par NE ue ND NS DO BME dh aed eg 75   1 2 4  Fonctionnalit  s originales                                   76   12 SeDISCUSSIOMN a     amp  4 4 4 a HA Ra R   a sue Bu ds se das She   4 77   1 3  Regroupement de ressources locales et distantes  DicoFeJ                     78  1 3 1  Pr  sentation    3 4 we Bk             us Boas    D DA    Due    D 6 ee he    dun A 78   1 32  DISCUSSION  e alucinar Hale MAUR ANS SAT e EN Sale 4 ee ee 79   1 4  Personnalisation du r  sultat des requ  tes   le FeM                          80  ld  Presentation  e ia nos it D    ale  ke ar de    carter Dot atea ye 80   142 DISCUSSION   4 de  4 use Dash Dane   dom S ES am    whl we A  ga E a 4 80   2  Am  lioration des m  thodes de construction 82  2 1  Am  lioration de la m  thode d  mocratique du FeM pour UNL                   82  711  Probl  matique   ia ln e rss salle A AAA Gee A 82   2 1 2  Structure interne de la base          mie ae e aa a 83   2 1 3  R  daction des articles us do a cs a GR a ee  pars 84   21 4  DISCUSSION  sosa s a EAN aa se su IR A ae ae Pe He A ee dune a 87   2 2  Construction en ligne de dictionnaires    structures simples  DicoSz  t  r et Nihongo            88  2 2  L  Pr  SentatiOM     rd Dan    die Gig elk de deg awe 4 a    da    88   2 2 2  Structure des article
6.            3     architecture de DictList    Name  Eurowordnet   Category  multilingual   Domain  general   Source  English   Date of creationinstallation of dictionary  see version  Responsible  lg   Comments  A directory containing the Eurowordnet data     Name  German dictionary   Category  bilingual   Domain  general   Source  English   Target  German   Date of creationinstallation of dictionary  Feb 1997  Author        Responsible  mhc    Comments  no information about the Source of these files    Name  Hungarian_en hu   Category  bilingual   Domain  general   Source  English   Target  Hungarian   Target    Date of creationnstallation of dictionary  2 March 1995  Author  Istvan Szabai   Responsible  Marie H  l  ne Corr  ard   Comments  English Hungarian Dictionary       FIG  B 4     copie d     cran du serveur DictList    73    des choix  L   utilisation de fichiers XML pour stocker les donn  es ainsi que des feuilles de style XSLT a    aussi   t   concluante     Cependant  la majorit   des utilisateurs regrettent de n   avoir que de la m  ta information sur les res   sources  Ils souhaiteraient acc  der aussi directement    un extrait de ces ressources  Nous avons donc con  u    un autre outil r  pondant    cette demande     74 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      1 2  Consultation de plusieurs ressources h  t  rog  nes   DicoWeb    1 2 1  Pr  sentation    Les ressources lexicales disponibles sont stock  es
7.           4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 155        lt xsl value of select  name     gt    lt xsl if test  text     gt       lt xsl value of select  text     gt     lt fyxeltat gt    lt xsliif test     gt    lt ASILitext gt    lt  xslitext gt   CIRIA   lt xsl apply templates select       gt    lt xsliif test     gt    lt xsl apply templates select      gt   a fesliat gt     lt  xsl template gt    lt     mod  le pour les attributs lispo    gt    lt xsl template match   lispo  gt    lt xsl value of select      gt    lt x51 text gt    lt  xsl text gt    lt  xsl template gt        4 2  Interaction avec les serveurs partenaires    La base lexicale peut interagir avec de nombreux fournisseurs diff  rents  Elle peut   tablir des partenariats  avec d autres bases ou d autres applications en   changeant des donn  es  Ce partenariat est bas   sur un  principe de dualit      La base peut utiliser des ressources lexicales distantes  Ces ressources sont disponibles via des fournis   seurs de ressources  Il faut donc standardiser les   changes entre la base et les fournisseurs de ressources    D autre part  la base lexicale fait aussi appel    des services externes par exemple pour lemmatiser un mot  avant une recherche dans la base  ou pour conjuguer un verbe  etc  La base se connecte    des fournisseurs  de services  Il faut donc aussi standardiser les   changes entre la base et les fournisseurs de services     4 2 1  Principe de
8.       72  B 3     archiiecture de DIGtLISE  2 pico hors Near soda 73  B 4 copie d   cran du serveur DictList                                  73  B 5 architecture g  n  rale de DicoWeb                                 74  B 6 Interface Web de DicoWeb                                     19  B 7 l   article neige du serveur dicofej                                 79  B 8 interface du serveur du FeM param  trable                              81  BY     exemple de graphe UNE     2 4      a eS    rap aude BR Sade OS ee 83  B 10 Solution  Mise en   UVT     544 409 a ane ie dues re sh eee GS ado    83  B 11 vision interne de la base lexicale                                   84  B 12 fichier d     dition du dictionnaire frangais anglais that                         85  B 13 fen  tre de la macro style suivant                              86  B 14 fen  tre de la macro liste valeurs                              86  B 15 message d   erreur suite    la v  rification d   une cat  gorie                       87  B 16 article du dictionnaire Nihongo fran  ais                               89  B 17 interface d indexage en ligne du dictionnaire Nihongo                       90  B 18 article fa du serveur DicoSz  t  r                                   92  B 19 utilisation de DicoSz  t  r par un quizz                               92  B 20 article desert de la base lexicale UNL                              94  B 21 l   outil ThirdVoice d   annotation de pages Web                           95  B 
9.       Melby96  Allan Melby et al   1996  The Machine Readable Terminology Interchange Format  MARTIF    Putting Complexity in Perspective  Termnet News  vol 54 55  pp  11 21         Nedobejkine94  Nicolas Nedobejkine  1994  Dictionnaire naturel russe fran  ais issu des fichiers cod  s  ARIANE  Document interne GETA  Grenoble  8 p      Pearsall98  Judy Pearsall  1998  The New Oxford Dictionary of English  Clarendon Press  Oxford  2154 p      Perennou92  Guy P  rennou et al   1992  Le Projet BDLEX de base de donn  es lexicales du fran  ais   crit et  parl    Rapport technique IRIT  UMR CNRS 5505  Groupe IHM PT Universit   Paul Sabatier  de Toulouse  1992  21 p      Perennou97  Guy P  rennou et Martine de Calm  s  1997  Lexique de formes fl  chies repr  sent  es aux plans  morpho syntaxique  phonologique et orthographique  Lisez moi  Equipe IHMPT  IRIT   UMR  5505  Universit   Paul Sabatier de Toulouse  octobre 1997  15 p      Pocock99  Randall J  Pocock  1999  MRDs and LDBs  School of Computer Studies  University of Leeds   Royaume Uni  8 p      Polguere98  Alain Polgu  re  1998  La th  orie Sens Texte  Dialangue  Vol  8 9  Universit   du Qu  bec a  Chicoutimi  pp  9 30      Polguere00  Alain Polgu  re  2000  Towards a theoretically motivated general public dictionary of se   mantic derivations and collocations for French  Proceedings of EURALEX   2000  Stuttgart   pp  517 527     224 Bibliographie     Proszeky97  G  bor Prosz  ky  1997  MoBiDic  A New Language Technology Tool 
10.     3 1 3  Outils utilis  s pour construire le serveur    Le paradigme de d  veloppement de LINUX appliqu      la base Papillon d   une part et le budget limit    pour le projet Papillon d   autre part nous incitent    choisir des outils gratuits ou avec une licence de logiciel  libre  Open Source   Toutefois  pour pouvoir utiliser les outils R  CUPDIC et PRODUCDIC  nous avons  besoin d   une licence commerciale de MCL  Macintosh Common Lisp     Les donn  es lexicales  les donn  es n  cessaires au fonctionnement du serveur ainsi que les donn  es  relatives aux utilisateurs et groupes sont toutes stock  es sur le serveur  Nous utiliserons donc un SGBD libre  et compatible Unicode pour ce stockage    Le serveur doit impl  menter un serveur Web pour   tre accessible via Internet par http    Pour faire le lien entre la base de donn  es et le serveur Web d   une part et aussi pour manipuler les  documents XML  il faut un langage impl  mentant une API DOM ainsi qu   un pilote de base de donn  es     3 2  Structures de donn  es    3 2 1  Description des structures    Toutes les donn  es de la base lexicale sont d  crites sous forme de documents XML  Tout se passe come  si chaque  collection   lexies  axies  poids  utilisateurs  contributions  profils    tait un grand fichier XML   La structure de ces documents est d  crite par le sch  ma DML en annexe A    On d  finit ensuite la granularit   de la repr  sentation dans le SGBD choisi pour le stockage     3  Sp  cifications externes 1
11.     L   attribut DML id port   par un   l  ment est un identificateur unique dans toute la base lexicale  Il permet  d   tablir des liens entre plusieurs   l  ments  Son type reprend le type simple ID des sch  mas XML     Historique des modifications    L historique des modifications d   un   l  ment porte un identificateur unique  L     l  ment r  f  rence son  historique gr  ce    l   attribut DML history qui donne la valeur de l   identificateur unique de l   historique   Le type de cet attribut reprend le type simple ID des sch  mas XML    Le fait de r  f  rencer un historique par un identificateur unique nous permet de stocker dans des fichiers  diff  rents les   l  ments et leur historique  Le fichier d   historique est r  f  renc   dans le fichier d     l  ments par  Pattribut DML history ref qui indique l URL du fichier d historique  Le type de cet attribut est celui  d  crit par la norme xlink et utilis   pour les r  f  rences   xlink href     Notation des langues    Pour noter les diff  rentes langues  nous utilisons la norme ISO 639 2 T  T pour Terminologie   ISO98   qui d  finit un code    3 lettres pour chaque langue  fran  ais  gt fra  anglais  gt eng  malais  gt msa  etc    Nous  ajoutons aussi nos propres codes comme  unl  pour le langage UNL  Cette liste de codes repr  sente le type  lang  L   attribut DML lang est du type DML lang     130 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Encodages des docu
12.     Les articles interlingues peuvent aussi relier des exemples  des tournures  des citations ou des proverbes  avec leurs traductions ou correspondances dans les autres langues  Les liens entre exemples sont appel  s   exies   les liens entre tournures  idiom axies   les liens entre citations  citation axies   et les liens entre  proverbes  proverb axies      2 3  Ressources    r  cup  rer et calendrier    2 3 1  Types de donn  es    r  cup  rer    Afin de faciliter la construction de la base lexicale  nous r  cup  rons des donn  es pour construire des  squelettes d   articles qui seront ensuite compl  t  s par les contributeurs et revus par les lexicologues         La base DiCo comportera    terme 3 000 vocables fran  ais encod  s en Macintosh Western et stock  s  sous forme de champs textuels dans une base de donn  es FileMaker  Nous avons d  j   test   la conver   sion vers XML et UTF 8 d   environ 400 lexies avec succ  s         La partie fran  ais anglais du dictionnaire FeM  Gut96  comporte environ 20 000 vocables fran  ais  correspondant    70 000 lexies fran  aises et 30 000 lexies anglaises  Ce dictionnaire encod   en Macin   tosh Western a   t   r  cup  r   par Ha   Doan Nguyen au format LISPO  Nous l   avons converti en XML  et UTF 8         Le dictionnaire japonais  gt  anglais JMDict  EDict  de Jim Breen comporte environ 70 000 articles  Il  est encod   en XML  De plus  un autre projet en cours pilot   par Jean Marc Desperrier a pour but d   y  ajouter des tradu
13.     cons Si S   body   23  sense  S   gt    gt exps  exps  expl   expl  sub j   subj        sense  trim whites exps    if expl  trim whites expl    if subj  trim whites subj     S     2 4  expl   expl    gt       gt to cparen  expl         2 5  expl   expl    gt  S nil expl     68 subj    subj    gt       gt to cbhrak  subj         2 7  sub j   subj    gt     nil  subj     28  sense    S    gt      sense  S1  sense   S 1     cons S1 S 1  S        9  sense   S     gt     nil  S      start symbol babel entry   symbole de d  part de la grammaire     lexical rules hwd   gt  _ 10     Headword prend 10 caract  res      xps   gt           to cparen   gt   gt      to cbrak   gt   gt         lexical order                      hwd exps expl subj    working code  sia defclass babel     hwd body         classe d  finitions       sia defclass sense     exps expl subj      defun trim whites  string   string trim        Space   Tab   Newline   string          FIG  A 32     grammaire H grammar de r  cup  ration de BABEL       une cha  ne de caract  res se terminant par une parenth  se fermante  le symbole to cbrak correspond     une chaine de caract  res se terminant par un crochet fermant    Expliquons maintenant les r  gles d    analyse syntaxique  syntax rules     sense  est un simple non terminal  Il ne s   agit pas de sense suivi de l   op  rateur de Kleene  De m  me  exp1  est un non terminal normal  sense  donne finalement une liste de sense et exp1  donne 0 ou 1  expl mais il s   agi
14.     define dictionary FeM   owner GETA    comment  French English Malay dictionary     Category  multilingual    creation date  21 01 97    installation date  21 01 97     format  rtf    hw number 192460   bytes 9106261   type  unidirectional     version 1   source languages  French    target languages  English Malay     contents  general vocabulary in 3 languages     domain  general     source  ML  YG  PL  Puteri  Kiki  CB  MA  Kim    legal  all rights belong to ass  Champollion    administrators  Kim  ML    volumes  FeM_fr_en_ms                      FIG  C 5     description du dictionnaire FeM avec LEXARD   tendu     define volume FeM_fr_en_ms   comment  Unique volume du FeM    source language  French          articles composant le volume                 FIG  C 6     description du volume du FeM avec LEXARD   tendu    2 1 2  Architecture linguistique du systeme  D  finition d   un objet linguistique    L utilisateur d  finit ensuite avec LINGARD la microstructure des dictionnaires qu il veut cr  er  Pour  chaque dictionnaire  il d  crit les structures informatiques des unit  s de son lexique  Pour cela  il utilise les    2  D  finition du noyau de l   environnement avec SUBLIM 125    constructeurs de base du langage   arbre  graphe  automate  structure de traits  liste  ensemble    num  ration   etc         def linguistic class french_entry   feature structure    lexical_unit string     Part of Speech  one of  n m   n f   v t    v i   v pr    a   adv   loc   prep       exam
15.     lt element name  fra  gt                          144 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     lt complexType gt    lt sequence gt    lt element ref  reflexie   gt    lt element ref  external references   gt                        lt  sequence gt    lt  complexType gt    lt  element gt    lt  sequence gt    lt attribute ref  id   gt    lt  complexType gt    lt  element gt    lt element name  refaxie  gt    lt complexType gt    lt attribute ref  href   gt    lt  complexType gt    lt  element gt     Nous pouvons   laborer des contraintes sur ces dictionnaires exprim  es par exemple avec le langage  XSLT  Les contraintes sont   crites dans des feuilles de styles XSLT  Celles ci sont ensuite lues et ex  cut  es  sur des documents XML par un moteur XSLT  Les exemples suivants ont   t     labor  s en collaboration avec  Marc Salvati    tudiant en premi  re ann  e de magist  re d    informatique    Le langage XSLT comporte quelques restrictions  Tout d   abord  nous devons fusionner tous les articles  des dictionnaires diff  rents dans un seul document pour pouvoir v  rifier des contraintes de coh  rence  Nous  pouvons r  aliser cette op  ration gr  ce    une feuille de style XSLT      lt xsl stylesheet version  1 0  gt     lt xsl param name  f_source   gt    lt xsl param name  f_ref   gt                        lt     application du mod  le sur le n  ud racine    gt    lt xsl template match     gt    lt     1     l  
16.     lt element name  name  type  string   gt    lt element name  source language  type  lang   gt                  lt element name  word order  type  string   gt    lt element name  cdm elements  type  string   gt    lt element name  context  type  positivelnteger   gt    lt element name  preprocessing  type  string   gt    lt element name  regex  type  boolean   gt    lt element name  input  type  string   gt    lt  arguments gt    lt result gt    lt element name  output  gt    lt complexType gt    lt sequence gt    lt element name  article  type  articleType   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt  result gt       api    Voici un exemple de consultation du dictionnaire FeM avec recherche du mot  essais   un contexte d un  article pr  d  cent et suivant et un pr  traitement de lemmatisation     lt name gt FeM lt  name gt    lt source language gt fra lt  source language gt   lt context gt 1 lt  context gt    lt preprocessing gt Lemmatisation lt  preprocessing gt    lt regex gt no lt  regex gt    lt input gt essais lt  input gt   Voici un extrait du r  sultat de la requ  te  Nous ne montrons que les mots vedettes des articles    lt output  gt    lt article gt  lt headword gt essuyer lt  headword gt     lt  article gt    lt article gt  lt headword gt essai lt  headword gt     lt  article gt    lt article gt  lt headword gt esssayer lt  headword  gt     lt  article gt    lt  output gt     4 3 3  Visualisation du r  sultat    Pour l   instant  le r  
17.     lt format input  xml   gt    lt arguments gt    lt element name  article  type  string   gt    lt  arguments gt   a rosult   lt element name  output  type  string   gt    lt  result gt       api gt    Voici un exemple d   argument       article     lt administration gt   lt indexer date  2001 05 31T16 34 29Z  gt Mathieu  Mangeot lt  indexer gt    lt lesson n  7  date  31 05 01   gt    lt status gt r  vis   par AS lt  status gt    lt  administration gt   lt hun gt szem lt  hun gt    lt pos gt n  lt  pos gt    lt fra gt eil lt  fra gt    lt pos gt n m  lt  pos gt     lt  article gt    Et voici le r  sultat      lt output gt Article szem ins  r    Article   il ins  r   lt  output gt        4 3  Consultation de la base    Divers clients acc  dent    la base pour y effectuer des t  ches vari  es  La base dispose d   interfaces de  consultation et de modification en ligne  Il est aussi possible au programmeur qui le souhaite de construire  une application cliente de la base  Il devra dans ce cas respecter les interfaces API d  finies plus bas et  correspondant aux services demand  s    la base     4 3 1  S  lection des ressources    Pour la s  lection des ressources dans la base       utilisateur a besoin de consulter la m  ta information dis   ponible sur ces ressources  Il le fait via une API de m  ta information  Il peut ensuite  gr  ce aux informations  fournies par cette API  choisir les ressources qu   il d  sire consulter     160 C  Sp  cification d un environnement de g
18.     r  a  http et d sont des raccourcis    gt     lt r RDF xmlns r  http   www w3 org 1999 02 22 rdf syntax nsj   xmins a  http   www w3 org 2000 10 annotation ns    xmins http  http   www w3 org 1999 xx http    xmlns d  http   purl org dc elements 1 0   gt     lt r Description gt     lt r type resource  http   www w3 org 2000 10 annotation ns Annotation   gt    lt r type resource  http   www w3 org 2000 10 annotationType Comment   gt    lt a annotates r resource  file    home mangeot MM These partieB html   gt          cad Context    xpointer start point string range  html 1   body 1   p 85     58 1       lt  a context gt     lt d creator gt mangeot lt  d creator gt     lt a created gt 2001 01 31T17 57 41 lt  a created gt    lt d date gt 2001 01 31T17 59 26 lt  d date gt     lt a body r resource  file    home mangeot  amaya annotations annot01 html   gt    lt  r Description gt     lt  r RDF gt                 FIG  B 22     description d   annotations Amaya dans le format XML    L   l  ment  lt t ype gt  note le type d    annotation  l     l  ment  lt annotates gt  note le document annot    ici  partieB html   l     l  ment  lt context gt  note    l   aide d un pointeur Xpointer l   endroit exact o   se trouve  l   annotation dans le document    Ensuite  on trouve des informations d    administration comme le cr  ateur de      annotation not   par  lt creator gt   et la date de cr  ation de l   annotation not  e par  lt created gt      3  Nouvelles directions pour la consulta
19.     usage  machinal   ce qui a pour cons  quence que  leur structure est parfaitement d  finie et leur contenu jamais ambigu    Il appara  t aussi que  souvent  le contenu de ces dictionnaires peut aussi   tre int  ressant pour des usages  humains  La base M  modata en est le meilleur exemple  Comment faire   Le format externe  comme nous  Pavons vu  est lisible par des d  veloppeurs mais inutilisable par des lecteurs humains  Quant au format  compil    destin      permettre les acc  s rapides  il est toujours illisible par l   humain    On voit donc encore une fois l   int  r  t de d  finir  pour tout dictionnaire et pour toute ressource lexicale   une structure interne  pivot   et de consid  rer les autres formes comme des  pr  sentations   y compris la  forme  source   qui doit   tre strictement   quivalente  Les autres formes  compil  es pour des applications   ou filtr  es pour des pr  sentations  peuvent par contre ne contenir qu   une partie de l   information     26 A   Contexte actuel de la  dictionnairique     2  Outils de consultation de dictionnaires    Un aspect important des dictionnaires    usage humain est   videmment leur  consultabilit     d  termin  e  par la puissance des outils de recherche  par la clart   et la souplesse de la pr  sentation du contenu  et enfin  par la qualit   de l   interface utilisateur en g  n  ral     2 1  Applications de consultation sur ordinateur    Les applications de consultation de dictionnaires sur ordinateurs sont pratiques 
20.    crites avec des kanji  id  ogrammes   Ces kanji ont  plusieurs prononciations possibles  Pour les distinguer  nous ajoutons une lecture de la lexie    l   aide des  syllabaire japonais hiragana et katakana  Cette lecture est stock  e dans l     l  ment  lt yomigana gt     Les objets en japonais sont compt  s de mani  re diff  rente selon leur forme  leur taille  etc  Par exemple   pour compter les fruits ronds ou les ballons  on utilisera  ko   pour compter des machines comme des  voitures  des t  l  visions  on utilisera  dai   etc  Les quantificateurs appropri  s sont not  s comme valeurs des  fonctions lexicales Sing et Mult  Sing riz    grain  Mult chien    meute   La liste des valeurs possibles  provient en majorit   de celle d  finie par Senko K  Maynard pour le Japan Times de Tokyo en 1990  Elle est  d  finie dans le sch  ma Papillon japonais donn   en annexe B    Les niveaux de langue sont repr  sent  s par l     l  ment  lt language levels gt   La politesse est d  finie par  quatre degr  s majeurs   neutre  respect  humilit   et politesse simple  l humilit   est   quivalente    la d  f  rence    Elle est repr  sent  e par l   attribut grade de l     l  ment  lt politeness grade   neutral   gt     La r  f  rence note la situation dans laquelle se trouve le locuteur  Par exemple  s   il parle de sa m  re  la  r  f  rence est cotextuelle  S   il parle d   une autre m  re  la r  f  rence est contextuelle  Cet   l  ment est important  car selon la situation  le locuteu
21.    http   www x hive com     Annexe A   sch  ma XML pour DML    Annexe A   sch  ma XML pour DML    1  Organisation de DML    Les   l  ments du sch  ma DML permettent de d  crire un environnement complet de base lexicale  Voici    l   organisation de ces   l  ments                                          Base  Lexicale  database gt   Historique Dictionnaire    lt dietionary gt        Utilisateur   Interface Interface  client fournisseur  kuser gt  Volume     lt api  lt api  type  type    lt volume gt  client    supplier                       arbre lien fonction   l  ments CDM  tree href    lt funetion gt  id  y  graphe automate types de base 1829   lt graph gt   lt automaton gt   lt article gt    lt headword gt    lt pos gt    lt lexie gt    lt example gt     FIG  A 1     organisation des   l  ments de DML    234 Annexe A   sch  ma XML pour DML    2  Sch  ma XML de DML    La langue de travail commune aux membres du projet Papillon est l   anglais  Le sch  ma DML est utilis    dans le projet Papillon  Les explications sont donc r  dig  es en anglais pour permettre une compr  hension  de la part de tous les membres du projet     lt     XML Schema for common elements of Dictionary Markup Language   These elements are used to encode heterogeneous lexical databases   Namespace   http    www clips imag fr geta services dml   This schema is identified by the location    http    www clips imag fr geta services dml dml xsd   SAuthor  mangeot   Mathieu MANGEOT LEREBOURS Mathieu Mangeot
22.    lan96  ou d indiquer des fr  quences d    apparition dans des corpus    Pour repr  senter cet ensemble pond  r    les unit  s de base des lexiques  les lexies et les axies doivent  pouvoir porter des poids  Ces unit  s de base forment alors les n  uds d   un graphe pond  r    Les liens entre  ces n  uds doivent aussi pouvoir porter des poids  Ce sont les arcs du graphe    Pour que les utilisateur puissent impl  menter plusieurs th  ories diff  rentes pour pond  rer les objets de  la base  les poids ne sont pas stock  s sur les objets mais a part  Les objets portent alors tous des identifi   cateurs qui les relient a leur liste de poids  Les pods sont stock  s dans une matrice    deux dimensions  En  abscisse sont indiqu  s les identificateurs d    objets portant des poids et en ordonn  es  les diff  rents contextes  d utilisation de ces poids     3 2 3  Manipulation des structures    Les sp  cialistes lexicologues forment un groupe qui g  re la construction des dictionnaires  Ils ont besoin  de manipuler les unit  s de base de ces dictionnaires  les lexies et les axies  Ils peuvent en cr  er et en fusion   ner  Ils ont aussi besoin de cr  er des ensembles virtuels de lexies ou d   axies selon des crit  res particuliers  pour pouvoir v  rifier le contenu de la base et contr  ler sa qualit      Si un lexicologue s   aper  oit entre autres qu   un contributeur fait syst  matiquement la m  me faute sur les  lexies qu   il envoie au serveur  par exemple qu   il indique syst  ma
23.    n   m    action de tuer    PAR L individu X DE L individu Y    REGIME  X 1 Yell   1deN  1 deN   2  A poss 2  A poss    FONCTIONS LEXICALES    o Qsyn   assassinat   homicide 2   crime    o VO   tuef       FIG  D 10       dition de la lexie MEURTRE avec Amaya    Lorsque le lexicographe a fini de r  diger un fichier  il le renvoie    la base  Le fichier est ensuite reconverti    4  Analyse g  n  rale et impl  mentation 203    du format XHTML vers le format original XML DML au moyen d   une autre feuille de style XSLT en suivant  la m  thode d  crite en partie C  Puis un sp  cialise lexicologue r  vise les articles avant de les int  grer dans la  base  Il enl  ve ensuite les marques sur les articles int  gr  s    Les lexicographes utilisent un   diteur structur   XHTML pour travailler  Ils peuvent par exemple utili   ser Amaya  Amaya   Cependant  cet   diteur comporte une restriction importante  En effet  m  me s   il est  possible de travailler avec des documents encod  s en UTF 8  les caract  res n   appartenant pas    la norme  ISO 8859 1 ne sont pas affich  s  Il n est donc pas encore possible d utiliser Amaya pour   diter un article  japonais par exemple  L   quipe de d  veloppement du logiciel Amaya travaille actuellement sur cette limita   tion     4 3 6 Interfaces pour les sp  cialistes lexicologues    Le groupe des sp  cialistes lexicologues a acc  s    toutes les donn  es de la base et en particulier aux axies  qui sont cach  es lors de la consultation  Pour mener   
24.    pest  Hongrie  Linguistics Institute  Hungarian Academy of Sciences  pp  3 59      Atkins94  B  T  Sue Atkins  amp  Antonio Zampolli  1994  Computational Approaches to the Lexi   con Oxford University Press  480 p      Bauer94  Daniel Bauer  Fr  d  rique Segond  amp  Annie Zaenen  1994  Enriching a SGML tagged bilin   gual dictionary for machine aided comprehension  Technical Report Xerox Research Center  Europe  21 p      Bachut84a  Daniel Bachut  1984  ATLAS  manuel d utilisation  GETA  rapport interne  37 p      Bachut84b  Daniel Bachut  amp  Nelson Verastegui  1984  Software tools for the environment of a computer  aided translation system  Proc  COLING 84  Stanford  GETA  4 p      Blanc96  Etienne Blanc  1996  Une maquette de base lexicale multilingue    pivot lexical  PARAX  Lexi   comatique et Dictionnairique  Actes du colloque LTT  Lyon septembre 1995  ed  AUPELF   UREF  Montr  al  Canada  pp  43 58     218     Blanc99     Bibliographie    Etienne Blanc  1999  PARAX UNL  a Large Scale Hypertextual Multilingual Lexical Data   base  Proceedings 5th Natural Language Processing Pacific Rim Symposium 1999  Tsinghua  University Press  Beijing  1999  pp  507 510      Boguraev89  Brian Boguraev et al   1989  Computational lexicography for natural language processing      Boitet82a      Boitet88      Boitet90      Boitet93a      Boitet93b      Boitet93c      Boitet95a      Boitet95b      Boitet97      Boitet98      Boitet82b      Boitet82c      Boitet86a     Brian Boguraev 
25.    this group links all the external references of an axie  If  a new external reference is added  a new group will be defined there      gt    lt group name  external references  gt    lt sequence gt    lt element ref  d UNL graph  minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d UNL  minOccurs  0  maxOccurs  1   gt    lt element ref  d WordNet  minOccurs  0  maxOccurs  1   gt    lt element ref  d NTTsemcat  minOccurs  0  maxOccurs  1   gt    lt element ref  d LexiGuideConcept  minOccurs  0  maxOccurs  1   gt    lt  sequence gt    lt  group gt    lt  redefine gt   XI definitions for the language links  A   lt I eng element  gt    lt     links to english lexies corresponding to this axie    gt    lt element name  eng  type  d refsType   gt    lt     fra element    gt    lt     links to french lexies corresponding to this axie    gt    lt element name  fra  type  d refsType   gt    lt     jpn element    gt    lt     links to Japanese lexies corresponding to this axie    gt    lt element name  3Jpn  type  d refsType   gt    lt     lao element    gt    lt     links to lao lexies corresponding to this axie    gt    lt element name  lao  type  d refsType   gt    lt     tha element    gt    lt     links to thai lexies corresponding to this axie    gt    lt element name  tha  type  d refsType   gt    lt I vi lement  gt            lt  l    links to vietnamese lexies corresponding to this axie    gt    lt element name  vie  type  d refsType   gt                          xl
26.   1  type  string   gt    lt element name  spa  maxOccurs  1  type  string   gt    lt element name  tha  maxOccurs  1  type  string   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt   interests element  gt    lt     Indicates the interests of a user contributor    gt    lt element name  interests  gt    lt complexType gt    lt sequence gt    lt element name  interest  type  string   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     activities element  gt    lt     Indicates the activities of a user contributor    gt    lt element name  activities  gt    lt complexType gt    lt sequence gt    lt element name  activity  type  string   gt    lt  sequence gt    lt  complexType gt      lt  element gt     2  Sch  ma XML de DML 243        lt  l   credits element    gt    lt     contributions credits of a contributors  If a contributor  sends a contribution to the database  his her credits increase  If          s he extracts a customised dictionary from the database  his her  credits decrease   gt         lt element name  credits  type  Integer   gt    lt     contributions element    gt    lt     groups the contributions of a contributors  These  contributions are stored in a virtual space before being reviewed and  integrated into the database by a specialist in lexicology     gt    lt element name  contributions  gt                  lt complexType gt    lt sequence gt    lt element ref  d contribution   gt    lt  sequence gt    lt  complexT
27.   Les lexicographes du monde entier peuvent se connecter    la base lexicale centralis  e et mettre    jour  son contenu en utilisant des navigateurs Web standard  Les utilisateurs doivent s   identifier au pr  alable  Ils  peuvent ensuite se connecter au syst  me en entrant leur login et leur mot de passe puis   diter le contenu des    52 A   Contexte actuel de la  dictionnairique     dictionnaires en suivant ces trois   tapes     chaque lexicographe est affect   un  panier  de mots    Le lexicographe doit donc premi  rement remplir son panier avec les mots qu   il souhaite r  viser  Il les  r  vise ensuite en ligne    l   aide d   un formulaire HTML  Une fois que ses entr  es sont compl  t  es  il les  retire de son panier  Elles pourront ensuite   tre r  vis  es par d   autres lexicographes  La figure A 40 montre  le formulaire HTML pour l     dition d   un article japonais        gt  L  vel   Etre E  US     CL  Click on aes      Level 1  Difficulty 110  Meanings 5  1   2   3  Y        Delete this word   Add a New Meaning      Select Part of Speech    Part of Speech  N Pron  z     Describe the Meaning    AIIM  Cas ngs     AIVIHAHIHAA  came Ime     asa lianas MAARA ron lan  a  a asus laa ut CATH     UNAIIH 14B83    aa 1991011518 N1S am NAY sanns    Remove   Put back      daum ia lan aun  usaran Lana    Test Add  __Tes      FIG  A 40     interface d   dition de SAIKAM       Le tha   utilise un alphabet sp  cial dont la m  thode de saisie est peu r  pandue  Elle ne se trouve 
28.   NA    gt      lt    pound Currency    gt  ae   lt enumeration value   Y M   gt      lt    franc Currency    gt  E   lt enumeration value  7 7     gt      lt    kiro Measuring units   used for both kilometers and kilograms    gt    lt enumeration value   H   gt      lt    gram Measuring units    gt _   lt enumeration value   7  gt  A   gt      lt    centimeter Measuring units    gt    lt enumeration value  k  gt      gt     4  Sch  ma de Papillon japonais     lt    litter Measuring units    gt    lt enumeration value   Y hw   gt      lt     amp     Hiki Animal world   for insects     cets and dogs    gt    lt enumeration value  PL   gt     fish     small animals such as     lt   gt  t   Animal world   for large animals such as horses  bears  deer     etc     gt  _   lt enumeration value  BR   gt      lt    f  gt  wa Animal world   for birds    gt    lt enumeration value  3y   gt      lt     PU9 gt  kai Frequency   times    gt    lt enumeration value   4    gt     JA do Frequency   times    gt    lt enumeration value   E   gt      lt         ban   order   times    gt    lt enumeration value      gt      lt     HAS banmelorder    th    gt    lt enumeration value   E   gt      lt    X  t  lorder    gt    lt enumeration value      gt      lt    LA  A  gt   jikan duration   hour    gt    lt enumeration value  MR   gt      lt    L   327A  gt  s  kan duration   week    gt    lt enumeration value  3MR    gt      lt          funkan duration   minute    gt    lt enumeration value     
29.   U S   Gazetteer contenant plus de 13 000 termes  le Acronym Finder contenant 50 000 entr  e  le On line Medical  Dictionary incluant 60 000 termes et 5 000 d  finitions du glossaire financier InvestorWords  Ils totalisent un  ensemble de 600 000 entr  es     Interface    L interface repr  sent  e par la figure A 26 est du type de celle du dictionnaire universel francophone   L utilisateur rentre un mot dans un formulaire HTML et clique sur un bouton pour lancer la recherche  Il n   a  aucune option de consultation comme la recherche avec les premi  res lettres ou des expressions r  guli  res   l   utilisation d un lemmatiseur  etc     Look up  EEN  II    Search  9 Dictionary   Thesaurus    Dictionary com       FIG  A 26     interface du serveur dictionary com    R  sultat    La consultation de plusieurs ressources permet d   obtenir des articles ayant le m  me mot vedette mais  appartenant a des dictionnaires diff  rents  Par exemple  pour le mot vedette  do   on obtient 19 articles  provenant de six dictionnaires diff  rents  La figure A 27 montre le r  sultat d   une requ  te sur le mot anglais  abbreviation     2 2 4  Consultation d   une base terminologique multilingue   EURODICAUTOM  Introduction    Eurodicautom  Eurodicautom  est la base de donn  es terminologique multilingue du service de traduc   tion de la Commission Europ  enne  D  velopp  e initialement pour assister les traducteurs internes  elle est  aujourd   hui consult  e par un nombre croissant de fonctionn
30.   acquisition 1  F em    emplett 1  F Coma   vene la     Gener   temsnchon   gt  Malt    b Magn gant    b Magn    gt  Dom  P AntiBon          Fic  A 39     fen  tre de lexie de DECID    g  n  raux utilis  s par le lexicographe  Comme le DEC est un travail de lexicologie  la structure des entr  es  est en permanente   volution  Cela rend tr  s difficile la maintenance d   un outil ad hoc  Or DECID a   t    construit en fonction d   un   tat pr  cis du DEC a des fins d   exp  rimentation d   interfaces pour lexicographes   il faudrait donc le transformer en un   diteur plus g  n  rique ou au moins param  trable par les lexicologues     4 5  Construction  en ligne  par des contributeurs   le projet SAIKAM    4 5 1  Introduction    SAIKAM  Ampornaramveth98 00  est un projet lanc   en 1998 par l   ATPIJ  association des profes   sionnels tha  s au Japon  avec l   aide du NECTEC  National Electronics and Computer Technology Cen   ter  en Tha  lande et du NACSIS NII  National Institute on Informatics  au Japon  Son but principal est  le d  veloppement d   un environnement int  gr   en ligne pour la construction collaborative d   un lexique  japonais tha   sur Internet    La base lexicale est impl  ment  e en PostgreSQL  Cette base de donn  es est consult  e par des CGIs  install  s sur un serveur HTTPd Apache  Il existe principalement deux interfaces  une pour les lexicographes  et une pour les utilisateurs  consultation et contribution      4 5 2  Interface de r  daction en ligne  
31.   apprentissage de la langue avec la date et le num  ro  de la le  on dans laquelle ce mot a   t   vu pour la premi  re fois avec les   l  ments  lt lesson date gt  et   lt lesson number gt     Enfin  nous notons des informations d   administration pour nous permettre de contr  ler la qualit   des  donn  es  Nous notons le nom du lexicographe avec l   attribut indexer  la date avec l   attribut date et le  statut de la lexie avec l   attribut status     2 2 3  Interface de r  daction       chaque nouvelle le  on  les nouveaux mots sont ajout  s au dictionnaire par un des participants    la  le  on  Chaque contributeur poss  de son interface web personnalis  e  L interface de la figure B 17 est per   sonnalis  e pour Mathieu  Cela permet de noter le nom et le niveau du contributeur     l   aide d   un formulaire  HTML  voir figure B 17   il entre les donn  es en ligne  Ces donn  es sont ensuite ins  r  es dans les diction   naires et stock  es au format XML sur le serveur  Elles sont ensuite consultables gr  ce    un outil similaire     DicoWeb    Lorsque l utilisateur entre les donn  es en ligne  le serveur attribue automatiquement un num  ro unique     chaque lexie  Dans le cas de la figure B 17  une lexie fran  aise pour maison et une lexie japonaise pour  uchi  Si un autre utilisateur entre ensuite les m  mes mots  le serveur l   avertira  L utilisateur devra alors  cocher le bouton forcer l insertion de l entr  e s   il estime que le nouveau mot entr   est en  fait une no
32.   avant conversion apr  s conversion   lt headword gt meurtre lt  headword gt   lt span class  headword  gt meurtre lt  span gt      lt pronunciation gt meu rtr e  lt  pronunciation  lt span class  pronunciation  gt meu  rtr e  lt  span gt    lt pos gt n m  lt  pos gt   lt span class  pos  gt n m  lt  span gt           lt example gt La m  sentente pourrait   tre le    lt span  class  example  gt La m  sentente  mobile du meurtre  lt  example gt  pourrait   tre le mobile du meurtre  lt  span gt     TAB  C 4     conversion de XML vers XHTML    Certains   l  ments XML n  cessitent un visualisateur particulier ou sont associ  s a une action particuli  re   Une applet java impl  mentant le visualisateur ou l   action est alors associ  e    l     l  ment lors de la transfor   mation XSLT  Il est possible d   associer par exemple un visualisateur d    arbres hyperboliques d  crit dans la  partie B    des traductions multiples d   un mot    Dans l   exemple suivant  un synth  tiseur est associ      la prononciation du mot vedette  A l     l  ment    XML  lt prononciation gt sera alors associ   l     l  ment XHTML  lt applet gt   Le contenu de l      l  ment  sera pass   en param  tre de      applet     XML XHTML  avant conversion apr  s conversion     lt pronunciation gt meu rtr e  lt  pronunciation gt   lt applet code  phonetiseur class  archive    phonetiseur zip  gt      lt param name  element  value    pronunciation  gt     lt param name  data  value  meu rtr e   gt    lt  applet
33.   complexType gt    lt  element gt    lt     group element    gt    lt        describes a group of the database by listing its users    gt    lt     3 groups exist in every database by default  administrators   lexicologists and the universe of all users    gt    lt element name  group  gt    lt complexType gt      lt sequence minOccurs  1  maxOccurs  unbounded   gt    lt element ref  d user ref   gt    lt  sequence gt    lt attribute name  name  type  string  use  optional   gt    lt  complexType gt    lt  element gt        240 Annexe A   sch  ma XML pour DML                mt user ref element  gt    lt        This element is used to make a reference to a user of the  database     gt         lt element name  user ref  gt    lt complexType gt      lt attribute name  name  type  string  use  optional   gt                        lt attribute ref  xlink href  use  optional   gt    lt  complexType gt    lt  element gt    lt     dictionaries element     lt     lists all the heterogeneous dictionaries available locally or  through the network from the database    5     lt element name  dictionaries  gt    lt complexType gt    lt sequence minOccurs  0  maxOccurs  unbounded  gt      lt element ref  d dict ref   gt            lt  sequence gt    lt  complexType gt    lt  element gt    lt      dict ref element  gt    lt     links to a dictionary element that describes a dictionary    gt         lt element name  dict ref  gt    lt complexType gt      lt attribute name  name  type  string
34.   d  finis  nous pouvons maintenant fusionner des articles provenant  de ressources h  t  rog  nes s   ils contiennent les m  mes   l  ments CDM  Dans les exemples suivants  les    l  ments CDM sont pr  fix  s par  dm1    Ils appartiennent    l   espace de noms DML  La s  mantique de ces    l  ments est donc fix  e par les tableaux C 2 et C 3    Les figures C 13 et C 14 montrent un article du FeM et un article du DHO apr  s r  cup  ration    La fusion s   op  re autour des   l  ments communs  Les   l  ments  lt ent ry gt  contiennent le m  me   l  ment   lt headword gt   Ils sont donc fusionn  s  Les   l  ments  lt synt act ic cat  gt  contiennent le m  me   l  ment   lt pos gt   Ils sont donc fusionn  s  Cette fusion peut s   op  rer par exemple gr  ce    un programme XSLT  La  figure C 15 montre le r  sultat de la fusion     132 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    article   sense Eve    sense level  2      TAB  C 2     ensemble d   l  ments CDM       Ams COM  FM  DHO  N0     lt etymology gt   ems    ESTU   mem  a    EIN mem fe    indicas  ages fae        definition       lt colloae gt        __    nos em      TAB  C 3       quivalents des   l  ments CDM dans le FeM  le DHO et le NODE       2 2 4  Passage effectif de SUBLIM a XML    La transformation effective de SUBLIM    XML est possible pour les structures d  j   d  finies en SU   BLIM  Cette transformation peut s   effectuer automatiquement    l   aide d 
35.   eG RHR RE AOA ae A    214  Probl  mes complexes restant    r  soudre                                  215    Perspectives de recherch     iia 5 oh w maman ue Bt RER 215    viii Table des mati  res    Bibliographie 217  Signets 227  Annexe A  sch  ma XML pour DML 233  1  Organisation de DML 233  2  Sch  ma XML de DML 234  Annexe B   sch  mas XML pour Papillon 259  1  Sch  ma g  n  ral de Papillon 259  2  Sch  ma du volume Papillon axies 268  3  Sch  ma de Papillon fran  ais 272    4  Sch  ma de Papillon japonais 275    Table des figures ix    Table des figures    A 1 exemples de macrostructures                                     9  A2 l   article abr  ger du FeM au format original  LISP                         12  A 3 Particle abr  ger du FeM en format rtf source                          12  A4 Particle abr  ger du FeM  avec indication des styles                        13  AS l   article abbreviate du NODE en format original  SGML                   14  A 6 pr  sentation de l article abbreviate du NODE                        15  A 7 Particle abr  ger du DHO en format original  SGML                       15  A 8 pr  sentation de l article abr  ger du DHO                            16  A 9 extraits du vocable averse du DEC en HTML                          17  A 10 extraits de la lexie MEURTRE de la base DiCo                          18  A 11 l   article MEURTRE du LAF oo 24h eb ee eRe et ea t   ue 19  A 12 Syntaxe du langage ATER io  ucu    4 4 ba A os aan    ee ia de 20  A 13
36.   etc          d utiliser des m  canismes d   aide    la r  daction comme I    affichage de listes ferm  es  cat  gories gram   maticales    tiquettes  etc   des v  rificateurs de coh  rence et de l   aide contextuelle     Contraintes sur les ressources    Pour mener    bien un projet avec de multiples contributions  il ne faut int  grer aux ressources en  construction que les contributions qui sont valid  es auparavant par un groupe d   experts  Les contribu   tions qui n   ont pas   t   encore valid  es sont stock  es dans l   espace virtuel des contributeurs en attendant  la r  vision    Pour chaque modification accept  e dans la base  il faut stocker le nom de la personne qui a fait cette  modification et la date  Il faut g  rer l   historique complet de toutes les modifications sur les ressources afin  d assurer la s  curit   de la base  m  me le groupe  central  peut se tromper  et aussi la reconnaissance pour les  contributeurs  Cela permettra par exemple de faire chaque mois un tableau de classement des contributeurs  en fonction de leur m  rite     120 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Il faut aussi g  rer le travail restant    faire en proposant aux contributeurs une liste des articles les plus  urgents    r  diger en leur donnant un ordre de priorit   en fonction de leur fr  quence d   apparition dans un  corpus par exemple  Cette gestion est n  cessaire d   une part pour   viter que deux contribu
37.   fee aa mets de A AU dou nl 127  2 2 2  Types et attributs communs de DML                            129  2 2 3  S  mantique du sous ensemble CDM de DML                        131  2 2 4  Passage effectif de SUBLIM    XML                            132   2 3  Red  finition des langages de SUBLIM en XML                          133  2 3 1  D  finitions de macrostructure                                 133  2 3 2  D  finitions de microstructure                                138  2 3 3  V  rificateurs de coh  rence                                  143   3  Paradigme de construction coop  rative 146  3 1  D  finition du serveur et ses diff  rents utilisateurs                               146  3 1 1  Mise en place du serveur                                   146  3 1 2  Description des utilisateurs                                    147   3 2  Gestion des contributions                                         149  3 2 1  V  rification d  s donn  es       ss    eb mans dune   d re eg a wa  es deb 149  3 2 2  Stockage des contributions                                    150   4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 152  4 1  Manipulation des donn  es                                      152  4 1 1  R  cup  ration des ressources existantes                            152  4 1 2  Manipulations internes des donn  es                              153  4 1 3  Production de nouvelles ressources                             154   4 2  Intera
38.   genre   l   aspect  la modalit    l   emphase  etc  Un attribut particulier   ent ry  indique l     l  ment cen   tral de l     nonc   repr  sent    pour la partie  scope  consid  r  e     Les UW d  riv  es du mot anglais    book    sont d  crites comme suit           book   garde tout sens possible   book  icl gt publications    sens limit   par une UW hyperordonn  e    livre en tant que publication   book   accounts    sens limit   par une autre UW    livre de comptes   book  ob j gt room    restriction par une relation distinctive         r  server  une chambre    La figure B 9 montre un exemple d   expression UNL    Il fallait    court terme indexer pr  s de 200 000 entr  es avec un co  t maximal de 5 F par entr  e  Pour satis   faire cette demande  il a donc fallu travailler avec plusieurs indexeurs en m  me temps  travaillant chez eux et  non reli  s au r  seau  Il fallut ensuite regrouper les donn  es en construisant une base lexicale pour diff  rents  outils et diff  rents partenaires  La base lexicale est maintenant utilis  e par le serveur de d  conversion des  graphes UNL vers des   nonc  s francais        2  Am  lioration des m  thodes de construction 83    Monkeys eat bananas     monkey icl gt animal     p  generic    at icl action    present entry a    obj ha  gt food       generic    FIG  B 9     exemple de graphe UNL    La solution mise en ceuvre est repr  sent  e par la figure B 10    Format UNL    Import Export  Dictionnaire  BaLeM francais UNL         dic
39.   gt         lt simpleType name  formatType  gt    lt restriction base  string  gt               lt enumeration value  rtf   gt    lt enumeration value  xml   gt    lt enumeration value  html   gt    lt enumeration value  sgml   gt    lt enumeration value  txt   gt    lt  restriction gt    lt  simpleType gt    lt     element contents    gt    lt     It describes with a text the contents of a dictionary    gt    lt element name  contents  type  string   gt    lt     element domain    gt    lt     It describes the domain of a dictionary e g  general   medicine  computer science  etc  Maybe it could be a closed list         lt     element bytes    gt     2  Sch  ma XML de DML 247                                lt  l    Size of all the files of a dictionary in bytes    gt    lt element name  bytes  type  positivelnteger   gt    lt     element source    gt    lt     describes from where does the dictionary come from  who gave it       lt element name  source  type  string   gt    lt I element legal  gt    lt     describes the legal rights attached to the use of this  dictionary e g   research purpose only  public  open source  etc     gt    lt element name  legal  type  string   gt    lt  l    element comments    gt    lt     general comments on a dictionary  text    gt    lt element name  comments  type  string   gt    lt     element cdm elements a   lt     lists all the common dictionary markup  CDM  elements presents  in a dictionary  The CDM elements have a fixed semantics  It
40.   l   entr  e doit soit   tre dispos  e sur une seule ligne  soit pouvoir   tre extraite    l   aide d   un outil simple comme  sggrep  grep pour SGML   Il suffit alors de formuler l   expression r  guli  re ad  quate pour trouver l   entr  e  du dictionnaire  puis d   associer une feuille de style au texte pour le rendu final    La programmation d une premi  re version fonctionnelle de DicoWeb a pris moins d un mois  Nous  avons par la suite ajout   de nouvelles ressources tr  s facilement  avec tr  s peu de d  veloppement    DicoWeb acc  de aux fichiers texte des ressources via des index   galement stock  s dans des fichiers  texte  Aucune information n   est stock  e en m  moire  Malgr   ce handicap  le temps d   acc  s moyen pour  un article est de moins d   une seconde  ce qui est parfaitement acceptable pour un utilisateur humain  Les  ressources sont acc  d  es directement     1 2 5  Discussion    DicoWeb n   est pour l   instant accessible qu   en interne par environ 110 personnes  avec actuellement plus  de 100 acc  s par jour  ce qui d  montre son utilisabilit      Dans cette application  nous utilisons directement le format et la structure d   origine des ressources lexi   cales  Pour l    affichage  nous transformons    la vol  e le format en HTML pour pouvoir utiliser un navigateur   Si plusieurs articles correspondant au m  me mot vedette sont trouv  s  ils sont affich  s    la suite     Avantages    L avantage majeur de cette technique tr  s simple est qu   ell
41.   l   origine de types simples  pr  d  finis  Nous en avons s  lectionn   et r  utilis   certains pour nos d  finitions  Ces types et ces attributs sont  d  clar  s dans le sch  ma XML DML  voir le d  but de l   annexe A      Dates et heures    Les dates sont repr  sent  es par le type de sch  ma XML dateType  La repr  sentation lexicale d   une  date est tir  e du format   tendu de la norme ISO 8601   aaaa mm jjThh mm ss o    aaaa  repr  sente l   ann  e    mm  le mois et  jj  le jour  La lettre  T  est le s  parateur date heure et  hh    mm   et  ss  repr  sentent  respectivement les heures  les minutes et les secondes  L   attribut DML date est du type dateType    Cette repr  sentation peut   tre imm  diatement suivie d un  Z  pour indiquer le temps UTC  Temps Uni   versel Coordonn     Pour indiquer le fuseau horaire  il faut indiquer la diff  rence entre l   heure locale et  l   heure UTC repr  sent  e comme hh mm  les minutes sont obligatoires   pr  c  d  e d   un signe   ou      Par exemple  pour indiquer 13h20 le 31 mai 1999 dans le Eastern Standard Time  qui est d  cal   de 5  heures avant l    UTC  il faut   crire 1999 05 31T13 20 00 05 00     D  lai de r  ponse    D attribut DML delay port   par un   l  ment indique le d  lai de r  ponse lorsqu une requ  te a   t   faite  sur cet   l  ment  Ce d  lai est une dur  e exprim  e avec le type simple durationType des sch  mas XML   Par exemple  5 secondes et 10 centi  mes sera indiqu  e    5 108      Identificateur unique
42.   lectroniques    La technique de construction de ce dictionnaire fran  ais malais en s   aidant de l   anglais comme langue  pivot a   t   reprise dans deux projets appel  s Fe    fran  ais anglais tha   et fran  ais anglais  vietnamien  Ces  dictionnaires sont en cours de construction    Nous avons beaucoup utilis   le FeM dans nos exp  riences  De plus  sa microstructure est relativement  simple  Au d  part  l   anglais   tant une langue pivot mais il y avait des doublons dans les traductions  En effet   un vocable fran  ais ayant deux lexies pouvait avoir une traduction anglaise distincte pour chaque lexie  puis  ces deux traductions anglaises se traduire de la m  me fa  on en malais  Depuis 1995  le d  coupage des sens  se fait selon la langue source  le fran  ais  La microstructure est donc en fourche  les langues cibles   tant les  branches de la fourche  Sa disponibilit   et son originalit   nous ont incit      le pr  senter ici     12 A   Contexte actuel de la  dictionnairique     Format interne du dictionnaire    La microstructure du dictionnaire est compos  e d une suite de paires attributs valeur  Les articles du dic   tionnaires   tant principalement manipul  s par des applications programm  es en LISP  Steele90   le format  interne du dictionnaire est une forme LISP tr  s facile    analyser  Le dictionnaire est stock   dans un ou deux  fichiers par lettre  La taille des fichiers varie de 25    500 kilooctets  La taille totale est de 6 8 m  gaoctets  La  figure A
43.   ps   st  aom  ip  tome    MM   matt   xx    a b  250 FeM  geta   gal 70k  FeM  CB   xan xxx  b b  352 Pap   G N   gal 3 fra    FIG  D 7     tables de la base de donn  es de Papillon       La figure D 7 repr  sente la structure des tables de la base de donn  es de Papillon  La base est organis  e  pour l   instant en cinq tables   les donn  es lexicales  les dictionnaires  les utilisateurs  les historiques et les  poids    La table des donn  es lexicales est la table principale  Chaque unit   de lexique  lexies  axies  articles  est  stock  e sous forme de texte XML  Les annotations et les contributions XSL sont aussi stock  es dans cette  table  La cl   de chaque entr  e est l   identificateur unique port   par l     l  ment  Ensuite  pour chaque   l  ment   on stocke les index de ses   l  ments communs de l   ensemble CDM  son lexique et son dictionnaire  Si c   est  une annotation ou une contribution  on stocke les utilisateurs et les groupes ayant l   autorisation de la voir     La table des dictionnaires permet de stocker les informations contenues dans l     l  ment DML  lt dictionary gt      La cl   de chaque entr  e est le nom du dictionnaire  On trouve entre autres les langues  le domaine  le type   le nombre de mots vedette  les lexiques  etc     4  Analyse g  n  rale et impl  mentation 199    La table des utilisateurs permet de stocker les informations contenues dans l     l  ment DML  lt user gt    La cl   de chaque entr  e est le nom de l   utilisateur  On trouv
44.   r   Le conjugueur et le g  n  rateur d   accusatif  r  sident sur le serveur public de XRCE  D  mos   Ils proviennent des outils d   analyse du hongrois  Il y a  donc un wrapper qui fait le lien entre notre serveur et les outils install  s sur le serveur de XRCE     4 1 2  Utilisation d   un conjugueur    La figure B 25 montre un exemple d utilisation d   un conjugueur  L utilisateur recherche d   abord un  article en indiquant un mot vedette dans l   interface de d  part  Le ou les articles correspondant au mot vedette  s affichent alors dans la partie droite du navigateur  Au bas des articles  une nouvelle interface est affich  e  pour les noms et les verbes  Un bouton permet de demander l   accusatif ou le pluriel des noms  Des listes  sont affich  es pour s  lectionner le temps et le mode de conjugaison des verbes    Lorsque l utilisateur veut conjuguer un verbe  il indique le temps et le mode d  sir  s  Le module de  conjugaison install   sur un serveur distant est alors consult   automatiquement par l   application  Les r  sultats  s affichent ensuite dans la partie droite de la fen  tre  voir figure B 26      4 2  Consultation par une application de traduction automatique    4 2 1  Pr  sentation    Le serveur du dictionnaire UNL est impl  ment   en Common Lisp et tourne sur un Macintosh  Il est  essentiellement utilis   par des machines  En effet  il sert principalement au serveur de d  conversion qui  transforme les graphes UNL en textes fran  ais  Pour que les appl
45.   te contient plus de 430 000 formes fl  chies g  n  r  es    partir de 50 000  entr  es canoniques  Cette version est distribu  e par      association ELRA  European Language Resource As   sociation   ELRA      22 A   Contexte actuel de la  dictionnairique     Les entr  es lexicales de BDLex sont des lemmes  A chaque entr  e lexicale sont associ  s plusieurs  champs         une repr  sentation phonologique sous jacente dans les champs PHON_SYLL et FPH  BDLEX fournit  de plus les homophonies  la repr  sentation en classes phon  tiques et le nombre de syllabes  voir figure  A 18          une repr  sentation en phonogrammes  champ PHONOGRAMMES   Ceux ci jouent un r  le important  dans le cadre de la correction lexicale ou encore de la transcription graph  mes phon  mes         des statistiques lexicales repr  sent  es par un ensemble d   indices de fr  quences d   origine diverses   fr  quence de Catach  fr  quence   l  mentaire      La figure A 16 repr  sente un extrait de cette base  Tous les champs ne sont pas repr  sent  s     GRAPH_ACC PHON_SYLL FPH CS PHONOGRAMMES   aigre doux E gr du s  J  ai E   g g   r r   e          d d   ou u    x s   amygdale A mi dAl N  a A   m m   y i   g    d d   a A   1 1    e     axe Aks N  a A   x ks   e     bahut  bA y N  b b   a A   h    u y   t      chat huant  _A y    N  ch _   a A   t           h    u y   an      t     dix huit  di zAi t    J  d d   1 1   x z         h     ui Ai   t t    exact eg zA kt  J  e e   x gz   a A   ct kt     ice
46.   un script  Les informations dispo   nibles en SUBLIM n   taient pas pertinentes pour nos exp  rimentations  Nous n   avons donc pas travaill   sur  cette conversion     2  D  finition du noyau de l   environnement avec SUBLIM 133     lt dnlsentry gt    lt dml headword gt abr  ger lt  dml headword gt    lt dml pronunciation encoding  geta  gt abre je  lt  dml pronunciation gt    lt dml syntactic cat  gt    lt dml pos gt v tr  lt  dml pos gt    lt dml lexie gt    lt gloss lang  fra  gt un texte lt  gloss gt    lt dml translation lang  eng  gt to shorten lt  dml translation gt    lt dml translation lang  eng  gt to abridge lt  dml translation gt    lt dml translation lang  msa  gt memendekkan lt  dml translation gt    lt dml translation lang  msa  gt meringkaskan lt  dml translation gt    lt french_phrase gt je vous demande d abr  ger votre lettre lt  french_phrase gt    lt english_phrase gt please shorten your letter lt  english_phrase gt    lt malay_phrase gt sila ringkaskan surat anda lt  malay_phrase gt    lt  dml lexie gt    lt  dmlssyntactic cat gt    lt  dml entry gt     FIG  C 13     article provenant du FeM apr  s r  cup  ration     lt dml  entry gt    lt dml   headword gt abr  ger lt  dml   headword gt    lt dml pronunciation gt    lt ph gt abKeZe lt  ph gt    lt  dml pronunciation gt    lt dml syntactic sense gt    lt dml  part of speech gt v tr  lt  dml  part of speech gt    lt dml lexie gt      lt ic gt rendre court lt  ic gt   to shorten     lt co gt mot expressi
47.   use  optional   gt            lt attribute ref  xlink href  use  optional   gt                           lt  complexType gt    lt  element gt    lt   DML definitions for a user  gt   Z  user element  gt            lt    The user element describes all information relative to each user    2  Sch  ma XML de DML 241       of the database with his her settings  preferences  etc   gt    lt element name  user  gt    lt complexType gt    lt sequence gt    lt element ref  d login   gt    lt element ref  d password   gt      lt element ref  d email   gt         lt element ref  d profiles   gt     lt element ref  d credits   gt     lt element ref  d annotations   gt     lt element ref  d contributions   gt     lt element ref  d requests   gt     lt element ref  d xml stylesheet   gt     lt element ref  d groups   gt    lt  sequence gt    lt attribute ref  d history  use  optional   gt    lt attribute ref  d history ref  use  optional   gt    lt attribute name  creation date  type  d dateType  use  optional   gt      lt attribute name  name  type  string  use  optional   gt      lt  complexType gt    lt  element  gt    lt      login element    gt    lt     used by a user to log into the database    gt    lt element name  login  type  string   gt    lt     password element    gt    lt     used by a user to log into the database  Has to be encrypted      gt    lt element name  password  type  string   gt    lt     email element    gt    lt     email address    gt         lt element name 
48.   utilisation  Est il possible d   utiliser    la fois  des ressources locales et distantes   Faut il convertir toutes les ressources dans un format commun au risque  de perdre de l   information ou est il possible d   utiliser directement des ressources de formats h  t  rog  nes    Quelles techniques peut on utiliser pour convertir des ressources et les manipuler     Les utilisations des ressources lexicales peuvent   tre tr  s vari  es  Les outils de TALN ont besoin de dic   tionnaires tr  s pr  cis o   l   information est cod  e de mani  re explicite  Les humains utilisent des dictionnaires  de mani  res tr  s diff  rentes selon qu   ils sont apprenants d   une langue  traducteurs  linguistes ou simple cu   rieux  Est il possible d utiliser une m  me ressource lexicale pour r  pondre    des besoins tr  s diff  rents    Quelles sont alors les contraintes que les ressources doivent respecter   Est il possible de consulter plusieurs  ressources en m  me temps et de param  trer le r  sultat des requ  tes de consultation   Comment enrichir et    largir la consultation des ressources en combinant plusieurs outils     La cr  ation de nouvelles ressources lexicales par plusieurs contributeurs travaillant en collaboration     travers Internet est tr  s int  ressante puisque ceux ci ont des niveaux de comp  tences tr  s vari  s  Un  sp  cialiste d   une langue s   occupera des informations relatives    cette langue  un traducteur mettra en rela   tion les termes des langues qu   il 
49.  1   gt     lt group ref  d language specific  minOccurs  0  maxOccurs  1   gt    lt element ref  d pronunciation  minOccurs  0  maxOccurs  1   gt    lt element ref  d pos  minOccurs  1  maxOccurs  1   gt     lt element ref  d language levels  minOccurs  0  maxOccurs  1   gt    lt element ref  d semantic formula  minOccurs  1  maxOccurs  1   gt    lt element ref  d government pattern  minOccurs  1  maxOccurs  1   gt    lt element ref  d lexical functions  minOccurs  0  maxOccurs  1   gt    lt element ref  d examples  minOccurs  0  maxOccurs  1   gt     lt element ref  d full idioms  minOccurs  0  maxOccurs  1   gt    lt element ref  d axies   gt                              lt  sequence gt    lt     The attribute id is an internal unique id  It is hidden from  the users  If the lexie is deleted  its id remains  It can   t be  reused  It is metalinguistic information  It has to be discussed if       it is necessary to write it in capital letters knowing that it does not                                              exist in Japanese     gt    lt attribute ref  d id  use  required   gt    lt     The attribute basic indicates if this lexie is the basic  lexical unit of the vocable  It   s boolean  Its value is true or  false  Information taken from DiCo     gt    lt attribute name  basic  type  boolean  use  optional   gt   a  The frequency is noted in another part and referenced with the  attribute id    gt    lt  complexType gt    lt  element  gt    lt     headword element    g
50.  1 2  Manipulation des ressources    Les ressources existantes ont toutes des formats physiques et des structures logiques diff  rents  Si l   on  veut les int  grer    la base lexicale  il faut les convertir dans notre formalisme  Cette structure logique et  linguistique unifi  e unique facilitera la comparaison des ressources  Nous avons donc besoin d   outils pour  r  cup  rer les ressources existantes et les transformer dans notre formalisme et pour manipuler les ressources  une fois converties de fa  on    produire de nouvelles ressources     1  Sp  cifications externes de l   environnement 113    Diff  rents types de ressources    Le serveur de la base permet d   acc  der    diff  rentes ressources     des stades diff  rents d   int  gration  dans la base         les dictionnaires externes sont vus dans leur format    ventuellement ensembles dans une m  me fen  tre   exemple de DicoWeb      les dictionnaires r  cup  r  s avec leur structure logique plus ou moins compl  te  exemple du FeM en  XML      les dictionnaires r  cup  r  s et en cours de fusion et r  vision par des contributeurs  soupe lexicale      les dictionnaires g  n  r  s    partir du contenu de la base     R  cup  ration de ressources    Pour la r  cup  ration de ressources  nous avons choisi le syst  me R  CUPDIC  Doan Nguyen96a   Ce  syst  me d  crit en partie A est sp  cialis   pour la r  cup  ration dictionnairique  Il se compose de m  thodes  et d outils puissants et faciles    utiliser  Il permet de
51.  2 montre un article au format original       fem entry    ENTRY  abr  ger    FRENCH_PRON  abre je     FRENCH_CAT  v tr        FRENCH_GLOSS  un texte    E   E        ENGLISH_EQU  to shorten     ENGLISH_EQU  to abridge     MALAY_EQU  memendekkan     MALAY_EQU  meringkaskan                  NNN eee  oo o     o       FIG  A 2     l   article abr  ger du FeM au format original  LISP     Ce dictionnaire a   t   converti au format rtf pour   tre   dit      l   aide du logiciel Word     La figure A 3  montre le m  me article en format rtf         en t  te du fichier rtf        rtfi mac  deff8 deflang1033  fonttbl  f0 froman fcharset77 fprq2 Tms  Rmn         d  finition des polices        f1 fnil fcharset2 fprq2 Symbol    at igi E N S E eae   523 LO      54 fnil fcharset 77 fprq2    96   Tb   96   be  92V a9   81     821        stylesheet   widctlpar  f8 lang1036   snext0 Normal         cs10  additive Default Paragraph Font         d  finition des styles        s16 widctlpar  b f8 fs28 ul lang1036  sbasedon15 snext15 french_entry     SITs  eSB sen s57  s58     s59 1i3960 sb60 widctlpar  f8 cf2 lang1036   sbasedon52 snext59 malay_pron           fin de l   en t  t t d  but du fichier       par  pard plain  sl6 widctlpar  b f8 fs28 1ang1036 abr    8eger   par  pard plain  s28 widctlpar  caps f3 lang1036  abre je     par  pard plain  si8 widctlpar  f8 lang1036 v tr   par  pard plain   s21 widctlpar  i f9 lang1036  un texte    par  pard plain  s34 widctlpar  b f8 cf6 lang1036 to shorten  
52.  26 28 juillet 1994 vol  1 1   pp  21 33      Serasset94c  Gilles S  rasset  1994c  Interlingual Lexical Organisation for Multilingual Lexical Databases  in NADIA  COLING 94  Kyoto  Japon  5 9 August 1994  M  Nagao ed   vol  1 2  pp  278 282      Serasset94d  Gilles S  rasset  1994d  Recent Trends of Electronic Dictionary Research and Development  in Europe  Technical Memorandum TM 038  EDR  Japon  1994  89 p      Serasset94e  Gilles S  rasset  1994e  SUBLIM  un Syst  me Universel de Bases Lexicales Multilingues et  NADIA  sa sp  cialisation aux bases lexicales interlingues par acceptions  Th  se de nouveau  doctorat  Sp  cialit   Informatique  Universit   Joseph Fourier Grenoble 1  194 p      Serasset96  Gilles S  rasset  1996  Un Editeur pour le DEC du francais contemporain  Proc  S  minaire  Lexique  Grenoble  CLIPS  IMAG  pp  131 138      Serasset97a  Gilles S  rasset  1997a  Le projet NADIA DEC   vers un dictionnaire explicatif et combina   toire informatis     La m  moire des mots  Ve journ  es scientifiques du r  seau LTT  AUPELF   UREF  Tunis  pp  149 159      Serasset97b  Gilles S  rasset  1997b  Informatisation du Dictionnaire Explicatif et Combinatoire  Actes  de la quatri  me conf  rence sur le Traitement Automatique du Language Naturel  TALN97    Grenoble  12 13 juin  pp  194 198      Serasset97c  Gilles S  rasset  amp  Alain Polgu  re  1997  Outils pour lexicographes   application    la lexico   logie explicative et combinatoire  Proceedings de RIAO   97  Montr 
53.  3  Pour la repr  sentation du contenu                                   57    5 3 1  Proposition d   une structure tr  s riche  le mod  le GENELEX                57    Table des mati  res 111    5 3 2  Essai de standardisation du contenu   la TEVDEL                      58   6  Exemples de projets r  cents bas  s sur XML 61  6 1  Plate forme de gestion d   une base sur l   hydrographie  DHYDRO                 61  6 1 1  Pr  sentation      ee 5444 ER ER se ce ea pa de bass 61   6 1 2  G  n  ricit   et flexibilit   de Dhydro                              62   6 2  Int  gration de lexiques et de bases terminologiques  SALT                     62  6 2 1  Pr  sentation  o   o eco c 4 64 da sa das sde dada et du aura are ES 62   6 2 2  Exemple de document au format XLT                            63  Conclusion 65    B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement    avanc   69  Introduction 69  1  Exp  riences sur la consultation en ligne 70  1 1  Consultation de m  ta informations sur les ressources                         70  1 1 1  Pr  sentation de l   outil                                    70   1 1 2  Protocole de nommage des fichiers                             70   1 1 3  Structures internes utilis  es        ee 71   1 1 4  Architecture et interface de DictList                              71   LAS DISCUSSION a e e 4 08 ep  amp  Bode GO sd ae Re AN RMI Re a da 72   1 2  Consultation de plusieurs ressources h  t  rog  nes   DicoWeb  
54.  A_     as   sassinat  homicidel  crime Verge tuer ADJECTIF Meurtriera y Nom POUR X auteur  de  ART     imeurtrien  Nom POUR Y victime  de ART    TR  S CHOQUANT atroce  affreux  bru   tal  horrible  inqualifiable  odieux Qui A ETE PREPARE avec pr  m  ditation  pr  m  dit    postpos   assassinat TEL QU IL Y A DEUX TROIS QUATRE Y double triple quadruple  art  pos   Les victimes de ce double meurire sont un pare de famille et san fis de 15 ans  FAIRE UN M  accomplir   commettre  perp  trer   ART     tremper  dans ART     Wa refus   de tremper dans os meurtre odieux    CAUSER QUE X FASSE UN M  POUSSOF  N_ au    RAISON D UN M  mobile kie ART    S OCCUPER  D UN M  enqu  ter  sur ART  J    lucider   ART       trouver l auteur pie ART  J  punir  chatier  ART      Venger  ART    SERVICE DE POLICE QUI S OCCUPE DES M  brigade criminelle PR  PARER UN  M  pr  m  diter  pr  parer  ART      comploter ESSAYER DE FAIRE CROIRE QU UN M  EST UN N  maquiller  ART   en Nj  Na maquil   ce meurtre en accktent Suicide   FAIT DE TENTER UN M  tentative   de    CRI LANCE PAR QQN  QUI ASSISTE    _ RISQUE D   TRE VICTIME D _UN M     Au         C est  ici que le double meurtre a   t   commis  Soup  onn   du meurtre de son   pouse  il  a   t   arr  t   par les gendarmes mercredi   i devrait compara  tre aux assises dans  trois semaines comme auteur pr  sum   du meurtre d un quinguag  naire    _appel  au meurtre  _crier au meurtre     FIG  A 11     l   article MEURTRE du LAF    Nous voyons que cet article es
55.  Cela confirme  l   aspect g  n  rique de notre poste de travail    L utilisation de Word permet une d  mocratisation de la m  thode  Les lexicographes peuvent travailler  aussi bien sur Macintosh que sur PC  Ils n   ont pas besoin non plus d   utiliser des machines tr  s puissantes   Des postes d   entr  e de gamme suffisent    Au premier abord  les outils d   aide    l   indexage semblent prometteurs  Ils permettent manifestement  de gagner du temps et d     viter des erreurs  De plus  si l   ensemble du dictionnaire n   est pas exactement  conforme    une structure d  finie ou si certaines parties sont d  licates  les lexicographes peuvent tout de  m  me travailler sur un sous ensemble de l   information disponible     88 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      Inconv  nients    Il reste tout de m  me des probl  mes inh  rents    la m  thode  A  nsi  m  me si nous fournissons au  lexicographe des outils permettant de v  rifier la structure des entr  es  des probl  mes subsistent lors de  la r  cup  ration  En effet  ces outils ne fonctionnent que lorsque le lexicographe les appelle  L exp  rience  montre qu il ne le fait que rarement  D   autre part  on a toujours besoin d   un administrateur de la base pour  v  rifier le travail des indexeurs    De plus  cette technique est restreinte    des dictionnaires    structures relativement simples  descriptibles  par des grammaires LL 1       2 2  Construction en ligne 
56.  Elles sont g  r  es par un petit groupe de lexicologues sp  cialistes  qui doivent alors r  viser le travail afin soit de l   ajouter  soit de le renvoyer pour des corrections  Les contri   butions ne sont donc pas incluses directement dans la base  Elles sont au pr  alables stock  es dans l   espace  virtuel du contributeur en attendant leur r  vision par un lexicologue  voir figure C 1     De plus  les lexicologues ont besoin d   un outil permettant de d  terminer les articles incomplets  Il  leur permet alors de construire un ensemble virtuel de choses    faire et de les classer   ventuellement par  ordre de priorit    Cet ensemble est ensuite distribu   aux lexicographes et contributeurs selon leur niveau de  comp  tence                                Pr  paration  du travail Base R  vision et int  gration     faire centrale dans la base  ge Lexicologues  Espace  Perso  ii tailings E  gt   22 res Internet  Stockage Contributeurs  dans  Articles l   espace   Contribs  perso  Contribution Annotations et  Q  sur des articles contributions sur    les contributions    FIG  C 1     processus de gestion des contributions    Il reste des probl  mes    r  soudre  Comment affecter les points  par exemple  comment r  partir les points  si une contribution a   t   annot  e par plusieurs contributeurs  comment calculer les profils d utilisateurs et  comment automatiser le plus possible l   affectation des points et l   int  gration de la base quand un certain  niveau de confiance est
57.  HIMEL  SGML  lt   gt        g A   gt  Moulinette page   NODE SGML  gt HTML HTML   texte   Bo     ELRA    FIG  B 5     architecture g  n  rale de DicoWeb    Les dictionnaires sont alors s  lectionn  s en fonction des langues cibles et les fichiers texte originaux  sont parcourus par le script qui cherche l   entr  e d  crite par une expression r  guli  re Perl  Les lignes v  rifiant  l expression r  guli  re sont alors s  lectionn  es puis pass  es    travers une  moulinette  qui transforme le texte  source en HTML  Le tout est renvoy   sous forme de page HTML    l utilisateur     1  Exp  riences sur la consultation en ligne 75    1 2 3  Interface de DicoWeb    La figure B 6 montre l   interface Web de DicoWeb  L   utilisateur s  lectionne la langue source  dans la   quelle il va taper l   entr  e  Il peut s  lectionner ensuite des langues cibles et ou des ressources  Par d  faut   toutes les langues cibles et toutes les ressources locales sont s  lectionn  es      lt  lt  pr  c  dent suivant  gt  gt   orthographe ortogat    Resources   IRELRA nf    spelling  MFeM faute d orthographe    IM NODE    ROHD  IN OUPES HACHETTE    Remote     B Hachette 1  Ensemble des r  gles r  gissant l   criture des mots d une  IR Websters langue  R  forme de l orthographe     Application effective de ces  r  gles  Avoir une bonne orthographe  2  Mani  re correcte d   crire  un mot  L orthographe de    rhododendron     Spellcheck   Analysis   French   Morphological Analysis   except Malay     Reg
58.  Pr  sentation du projet Papillon 175    d  cidera de les fusionner  Par exemple  la lexie AFFECTION au sens m  dical est synonyme de MALADIE   C   est le m  me concept  Il est donc possible de fusionner ces deux lexies  Cela peut aussi arriver si un contri   buteur   tablit un lien de ces deux lexies avec la m  me lexie dans une autre langue  Par exemple  AFFECTION    mu  au sens m  dical et MALADIE se traduisent toutes deux en japonais par BYOUKI   IPS FEL   C est  une autre raison pour fusionner les deux lexies fran  aises   9  Une liaison est pr  vue avec tous les projets de lexicographie multilingue pour autant que les contri   buteurs apportent l   information  Toute axie aura pour chaque syst  me  WordNet  EDR  UNL  ONTOS   LexiGuide  un champ contenant une liste de symboles de ces syst  mes  synset  concept  UW      176 D   Application    Papillon  projet de base lexicale multilingue sur Internet    2  Cahier des charges    2 1  Aspects coop  ratifs    2 1 1  Langues pr  sentes au d  part    Au lancement du projet  les langues vis  es   taient le fran  ais et le japonais  Pour faire le lien entre  des dictionnaires existants  nous avons rajout   l   anglais  Cela permet de croiser des dictionnaires fran  ais   anglais et anglais japonais  Le projet a   t   lanc   en coop  ration entre le GETA c  t   fran  ais et le NII c  t    japonais  Ensuite  les coop  rations entre le NII et des organismes tha   comme le NECTEC et Kasetsart  University    Bangkok sur le projet SAI
59.  TAB  C 7     conversion de XML vers RTF       A A o uses Edi LO       54 fnil fcharset77 fprq2 Y  961  7D 96  bel  92   a9   81 1821        stylesheet   widctlpar  f8 lang1036   snext0 Normal          cs10  additive Default Paragraph Font         d  finition des styles         siS widctlpar  b f8 fs28 ul lang1036 headword        s16 widctlpar  caps f3 lang1036  sbasedon15 pronunciation       si7 widctlpar  i f9 lang1036  sbasedon15 pos        s18 widctlpar  b f8 cf4 lang1036  sbasedon15 example        S19   s20               4 4 4  R  daction avec des   diteurs sp  cialis  s    L exp  rience men  e par Gilles S  rasset  S  rasset96 97a 97b  sur DECID  un   diteur pour le DEC d Igor  Mel   tchuk montre qu   un   diteur sp  cialis   pour un dictionnaire est tr  s utile  Il simplifie grandement I      dition  d un tel dictionnaire     168 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Cependant  l     laboration d   un   diteur sp  cialis   demande des efforts non n  gligeables  Sachant qu en   suite ces   diteurs sp  cialis  s sont difficilement adaptables    de nouvelles structures  il ne faut envisager cette    laboration que lorsque la structure du dictionnnaire en construction est d  j   relativement stable  De plus  il  est n  cessaire de programmer cet   diteur de fa  on portable et il n   existe pas encore de solution totalement  satisfaisante m  me avec java  incompatibilit  s entre les diff  rentes versions de ja
60.  TITLE gt    bannerEnd   lt  TITLE gt         resultListStart   lt     DICTIONARY START    gt    resultListEnd   lt     DICTIONARY END    gt    resultItemStart   lt     ENTRY START    gt    resultItemEnd   lt     ENTRY END    gt     ar    lt  search gt     FIG  B 27     fichier de plug in pour l application Sherlock    Le mot cl   action indique l    URL du CGI DicoWeb    Le mot cl   input introduit un param  tre d   entr  e du CGI    Les mots cl  s resultListStart et resultListEnd indiquent quelles sont les cha  nes de ca   ract  res du r  sultat qui marquent le d  but et la fin de la liste des articles r  pondant    la requ  te    Les mots cl  s resultItemStart et resultItemEnd indiquent quelles sont les cha  nes de ca   ract  res du r  sultat qui indiquent le d  but et la fin de la liste des articles r  pondant    la requ  te           4 3 3  Interface de l   outil Sherlock    L utilisateur entre le terme qu il recherche dans l   interface de Sherlock  Sherlock se connecte alors     notre serveur gr  ce aux informations fournies par le plug in et attend le r  sultat  qu   il affiche ensuite l   o   il  affiche tous les r  sultats de recherche  voir figure B 28      4 3 4  Discussion    Sherlock permet    l   utilisateur de faire une recherche multisite et d afficher les r  sultats selon un ordre  de pertinence   tabli par les serveurs consult  s  Si tous les serveurs de dictionnaires d  veloppaient leur plug   in  nous pourrions faire une recherche multidictionnaire sans a
61.  Une base de concepts multilingue   la base M  modata    Cette base multilingue  Dutoit92  est bas  e sur le Dicologique  Sa macrostructure est constitu  e d   un  dictionnaire pivot o   sont d  crits les concepts  et d   un dictionnaire pour chaque langue  allemand  anglais   espagnol  italien et fran  ais  dans laquelle est traduit chaque concept  La base M  modata compte environ  47 000 concepts tous traduits dans chaque langue de la base  Cette base est   galement distribu  e par l   asso   ciation loi 1901 ELRA  ELRA      Sa microstructure est tr  s simple   pour chaque concept  on trouve une ligne avec le num  ro de concept        une lettre pour indiquer la langue  A pour les concepts  D pour l   allemand  E pour l   espagnol  S pour  l espagnol  F pour le fran  ais et I pour l italien   la traduction du concept      et sa cat  gorie grammati   cale  Le format utilis   est un format texte simple  Les traductions des concepts sont stock  es par langue   Chaque fichier a une taille d environ 1 2 m  gaoctets  La figure A 18 repr  sente les concepts 91 et 92 et leurs    traductions  Chaque paragraphe ou groupe de lignes provient d   un fichier diff  rent      91 A bient  t Av   92  A abr  viation TL rendre plus simple  plus   l  mentaire V  91  D  demn  chst  adv  91 D in K  rze adv  91 D nachstens  adv   92  D abk  rzen v_ trans  91 E  soon  adv   92 E  abbreviate  v_trans  92 E  shorten  v_trans  91 S dentro de poco adv  92 S abreviar v_trans  91 F avant peu adv  91 F da
62.  XML   serveurs lexicaux    Centralised and Distributed Environments for Lexicographers  amp  Lexicologists  in Multilingual Context    Abstract   The growing needs in lexical resources and the success of the cooperative development projects  such as LINUX lead to the idea of accumulating large amounts of very rich multilingual lexical data by  cooperative construction on the Web and  mutualized  use  Contributions to data improvement would be  standardized and made available thanks to an adapted environment    While studying of the current context of the dictionaries domain  we were led to identifying difficult problems  such as heterogeneous data structuring and manipulation  as well as large amount of multilingual lexical data and  visualization or construction in cooperation by people with different skills    Prototypes and experiments on consultation of heterogeneous resources  enrichment and personalization of the  result  on line resource building  and entries writing with a standard editor enabled us to solve these problems  separately    It allowed us to design a complete lexical databases environment addressing all these problems as a specific  layer directly above the DBMS tools that integrates a server for cooperative building  Its kernel includes a  generic formalism for the definition of lexical structures derived from SUBLIM of G  S  rasset  but extended and  translated in XML    This environment is currently applied to the Papillon project which aims at buildi
63.  al  Canada  pp  701 708     Bibliographie 225     Serasset98  Gilles S  rasset  amp  Mathieu Mangeot Lerebours  1998  L   dition lexicographique dans un     Shieber86     syst  me g  n  rique de gestion de bases lexicales  NLP IA   98  traitement automatique des  langues et ses applications industrielles  Moncton  NB  Canada  vol 1 2  18 21 ao  t 1998   pp  110 116     Stuart M  Shieber  1986  An Introduction to Unification Based Approaches to Grammar  CSLI  Notes  Center for the Study of Language and Information  Menlo Park  105 p      Silberztein93  Max Silberztein  1993  Dictionnaires   lectroniques et analyse automatique de textes   le     Sitko97      Steele90      Tanaka94     systeme INTEX  ed Masson  Paris  234 p     Jerzy Sitko  1997  Manuel destin   aux lexicographes  Manuel d indexage UNL  GETA   CLIPS  IMAG  novembre 1997  15 p     G  I  Jr  Steele  1990  COMMON LISP  The language  Digital Press  1030 p     K  Tanaka  amp  K  Uemura  1994  Construction of a Bilingual Dictionary Intermediated by a  Third Language  15th International Conference on Computational Linguistics  COLING 94   Kyoto  1994  pp  297 303      Tomasino90  Igor Tomasino  1990  ODILE  un Outil d   Int  gration Extensible de Dictionnaires et Lemma     tiseurs  M  moire d   ing  neiur CNAM  GETA CLIPS IMAG  150 p      Tomokiyo00  Mutsuko Tomokiyo  Mathieu Mangeot Lerebours  amp  Emmanuel Planas  2000  Papillon      UNL96      UNL97      Veronis90      Vitali00      Vossen97      Wall91      Wilks9
64.  allows       one to merge two dictionaries following their CDM elements or to query  thes lements  gt    lt element name  cdm elements  gt            lt complexType gt    lt choice minOccurs  0  maxOccurs  unbounded  gt    lt     all CDM elements    gt      lt element ref  d headword  maxOccurs  1   gt     lt element ref  d pronunciation  maxOccurs  1   gt     lt element ref  d pos  maxOccurs  1   gt     lt element ref  d translation   gt     lt element name  corpus  maxOccurs  1  type  d cdmType   gt         lt  choice gt    lt  complexType gt    lt  element gt    lt     type cdmType    gt    lt     dml type for cdm elements    gt      lt complexType name  cdmType  gt    lt attribute ref  d delay   gt    lt attribute ref  d lang   gt    lt  complexType gt    lt     element volumes    gt         lt     Lists all the volumes files of a dictionary with an xlink     gt    lt element name  volumes  gt    lt complexType gt    lt sequence minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d volume ref   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     element volume ref    gt              248 Annexe A   sch  ma XML pour DML          gi references a volume file with an xlink     gt    lt element name  volume ref  gt    lt complexType mixed  true  gt    lt attribute name  name  type  xlink label   gt    lt attribute ref  xlink href   gt                              lt  complexType gt    lt  element gt    lt     element links    gt    lt        indicate
65.  amp  Ted Briscoe  ed   Longman  Londres  amp  New York  310 p     Christian Boitet  1982  Le point sur ARIANE 78 d  but 82  DSE 1   GETA CHAMPOLLION   CAP SOGETI FRANCE  252 p     Christian Boitet  1988  Hybrid Pivots using m structures for multilingual Transfer  based sys   tems  Japanese Institute of Electronic Information and Communication Engineering  NLC   88 3  pp  17 22     Christian Boitet  1990  Towards Personnal MT  general design  dialogue structure  potential  role of speech  Proc  Coling 90  Helsinki  20 25 August 1990  H  Karlgren ed   vol  3 3  pp  30   35     Christian Boitet  1993a  Crucial open problems in Machine Translation 4  Interpretation  Proc   BKK   93  Bangkok  Thailand  17 20 March 1993 vol  1 1     Christian Boitet  1993b  La TAO comme technologie scientifique   le cas de la traduction au   tomatique fond  e sur le dialogue  In  La traductique   P  Bouillon  amp  A  Clas ed   Les Presses  de l   Universit   de Montr  al  PUdM   AUPELF UREF  pp  109  148     Christian Boitet  1993c  TA et TAO    Grenoble  32 ans d  j     TAL  revue semestrielle de  PATALA   33 1 2  Sp  cial Trentenaire  pp  45 84     Christian Boitet  1995a  Factors for success  and failure  in Machine Translation   some les   sons of the first 50 years of R amp D  5th Machine Translation Summit  Luxemburg  1995  18 p     Christian Boitet  1995b  Machine Aided Human Translation  Sections 8 3  amp  8 4   Survey of  the State of the Art in Human Language Technology   A  Cole  amp  a
66.  annuelle sur Le traitement Automatique du Langage Natu   ral  TALN   12 13 juin 1997  Grenoble  France  vol  1 1  pp  162 168      Lamping95  John Lamping  Ramana Rao  amp Peter Pirolli  1995  A Focus Context Technique Based on Hy   perbolic Geometry for Visualizing Large Hierarchies  Proc  CHI95  7 11 mai 1995  Denver   Colorado    tats Unis  pp  401 408      Langlois97  Lucie Langlois  David Megginson  amp  Roda p  Roberts  1997  SGMLizing the Bilingual Cana   dian Dictionary  Proc  Joint International Conference of the Association for Computers and  the Humanities and the Association for Literary  amp  Linguistic Computing  ACH ALLC 1997   Queen s University  Kingston  Ontario  Canada  3 7 juin 1997  5 p      LREC98  LREC  1998  Proceedings of the Ist International Conference on Language Resources  amp   Evaluation    dit   par A Rubio  N Gallardo  R Castro  A  Tejada  Grenade  Espagne  28 30  mai 1998  1380 p      Mangeot97  Mathieu Mangeot Lerebours  1997  Outils pour lexicographes naifs  en informatique  DEA  Informatique Syst  mes et Communications  GETA CLIPS IMAG  Universit   Joseph Fourier  Grenoble 1  19 juin 1997  58 p      Mangeot98  Mathieu Mangeot Lerebours  1998  Conception  impl  mentation et indexation de BaLeM   une base lexicale multilingue  Proc  TALN   98  Traitement Automatique des Langues Natu   relles  Paris  vol 1 1  10 12 juin 1998  pp  215 217     Bibliographie 223     Mangeot99a  Mathieu Mangeot Lerebours  1999a  Visualisation et Navigation dans 
67.  articles provenant d   un dictionnaire au format ATEF                       20  A 14 article du dictionnaire de traduction russe  gt  fran  ais                                  21  A 15 trois articles du dictionnaire RUSFRA                               21  A 16 extrait de la base BDLEX        54 54 54 ca as peus RA 22  A 17 extrait de BDLex avec les indices associ  s                               22  A 18 concepts 91 et 92 et leurs traductions dans la base M  modata                      23  A 19 l   article abr  ger du dictionnaire fran  ais UNL au format original                24  A 20 l   article raison du Collins on line                                27  A 21 l   article abr  ger du Oxford Superlex                              28  A 22 r  sultats d   une requ  te sur MoBiDictionary                             29  A 23 interface et r  sultats de la consultation du DUE                          31  A 24 interface et r  sultats de WWWJDict                                32  A 25 article de EDICT au format XML                                 32  A 26 interface du serveur dictionary com s                                33  A 27 r  ponses d   une requ  te sur dictionary com                              34  A 28 interface Web de la base terminologique EuroDicAutom                     35  A 29 terme voiture de la base Eurodicautom                              35  A 30 article de BABEL avant r  cup  ration                                 37  A 31 squelette de r  gle d   analyse 
68.  atteint par un contributeur     1 3  Int  gration des exp  riences pr  c  dentes    1 3 1  Consultation des ressources    La consultation et la navigation dans une base lexicale telle que nous la d  finissons sont des t  ches cl  s  de notre syst  me  En effet  tous les utilisateurs de la base seront amen  s    la consulter  De plus  il faut des  outils de navigation capables de permettre    l   utilisateur de naviguer dans une grande quantit   d   information  sans   tre noy       1  Sp  cifications externes de l   environnement 117    L utilisateur doit pouvoir effectuer des requ  tes complexes  visualiser de grandes quantit  s de donn  es  et enfin d  clencher des actions li  es aux donn  es visualis  es     Requ  tes sur la m  ta information    De nombreuses ressources sont disponibles  Il faut donc pouvoir les comparer et en s  lectionner cer   taines que l   on veut consulter  Il faut que l   utilisateur puisse   tablir des requ  tes sur la m  ta information  relative    chaque ressource pr  sente dans la base    Voici des exemples de requ  tes possibles     Quels sont les dictionnaires avec du japonais en langue cible      Combien d   entr  es y a t il dans le OHD anglais fran  ais    Quelle est la microstructure compl  te du NODE  ou sa DTD    Quels sont les dictionnaires plus r  cents que 1980     Quels sont les droits d   acc  s et d utilisation du dictionnaire FeM     Requ  tes sur la macrostructure    La s  lection dans la macrostructure consiste    ne s  lection
69.  avant de les int  grer     la base  Pour cela  ils se connectent au serveur  Dans la partie r  serv  e aux lexicologues  ils ont acc  s    un  panneau des contributions non int  gr  es    la base  Ils s  lectionnent des contributions  les r  visent et d  cident  de les int  grer ou non    la base  Pour chaque contribution int  gr  e  son auteur est gratifi   de cr  dits     Ajout d   une nouvelle langue    Pour chaque nouvelle langue  un sp  cialiste lexicologue doit d  crire dans un sch  ma XML les parties  sp  cifiques de cette langue  cat  gories grammaticales  liste de quantificateurs  etc    Il se connecte ensuite  au serveur Papillon et envoie le sch  ma XML    Sur le serveur  le document est analys    Les informations sont utilis  es pour cr  er dans la base de  donn  es une nouvelle entr  e pour la langue nouvellement d  finie     Int  gration de donn  es existantes    Les donn  es existantes sont int  gr  es par un sp  cialiste lexicologue  Il faut ajouter un nouveau diction   naire pour chaque ressource r  cup  r  e  Si le dictionnaire contient d  j   des donn  es  le lexicologue les envoie  au serveur sous forme de document XML en m  me temps que le fichier de description du dictionnaire  En   suite il   crit une grammaire de r  cup  ration des donn  es existantes dans le formalisme H grammar  Il envoie  ensuite le fichier repr  sentant la grammaire H grammar  Le serveur r  cup  re automatiquement ces donn  es  existantes et les int  gre    la base    Ensuite  le 
70.  bien leur travail de v  rification  ils peuvent lancer  des requ  tes sur tout le contenu de la base et en extraire des statistiques sur les donn  es  langues de la base   lexies  axies  contributeurs  etc      La figure D 11 montre une interface permettant d effectuer des statistiques sur les lexies fran  aises  Dans  cet exemple  le lexicologue a demand   toutes les lexies ayant la cha  ne  nom  contenue dans la cat  gorie  grammaticale     J   Informations Consultation   dition Contacts Aide    Find Lexies where       Vocable contains Part of speech contains Any other part contains      INN    ABAT JOUR nom  masc  invar  ABATTEMENT 1  nom  masc  ABATTEMENT 2  nom  masc k  ABEILLE nom  f  m  ABOIEMENT nom  masc  surtout pl  ASSASSINAT nom  masc   BARBE nom  fem   BONNE HUMEUR loc nom  f  m  pas de pl  seulement avec art def  CH  QUE nom  masc  COMPLIMENT nom  masc   CORPS    CORPS loc nom  masc    Bl  Pa  i     dE  bu  hl  Bal     pu  2       FIG  D 11     requ  te sur la base Papillon    Les lexicologues ont aussi besoin de v  rifier la coh  rence et la compl  tude de la base afin de d  tecter  des erreurs   ventuelles ou de pr  parer un tableau de choses    faire  Pour cela  ils r  digent des scripts de  v  rification de coh  rence et les envoient au serveur Papillon qui les ex  cute ensuite en t  che de fond     204 D   Application    Papillon  projet de base lexicale multilingue sur Internet    5  Evaluations pr  liminaires et exemples    5 1  R  cup  ration du FeM    
71.  bool  en  L   attri   but history est un attribut DML  C   est un identificateur permettant de faire r  f  rence    l   historique des  changements ayant eu lieu dans la lexie  L origine des informations est aussi stock  e dans l   historique  Si  une modification a ensuite lieu  un attribut history est automatiquement cr     sur l     l  ment XML le plus  proche contenant toute la modification    Les lexies contiennent 10   l  ments principaux  le nom du vocable  la prononciation  les   l  ments  sp  cifiques aux langues  la cat  gorie grammaticale  la formule s  mantique  le r  gime  les fonctions lexi   cales  les exemples  les idiotismes et les liens vers les axies    Le nom du vocable est une repr  sentation graphique de la lexie trouv  e dans les textes  Pour repr  senter  ce nom  nous utilisons l     l  ment DML  lt headword gt   Cela nous permet de donner une d  finition s  mantique  pr  cise    cet   l  ment    La prononciation est repr  sent  e par l     l  ment DML  lt pronunciation gt   Les encodages peuvent    tre diff  rents selon les langues  alphabet phon  tique international  transcriptions phon  tiques  encodages   maison   etc    Les informations sp  cifiques    chaque langue sont d  crites par le groupe  lt language specific gt   dans le sch  ma Papillon  Ce groupe est ensuite red  fini dans les sch  mas XML sp  cifiques aux langues    La cat  gorie grammaticale est repr  sent  e par l     l  ment DML  lt pos gt   Les valeurs possibles de cet    l  ment s
72.  construction en coop  ration par des personnes aux comp  tences diverses     Des prototypages et des exp  rimentations portant sur la consultation de ressources h  t  rog  nes  l enrichissement  et personnalisation du r  sultat  la construction de ressources en ligne et la r  daction d articles avec un   diteur  standard nous ont permis de r  soudre s  par  ment ces probl  mes     Cela nous a permis de concevoir un environnement complet de  bases lexicales  r  pondant    tous ces probl  mes  se pla  ant au dessus des SGBD utilis  s pour le stockage et int  grant un serveur pour la construction coop  rative   Son noyau inclut un formalisme g  n  rique de d  finition de structures lexicales inspir   de SUBLIM de G   S  rasset  mais compl  t   et r  exprim   en XML     Cet environnement est actuellement appliqu   au projet Papillon de d  veloppement par des b  n  voles sur Internet  d une base lexicale comprenant cinq langues  L architecture de la base est constitu  e d un dictionnaire  monolingue pour chaque langue et d un dictionnaire pivot d acceptions interlingues reliant les articles  monolingues  lexies  dont la structure provient de la lexicologie combinatoire     Enfin  l architecture du serveur assez g  n  rique devrait   tre r  utilis  e dans d autres contextes  m  moires de  traduction  outils pour traducteurs  communication et RI multilingue  annotations multim  dia      Mots Cl  s   Lexicologie  lexicographie  dictionnairique  bases lexicales multilingues  sch  mas
73.  corpus delay  10s   gt    lt  cdm elements gt    lt administrators gt   lt user ref name  Mathieu Mangeot   gt         lt  administrators gt   lt volumes gt    lt volume ref name  English  lang  eng  href  papillon eng xml   gt    lt volume ref name  French  lang  fra  href  papillon fra xml   gt                  lt volume ref name  Japanese  lang  jpn  href  papillon jpn xml   gt    lt volume ref name  Lao  lang  lao  href  papillon lao xml   gt    lt volume ref name  Thai  lang  tha  href  papillon tha xml   gt    lt volume ref name  Axies  lang  axi  href  papillon axi xml   gt    lt  volumes gt    lt links gt    lt link from  Axies  to  English  type  bijective   gt    lt link from  Axies  to  French  type  bijective   gt    lt link from  Axies  to  Japanese  type  bijective   gt                        lt link from  Axies  to  Lao  type  bijective   gt    lt link from  Axies  to  Thai  type  bijective   gt   aflinks   lt  dictionary gt     Les volumes    Chaque langue est repr  sent  e par un volume monolingue qui regroupe les articles de la langue  Les  articles monolingues sont des lexies  Les vocables sont construits automatiquement    la vol  e    partir des  lexies  Il y a en plus un volume pivot dont les articles sont les liens interlingues ou axies reliant les articles    192 D   Application    Papillon  projet de base lexicale multilingue sur Internet    des volumes monolingues  L   attribut history ref fait r  f  rence    un fichier o   sont stock  s les histo  
74.  d   un t  raoctet de donn  es     stocker  Une base de donn  es ordinaire ne peut g  rer cette taille  Il faut alors imaginer un autre moyen  pour stocker les poids comme par exemple instaurer un syst  me d   h  ritage de poids entre les groupes et  les stocker sous forme de listes ou de matrices creuses ou encore utiliser les techniques de compression de  s  quences d   images    Le probl  me de calcul automatique de profils d utilisateurs est important pour savoir qui contribue     quoi dans la base  avec quelle fr  quence  et quelle qualit   de contribution  Les profils sont utiles pour   tablir  des statistiques  optimiser la r  partition du travail    faire  accorder un degr   de confiance aux contributeurs   etc    Le probl  me de gestion de charge importante sur un serveur est provoqu   par des connexions simul   tan  es multiples  des t  l  chargements tr  s fr  quents  une activit   continue  connexions depuis le Japon ou  le Canada  etc    et des op  rations en t  che de fond et une sauvegarde tous les jours    Le probl  me de la gestion des conflits et de la synchronisation sur les annotations et les contributions  survient lorsqu un article est supprim   de la base ou que deux articles sont fusionn  s  Que deviennent alors  les annotations et les contributions associ  es    ces articles   Lorsqu une contribution est accept  e  que de   viennent les annotations et les autres contributions faites sur cette contribution      Perspectives de recherche    Nous n   avo
75.  dans des fichiers texte  chacune selon son propre  format  Apr  s les avoir ordonn  es selon la m  thode d  finie pour le serveur DictList  nous avons construit  une maquette qui permet de consulter tous ces fichiers texte en m  me temps    la vol  e et d   afficher les  diff  rents articles dans une seule fen  tre    Nous avons appel   cette maquette  DicoWeb  pour  Dictionnaires sur le Web   DicoWeb est un serveur  de dictionnaires con  u pour un usage humain  Il sert pour des exp  rimentations    XRCE  Pour des raisons  l  gales  il n   est pas accessible au public  Nous pr  senterons son interface  son architecture et quelques points  importants     1 2 2  Architecture de DicoWeb    La m  thode utilis  e pour l   outil DictList a   t   reprise et am  lior  e  Un script cgi   crit en Perl fait la  liaison entre l   utilisateur  les analyseurs morphologiques et les dictionnaires  Lorsque l   utilisateur a choisi  ses langues source et cibles puis tap   son entr  e  le r  sultat est envoy   au script  Si l   analyse morphologique  est s  lectionn  e  ledit script envoie l   entr  e    l   analyseur morphologique correspondant    la langue source   La r  ponse est ensuite d  cod  e  La figure B 5 montre l   architecture g  n  rale de DicoWeb        Serveurs  Web de  Dictionnaires            Websters de en es fr it    A                    texte No  SGML                                                                HD I  E eo  aide Requ  te HTTP   forme  texte   grep Perl een
76.  de DML 237     amp l   Lao  639 1  Lo      lt enumeration value  lat   gt     fie Malay 639214 ms       lt enumeration value  mul   gt           Thai  639 1  th    gt    lt enumeration value  tig   gt         lt   Vietnamese  639 1  vi    gt    lt enumeration value  vol   gt      lt     Chinese  639 1  ZA    gt      lt enumeration value  znd   gt      Zande    5    lt enumeration value  zul   gt       Zulu  639 1  z        lt enumeration value  zun   gt    lt t   Zuni       lt     DML additions to the ISO 639 2 T for special purpose    gt      lt enumeration value  axi   gt    lt enumeration value  unl   gt               lt   restriction gt    lt  simpleType gt   a refType type  gt    lt I references to another object with an xlink  The link can be  tagged with a gloss  lang is the language of the gloss     gt            lt complexType name  refType  mixed  true  gt    lt attribute ref  xlink href  use  required   gt    lt attribute ref  d lang   gt    lt attribute name  tag  type  string   gt    lt attribute name  tag type  type  string   gt            lt  complexType gt    lt     status attribute    gt    lt     The status attribute is used to indicate the status of a  linguistic element    gt    lt attribute name  status  gt    lt simpleType gt      lt restriction base  string  gt    lt enumeration value  auto   gt    lt enumeration value  rough   gt    lt enumeration value  revised   gt     lt  restriction gt     lt  simpleType gt    lt  attribute gt    lt     weight att
77.  de la base contri   buent  ils peuvent le faire grace a plusieurs m  thodes expos  es en partie B     4 4 1  R  daction en ligne via le Web    La r  daction en ligne via le Web est possible gr  ce    des formulaires HTML  Cette technique n   est  valable que si la structure du dictionnaire    construire est simple  Les formulaires HTML sont adapt  s    la    4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 165    structure du dictionnaire  Pour les faire   voluer en m  me temps que la structure  il faut    chaque fois les  reprogrammer    Cette technique est cependant envisageable pour des contributions localis  es  par exemple pour ajouter  un   l  ment    chaque article  prononciation  exemple d usage  idiotisme  etc       4 4 2  R  daction avec des   diteurs structur  s    La r  daction des articles avec des   diteurs structur  s est tr  s avantageuse  L   diteur s   adapte facilement     une structure   volutive d   un dictionnaire m  me complexe    Le logiciel Amaya  Amaya  est un   diteur navigateur HTML  Il permet donc    la fois de visualiser des  documents HTML et de les   diter  Il semble tr  s prometteur    plusieurs points de vue          il est multiplate forme  UNIX  LINUX  Windows        il dispose d  j   d   un m  canisme d annotation         le code source est disponible  Nous pouvons donc modifier le logiciel pour l   adapter    nos besoins   Par exemple  nous pouvons restreindre les fonctionnalit  s de l     diteur 
78.  de seconde g  n  ration d  velopp    au sein du laboratoire GETA    l   aide de l   environnement ARIANE 78 puis converti en ARIANE GS  Pour  les   tapes d   analyse et de g  n  ration morphologiques ainsi que le transfert lexical  ARIANE GS utilise des  dictionnaires  Examinons leur structure  Le langage ATEF utilise  pour l   analyse morphologique trois sortes  de dictionnaires monolingues   de bases  d   affixes et de tournures  Chaque dictionnaire est une liste d   articles  dont voici la syntaxe simplifi  e en figure A 12            lt article de D  de bases gt       lt morphe gt      lt format M gt    lt format S ou G gt     lt UL gt       lt article de D  d affixes gt       lt morphe gt      lt format M gt    lt format S ou  G gt       lt article de D  de tournures gt       lt tournure gt      lt format M gt    lt format S  ou G gt    lt UL gt       lt morphe gt       lt suite de symboles non blancs de 34 caracteres gt     lt tournure gt       lt suite de symboles sans sous suite de 2 blancs de 34  caracteres au plus gt      lt format i gt       lt identificateur gt      Fic  A 12     syntaxe du langage ATEF    L exemple de la figure A 13 est tir   du dictionnaire de bases  Il contient quatre articles                    ACETATE    N1  SUBST   ACETATE    ACETIC    A  VOID   ACETIC Ya  DUMP    V1Z  PN1   DUMP Ys  DUMP    N1Z  LOC   DUMP Jos  FIG  A 13     articles provenant d un dictionnaire au format ATEF  La syntaxe est positionnelle  le signe        tant en colonnes 
79.  definitions for the external references   gt    lt     resource attribute    gt    lt     To locate the file where the external reference is stored    gt            lt attribute name  resource  type  xlink href   gt     270 Annexe B   sch  mas XML pour Papillon     lt     UNL graph element    gt    lt   To encode a UNL graph representing an example    gt    lt     eg  La m  sentente pourrait   tre le mobile du  meurtre   lt UNL graph gt  obj be icl gt state  fentry mobile ftde   aoj mobile  def murder  def  agt  be icl gt state    entry misunderstanding  def   mod can  conditional be  entry   lt  UNL graph gt     gt    lt element name  UNL graph  type  string   gt                        lt     UWs element    gt    lt     List of UNL UWs corresponding to the axie     gt    lt element name  UWs  gt    lt complexType gt      lt sequence minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d refuw   gt                     lt  sequence gt    lt attribute ref  d resource   gt    lt  complexType gt    lt  element gt    lt I refuw element  gt    lt     Represents a UW corresponding to the axie     gt    lt     eg   lt refuw xlink href  river icl gt not into sea     gt     gt    lt element name  refuw  type  d refType   gt    lt     WordNet element  gt    lt     List of WordNet synsets corresponding to the axie     gt    lt element name  WordNet   gt    lt complexType gt      lt sequence minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d refsynset   gt         lt  seq
80.  deux fois le m  me article puis de v  rifier a posteriori  ces erreurs  Cela n     tait pas possible avec une base de donn  es  De plus  lors de la r  daction des articles  le  fait de ne pas voir le contexte de l   article en cours de r  daction  i e  les articles  voisins   dans leur totalit    ou non  est handicapant  Il n     tait pas possible d   avoir une vue globale du dictionnaire     4 1 2  M  thode de construction  d  mocratique  des articles    C   est alors que l   id  e est venue d   utiliser finalement un outil du commerce comme un   diteur pseudo   syntaxique pour le travail d indexage  Cette id  e a   t   propos  e et impl  ment  e pour la premi  re fois en  1992 par Christian Boitet puis reprise par la suite  Gaschler94a 94b   Le choix s   est port   sur le logiciel de  traitement de texte Word car il pr  sentait de nombreux avantages      il fonctionne sur Mac et sur PC     les lexicographes savaient d  j   l   utiliser     il   tait d  j   disponible sur les machines des partenaires     contrairement    de nombreux outils d   indexage  il permet de voir tout un ensemble d   entr  es de  mani  re compacte et d   utiliser le copier coller     Un article du dictionnaire de travail se pr  sente alors en Word sous forme d   une suite de paragraphes   Chaque paragraphe contient un   l  ment d   information  Le style du paragraphe permet de savoir de quel    l  ment il s   agit  Les lexicographes travaillent sur des fichiers RTF  Rich Text Format  qui sont ensuit
81.  email  type  d emailType   gt    lt simpleType name  emailType  gt    lt restriction base  string  gt      lt     regular expression  at least on char followed by a  e   followed by at least one char followed by a     followed by at least  one char    gt               lt pattern value         J      gt    lt  restriction gt      lt  simpleType gt            lt     profiles element  gt     242 Annexe A   sch  ma XML pour DML           lt     User profiles    gt    lt element name  profiles  gt    lt complexType gt    lt sequence gt      lt element ref  d competences  maxOccurs  1   gt    lt element ref  d interests  maxOccurs  1   gt    lt element ref  d activities  maxOccurs  1   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt      competences element  gt    lt     Indicates the linguistic competences of a user contributor    gt    lt element name  competences  gt         lt complexType gt      sequence                                            lt     The declaration of these elements should be more structured and  systematic ie  1 element for each language of the dml lang type    gt    lt element name  cat  maxOccurs  1  type  string   gt    lt element name  eng  maxOccurs  1  type  string   gt    lt element name  fra  maxOccurs  1  type  string   gt    lt element name  spa  maxOccurs  1  type  string   gt    lt element name  hun  maxOccurs  1  type  string   gt    lt element name  3jpn  maxOccurs  1  type  string   gt    lt element name  ita  maxOccurs
82.  en construisant une base lexicale multilingue avec une architecture pivot et  en extrayant de cette base des dictionnaires bilingues personnalis  s  La construction d   une base multilingue     structure pivot limitera les efforts de r  daction  car les parties monolingues ne seront r  dig  es qu   une seule  fois    Des efforts on d  j     t   faits dans ce domaine avec l     laboration de la maquette PARAX par Etienne  Blanc  Blanc96 99  ou le projet ULTRA dirig   par Yorick Wilks  Farwell92   Il faut maintenant passer     une r  alisation    grande   chelle pour permettre    toute une communaut   de construire ensemble une base  lexicale multilingue     Probl  me de structuration des informations lexicales    Les bases de donn  es usuelles ne permettent pas de repr  senter les informations lexicales avec une  granularit   tres fine  Par exemple  la base lexicale DiCo est stock  e dans une base de donn  es du type  FileMaker M  Chaque lexie est stock  e dans 8 champs diff  rents  Les champs ne sont en fait pas analys  s  jusqu au bout  Ce sont des objets textuels structur  s par des marques typographiques  et pas des balises  s  mantiques  caract  risant le contenu     Par contre  les bases de donn  es sont id  ales pour le stockage  la pr  paration et le tri des informations   Elles seront donc utilis  es au premier niveau comme support  mais ne le seront pas pour l   interaction directe  avec les utilisateurs  Les articles des dictionnaires seront stock  s tels quels  av
83.  envoy  s par la base lexicale lors de  chaque connexion au fournisseur  L   l  ment  lt result gt  d  crit le r  sultat de l   API en suivant la syntaxe  des sch  mas XML  Le r  sultat est renvoy   par le fournisseur en r  ponse aux requ  tes de la base lexicale     4 2 2  Fournisseur de services    Nous distinguons deux types de services  Les services de pr  traitement sont utilis  s en amont de la  consultation de la base pour faciliter la recherche dans la base  Ces services incluent des lemmatiseurs pour  trouver le ou les lemmes correspondant au mot que l   utilisateur recherche  des correcteurs orthographiques   ou des recherches plus sp  cifiques avec les consonnes du mot class  es par ordre alphab  tique  Zock01   etc    Les services d   actions associ  es permettent d   associer des actions    des parties d   informations se trou   vant dans le r  sultat des requ  tes faites sur la base  Par exemple  il est possible d   associer un conjugueur  aux verbes  et d   inclure un phon  tiseur permettant d   entendre la prononciation de n   importe quelle cha  ne   mot vedette  exemples  etc      Voici en exemple une API de pr  traitement utilisant les lemmatiseurs d  velopp  s par XRCE  D  mos    Ces lemmatiseurs sont utilis  s par les maquettes d  crites en partie B  DicoWeb  DicoSz  t  r  DicoFeJ  Ni   hongo  FeM       lt api type  supplier  category  preprocessing  name  XRCE fra morphan  gt            lt info gt Lemmatiseur du francais de Xerox lt  info gt    lt url hr
84.  est un dictionnaire  monolingue fran  ais  Le m  me type de DEC a   t   d   abord d  velopp   pour le russe par Igor Mel   tchuk  en  collaboration avec de nombreuses personnes  en particulier avec le laboratoire du professeur Rosenweig    Comme il s   agit d   un travail de recherche en lexicographie  le DEC comporte peu de vocables  mais chacun  est tr  s d  taill    Il y a actuellement quatre volumes regroupant 558 vocables en tout    La microstructure du DEC est d  finie par la lexicologie explicative et combinatoire  Mel   tchuk95   elle   m  me issue de la th  orie sens texte  Cette th  orie fournit les informations n  cessaires pour passer d   une id  e   le sens     sa r  alisation dans une langue donn  e  le texte     Cette microstructure est tr  s complexe   on trouve des tableaux de r  gime  des fonctions lexicales  etc   Pour repr  senter ces structures vari  es  nous avons donc besoin d   un langage de repr  sentation de structures  g  n  rique et riche     Format et pr  sentation    Chaque article est stock   dans un fichier    part dans des formats divers  ici en format HTML   La taille  du fichier de l   article Averse de la figure A 9 est d   environ 7 5 ko     l   origine  les articles   taient   crits  en format Word     Le m  me format est alors utilis      la fois pour la structure interne  le stockage et la  pr  sentation    tant donn   que des   l  ments de style comme le gras et l   italique sont utilis  s pour repr  senter  la structure interne  cell
85.  example gt La m  sentente pourrait   tre le  pourrait   tre le mobile du meurtre  lt  span gt  mobile du meurtre  lt  example gt     TAB  C 6     conversion de XHTML vers XML       Voici un extrait de la feuille de style permettant cette transformation          lt      mod  le par d  faut pour les   l  ments span    gt    lt xsl template match  span  priority   1  gt   lt   cr  e un   l  ment avec  la valeur de l attribut class    gt      lt xsl element name    class   gt    lt xsl apply templates select  text       gt    lt xsl apply templates select      gt    lt  xsl element  gt    lt  xsl template gt    lt      mod  le pour les   l  ments utilisant une applet java    gt    lt xsl template match  applet  gt         1 cr  e un   l  ment avec 1 attribut du parametr lement  gt    lt xsl element name   param    name     element       value   gt    lt    recopie 1 attribut du param  tre data    gt    lt xsl value of select  param   fname  data     value   gt    lt  xsl element gt    lt  xsl template gt    lt  xsl stylesheet gt        4 4 3  R  daction avec des pseudo   diteurs structur  s    Suite    nos exp  riences avec le logiciel Word   Mexpos  es en partie B  nous pouvons proposer aux lexi   cographes d utiliser ce logiciel  Il sera consid  r   comme un pseudo   diteur structur    car la structure du  document n   est pas directement visible par l   utilisateur  Celui ci doit donc  lorsqu il   dite  faire attention     ne pas ajouter des informations parasites dans le doc
86.  faire    Certaines personnes ont un acc  s au r  seau payant  d   autres un acc  s lent  Ces personnes ne peuvent  pas travailler tout le temps en ligne  Il faut aussi pouvoir travailler en local  par exemple sur un ordinateur  portable  Il faut donc faire en sorte que la totalit   du travail  cr  ation  annotation  etc   puisse se faire aussi  bien en ligne qu   en local sans r  seau    Pour qu   un grand nombre de personnes puisse contribuer    la construction des ressources  il faut que les  outils de r  daction puissent tourner sur des   quipements de bas de gamme  bon march   et pas n  cessairement  puissants     Sp  cifications de la plate forme    Une plate forme de lexicographe doit permettre          de travailler sur la r  daction d   un article ou sur l     laboration de liens entre articles  Il faut donc conce   voir deux types d   interfaces selon le travail    effectuer         de travailler sur tout l   article ou sur une partie seulement  Par exemple  un linguiste travaillera plus  souvent sur la cat  gorie grammaticale d   un mot et un traducteur travaillera sur les traductions de ce  mot dans les langues qu   il conna  t         de voir toutes les ressources disponibles sur la base pour avoir le maximum d   informations    disposi   tion de fa  on    faciliter les choix et aussi voir les contributions et annotations de certains groupes         d   acc  der    des outils vari  s tels que des analyseurs morphologiques  des outils de recherche dans des  corpus
87.  grammaticale  vtr  et de ses tra   ductions anglaises  Celles ci sont diff  renci  es par le contexte  collocations   On observe que les traductions  ne sont pas marqu  es  Pour l   humain  cela ne pose pas de probl  mes  Par contre  la machine ne peut utiliser  ce dictionnaire pour rechercher des traductions  Il faut dans ce cas r  cup  rer le dictionnaire pour marquer  les traductions     16 A   Contexte actuel de la  dictionnairique     Pr  sentation du dictionnaire    La figure A 8 est une pr  sentation du m  me article lisible par 1 humain   abr  ger  abKeZe  15 vn    1  rendre court  to shorten  mot  expression   to   summarize  texte  discours      t  l  vision  en  t  l    to  shorten  television  to  TV   donner une version abr  g  e de  qch to give an abridged version of sth  donner qch sous une  forme abr  g  e to give sth in abbreviated form  tene   to  give sth in summarized form  texte       rendre bref  to cut short  sth   j ai d     ma visite I had to  cut short my visit  une crise cardiaque a abr  g   sa carri  re    a heart attack cut short his career  abr  ge   keep it short      les souffrances de qn to put an end to sb s suffering  disons   pour    qu ils se s  parent to cut GB ou make US a long  story short  let s just say they are separating      FIG  A 8     pr  sentation de l   article abr  ger du DHO    1 2 4  Un dictionnaire tr  s complexe   le DEC  Introduction    Le Dictionnaire Explicatif et Combinatoire du fran  ais contemporain  Mel   tchuk92 
88.  gt        TAB  C 5     conversion de XML vers une Applet HTML    La transformation du r  sultat XML vers un document XHTML se fait par l interm  diaire d   une feuille  de style XSLT  Voici un extrait de la feuille de style permettant de transformer les exemples ci dessus          lt     mod  le par d  faut pour tous les   l  ments a   lt xsl template match     priority   1  gt    lt     fabrique un   l  ment span    gt    lt span gt    lt     avec un attribut class    gt      lt xsl attribute name  class  gt         lt     prenant comme valeur le nom de l   l  ment  gt    lt xsl value of select  name     gt    lt  xsl attribute gt    lt xsl apply templates  gt    lt  span gt    lt  xsl template gt    lt     mod  le pour les   l  ments associ  s a une applet java    gt    lt xsl template match  pronunciation  gt     164 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires              lt   cr  e un   l  ment HTML applet    gt    lt applet code  phonetiseur class  archive  phonetiseur zip  gt   lt      avec un param  tre contenant le nom de 1   l  ment  gt      lt param name  element  gt    lt xsl attribute name  value  gt    lt xsl value of select  name     gt    lt  xsliattribute gt    lt  param gt    lt     et un param  tre contenant le texte a phon  tiser    gt            lt param name  data  gt    lt xsl attribute name  value  gt    lt xsl value of select  text       gt    lt  xsl attribute gt    lt  param gt    lt  applet g
89.  gt      lt    RAMDA gt  funkan duration   during x minute    gt      lt enumeration value   fil    gt      lt      KD   by   duration   second    gt    lt enumeration value       gt      lt I  EXSIPA  gt   by  kan duration   during x second    gt      lt enumeration value     fj    gt      lt  RHAAFPA gt  nenkan duration   during x year    gt      lt enumeration value   E    gt      lt    t4 Y  hitori People   one person    gt    lt enumeration value     A   gt      lt    72  gt  futari People    gt    lt enumeration value  _A   gt      lt   Z    nin People   two persons    gt    lt enumeration value  A    gt    lt  restriction gt    lt  simpleType gt    lt  schema gt     279    Environnements centralis  s et distribu  s pour lexicographes et lexicologues  en contexte multilingue    R  sum     Les besoins croissants en ressources lexicales et le succ  s des projets de d  veloppement coop  ratif  comme LINUX convergent vers l id  e d accumuler des donn  es lexicales multilingues de grande taille et de  grande richesse par construction coop  rative sur la Toile et utilisation  mutualis  e   Les contributeurs  fourniraient eux m  mes ces informations sous une forme standardis  e gr  ce    un environnement adapt       L   tude du contexte actuel de la dictionnairique nous a conduit    l identification de probl  mes difficiles tels que  la structuration et la manipulation de donn  es h  t  rog  nes  la visualisation d une grande quantit   de donn  es  lexicales multilingues et la
90.  gt     lt creation indexer  Automatic   date  01 11 00  gt fusion FeM     JMDict lt  creation gt     150 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     lt modification indexer  MM   date  01 12 00  gt ajout du OSyn assassinat lt  modification gt    lt modification indexer  MM   date  02 12 00  gt ajout du OSyn homicide lt  modification gt    lt modification indexer  MM   date  17 04 01  gt ajout de Example el lt  modification gt    lt revision indexer  CB   date  06 12 00  gt Tout OK  RAS lt  revision gt    lt  administration gt   La description formelle des historiques est d  finie dans le sch  ma XML dml en annexe de ce document        3 2 2  Stockage des contributions    Les contributeurs r  digent leurs contributions    l   aide d   une interface sp  cialis  e  Ils ne r  digent pas  directement leurs contributions en XML  En effet  ce langage est difficile voire impossible    comprendre  pour un contributeur non informaticien    Les contributions sont stock  es avec leur date de cr  ation sous forme de documents XML  Ces contribu   tions ne sont pas visibles du public tant qu   elles ne sont pas v  rifi  es et int  gr  es dans la base  Cependant  le  contributeur peut partager ses contributions avec d   autres contributeurs  au cas par cas  ou avec les groupes  dont il fait partie  Les autres contributeurs peuvent alors annoter    leur tour ses contributions avant qu   elles  ne soient int  gr  es    la base  Lors 
91.  href qui est du type  Xlink  En th  orie  une lexie n   est reli  e qu      une seule axie  Cependant  nous laissons la possibilit   aux  contributeurs de la relier    plusieurs axies  Ces liens multiples seront ensuite d  tect  s par des programmes  de v  rification automatique et trait  s    part    Voici un extrait de la lexie fran  aise MEURTRE      lt lexie id  meurtre 1  history  h01  basic  true   gt     lt headword hn  1  gt meurtre lt  headword gt    lt pronunciation encoding  GETA  gt meu rtr  e   lt  pronunciation gt    lt language specific  gt    lt pos gt n m  lt  pos gt    lt semantic formula gt action de tuer  PAR L      lt actor gt  lt sem label gt individu lt  sem label gt    lt sem variable gt X lt  sem variable gt  lt  actor gt DE L      lt actor gt  lt sem label gt individu lt  sem label gt    lt sem variable gt Y lt  sem variable gt  lt  actor gt    lt  semantic formula gt    lt government pattern gt    lt mod nb  1  gt   LacLor    lt sem actant gt X lt  sem actant gt      194 D   Application    Papillon  projet de base lexicale multilingue sur Internet     lt synt actant gt I lt  synt actant gt     lt surface group gt    lt surface gt    lt reflexie href   de  gt de lt  reflexie gt N   lt  surface gt     lt surface gt A poss lt  surface gt    lt  surface group gt    lt  actor gt    lt actor gt    lt sem actant gt Y lt  sem actant gt     lt synt actant gt II lt  synt actant gt     lt surface group gt    lt surface gt    lt reflexie href   de  gt de lt  r
92.  imag fr   Date  2001 09 15 09 37 10   SRevision  1 6                          lt schema targetNamespace  http   www clips imag fr geta services dml  gt    lt annotation gt    lt documentation xml lang  en  gt  XML Schema for common elements  of Dictionary Markup Language  These elements are used to encode  heterogeneous lexical databases  Namespace   http    www clips imag fr geta services dml       This schema is identified by the location   http   www clips imag fr geta services dml dml xsd  lt  documentation gt    lt  annotation gt                     lt   importing other schemas  gt    lt     importing parts of xlink recommendation for dml links    gt    lt import namespace  http   www w3 org 1999 xlink     schemaLocation  http   www clips imag fr geta services dml xlink xsd   gt                                               K common DML attributes and types   gt     lt     Note  the attributes are sorted in alphabetical order    gt     lt I dateType type e    lt     Used for all the dates in DML  Equals to dateTime from  XML schema basic type  The following definition is taken for  REC xmlschema 2  A single lexical representation  which is a subset  of the lexical representations allowed by ISO 8601  is allowed for  dateTime  This lexical representation is the ISO 8601 extended format    CCYY MM DDThh mm ss where  CC  represents the century   YY  the year    MM  the month and  DD  the day  preceded by an optional leading      sign to indicate a negative number  If the s
93.  les vendre     2 2 1  Consultation simple du dictionnaire universel francophone  Introduction    Le Dictionnaire Universel Francophone est issu des efforts combin  s de 1  AUPELF UREF  Agence  francophone pour l   enseignement sup  rieur et la recherche  et des   ditions Hachette  Le dictionnaire est  consultable en ligne depuis novembre 1999    cette adresse  DUF      Interface    L interface Web de ce dictionnaire est tr  s sommaire  L utilisateur entre un mot dans un formulaire  HTML dans la partie gauche de son navigateur et clique sur le bouton  chercher   La requ  te est alors  envoy  e au serveur  Une liste des articles correspondant    ce mot est renvoy  e et affich  e toujours sur la  gauche du navigateur  L utilisateur clique alors sur l   article qu   il souhaite lire et celui ci appara  t dans la  partie droite de son navigateur  Tous les mots de l   article sont en fait des liens hypertexte qui renvoient  aux articles d  finissant ces mots  Cela permet une navigation au hasard dans le dictionnaire  La figure A 23  repr  sente l   interface HTML du dictionnaire    L utilisateur n   a qu   une seule option de consultation  il peut chercher des mots commen  ant par une  suite de lettres qu   il tape dans le formulaire  De plus  la consultation est ralentie car elle se passe en deux  temps  L utilisateur doit cliquer sur l   article pr  cis qu il d  sire lire avant qu il ne s   affiche  Il serait par  exemple int  ressant de consulter le dictionnaire avec des expres
94.  loria fr projets SALT    SAIKAM Serveur de dictionnaire japonais thai    http   saikam nii ac jp    SAX 2 0 Simple API for XML version 2  interface standard pour l   analyse XML   http   www w3 org DOM    Tamino SGBD XML     http   www softwareag com tamino    Third Voice annoteur sur le web     http   www thirdvoice com     XHTML 1 0 Recommandation du W3C   http   www w3 org TR xhtml1    XLink 1 0 Recommandation du W3C    http   www w3 org TR NOTE xlink req    XMaster AlphaWorks Use XML Master  XMas  to design and generate custom JavaBeans for  working with a particular XML document     http   www alphaworks ibm com tech xmas    XML 1 0 eXtended Markup Language 1 0  Recommandation du W3C   http   www w3 org TR REC xml    230 Bibliographie     XML DB  XML DB D  veloppement de sp  cifications pour utiliser des bases de donn  es XML   http   www xmldb org      XML namespaces  XML Namespaces XML Namespaces  Recommandation du W3C   http   www w3 org TR REC xml names     XML schemas  XML Schemas XML Schemas  Recommandation du W3C   http   www w3 org TR xmlschema 0     XPath  XPath XPath Language  Recommandation du W3C   http   www w3 org TR xpath     XPointer  XPointer XML Pointer Language Recommandation du W3C   http   www w3 org TR xptr     XSL  XSL 1 0 eXtended Stylesheet Language 1 0  Recommandation du W3C   http   www w3 org TR xsl     XSLT  XSLT 1 0 eXtended Stylesheet Language Transformation 1 0  Recommandation du W3C   http   www w3 org TR xslt     X Hive  X Hive SGBD XML
95.  lt attribute name  min  type  d durationType   gt    lt attribute name  average  type  d durationType   gt    lt attribute name  max  type  d durationType   gt         lt  complexType gt    lt  element gt    lt     encodings element    gt    lt     indicates the input and output encodings  The type used is  encodingType defined before   gt      lt element name  encodings  gt    lt complexType gt    lt attribute name  input  type  encodingType   gt    lt attribute name  output  type  encodingType   gt            lt  complexType gt    lt  element gt    lt     formats element    gt    lt     indicates the input and output formats  The type used is  formatType defined before   gt                  lt element name  formats  gt    lt complexType gt    lt attribute name  input  type  formatType   gt         lt attribute name  output  type  formatType   gt    lt  complexType gt    lt  element  gt    lt     argumentsType type    gt     252 Annexe A   sch  ma XML pour DML     lt     indicates the format of the arguments  The XML schema syntax  is used  The type has to be redefined in another schema     gt      lt simpleType name  argumentsType  gt    lt restriction base  string   gt         lt  simpleType gt    lt     resultType type    gt    lt     indicates the format of the result  The XML schema syntax is  used  The type has to be redefined in another schema     gt      lt simpleType name  resultType  gt    lt restriction base  string   gt                           lt  simpleType g
96.  lt french_phrase gt je vous demande d abr  ger votre lettre lt  french_phrase gt    lt english_phrase gt please shorten your letter lt  english_phrase gt    lt malay_phrase gt sila ringkaskan surat anda  lt  malay_phrase gt    lt  dml lexie gt    lt dml lexie provenance  0HD  gt      lt ic gt rendre court lt  ic gt   to shorten     lt co gt mot expression lt  co gt    to summarize     lt co gt texte  discours lt  co gt      lt sl gt    t  l  vision  en  t  l    lt  sl gt   to shorten  television  to  TV          lt  dml lexie gt    lt  dnlisyntactie cat gt    lt  dml entry gt     FIG  C 15     r  sultat de la fusion entre le FeM et le DHO    op  rations  Nous reprenons les fonctions du langage LEXARD en ajoutant des informations     Organisation logique de la base    La figure C 16 montre l   organisation logique de la base lexicale    Nous exprimons cette organisation en XML  L   l  ment  lt database gt  d  crit une base lexicale  Dans  cet   l  ment sont list  s les dictionnaires   ventuellement h  t  rog  nes qui composent la base    L   l  ment  lt dictionary gt  d  crit un dictionnaire de mani  re g  n  rale  Il r  f  rencie tous les volumes  du dictionnaire    L   l  ment  lt volume gt  d  crit une partie de dictionnaire  Cet   l  ment est compos   principalement des  articles de dictionnaire  Par exemple  un dictionnaire bilingue bidirectionnel anglais fran  ais sera d  crit par  un seul objet  lt dictionary gt   Les articles de dictionnaire seront ensuite r  partis e
97.  lt responsible gt Laurent Griot lt  responsible gt    lt info gt A directory containing the Eurowordnet data  lt  info gt    lt  general info gt    lt Ttiles lList gt    lt file gt    lt name gt EuroWordNet1 6 txt lt  name gt    lt creation date gt 6 May 1999 lt  creation date gt    lt  file gt    lt fftiles list  gt    lt  dictionary readme gt        FIG  B 1     description du dictionnaire EuroWordNet    DICTIONARY README          README INFO  creation date  6 May 1999  author  Laurent Griot          GENERAL INFO   name  EuroWordNet   category  multilingual dictionary   domain  general   source language  English   creation date  see version   responsible  Laurent Griot   info  A directory containing the Eurowordnet data                 FILES LIST  file name  EuroWordNet1 6 txt  creation date  6 May 1999       FIG  B 2     description du dictionnaire EuroWordNet en format texte    1 1 5  Discussion    Nous avons am  lior   l   organisation des ressources lexicales gr  ce    notre m  thodologie et    l   outil  DictList  La m  ta information permet de mieux conna  tre les ressources  Elle est indispensable pour faire    1  Exp  riences sur la consultation en ligne                   text  a             FIG  B    XRCE DictList Service    Any comments   email to   Agnes  Sondor  xrce  xerox com  Last modified  Tue Jul 27 11 42 05  MET DST 1999           texte  XML  I  A B Requ  te HTTP   forme  HTML  texte Perl E OS  A i  Moulinette       pape  XML  gt HTML HTML                
98.  machines sont ajout  es  dans la structure logique  Ces dictionnaires peuvent donc   tre utilis  s directement par des machines    Les dictionnaires compil  s ne sont pas utilisables sans les informations n  cessaires pour les d  coder   Dans la suite  nous ne parlerons que de dictionnaires   lectroniques    Chaque dictionnaire   lectronique est repr  sent   dans les fichiers de caract  res par un certain format  particulier  Les formats sont diff  rents selon les dictionnaires    Le format le plus simple consiste    disposer chaque entr  e sur une ligne  L    entr  e est suivie   ventuellement  d informations linguistiques s  par  es par un ou plusieurs caract  res sp  ciaux    Beaucoup de dictionnaires utilisant une microstructure sous forme d   arbre sont repr  sent  s dans un  format utilisant des balises comme la norme SGML  Standard Generalized Markup Language   ISO86  et  plus r  cemment XML  eXtended Markup Language   W3C98a  pour repr  senter les donn  es  L information  textuelle est contenue entre une balise ouvrante et une balise fermante  L   ensemble est appel   un   l  ment   Voici un exemple      lt headword number  1  gt abr  eacute  ger lt  headword gt    L     l  ment se nomme  lt headword gt   Des attributs peuvent   tre associ  s    l     l  ment  Ici  nous utilisons  l   attribut number  num  ro   Pour assurer la portabilit   et la compatibilit   d   un document encod   en SGML  ou en XML  on utilise des entit  s pour repr  senter les caract  res sp  ci
99.  mantique semestriel de AlethDic    Discussion    LexiQuest a am  lior   le mod  le et compl  t   les dictionnaires  Ce mod  le est utilis   dans sa base lexicale  universelle multilingue appel  e LexiDict qui contient plus de 100 000 entr  es dans deux ou trois langues  avec 150 000 lexies par langue reli  es    100 000 concepts  interlingues     Le mod  le GENELEX a servi de r  f  rence dans de nombreux projets par la suite comme EAGLES et PA   ROLE  II est tr  s complet et bien d  taill   grace    la conception en objets  Cependant  il faut des sp  cialistes  pour travailler sur un tel dictionnaire  car les informations sont    clat  es  dans de multiples fichiers  et car  les interfaces suivent cette organisation en ouvrant autant de fen  tres que de niveaux d   information  mor     phologique  syntaxique  s  mantique  conceptuel      5 3 2  Essai de standardisation du contenu  la TEI DEI  1  Pr  sentation    La TEI  Text Encoding Initiative   Ide95b  Johnson95  est un projet international  1994 2000  qui a eu  pour but de d  velopper des directives pour la pr  paration et l     change de textes   lectroniques  Cette action    tait soutenue par de nombreuses associations ainsi que par le gouvernement am  ricain et la commission  europ  enne    La TEI P3 propose des DTD pour un grand nombre de textes  proses  vers  drames  dialogues  etc   ainsi  que les dictionnaires  Cependant  les experts de la TEI travaillant sur la partie dictionnaire ont conclu qu il  n     tait pas 
100.  manuscrit  est en grande partie fond   sur ses travaux sur la lexicologie explicative et combinatoire     Je voudrais aussi remercier Fr  d  ric Andr  s  sp  cialiste des bases de donn  es multim  dia   pour avoir accept   de participer    mon jury et m avoir invit      Tokyo pour y passer les deux  prochaines ann  es dans son laboratoire et me permettre ainsi de continuer mes recherches  dans le cadre du projet Papillon     Je pense aussi    mes autres coll  gues du GETA et de l   quipe MLTT et plus g  n  ralement des  laboratoires CLIPS et XRCE  pour tous les bons moments pass  s en leur compagnie     Enfin  je suis reconnaissant envers ma famille et mes amis pour avoir subi et accept   les     mauvais c  t  s  de la vie du th  sard  surtout le stress intense  et l indisponibilit   mentale   et    pour m avoir patiemment r  confort       obek  E53b BUMBED CEWELE     Jobb egy ment     tlet mint   t ment   egylet     Table des mati  res    Table des mati  res    Introduction  Situation et motivations                         Int  r  t de notre travail                        Organisation de la th  se                Probl  mes particuliers int  ressants               A  Contexte actuel de la     dictionnairique   Introduction    1  Notions du domaine  1 1  D  finition des termes utilis  s dans la th  se  1 1 1  Introduction                 1 1 2  La macrostructure des dictionnaires                                1 1 3  La microstructure des dictionnaires   1 1 4  Le format des 
101.  mocratique   utilisant un   diteur du commerce comme  pseudo   diteur syntaxique        44 A   Contexte actuel de la  dictionnairique         classique   utilisant des   diteurs syntaxiques de type SGML       sp  cialis  e   utilisant un vrai   diteur syntaxique ad hoc cr     pour le dictionnaire en question         en ligne   par des contributeurs travaillant directement sur le Web     Nous allons maintenant analyser ces diff  rentes m  thodes pour d  terminer leurs avantages et leurs in   conv  nients     4 1  Constructions  directe  et  d  mocratique    exemple du FeM    4 1 1  Introduction    La construction du dictionnaire FeM pr  sent   dans la section 1 2 1 a   t   en partie r  alis  e par le GETA   Du fait de la difficult   de trouver suffisamment de lexicographes comp  tents en fran  ais et malais  le travail  a d  but   sur la base d   un dictionnaire fran  ais anglais  Les entr  es  fran  ais anglais  malais   taient ensuite  r  vis  es par un lexicographe exp  riment      Au d  part  la m  thode de construction   tait  directe   Les interfaces de r  daction  r  cup  ration et de  manipulation du dictionnaire ont   t   programm  es avec 4D  un syst  me commercial de bases de donn  es   mais des probl  mes sont rapidement apparus  Les informations stock  es dans la base de donn  es sont ver   rouill  es  Il n   est pas possible d   avoir d inconsistance dans la base  Or  il est parfois n  cessaire de passer par  un   tat interm  diaire incoh  rent comme par exemple
102.  ne jamais   liminer d   information  et de garder dans la  mesure du possible la structure logique d   origine  si elle existe    Pour faciliter la gestion de la base lexicale  il faut d autre part garder la m  ta information disponible et  donner un label de qualit   ainsi que des degr  s de certification pour chaque ressource que l   on int  gre    la  base     Production    partir de ressources existantes    Le lexicologue qui veut produire une nouvelle ressource    partir de ressources existantes a besoin d outils  pour concevoir la macrostructure et la microstructure de son dictionnaire  Ces outils doivent lui permettre  de d  crire en partie les interfaces de r  daction de ce nouveau dictionnaire    Nous avons choisi le syst  me PRODUCDIC  Doan Nguyen96a   Ce syst  me  d  crit en partie A  permet  d   effectuer des op  rations ensemblistes  union  intersection  soustraction  sur des ensembles de dictionnaires  pour sp  cifier et r  aliser des processus de production de fa  on g  n  rique et efficace    Ainsi  PRODUCDIC permet  gr  ce aux op  rations de fusion  de cr  er un squelette de dictionnaire de  fa  on    ne pas partir de z  ro lors de la construction d   une nouvelle ressource  Le squelette est ensuite r  vis    article par article    Il permet aussi d   extraire de la base des nouvelles ressources avec des formats sp  cifiques  Ces res   sources sont alors export  es selon les besoins des utilisateurs     1 1 3  Construction de nouvelles ressources    Les lexi
103.  nom commun f  minin pluriel  noun feminine plural     gt    lt enumeration value  n f  pl    gt    lt     nom propre masculin  proper name masculine     gt    lt enumeration value  Pr m    gt    lt     nom propre f  minin  proper name feminine     gt    lt enumeration value  Pr f    gt    lt     nom propre masculin pluriel  proper name masculine plural     gt    lt enumeration value  Pr m pl    gt    lt     nom propre f  minin  proper name feminine plural     gt    lt enumeration value  Pr f pl    gt    lt     abr  viation masculin  abbreviation masculine     gt    lt enumeration value  abr m    gt    lt     abr  viation f  minin  abbreviation feminine     gt    lt enumeration value  abr f    gt    lt  l    verbe transitif  transitive verb     gt    lt enumeration value  v tr    gt    lt     verbe intransitif  intransitive verb     gt    lt enumeration value  v intr    gt    lt     verbe pronominal  pronominal verb     gt    lt enumeration value  v pr    gt    lt     adjectif  adjective     gt    lt enumeration value  a    gt    lt     adverbe  adverb     gt    lt enumeration value  adv    gt    lt     d  terminant    gt    lt enumeration value  det    gt      conjonction    gt    lt enumeration value  conj    gt      pronom    gt      lt enumeration value  pron    gt     274 Annexe B   sch  mas XML pour Papillon              lt     interjection    gt    lt enumeration value  intj    gt    lt     pr  position    gt    lt enumeration value  prep    gt     e locution    gt    
104.  par to abridge   par  pard plain  s20 widctlpar  b f8 cf4 lang1036 memendekkan   par meringkaskan                                              FIG  A 3     l   article abr  ger du FeM en format rtf source    Ces deux articles sont   quivalents  Ils contiennent exactement les m  mes informations  L    application    1  Notions du domaine 13    de conversion d   un format    l   autre est bijective et sans perte d   information  Ces exemples montrent que  les formats internes peuvent   tre tr  s diff  rents et pourtant contenir les m  mes informations  Il est donc  pr  f  rable de choisir comme format interne un format lisible par l humain     Pr  sentation du dictionnaire    La figure A 4 montre un exemple de pr  sentation du m  me article tel que l   utilisateur le voit     abr  ger entry   abre je   french_pron  v tr  french_cat   un texte  french_gloss  to shorten english_equ  to abridge english_equ    memendekkan malay equ  meringkaskan malay equ    FIG  A4     l   article abr  ger du FeM  avec indication des styles     Cette pr  sentation est utilis  e par les lexicographes lorsqu ils r  digent les articles  La pr  sentation uti   lis  e dans le dictionnaire imprim   diff  re  Cet exemple montre qu il est possible d   associer diff  rentes  pr  sentations au m  me format interne     1 2 2  Un dictionnaire d   usage monolingue   le NODE  Introduction    Le New Oxford Dictionary of English  Pearsall98  est un dictionnaire monolingue anglais  Il a   t    publi   par les pre
105.  permettant      annotation de documents   Enfin  nous avons test   la consultation de ressources lexicales  par une autre application    Le bilan de ces exp  riences nous a enfin permis d     laborer un cahier des charges d   un environnement de  manipulation  de construction et consultation de dictionnaires plus avanc   et tenant compte de nos observa   tions     70 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      1  Exp  riences sur la consultation en ligne    Les laboratoires GETA et XRCE disposent de nombreuses ressources lexicales pour leurs exp  riences   De plus  ils sont   quip  s de serveurs web accessibles par tous leurs membres  Ces ressources sont riches et  tr  s vari  es  Elles sont stock  es dans des formats h  t  rog  nes  Malheureusement  ces formats de stockage  sont illisibles directement par des humains  C   est pourquoi les conditions   taient r  unies pour exp  rimenter  des serveurs Web de dictionnaires    usage humain     1 1  Consultation de m  ta informations sur les ressources    1 1 1  Pr  sentation de l   outil    Pour y voir plus clair dans les ressources lexicales  nous avons d   abord organis   et standardis   leur  rangement dans des r  pertoires  puis nous avons mis en place DictList  un outil de consultation de la m  ta   information dont nous disposions sur ces ressources  Cet outil devait permettre de r  pondre aux questions du  type  avons nous un dictionnaire fran  ais russe   Quelle e
106.  plusieurs groupes d   utilisateurs     Par la suite  nous avons d  couvert des outils   quivalents impl  mentant les annotations que nous avons  test    l   outil Third Voice et l   annoteur de l     diteur HTML Amaya     3  Nouvelles directions pour la consultation 95    3 3 2  L outil Third Voice  Pr  sentation    ThirdVoice     ThirdVoice  est un outil disponible sur plate forme Windows  Il permet d annoter des  documents install  s sur le web et de partager les annotations en constituant des groupes d   utilisateurs  La  figure B 21 montre un exemple d   annotation r  alis  e avec ThirdVoice sur la page web de paperbag com       Ele Edt View Go Favoites Help    Address E  http  fwww paperbag com          ThidWoice x   gt  D eo     amp     View Filter Post Login Hep      Paper Please     by John Doe  john url  com  DIAS  I ve noticed that mary stores stil use plastic  bags for their customers  Unfortunately  mary    MEE           of these plastic bags use fancy colors and    C  Grea Hea  paint that make them non recyclable     Hello    paper please     C  World Paper Bag Expo Field Trip    CH    C  Paper Please  survey showed the amount of recycled  paper in the classic Kraft paper bag  has gone up 30 percent since the 1970 s   CAE      That   s more than just a boon for our  Torests and rivers  from decreased log   ging and pulp production  it s a significant             FIG  B 21     l   outil ThirdVoice d   annotation de pages Web    Discussion    Cet outil est tr  s s
107.  pour le premier article de la fusion   gt    lt xsl template match   fusion   position   1    gt    lt   recopier le d  but dans le r  sultat    gt     Sxslicoby   lt xsl copy of select  dml headword   gt    lt xsl copy of select  dml pronunciation   gt               lt     stocker le mot vedett  gt    lt xsl variable name  hwl  select  dml headword text      gt   xI recopier le d  but dans le r  sultat    gt      lt xsl for each select  dml syntactic cat  gt     sl 3copy gt    lt xsl copy of select  dml pos   gt    lt xsl element name  dml lexie  gt         lt xsl attribute name  provenance  gt         lt    on induique la provenance de la lexie    gt    lt xsl value of select      provenance   gt    lt  esliattribute gt    lt xsl copy of select  dml lexie     gt    lt  xsl element gt     154 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires        lt xsl variable name  pos1  select  dml pos text      gt    lt     pour tous les articles suivants    gt    lt xsl for each select          position   gt 1   gt    lt     s ils ont le m  me mot vedett  gt      lt xsl if test  dml headword text      hw1  gt    lt xsl for each select  dml syntactic cat  gt         lt     s ils ont la m  me cat  gorie grammaticale    gt    lt xsl if test  dml pos text      pos1  gt    lt    on recopie la lexie dans le r  sultat    gt         lt xsl element name  dml lexie  gt    lt xsl attribute name  provenance  gt         lt    en indiquant sa prov
108.  r  ciprocit      La base lexicale est amen  e      changer des donn  es avec d   autres programmes partenaires  Nous avons   d  couvert  la possibilit   d   une dualit   avec ces programmes partenaires qui peuvent   tre    la fois clients  et fournisseurs d   information  Par exemple  un partenaire lemmatiseur du fran  ais est client de la base pour  tous les mots inconnus et les nouveaux mots qu il ne sait pas traiter  Lorsqu il essaye de lemmatiser un mot  inconnu  il peut se connecter    la base pour trouver des informations sur ce mot  Il peut aussi interroger  p  riodiquement la base en se connectant automatiquement pour collecter les nouveaux mots fran  ais qui  ont   t   int  gr  s  Il actualisera ses propres dictionnaires automatiquement    partir de ces informations  Nous  nous proposons  vu son int  r  t de rendre cette dualit   possible dans tous les cas  m  me dans ceux qui ne  sont pas utiles a priori    De son c  t    la base lexicale peut faire appel aux services du lemmatiseur lors du pr  traitement d   une  requ  te de consultation de la part d   un utilisateur  Les mots vedettes des articles sont en g  n  ral les lemmes  des mots d une langue  Par exemple  mangeons est le verbe manger    la premi  re personne du pluriel  Le  mot vedette correspondant sera donc l   infinitif du verbe manger  Les utilisateurs voulant faire du d  chiffrage  de texte et ne ma  trisant pas forc  ment la langue ont besoin d   un lemmatiseur pour trouver les lemmes    156 C  Sp  c
109.  r  cup  ration  objet LISP     lexicaux  Il est aussi tr  s facile de transformer cet article en un autre format exprimant une structure explicite  comme XML par exemple     3 2  Un outil de manipulation de dictionnaires  PRODUCDIC    3 2 1  Pr  sentation    Lorsque les dictionnaires sont  r  cup  r  s  de leur format d   origine vers une structure plus profonde   il faut maintenant un outil qui permet de composer de nouveaux dictionnaires    partir du r  sultat de la  r  cup  ration  PRODUCDIC permet d   accomplir cette   tape  Cet outil ensembliste du type langage de pro   grammation est construit    partir de fonctions LISP qui permettent des manipulations sur les structures  profondes r  cup  r  es  Il permet 7 types d   op  rations sur les dictionnaires      1  S  lection    La s  lection d   un sous ensemble B des   l  ments de l   ensemble A qui satisfont un pr  dicat P  peut   tre  impl  ment  e comme suit    B    NIL   for all a in A do  if P a  then add a B      2  Extraction    L op  ration g  n  rale de cr  ation d   un objet    partir d une donn  e a quelconque s      crit     create obj class from a assign list   slot1    1   slot2     2         Cette op  ration cr  e un objet x de la classe class et affecte les valeurs f1 a   f2 a   etc  aux slots slotl   slot2  etc     3  Regroupement    regroup by partition set partition by func unite into class assign list list  Cette op  ration partitionne set avec func  et transforme chaque sous ensemble en un objet de cl
110.  ref name  Mutsuko Tomokiyo   gt    lt  group gt    lt group name  administrators  gt    lt user ref name  Mathieu Mangeot   gt    lt  group gt    lt  groups gt    lt dictionaries gt    lt dict ref name  FeM  href  FeM xml   gt    lt dict ref name  Papillon  href  papillon xml1   gt    lt  dictionaries gt    lt  database gt     Description d   un dictionnaire    Pour d  crire un dictionnaire  nous reprenons du langage LEXARD les fonctions define  monolingual   dictionary  define  bilingual  dictionary et define  interlingual  dictionary  avec l     l  ment  lt dictionary gt   La description formelle de cet   l  ment est contenue dans le sch  ma  XML dml en annexe de ce document  Elle est r  f  renc  e par l   attribut xsi  schemaLocat ion    Les modifications de l     l  ment  lt dictionary gt  et de ses descendants sont stock  es dans le document  point   par l   attributhistory ref    La m  ta information sur la ressource est ajout  e    Les   l  ments  lt category gt    lt type gt  et  lt links gt  d  crivent la macrostructure du dictionnaire   L   l  ment  lt category gt  indique le type du dictionnaire  Nous distinguons quatre types de dictionnaires    monolingue  bilingue  multilingue et interlingue  L   l  ment  lt t ype gt  indique si les dictionnaires sont uni   directionnels  bidirectionnels ou    pivot  L   l  ment  lt 1inks gt  indique les liens entre les lexiques qui com   posent le dictionnaire  Par exemple  si un dictionnaire est    structure pivot avec trois l
111.  ressources existantes  Ce niveau correspond aux structures XML DML  d  finies plus haut         niveau clients  ce niveau est en charge de l   interaction avec les clients  Le client r  dige ses requ  tes  et sp  cifie ses pr  f  rences de pr  sentation  Cette pr  sentation n   est pas n  cessairement proche de la  structure interne utilis  e  Il est possible d   avoir plusieurs vues diff  rentes d   un m  me objet linguis   tique     Le fonctionnement de cette architecture est bas   sur l   aller retour entre les diff  rents niveaux  Une  requ  te sera formul  e par un client  puis traduite en une structure XML du niveau interne  Cette struc   ture sera elle m  me traduite en une requ  te de fournisseur  Le r  sultat sera transform   en un ensemble de  structures XML du niveau interne  qui sera visualis   selon les pr  f  rences du client    Le niveau interne est une plate forme d     change entre clients et fournisseurs  Les clients et les four   nisseurs communiquent avec la base lexicale par l   interm  diaire d    APIs  Toutes les API sont d  finies sous  forme de documents XML  La description formelle des   l  ments XML est r  alis  e dans le sch  ma XML  dml en annexe A de ce document     3  Paradigme de construction coop  rative 147                                                                                                             Ressource Ressource  Ressource  Action  NS     Se 7  API pr  traitement API consultation API modification API action associ  e   S
112.  riques des modifications de tous les articles contenus dans les volumes  La description formelle de l     l  ment   lt volume gt  est r  alis  e par le sch  ma Papillon en annexe B   Voici la description en LEXARD   du volume du fran  ais     define volume French    comment  Volume du francais         source language  French         articles composant le volume                  Voici le document XML correspondant     lt volume  xsi schemaLocation  http   www clips imag fr geta services dml  http   www clips imag fr geta services dml papillon fra xsd   history ref  French his xml   name  French   source language  fra  gt        4 1 3  Microstructure des dictionnaires  Article monolingue   une lexie    Les articles monolingues sont repr  sent  s par les   l  ments  lt 1exie gt   Leur structure est une adaptation  en XML des lexies dans la structure dictionnairique DiCo  Polgu  re00  d  finie par Alain Polgu  re  La  d  finition formelle de la partie commune    toutes les langues des lexies est repr  sent  e par le sch  ma XML  Papillon en annexe B    Chaque lexie contient un identificateur unique dans la base  port   par l   attribut id  Cet attribut est  du type DML ID  Il est construit en concat  nant le mot vedette de la lexie avec un num  ro  Si la lexie  est d  truite  l   identificateur n   est pas r  affect    Il est interne    la base et cach   aux utilisateurs  L   attribut  basic indique si la lexie est l   unit   lexicale de base du vocable  Cet attribut est du type
113.  s  minaire Papillon a eu lieu au NII    Tokyo  Il a port   sur des discussions  autour de la structure et du contenu de la base lexicale et des d  cisions sur les aspects techniques li  s au  d  veloppement de la base    Le s  minaire Papillon 2001 a eu lieu en juillet    Grenoble  Les participants ont d  cid   d    adapter l   orga   nisation du W3C au projet Papillon en   lisant un comit   directeur de 8    12 membres et en d  finissant des  t  ches avec pour chacune un groupe de coordination  un groupe de travail et un comit   consultatif    Un aspect novateur et essentiel du projet est que la construction du contenu se fera sur la base d   informa   tions libres de droits  produites par des chercheurs  FeM  JMDict  Saikam  ou par des internautes b  n  voles    1  Pr  sentation du projet Papillon 173    coop  rant    travers Internet  Sur le serveur Papillon  chaque contributeur pourra voir la base active  et aura  son espace de contribution priv    Seul un petit groupe d experts aura les droits n  cessaires pour int  grer  les contributions dans la base active  apr  s validation et correction Les donn  es produites seront disponibles  publiquement selon les termes d   une licence de logiciel libre  Open Source   Cela signifie que les donn  es  ne peuvent   tre r  utilis  es qu      des fins non commerciales    Les enjeux scientifiques de cette recherche sont d   ordre conceptuel  technique et ergonomique  Il s agit  d   articuler          des macrostructures  structures 
114.  tag the semantic actant of a formula    gt    lt element name  sem actant  type  string   gt    lt     sem variabl lement a   lt     semantic variable comes from the meaning text theory  Used to  tag the semantic variable of a formula    gt    lt element name  sem variable  type  string   gt    lt     synt actant element    gt    lt     syntactic actant comes from the meaning text theory  Used to  tag the syntactic actant of a formula    gt    lt element name  synt actant  type  string   gt    lt     actor element    gt    lt  l    comes from the meaning text theory  Used to tag the actors of  the semantic formula and the government pattern    gt      lt element name  actor  gt    lt complexType mixed  true  gt    lt choice minOccurs  0  maxOccurs  unbounded  gt     lt element ref  d sem label   gt     lt element ref  d sem actant   gt     lt element ref  d sem variable   gt     lt element ref  d synt actant   gt     lt element ref  d surface group   gt               lt  choice gt    lt  complexType gt    lt  element gt    lt  l    surface group element    gt    lt     comes from the meaning text theory  Used to tag the syntactic  actant of a formula    gt         lt element name  surface group  gt    lt complexType mixed  true  gt    lt sequence minOccurs  1  maxOccurs  unbounded  gt    lt element ref  d surface   gt    lt  sequence gt               lt  complexType gt    lt  element gt    lt     surface element  gt    lt     comes from the meaning text theory  Used to tag t
115.  type   DateS     Date  2000 08 16    11 47  09 04     dat edited     Version  Please type   Revision      Revision  1 3       lt admin     intro  gt   headword block  gt   headword  gt  fier    bras  lt headword    gram catblock  gt      gram ind  gt    m lt gram ind    lt gram cat block    noun info  block  gt   irreg plural  gt   plural  gt   pl  fiers    bras Gtia   pura  gt   p  fier    bras  EN  RO2 PL24 GL74 GR Aien pural     lt noun info  block    lt headword lock    lt intro   sense  gt  1  usage block  gt     geographic  gt   CD   lt geographic      usage block    senseindication  gt  forme costaud intimidant       FIG  A 35     r  daction d   un article du DCB avec WordPerfect    exemples d usage  De plus  apr  s chaque r  vision  le lexicographe responsable de l   article modifie  en fonc   tion des changements propos  s  la version informatis  e de l   article  Toutes les versions d   un article sont  sauvegard  es dans une base de donn  es lexicographiques  ce qui permet    un r  viseur d   examiner les chan   gements d  j   apport  s par les autres r  viseurs     4 3  Construction   sp  cialis  e  pour des dictionnaires de traduction automa   tique    4 3 1  Introduction    Le logiciel ATLAS  Bachut84a 84b  con  u par Daniel Bachut permet d   introduire des mots nouveaux  et les codes associ  s dans un dictionnaire de TA  Il g  re des manuels d indexage pour linguistes  Son code  a   t     crit en Pascal et il a   t   compil   sur un syst  me VM ESA d   IBM  Le
116.  ur1 gt  contient l   attribut x1ink href indiquant l   URI  Uniform Re   source Identifier  du fournisseur  Cette URI doit   tre conforme    rfc  request for comment  2396 de l    IETF  Internet Engineering Task Force   RFC2396   Les URIs sont du type http  ftp  mailto  telnet  etc    L   l  ment  lt protocol gt  d  crit le protocole utilis   pour la communication  Les protocoles sont in   diqu  s avec l   attribut type  Ils peuvent   tre du type post ou get pour les CGIs  telnet DICT  etc  Les attributs  login et password indiquent les login et mot de passe qu il faut utiliser pour se connecter au fournisseur    L   l  ment  lt delay gt  renseigne sur le d  lai de connexion au fournisseur  L   attribut min indique le d  lai  minimum  max indique le d  lai maximum et timeout indique le temps au dela duquel la connexion est  interrompue automatiquement    L   l  ment  lt encoding gt  indique les encodages utilis  s  L   attribut input indique l   encodage en entr  e   l   attribut output indique l   encodage en sortie  Les valeurs des attributs sont du type DML encodingType    L   l  ment  lt  format  gt  indique les formats utilis  s  L   attribut input indique le format en entr  e  l   attribut  output indique le format en sortie  Cela peut   tre par exemple   texte  HTML  XML  rtf  etc    Pour la recherche  l      l  ment  lt argument s gt  d  crit les arguments de      API    fournir par la base lexicale  en suivant la syntaxe des sch  mas XML  Les arguments doivent   tre
117.  use  optional   gt   ame  version  type  string  use  optional   gt     ionary         lt choice minOccurs  0  maxOccurs  unbounded  gt      lt element ref  d source language   gt    lt element ref  d target language   gt    lt  choice gt    lt  complexType gt    lt  element gt    lt     element source language    gt        2  Sch  ma XML de DML 245     lt  l    source language present in a dictionary    gt    lt element name  source language  gt    lt complexType gt    lt attribute ref  d lang   gt      lt  complexType gt    lt  element gt    lt     element target language    gt    lt  l    target language present in a dictionary    gt      lt element name  target language  gt    lt complexType gt    lt attribute ref  d lang   gt         lt  complexType gt    lt  element  gt    lt  lt   type categoryType    gt    lt     macrostructure of a dictionary    gt      lt simpleType name  categoryType  gt    lt restriction base  string  gt    lt enumeration value  monolingual   gt    lt enumeration value  bilingual   gt      lt enumeration value  multilingual   gt      lt  restriction gt    lt  simpleType gt    lt     type dictType    gt    lt     macrostructure type of a multilingual dictionary    gt         lt simpleType name  dictType  gt    lt restriction base  string  gt      lt enumeration value  monodirectional   gt         lt enumeration value  bidirectional   gt    lt enumeration value  pivot   gt      lt enumeration value  mixed   gt      lt  restriction gt    lt  simpleT
118.  verb lt  ps gt   lt gg gt with  lt sy gt obj  lt  sy gt  lt  gg gt     lt fg gt usu   lt f gt be abbreviated lt   f gt  lt  fg gt  lt df gt shorten  a word  phrase  or  text    lt  df gt     lt ex gt the business of artists and repertoire  commonly abbreviated to A  amp amp  R lt  ex gt   amp ex    lt eg gt  lt gg gt as  lt sy gt adj  lt  sy gt  lt  gg gt  lt fg gt  lt f gt abbreviated lt   f gt  lt  fg gt  lt ex gt this book is  an abbreviated version of the earlier work  lt  ex gt  lt  eg gt  lt  s1 gt     lt etym gt  lt d gt  lt la gt late Middle English lt  la gt  lt  d gt   from  lt la gt late  Latin lt  la gt   lt ff gt abbreviat  lt  ff gt   lt tr gt shortened lt  tr gt   from the   verb  lt ff gt abbreviare lt  ff gt   from  lt la gt Latin lt  la gt   lt ff gt brevis lt  ff gt    lt tr gt short lt  tr gt   lt  etym gt     lt  se gt     FIG  AS     l   article abbreviate du NODE en format original  SGML     1 2 3  Un dictionnaire d   usage bilingue   le DHO    Introduction    Le dictionnaire Hachette Oxford  Corr  ard94  est un dictionnaire bilingue anglais fran  ais    usage hu   main  Il a   t   publi   conjointement par Hachette et les presses universitaires d Oxford  OUP  en 1994  C   est  un dictionnaire bilingue bidirectionnel  Sa macrostructure consiste en deux volumes  Le volume fran  ais    gt anglais comporte environ 39 000 articles et le volume anglais  gt  fran  ais environ 48 000 articles     1  Notions du domaine 15    abbreviate   o  bri viel    verb  w
119.  xsi schemaLocation  http   clips imag fr geta services dml  http   clips imag fr geta services dml dml xsd   history ref  http   clips imag fr geta services dml papillon his xml   category  multilingual    creation date  21 1 97 00 00 00    encoding  ISO 8859 1    format  rtf    hw number  192460    installation date  23 06 99 15 04 00    fullname  dictionnaire fran  ais anglais malais    name  FeM    owner  GETA    type  unidirectional                    version  1  gt     lt languages gt     lt source language lang  fra   gt     lt target language lang  eng   gt     lt target language lang  msa   gt    lt  languages gt    lt contents gt general vocabulary in 3 languages lt  contents gt    lt domain gt general lt  domain gt    lt bytes gt 9106261 lt  bytes gt    lt source gt ML  YG  PL  Puteri  Kiki  CB  MA  Kim lt  source gt    lt legal gt all rights belong to ass  Champollion lt  legal gt    lt comments gt French English Malay dictionary lt  comments gt    lt cdm elements gt     lt headword delay  1s   gt     lt pronunciation delay  5s   gt           138 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     lt part of speech delay  5s   gt    lt translation lang  eng  delay  5s   gt    lt translation lang  msa  delay  5s   gt    lt corpus delay  10s   gt    lt  cdm elements gt    lt administrators gt   lt user ref name  Kim  ML   gt    lt  administrators gt    lt volumes gt    lt volume ref name  FeM  href  fem_fr_en ms xm
120. 22 description d annotations Amaya dans le format XML                      96  B 23 document XML repr  sentant une annotation                             97  B 24 exemple de document annot   avec Amaya                             98  B 25 utilisation d   un conjugueur dans DicoSz  t  r                             100  B 26 r  sultat du congue    244 ke ne te a a UE D A Gr   mu fa ge D    dar 100  B 27 fichier de plug in pour l   application Sherlock                           102  B 28 article essai du FeM dans l   application Sherlock                        103  C 1 processus de gestion des contributions                                116  C2 description de dictionnaires avec LEXARD                            123  C 3 description d une base lexicale avec LEXARD                          123  C4 description d une base lexicale avec LEXARD   tendu                        124  C 5 description du dictionnaire FEM avec LEXARD   tendu                      124  C 6 description du volume du FeM avec LEXARD   tendu                        124  C 7 description d   une unit   lexicale avec LINGARD                          125  C 8 description d   un r  gime du DEC avec LINGARD                         125    C 9 microstructure du dictionnaire French    126    Table des figures xi    C 10 microstructure du dictionnairePivot                               127  C 11 exemple de r  gle de coh  rence en SUBLIM                            127  C 12 exemple d   utilisation de l   espace de noms DML  
121. 35 et 36  la     en colonne 45  la     ou        en colonne 54  et      en colonnes 63 64  affixes  ou 79 80  base ou tournures   Suit   ventuellement un  commentaire  Ainsi  aucun d  limiteur n   est n  cessaire  On acc  de aux dictionnaires par les morphes ou les  tournures    Le langage TRANSF permet d     crire des dictionnaires bilingues pour la traduction  Un article est ca   ract  ris   par un nom d   unit   lexicale source not   entre deux apostrophes  un s  parateur       et une liste de    1  Notions du domaine 21    triplets contenant chacun          une condition  expression de condition propre ou appel    une proc  dure de conditions        une arborescence image du n  ud en cours         une partie affectation comprenant  pour chaque sommet de l   arborescence image le nom du sommet   le symbole       le nom d   unit   lexicale cible affect      ce sommet  suivi   ventuellement d   une liste    d   affectations de valeurs de variables cibles  qui peut comporter un nom de format pr  fix   ou des  expressions d    affectation     La figure A 14 donne un exemple tir   du dictionnaire de traduction russe frangais      OBRATITOSYA       PG  E  5K    ADRESSER    VMB2      TRAITER    UMB1 SACC  SNRF           TRANSFORMER    VBF1     FIG  A 14     article du dictionnaire de traduction russe  gt  fran  ais    Ce dictionnaire de traduction automatique a   t   simplifi   semi automatiquement pour obtenir le dic   tionnaire RUSFRA  Boitet82c  Nedobejkine94  du GETA  Les acc
122. 5 1 1  Exemple d   article apr  s r  cup  ration    Le dictionnaire FeM  FeM  a   t   r  cup  r   du format original au format LISPO selon la m  thode  R  CUPDIC par Hai Doan Nguyen durant sa th  se  Doan Nguyen98a   Nous avons converti le r  sultat du  format LISPO vers XML avec le programme lisp donn   en partie C  Voici un extrait de l   article abandonner  apr  s cette conversion      lt HFEM gt     lt FRE gt abandonner lt  FRE gt     lt PRNC gt aban done  lt  PRNC gt     lt BODY lispo  BODY1  gt    lt SENSE  lispo  LIST  gt                  lt SENSE gt    lt CAT  lispo  LIST  gt v tr  lt  CAT  gt    lt SENSE1  lispo  LIST  gt     lt  SENSE1  gt    lt SENSE1  lispo  LIST  gt    lt SENSE1 gt      lt GLOSS gt renoncer a lt  GLOSS gt    lt TRANS  lispo  LIST  gt    lt TRANS gt    lt ENG  lispo  LIST  gt to give up lt  ENG  gt    lt ENG  lispo  LIST  gt to abandon lt  ENG  gt    lt  TRANS gt    lt  TRANS  gt    lt EXPL  lispo  LIST  gt    lt EXPL gt    lt FRE gt il a abandonn   son projet lt  FRE gt    lt ENG gt he had gave up his project lt  ENG gt    lt  EXPL gt    lt  EXPL  gt    lt  SENSE1 gt    lt  SENSE1  gt    lt SENSE    lispo  LIST  gt     lt  SENSE1  gt    lt SENSE1  lispo  LIST  gt     lt  SENSE1  gt    lt  SENSE gt    lt  SENSE  gt                    5    valuations pr  liminaires et exemples 205     lt  BODY gt    lt  HFEM gt     Cet article est r  parti automatiquement en lexies et axies qui sont ensuite int  gr  es dans la base lexicale   voir figure D 12   La 
123. 6      Zajac97     a Project of Lexical Database for English  French and Japanese  using Interlingual Links   Journ  es des Sciences et Techniques de l   ambassade de France au Japon  Tokyo  12 novembre  2000  3 p     UNL  1996  Universal Networking Language  UNL center  Institute of Advanced Studies  The  United Nations University  1996  74 p     UNL  1997  DeConverter Specification  UNL center  Institute of Advanced Studies  The Uni   ted Nations University  Tokyo  Japan  April 1  1997  UNL TR1997 010  Version 1 0  25 p     Jean V  ronis  amp  Nancy Ide  1990  Word Sense Disambiguation with Very Large Neural Net   works extracted from Machine Readable Dictionaries  In Proceedings of 13rd International  Conference of Computational Linguistics  ICCL   COLING 90  Helsinki  Finlande  19 25  ao  t 1990  vol 2  pp 389 394     Fabio Vitali  2000  The XMLC Browser ERCIM News n   41  avril 2000   URL  http   www cs unibo it projects     Piek Vossen  1997  EuroWordNet  a Multilingual Database for Information Retrieval  Proc   DELOS Workshop on Cross Language Information Retrieval  Zurich  mars 1997     Larry Wall  amp  Randal L  Schwartz  1991  Programming PERL  O   Reilly and Associates     Yorick Wilks  Brian M  Slator  amp  Louise M  Gutrie  1996  Electric Words   Dictionaries  Com   puters  and Meaning  The MIT Press  290 p     R  mi Zajac  M  Casper  amp  N  Sharples  1997  An Open Distributed Architecture for Reuse and  Integration of Heterogeneous NLP Components  Proc  ANLP   
124. 8 Annexe B   sch  mas XML pour Papillon     lt    7PL9   gt  kaijObjects   for the stories of a building    gt    lt enumeration value  f    gt      lt        ko Used for a broad category of small and compact objects     including round fruit  balls  boxes  etc     gt    lt enumeration value   al    gt      lt      9D  gt  satsu Objects   for bound objects such a books  notebooks     Magazines  etc     gt    lt enumeration value  fi     gt      lt 1    2 5 soku Objects   for pairs of shoes  socks  stockings  etc     gt    lt enumeration value  2   gt      lt    gt  dai Objects   for vehicles  machines and things such as bicycles    and televion sets    gt    lt enumeration value      gt      lt    9    t    Objects   for letters and documents    gt    lt enumeration value  38   gt      lt    Uhlbo gt  hailObjects   for liquide in cups  glasses  bowls  buckets  etc        gt     lt enumeration value   f   gt    lt    lEA   hon Objects   for long cylindrical objects including trees   sticks  pens  bananas  fingers  etc     gt      lt enumeration value      gt      lt       gt   mailObjects   for flat  thin objects including paper  dishes     stamps  blakets  boards  etc     gt    lt enumeration value  4     gt      lt    R     yen Currency    gt    lt enumeration value  f   gt      lt    cent Currency    gt    lt enumeration value   Y      gt      lt    German mark Currency    gt    lt enumeration value  N4 YI M4    gt      lt    dollar Currency    gt      lt enumeration value 
125. 85    Chaque cellule du SGBD du type  balise  contient un fragment du  fichier total XML  compris entre   lt balise gt  et  lt balise gt   En ce qui concerne les attributs li  s     lt balise gt   ils sont stock  s dans un  autre champ de la m  me table du SGBD  Ce champ porte le nom de l   attribut    On peut ensuite recr  er le fichier total XML a tout moment    La microstructure des dictionnaires du projet est d  crite par des sch  mas XML sp  cifiques  Ces sch  mas  red  finissent l     l  ment  lt article gt  du sch  ma DML  Ils utilisent les   l  ments et les types d  finis dans  le sch  ma DML  Par exemple  on doit red  finir la liste des cat  gories morphosyntaxiques pour chaque  langue   le tha   n   a pas d   adjectifs  le lao a cette cat  gorie  le japonais en distingue plusieurs  etc  Le sch  ma  sp  cifique au fran  ais red  finit pour cet exemple le type des cat  gories posType      lt redefine schemaLocation  papillon xsd  gt     lt simpleType name  posType  gt    lt restriction base  dml posType  gt    lt enumeration value  adj   gt    lt enumeration value  adv   gt    lt enumeration value  nom   gt      lt enumeration value  verbe pron   gt    lt  restriction gt    lt  simpleType gt    lt  redefine gt     3 2 2  Principe de poids sur les   l  ments    La base lexicale compl  te peut   tre vue comme un seul ensemble pond  r    Cela permet d   impl  menter  des syst  mes de  dictionnaires neuronaux  utilisables pour la d  sambiguisation lexicale en contexte  Do
126. 97  7 p      Zampolli91  Antonio Zampolli  1991  Linguistic Tools for Multifunctional Applications in Natural Lan      Zock01     guage Processing  International Symposium for Chinese Information Processing Application  ISCIPA 91  Beijing  1991  pp  4 21     Michael Zock  amp  Jean Pierre Fournier  2001  Proposal for a customizable  psycholinguistically  motivated dictionary to enhance word access  Proc  7th Symposium on Social Communica   tion  janvier 2001  Santiago de Cuba  Cuba  4 p      para  tre      Signets    227    Signets     Alliance Web  AllianceWeb   dition coop  rative sur le web     Amaya     http    www inrialpes fr opera Alliance html    Amaya   diteur navigateur HTML  http   www w3 org Amaya      ArbresHyperboliques  Arbres hyperboliques      CSS      MLTT      DHYDRO      DicoWeb      DicoPro      DicoSzotar      DicoFeJ      DICT     http   www inxight com products_wb ht_server    CSS 2 Cascading StyleSheet Language  level 2  Recommandation du W3C   http   www w3 org TR REC CSS2     D  mos linguistiques MLTT http   www xrce xerox com research mltt toolhome    DHYDRO Dictionnaire Hydrographique Multilingue Normalis    Projet MLIS   http   www  loria ft projets MLIS DH YDRO     DicoWeb consultation de dictionnaires      http   www clips imag fr geta services dicoweb     DicoPro Projet MLIS     http   issco www unige ch projects dicopro_public     DicoSz  t  r dictionnaire pour apprenants du hongrois  http   www clips imag fr geta services dicoszotar   DicoFe
127. 989  6 p      Calzolari88  Nicoletta Calzolari  amp Eugenio Picchi  1988  Acquisition of Semantic Information from an On   line Dictionary  Proc  COLING 88  Budapest  22 27 August 1988  D  V  rgha ed   pp  87 92      Calzolari94  Nicoletta Calzolari    Eugenio Picchi  1994  A Lexical Workstation  From Textual Data to  Structured Database  Computational Approaches to the Lexicon  Atkins  B  T  Sue  amp  Zam   polli  Antonio ed   Oxford University Press  480 p      Church94  K  W  Church  1994  Unix  TM  for Poets  Proc  ELSNET  European Summer School  Utrecht   Pays Bas  53 p      Connoly97  Dan Connolly  1997  XML Principles  Tools and Techniques World Wide Web Journal  Vo   lume 2  Issue 4  Fall 1997  O   REILLY  amp  Associates  250 p      Correard94  Marie H  l  ne Corr  ard  amp  Val  rie Grundy  1994  Le dictionnaire Hachette Oxford  Oxford  University Press  amp  Hachette  1950 p      Correard99  Marie H  l  ne Corr  ard  amp Mathieu Mangeot Lerebours  1999  XML  A Solution For LDBs   Eds and MRDs  Proc  COMPLEX   99  P  cs  Hongrie  vol  1 1  6 p      Coutaz88  Jo  lle Coutaz  1988  Interface Homme ordinateur  Conception et R  alisation  Th  se d   tat   Universit   Joseph Fourier  402 p     220 Bibliographie     Cunningham96  H  Cunningham  R  J  Gaizauskas  amp  Yorick Wilks  1996  GATE  A General Architecture  for Text Engineering  ILASH  amp  DCS  University of Sheffield  Royaume Uni  d  cembre 95   53 p      Cunningham97  H  Cunningham et al   1997  Interface Homm
128. A 46     exemple d article encod   avec les balises de la TEI    3  Discussion    La TEI a rencontr   des difficult  s dans le codage des dictionnaires car il semble tr  s difficile d impo   ser une norme  Chaque dictionnaire a une structure propre  et il n   est pas possible de repr  senter tous les  dictionnaires avec la m  me structure  aussi complexe soit elle    Cependant le travail de la TEI sur les dictionnaires est int  ressant    double titre  D   une part  la TEI a   t      labor  e avec de nombreux   diteurs  Cela a au moins permis d   unifier la d  nomination des   l  ments SGML   D autre part  m  me si les structures des dictionnaires sont diff  rentes  il est possible de s   entendre sur leur  contenu au niveau s  mantique  Par exemple  on peut d  finir pr  cis  ment ce qu   est un mot vedette  une  cat  gorie grammaticale  une traduction  un exemple  une   tymologie  etc  L   ensemble des balises d  finies  par la TEI sert alors de r  f  rence pour les d  finitions s  mantiques des objets qu   ils repr  sentent     6  Exemples de projets r  cents bas  s sur XML 61    6  Exemples de projets r  cents bas  s sur  XML    Pour illustrer ce qui pr  c  de  nous pr  sentons ici deux projets en lexicographie et terminologie qui  utilisent XML pour repr  senter les donn  es  Il s   agit de projets tr  s r  cents  Lorsque nous avons commenc    notre travail de th  se  leurs conclusions n     taient pas disponibles  Ce qui fait que nous n   avons pas pu les  utiliser pour 
129. Dans la fen  tre de r  sultat   les traductions anglaises sont en bleu  Elles n   ont pas la m  me couleur que le texte fran  ais et se distinguent  donc plus facilement     2 1 2  Une application plus riche   Oxford Superlex  Introduction    L application Oxford Superlex permet de consulter les dictionnaires publi  s par les presses universitaires  d Oxford  OUP   Les dictionnaires disponibles sont des versions   lectroniques des dictionnaires imprim  s   Le contenu n   est pas modifi    Aucune information n   est rajout  e  L application apporte simplement une  facilit   de recherche des mots    L application est ind  pendante des dictionnaires  L utilisateur peut ajouter un dictionnaire dans      appli   cation    tout moment  Dans notre exemple  nous avons trois dictionnaires disponibles   le Oxford Hachette  anglais fran  ais  le Oxford Duden anglais allemand et un anglais espagnol  Par contre  les dictionnaires ne  sont pas consultables en m  me temps  Il faut s  lectionner un dictionnaire avant de faire des recherches    Cette application est disponible sur PC et sur Macintosh  Nous pouvons voir d   ailleurs qu aucun travail  n   a   t   fait pour la version Macintosh  En effet  les caract  res ne sont pas cod  s de la m  me mani  re sur les  deux plates formes  Il faut donc recoder les accents des dictionnaires  Dans l   exemple  les accents n   ont pas    t   recod  s  ce qui g  n  re des probl  mes    l   affichage  Au lieu de lire       on lit  E   etc     Interfac
130. EXARD et LINGARD     2 1 1  Architecture lexicale du syst  me    Le langage LEXARD permet    l   utilisateur de d  finir la macrostructure de sa base  en sp  cifiant l   en   semble des dictionnaires de la base et leur type  monolingue  bilingue  interlingue   Dans l   exemple suivant   nous d  crivons une architecture lexicale inspir  e du projet EDR  EDR93  bas  e    la fois sur une approche  bilingue et sur une approche interlingue  La base lexicale  voir figure C 3  comprend deux dictionnaires  monolingues  anglais et japonais  reli  s    la fois par deux dictionnaires bilingues unidirectionnels et par un  dictionnaire interlingue  voir figure C 2      Description des dictionnaires  On peut d  finir en LEXARD des dictionnaires monolingues  bilingues unidirectionnels  bilingues bidi   rectionnels ou interlingues  La figure C 2 montre des exemples de d  finition de dictionnaires     Description de la base lexicale    On peut d  finir en LEXARD une base lexicale bas  e sur une approche par transfert ou sur une approche  par pivot  avec ou sans le contr  le d   un administrateur de la base  localement ou par des pigistes travaillant  chez eux  etc  La figure C 3 montre un exemple de d  finition d   une base lexicale     Critiques    L aspect de la gestion de diff  rents utilisateurs avec des droits sp  cifiques pour chacun ainsi que la pos   sibilit   de cr  er des groupes d   utilisateurs n   ont pas   t   abord  s dans LEXARD  II faut ajouter la possibilit      2  D  finiti
131. Fen  tre Q Y P     ier Edition Affichage Ins                                                                     lamour Y calais      AMOU R  FE Prononciation  n m        Sr Cat  g orie  cau AZ Equivalent anglais  se AO Equivalents malais  pour l amour de      a Equivalent thai    for the sake of A  demi cinta 4  demi kesayangan 4   lt thai_phrase_equ gt 4  faire l amour  avec qq un      make love   bercumbu cumbuan 4  berasmara 4   lt thai_phrase_equ gt 4  nf  pl  A  de belles amours F  fo08t Fl  wonderful love 4  percintaan yg mengasyikkan     lt thai_phrase_equ gt 4       y  Page 1 Sec 1 1 2 AtSem Lit Colt 21 05 Enk  Rev  ext Rre   gt       FIG  B 12     fichier d     dition du dictionnaire fran  ais anglais tha      Les outils d   aide a Pindexage    Pendant l indexage  le lexicographe peut consulter ses propres donn  es   dictionnaires papier  autres dic   tionnaires   lectroniques  et fichiers d     dition d  j   compl  t  s  Il est libre d    utiliser d   autres outils d    analyse  de corpus ou d     tiquetage de sens qui peuvent l   aider a indexer ses termes    Lorsque le lexicographe a fini de remplir un champ  il appelle la macro style suivant  voir figure  B 13  soit par un bouton dans la barre d   outils  soit par un menu  soit encore par un   quivalent clavier   Il s  lectionne dans la liste des styles suivants autoris  s celui dont il a besoin et la macro change le style  automatiquement    Gr  ce    la macro liste valeurs  voir figure B 14   le lexicographe o
132. GML Administrateur  i     Lexicologue  TXT   ae  HTML i  1  i  API m  ta info API consultation API microstructure API pr  sentation API modification    Lecteur    Contributeur Lexicographe  Articles a E Articles    FIG  C 20     sch  ma g  n  ral de l   environnement et ses API                                                 Les API destin  es aux clients sont disponibles sur le serveur de la base  La personne qui souhaite  d  velopper une application cliente de la base doit respecter les API d  finies  Les API destin  es aux fournis   seurs sont aussi disponibles sur le serveur de la base  Lorsque l   administrateur de la base ajoute un nouveau  fournisseur  il renseigne tous les   l  ments de      API correspondant au type de service propos   par le fournis   seur  Lorsque la base lexicale a besoin d   un service  elle lit le fichier o   est d  crite 1  API du fournisseur et  s   y connecte ensuite automatiquement     3 1 2  Description des utilisateurs    L   l  ment  lt user gt  regroupe les informations disponibles pour chaque utilisateur  Cet   l  ment repr  sente  l   espace virtuel de l   utilisateur  Nous d  crivons pour chaque utilisateur un certain nombre d informations      son nom avec l   attribut name         son login avec l     l  ment  lt login gt        son mot de passe avec l     l  ment  lt password gt        son adresse   lectronique avec l     l  ment  lt email gt          ses diff  rents profils avec l     l  ment  lt profiles gt   on distingue pour l 
133. J dictionnaire fran  ais anglais japonais  http   www clips imag fr geta services dicofej     DICT Development Group  http   www dict org      dictionary com  Dictionary com dictionnaires en ligne     DCB     http   www dictionary com    Dictionnaire Canadien Bilingue Projet de lexicographie compar  e du francais et de l   anglais  au Canada     http   balzac sti uottawa ca     228     DUF      DOM      DSSSL      EDICT      ELRA      Enhydra     Bibliographie    Dictionnaire Universel Francophone d  velopp   par Hachette et 1  AUPELF UREF     http   www francophonie hachette livre fr   DOM Document Object Model  Recommandation du W3C  http   w3 org DOM    DSSSL Document StyleSheet Specification Language  Standard ISO IEC 10179   http   www jclark com dsssl     EDICT dictionnaire japonais anglais de Jim Breen     http   www csse monash edu au    wb wwwjdicinf html    ELRA European Language Ressource Association     http   www icp inpg fr ELRA     Enhydra Serveur Web dynamique java  http   www enhydra org      EURODICAUTOM  EURODICAUTOM Multilingual terminological database of the European Commis      FeM     sion s Translation Service     http   eurodic ip lu     FeM dictionnaire frangais anglais malais    http   www clips imag fr geta services fem      GENETER  GENETER modele GENErique pour la TERminologie      Hachette      HTML     http   www uhb fr Langues Craie balneo demo_geneter pl langue 1    Hachette dictionnaire Hachette francophone en ligne   http   www clips imag f
134. KAM de dictionnaire japonais tha   d   un c  t    et entre le GETA et  d   autres partenaires tha   sur la construction d   un dictionnaire fran  ais tha   de l   autre  ont amen   le NECTEC  et Kasetsart university    coop  rer au projet Papillon  Nous avons donc rajout   le tha   aux langues de d  part   Enfin  la proximit   du tha   et du lao d   une part et les travaux de Vincent Berment du GETA sur le lao d   autre  part nous ont amen  s    rajouter le lao    Pour l instant  il y a six langues dans le projet Papillon  l   anglais  le fran  ais  le japonais  le lao  le  tha   et le vietnamien  Le malais devrait   tre rajout      br  ve   ch  ance     moyen terme  le projet devrait  s     largir au cor  en et au chinois  Les partenaires ne parlant pas tous la m  me langue  la langue de travail  sera l   anglais  Les documentations seront   crites au moins en anglais pour   tre compr  hensibles du plus  grand nombre  C   est pourquoi nos commentaires dans les sch  mas XML en annexe sont r  dig  s en anglais     2 1 2  Utilisateurs vis  s    Au d  but  les utilisateurs vis  s sont ceux susceptibles d   enrichir rapidement et efficacement la base  lexicale  Les traducteurs fran  ais japonais  fran  ais tha   et tha   japonais sont les premiers concern  s  Ceux   ci ont d   ailleurs souvent leurs propres lexiques personnels qu   ils pourront mettre en commun et int  grer  dans la base lexicale  Les contributeurs du projet SAIKAM  et en particulier l    ATPIJ  Association of Th
135. LT  lang  en  gt    lt martifHeader gt    lt fileDesc gt    lt    sourcebesc gt    lt p gt from an Oracle corporation termBase lt  p gt    lt  sourceDesc gt    lt  fileDesc gt    lt encodingDesc gt    lt p type  DCSName  gt DXLTdV04 lt  p gt    lt  encodingDesc gt    lt  martifHeader gt    lt text gt    lt body gt    lt termEntry id  ID67  gt    lt descrip type  subjectField  gt manufacturing lt  descrip gt    lt descrip type  definition  gt A value between 0 and 1 lt  descrip gt    lt langSet lang  en  gt    lt tig gt    lt term gt alpha smoothing factor lt  term gt    lt termNote type  termType  gt fullForm lt  termNote gt    lt  tig gt    lt  langSet gt    lt langSet lang  hu  gt    lt tig gt    lt term gt Alfa simitisi t  nyez   lt  term gt    lt ft19 gt    lt  langSet gt    lt  termEntry gt    lt  body gt    lt  text gt   E  Martit gt              FIG  A 47     document XLT    Ce document est conforme    la sp  cification noyau de la structure XSLT appel  e XLTcdV04  L   l  ment   lt martifHeader gt  repr  sente la m  ta information sur l   entr  e  Par exemple  cette entr  e provient d   une    64 A   Contexte actuel de la  dictionnairique     base terminologique d   Oracle Corporation    L   l  ment  lt termEntry gt  repr  sente une entr  e de base terminologique  L   attribut ID sert d   identifi   cateur unique dans tout le document   lt descrip type  subjectField   gt  permet d indiquer le do   maine du terme et  lt descrip type     definition     gt  une d  finitio
136. Le traitement de l   article du FeM a g  n  r   automatiquement cinq lexies anglaises correspondant aux  cing traductions anglaises se trouvant dans l   article  Voici par exemple la lexie anglaise to abandon 1  reli  e    la lexie fran  aise pr  c  dente par l   interm  diaire de l   axie a42      lt lexie id  to abandon 1  basic  yes  gt     lt headword gt to abandon lt  headword gt    lt fem data gt  lt gloss gt renoncer a lt  gloss gt  lt  fem data gt    lt axies gt  lt refaxie href  a42   gt  lt  axies gt     lt  lexie gt     5 1 4  Axies provenant du m  me article    Le traitement de l   article du FeM a g  n  r   automatiquement cinq axies reliant chacune une lexie fran  aise  et une lexie anglaise  Voici en exemple l   axie a5 reliant les deux lexies pr  d  centes    lt axie id  a42  gt    lt fra gt  lt reflexie href  abandonner 3   gt  lt  fra gt    lt eng gt  lt reflexie href  to abandon 1   gt  lt  eng gt    lt  axie gt     5 2  R  cup  ration de JMDict    Le dictionnaire JMDict est d  j   encod   en XML  Nous pouvons donc l   utiliser directement pour l   int  gration  dans la base lexicale  La r  partition en lexies et axies se fait selon le sch  ma de la figure D 13        Article  1259660            Lexie mizuteru 1                  Axie 44       Lexie to fail 1 J          Lexie to abandon 2            Lexie to desert 2         FIG  D 13     r  partition d un article de JMDict en lexies et axies    5 2 1  Exemple d   article    Voici un exemple d   article de c
137. Object System   Ces objets refl  tent la structure d  crite par la grammaire H grammar    Les donn  es sont ensuite stock  es dans des fichiers texte au format LISPO  Ce format    labor   par Ha    Doan Nguyen  permet de stocker des objets CLOS dans des fichiers texte puis ensuite de lire les fichiers  texte pour reconstruire les objets    Le format interne de notre base lexicale est bas   sur XML  Il faut donc transformer le r  sultat de la  r  cup  ration du format LISPO vers le format XML  Pour cela  nous avons   crit la fonction LISP suivante     defun list2xml  ma liste     let   string         cond        ma liste est une chaine   renvoyer la chaine         stringp ma liste  ma liste        ma liste est un symbole   construire 1   l  ment XML    and  symbolp ma liste   neq list nil            concatenate   lt    princ to string ma liste     gt         ma liste est une liste   la parcourir     neq  cdr ma liste  nil     let   element  princ to string  pop ma liste        attribute      value nil     if  not  listp ma liste    setf ma liste  list ma liste      if  symbolp  first ma liste    setf value  pop ma liste              if  neq value nil    setf attribute  concatenate   lispo        princ to string value            4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 153           pour chaque objet  construire 1   l  ment XML   if  eq value    LIST    dolist  item ma liste    setf string  concatenate string   lt   element attri
138. Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Interface de consultation    Voici une API de consultation du dictionnaire JMDict japonais anglais de Jim Breen  EDict  utilis   dans  notre maquette DicoFeJ d  crite en partie B    lt api type  supplier  category  consultation  name  JMDict_en ja  gt    lt info gt Dictionnaire japonais anglais de Jim Breen lt  info gt    lt url href  http   www csse monash edu au cgi bin cgiwrap  jwo wwwjdic   gt    lt protocol type  get   gt    lt delay min  1s  average  1s  max  2s  timeout  10s   gt    lt encoding input  UTF 8  output  EUC JP   gt    lt format input  txt  output  html   gt    lt arguments gt    lt element name  source language  gt    lt complexType gt    lt restriction base  string  gt    lt enumeration value  jpn   gt    lt enumeration value  eng   gt    lt  restriction gt    lt  complexType gt    lt  element gt    lt element name  headword  type  string   gt    lt element name  regex  type  boolean   gt    lt  arguments gt     result   lt element name  output  type  string   gt    lt  result gt    lt  api gt   Voici un exemple d argument     lt source language gt eng lt  source language gt   lt headword gt house lt  headword gt    lt regex gt no lt  regex gt   Voici le r  sultat de la requ  te        entpues El bo  2 3 LS       n  attendance at the House  Diet  lt br  gt      2 tH  ASS    n  construction of a house  divination term  lt br  gt     AR CEE Ait   n  head hous
139. TEL   Nous devons enfin trouver un langage de structuration des informations lexicales g  n  rique pour repr  senter  la grande vari  t   des th  ories linguistiques et des structures existantes     66    A   Contexte actuel de la  dictionnairique     B   Exploration de nouvelles directions   bilan et cahier des charges d   un  environnement avanc      B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc   69    Introduction    Nous avons voulu exp  rimenter nos id  es au moyen de prototypes rapidement   crits pour tester diff  rentes  id  es concernant la repr  sentation et le traitement distribu   des dictionnaires  Les projets de recherche men  s  au GETA et la grande vari  t   des outils et des ressources linguistiques au centre europ  en de recherche de  Xerox nous ont consid  rablement aid   dans nos exp  riences    Essayer de construire directement un environnement qui permette    la fois la manipulation  la consulta   tion et la construction de dictionnaires nous a sembl   pr  matur    C   est pourquoi nous avons pr  f  r   explorer  plusieurs pistes s  par  ment avant de sp  cifier les bases de notre environnement  Ces exp  rimentations nous  ont permis de d  terminer des solutions partielles possibles des probl  mes pos  s par la conception d   un  environnement de bases lexicales    Nous avons commenc   par le probl  me de la consultation en ligne de ressources lexicales  Notre but  est de permettre de consulter la m  ta i
140. TH ou  XPOINTER  Ces normes   tendent les fonctionnalit  s et la portabilit   des documents XML         multiplicit   des outils   Des API  interfaces de programmation  pour le protocole DOM  Document  Object Model   DOM  et SAX  Simple Api for XML   SAX  sont disponibles pour pratiquement tous  les langages de programmation         h  ritage de SGML   Ce format est d  riv   de SGML  Un document SGML bien form   selon la re   commandationC XML est un document XML  Cela facilite la r  cup  ration et l   utilisation de tous les  dictionnaires d  j   cod  s en SGML         lisibilit   par l humain   XML est lisible directement  ce qui est tr  s utile pour les d  veloppeurs     Cependant XML n   est qu   un format  Il nous faut ensuite sp  cifier et d  finir un syst  me de manipulation  des donn  es bas   sur les outils manipulant XML et les normes associ  es     5 3 2  Utiliser un syst  me g  n  rique de structuration de donn  es lexicales    Nous souhaitons manipuler dans notre base des informations lexicales ayant des structures h  t  rog  nes  correspondant    diverses th  ories linguistiques et    divers types de ressources lexicales  Nous voulons aussi  r  cup  rer et utiliser des ressources existantes et produire des ressources dans des formats et structures  sp  cifiques  Il faut donc trouver un moyen de repr  senter des structures riches et h  t  rog  nes pour toutes les  informations lexicales que l   on manipule     Pr  voir un formalisme souple et g  n  rique    Ce sy
141. UNIVERSIT   JOSEPH FOURIER   GRENOBLE 1 _  UFR D INFORMATIQUE ET MATHEMATIQUES APPLIQUEES    N   attribu   par la biblioth  que  PEE De PR    THESE  pour obtenir le grade de  DOCTEUR DE L UNIVERSITE JOSEPH FOURIER  Discipline   INFORMATIQUE  pr  sent  e et soutenue publiquement       par  M  Mathieu MANGEOT LEREBOURS    le 27 septembre 2001    ENVIRONNEMENTS CENTRALISES ET DISTRIBUES POUR  LEXICOGRAPHES ET LEXICOLOGUES EN CONTEXTE    MULTILINGUE  JURY  Pr  sident Laurent TRILLING    Rapporteurs Jacques CHAUCHE  Laurent ROMARY  Examinateurs Fr  d  ric ANDRES    Jean Pierre CHANOD   Alain POLGUERE  Directeur de th  se Christian BOITET  Co directeur Gilles S  RASSET    Th  se pr  par  e au sein des laboratoires GETA CLIPS  IMAG  CNRS  amp  UJF  et XRCE    Remerciements    En premier lieu  je remercie Christian Boitet  mon directeur de th  se qui m a toujours soutenu   motiv   et encourag   sans faillir et ce  depuis mon arriv  e au GETA en septembre 1996  Les  coups de gueule justifi  s pouss  s avec tact et psychologie m ont aid      rebondir dans les  moments difficiles  Christian m a surtout donn   go  t    la recherche et au monde des langues     Je remercie aussi Gilles S  rasset  mon codirecteur avec lequel j ai beaucoup appris sur le plan  technique et plus g  n  ralement sur une certaine philosophie de la recherche que je partage  majoritairement  Kalimero a tous comptes faits bien appr  ci   de partager le bureau de  Grincheux     Jean Pierre Chanod a su convaincre XERO
142. X de l int  r  t de mon travail  Qu il soit donc  remerci   tant pour la bourse CIFRE qui en a r  sult   que pour son accueil et son soutien  constant     Je remercie aussi Marie H  l  ne Corr  ard pour m avoir mis le pied    l   trier dans le monde des  dictionnaires  La collaboration entre un informaticien et une lexicographe fut tr  s fructueuse   Dommage qu elle ait d   quitter XEROX au milieu de mon gu       Je suis tr  s honor   que Laurent Romary  sp  cialiste reconnu de l utilisation de XML pour le  traitement des langues naturelles comme en t  moignent sa participation tr  s active aux projets  SILFIDE  DHYDRO et SALT  ait volontiers accept   de rapporter sur ma th  se  Ses conseils  et ses pointeurs ont d ailleurs   t   tr  s profitables pour mon travail     Je tiens    remercier Jacques Chauch    sp  cialiste du TALN et tr  s int  ress   par le probl  me  des ressources lexicales d avoir volontiers accept   de rapporter sur ma th  se et de ses  remarques pertinentes     J ai bien connu et appr  ci   Laurent Trilling en tant que professeur depuis mon ann  e de  licence et responsable des   changes avec l   tranger  Il a consid  rablement   uvr      l IRISA  pour le TALN et maintenant au LSR pour I IA  Je suis donc tr  s heureux qu il ait accept   de  pr  sider mon jury de th  se     Je suis   galement tr  s heureux qu Alain Polgu  re  linguiste renomm    ait accept   de participer     mon jury comme examinateur  Le projet Papillon  sujet de la derni  re partie de ce
143. accessibles en parcourant directement le  texte XML des articles    Les annotations et les contributions sont tri  es puis appliqu  es selon l   ordre chronologique de leur date  de cr  ation  Le m  canisme de la table des donn  es linguistiques permet    chaque personne de voir la base  lexicale avec la forme et les donn  es qu   il souhaite  Chaque utilisateur peut voir les donn  es auxquelles il  a acc  s selon ses droits  Un contributeur peut visualiser en plus des donn  es lexicales de la base  toutes ses  annotations et contributions ainsi que celles de ses groupes    Lorsqu un utilisateur   tablit une requ  te  le serveur s  lectionne la liste des   l  ments qui correspondent     la requ  te  Il applique ensuite par ordre chronologique de leur date de cr  ation les feuilles de style  repr  sentant ses contributions ainsi que celles des membres de ses groupes  Ensuite  les annotations cor   respondantes sont ajout  es  Enfin  les feuilles de style d  finissant les pr  f  rences de pr  sentation sont ap   pliqu  es  Le r  sultat final est ensuite envoy      l   utilisateur    Il peut arriver que certaines contributions ne soient plus valides car la base a   t   modifi  e et les contri   butions ont   t   accept  es puis int  gr  es dans la base  Dans ce cas  le syst  me envoie un message d   avertis   sement    l   utilisateur  D    autre part  lorsque des   l  ments fusionnent  les objets reli  s aux identificateurs des  deux   l  ments sont ensuite reli  s    l   ident
144. actions et sorties    2 4 1  Types de sorties    produire    Les formats cibles sont en priorit   ceux des dictionnaires qui auront   t   r  cup  r  s puis int  gr  s dans la  base lexicale  Pour pouvoir reg  n  rer les dictionnaires int  gr  s  il faut donc adopter un principe clair   garder  toutes les informations des ressources que l   on r  cup  re    Nous devons aussi g  n  rer des dictionnaires monolingues d   usage comme le LAF  fabricable    partir  du format DiCo  Nous devons aussi produire des dictionnaires multilingues furco  des du type du FeM avec  une langue source et plusieurs langues cibles dont l   anglais  FeT  FeJ  JeT  TeJ  etc   qui peut servir de  point de r  f  rence pour beaucoup d utilisateurs  Cependant  il est peu utile de conserver l   anglais dans un  dictionnaire imprim    Les formats du dictionnaire JMDict et du projet SAIKAM sont aussi    produire    Nous devons aussi proposer des outils pour produire d   autres types de sorties comme des bases termi   nologiques  des dictionnaires d   unit  s de vocabulaire virtuel  UW   etc     2 4 2  Types de consultation de la base    Au d  part  la base sera principalement consultable par des humains  Les utilisateurs auront des profils  tr  s diff  rents  Le linguiste sp  cialiste d   une langue particuli  re s   int  ressera aux donn  es monolingues sur  cette langue  Le terminologue et le traducteur consulteront les liens interlingues  L   apprenant d   une nouvelle  langue cherchera des informations s
145. ag fr geta services dml   http   www clips imag fr geta services dml dml xsd    name  Mathieu MANGEOT    creation date  22 10 2001    history ref  mangeot his xml  gt     lt login gt Mathieu Mangeot lt  login gt    lt password gt toto lt  password gt    lt email gt Mathieu Mangeot imag fr lt  email gt    lt profiles gt    lt  competences   gt    lt cat level  good  gt translation lt  cat gt    lt eng level  good  gt translation lt  eng gt    lt fra level  mother tongue  gt phonetic  collocations  examples   grammar lt  fra gt    lt hun level  beginner   gt    lt jpn level  beginner   gt    lt spa level  good  gt translation lt  spa gt    lt  competences gt    lt interests gt    lt interest lang  hun  jpn   gt    lt  interests gt   activities   lt activity dictionary  DicoSz  t  r  gt administration                       indexing lt  activity gt    lt activity dictionary  FeM  gt interface lt  activity gt    lt activity dictionary  Nihongo  gt administration        indexing lt  activity gt    lt activity dictionary  Papillon  gt administration lt  activity gt    lt  activities gt    lt  profiles gt    lt credits gt 10 lt  credits gt    lt annotations href  mangeot ann xml   gt           3  Paradigme de construction coop  rative 149     lt contributions gt    lt contribution source  French xml  href  mangeot cnt1 xsl   gt         lt  contributions gt    lt requests href  mangeot req xml   gt    lt xml stylesheet type  text css  href   mangeot sty css   gt    lt groups gt    lt 
146. ai  Professionals in Japan   seront aussi concern  s par le projet Papillon    Une fois que la base lexicale enrichie par les traducteurs offrira une couverture suffisante  le grand public  pourra consulter la base    travers tout navigateur Web     2 1 3    laboration du serveur    Le serveur permettant d   acc  der    la base lexicale doit   tre accessible par Internet  Il doit principalement  impl  menter un serveur Web Http  De plus  pour pouvoir   tre accessible au plus grand nombre  il doit aussi  impl  menter des interfaces pour les protocoles telnet DICT  DICT   ftp  mail    Le serveur doit aussi pouvoir   tre acc  d   par diff  rents utilisateurs et groupes d   utilisateurs ayant des  droits d   acc  s variables et diff  rents  Il doit permettre    chaque utilisateur de cr  er un compte virtuel o   se   ront stock  es ses donn  es personnelles comme les pr  f  rences  les contributions  les annotations  les cr  dits   etc     2  Cahier des charges 177    Pour faciliter la communication entre les diff  rents utilisateurs et groupes de la base  le serveur doit  impl  menter un syst  me de listes de distribution de courrier   lectronique avec possibilit   d archivage et de  consultation par le Web     2 2  Principes lexicologiques    2 2 1  Architecture pivot de la base    Nous avons choisi de baser l   architecture de notre base lexicale sur NADIA  un syst  me sp  cialis   de  gestion de bases lexicales    l   interlingue par acceptions  Le syst  me NADIA a   t   d  cr
147. aires de la Communaut   Europ  enne ainsi que  par des professionnels de la langue gr  ce au projet MLIS  Multilingual Information Society  pilot   par la  DGXIII  Les donn  es contenues sont disponibles en 12 langues et constamment mises    jour  Ces langues  sont le danois  le hollandais  l   anglais  le fran  ais  l   allemand  le grec  l   italien  le portugais et l   espagnol    La base terminologique EURODICAUTOM comprend 700 000 entr  es  couvrant en moyenne 5 ou 6  langues  et un fichier d   abr  viations et d   acronymes comprenant 150 000 entr  es mis    jour chaque mois  avec environ 2 000 items  La base couvre un large spectre de la connaissance humaine m  me si le c  ur est  relatif aux th  mes de la Commission Europ  enne     Interface    L interface Web d    EURODICAUTOM est repr  sent  e par la figure A 28  L utilisateur s  lectionne les  langues source et cibles puis   ventuellement le ou les domaines terminologiques     34 A   Contexte actuel de la  dictionnairique     Found 3 entries for abbreviation     ab bre vi a tion  2 bra ya a shan   n  Abbr  abbr   abbrev     1  The act or product of shortening   2  Ashortened form of a word or phrase used chiefly  in writing to represent the complete form  such  as Mass  for Massachusetts or USMC for United  States Marine Corps     Music  Any of various symbols used in notation to  indicate that a series of notes is to be repeated     Source  The Awerncan Hentage   Dictionary of the English Language  Thin Edition  C
148. airique     trouve le contexte de l   entr  e que l   on s  lectionne  c   est    dire les 5 mots pr  c  dents et les 5 mots suivants  selon la nomenclature du dictionnaire  La troisi  me fen  tre affiche tous les mots du dictionnaire s  lectionn    correspondant    la requ  te  Enfin  la derni  re fen  tre affiche l   article complet     Discussion    Cette application apporte de nombreuses am  liorations dans la consultation de dictionnaires  une re   cherche multidictionnaire  une aide    la consultation gr  ce    un lemmatiseur  une vue du contexte de l   article  s  lectionn    la possibilit   de configurer beaucoup d   options et de rajouter ses propres dictionnaires    Elle pourrait   tre enrichie en proposant la personnalisation d   un article complet au niveau des infor   mations propos  es et de leur style  De plus  la derni  re fen  tre n   affiche qu   un article    la fois  Il est donc  impossible de comparer plusieurs articles     2 2  Consultation de dictionnaires sur Internet    Les serveurs proposant une consultation de dictionnaires en ligne sur le Web sont de plus en plus nom   breux   tant donn   la croissance de l   Internet et le besoin en ressources linguistiques qu   il provoque avec le  multilinguisme  Malheureusement  les ressources propos  es sont g  n  ralement de qualit   moyenne car le  service est gratuit  On comprend facilement que les   diteurs h  sitent    mettre leurs ressources disponibles  sur le Web car dans ce cas  ils ne pourraient plus
149. ais anglais du dictionnaire Oxford Hachette encod    en sgml aura comme nom  ohd_fr_en v2 ISO 8859 1 sgml  Il sera rang   dans le r  pertoire de  nom OHD_en fr qui contiendra aussi le fichier ohd_fr_en vi IS0 8859 1 sgml           1  Exp  riences sur la consultation en ligne 71    1 1 3  Structures internes utilis  es    Un fichier encod   en XML est plac   dans le r  pertoire de chaque ressource  Il contient un certain nombre  d    informations  Ce sont des m  ta donn  es sur ces ressources  Nous trouvons      le nom de la ressource     la cat  gorie  monolingue  bilingue  multilingue          les langues sources et cibles     le domaine  g  n  ral  m  decine  etc         les dates de cr  ation de la ressource     les auteurs     le responsable     des informations compl  mentaires     Pour chaque fichier  nous trouvons     le nom du fichier       la date d installation     la version     l encodage  ISO 8859 1  UTF 8  etc       le nombre d   articles     le nombre de traductions pour des dictionnaires multilingues         des informations compl  mentaires     Par exemple  le fichier XML de la figure B 1 d  crit le dictionnaire EuroWordNet    Une feuille de style   crite en XSLT  XSLT 1 0  permet de produire un fichier README au format  texte    partir des fichiers XML  voir figure B 2   Ces fichiers sont plac  s dans les r  pertoires des ressources   Cela permet aux personnes parcourant directement l   arborescence de pouvoir lire ces fichiers expliquant le  contenu des r  
150. an   sedang diuji  p  riode d essai   dim tempoh percubaan       FIG  B 8     interface du serveur du FeM param  trable    81    82 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      2  Am  lioration des m  thodes de  construction    2 1  Am  lioration de la m  thode d  mocratique du FeM pour UNL    2 1 1  Probl  matique    Le projet UNL a   t   pr  sent   dans la section 1 3 4  de la partie A  Le langage UNL sert de repr  sentation  s  mantico linguistique pivot pour diverses applications  traduction automatique  RI multilingue   Il ne peut  bien s  r repr  senter exactement toute l   information exprim  e dans n   importe quelle langue  il s   agira tou   jours d   une approximation    Les expressions UNL ne doivent pas seulement   tre d  finies rigoureusement  mais   tre aussi g  n  rales  que possible pour   tre comprises par toutes les personnes charg  es du d  veloppement des  enconvertisseurs   et des  d  convertisseurs     Le vocabulaire UNL est form   de          UW  Universal Word ou en fran  ais Unit   de Vocabulaire Virtuel  qui repr  sentent des acceptions  ou ensembles d   acceptions interlingues  Par convention  on a utilis   des mots anglais pour   tablir le  vocabulaire UNL  car cette langue est compr  hensible par la majorit   des acteurs du projet           tiquettes de relations s  mantiques           tiquettes d   attributs qui expriment     un niveau interlingue  l   actualisation  d  termination  nombre 
151. ange des fichiers Word  est assez rigide  Enfin  la cr  ation d   un dictionnaire  est un processus assez long  Aussi  il est bon de compter sur un logiciel qui   volue durant tout ce temps   La contrepartie de cet avantage est que l   on est d  pendant d   un format propri  taire  N  anmoins le sous   ensemble du format RTF utilis   a toujours   t   compatible avec les versions de Word utilis  es    D inconv  nient majeur de cette m  thode est qu il n   existait aucun outil permettant au lexicographe de  v  rifier le travail en cours  On ne peut  en effet  constater la malformation d   une entr  e que lorsqu   on  l   int  gre    la base  Aussi  ce processus d   int  gration ne peut se faire que sous le contr  le d   un adminis   trateur lexicologue charg   de corriger les erreurs des lexicographes  mauvais choix de style  abr  viation  inconnue  etc    Il est aussi possible de faire une partie du contr  le    la source en fournissant les outils  n  cessaires aux lexicographes sous forme de macros Wrod par exemple     4 2  Cr  ation  classique  avec un   diteur structur   SGML    4 2 1  Introduction    Cette m  thode est tr  s r  pandue car elle est utilis  e par tous les   diteurs de dictionnaires imprim  s qui  ont pris l   habitude d   encoder leurs dictionnaires dans le format SGML  C   est aussi la premi  re m  thode  informatis  e qui a permis de construire des dictionnaires    usage humain  Cette m  thode est utilis  e pour  construire le Dictionnaire Canadien Bilingu
152. angue gr  ce    l   image  L exemple de la figure  B 18 montre un article contenant une image    Cette technique d  j   utilis  e depuis longtemps dans les encyclop  dies atteint cependant rapidement ses  limites  On ne peut pas tout illustrer par des images  De plus  certaines diff  rences sont subtiles et tr  s  difficiles    repr  senter  Par exemple  il n   est pas   vident de montrer la diff  rence entre une vall  e et une  montagne ou un lac et un   tang    Nous avons aussi rajout   dans certains articles un fichier son de la prononciation du mot vedette par un  locuteur natif  Nous pourrions aussi utiliser un synth  tiseur par l   interm  diaire d   un module externe    Quant    la vid  o  l    Encyclopedia Universalis l   a utilis   depuis 1997 dans les c  d  roms de l   ency   clop  die      3 1 2  Interface personnalis  e pour apprenants   le quizz    Pour faciliter l   apprentissage du hongrois  nous avons construit une petite application qui utilise Di   coSz  t  r  L utilisateur s  lectionne la langue source  le nombre de mots  la le  on et les cat  gories gramma   ticales qu il veut r  viser  L application se connecte alors    DicoSz  t  r pour choisir au hasard dans le dic   tionnaire les mots correspondant    la le  on s  lectionn  e ainsi que leurs traductions  Ces mots sont ensuite  affich  s  L utilisateur doit donner au syst  me une traduction pour chaque mot    L application v  rifie les traductions et affiche en rouge les corrections des traductions erro
153. angues l   anglais  le  fran  ais et le malais  il contient quatre lexiques   interlingue  anglais  fran  ais et malais  li  s de la fa  on  suivante      lt links gt     lt link from  anglais  to  interlingue   gt               lt link from  fran  ais  to  interlingue   gt    lt link from  malais  to  interlingue   gt       links gt    Les volumes du dictionnaire sont r  f  renc  s par leur nom unique  L   l  ment  lt volumes gt  regroupe  toutes les r  f  rences aux fichiers repr  sentant les volumes  Ces r  f  rences sont not  es avec l   l  ment  lt volume   Per    Les langues sources et cibles sont indiqu  es par l     l  ment  lt 1anguages gt  suivant la norme ISO 639   2 T  ISO98  avec leur code de trois lettres    L   l  ment  lt contenu gt  indique le contenu du dictionnaire    L   l  ment  lt domain gt  indique le domaine couvert par le dictionnaire  Un dictionnaire d   usage couvre  le domaine g  n  ral  Certains dictionnaires sont sp  cialis  s dans des domaines pr  cis comme la m  decine   l informatique  etc    Nous indiquons aussi la taille du dictionnaire en octets  par  lt bytes gt   et le nombre de mots vedettes par   lt hw number gt      2  D  finition du noyau de l   environnement avec SUBLIM 137    Pour la gestion des diff  rentes versions  nous indiquons le num  ro de version   lt version gt    la date  de cr  ation du dictionnaire   lt creation date gt   et la date d   int  gration du dictionnaire dans la base   lt installation date gt     Pour les ress
154. antique de l   axie  les liens vers les  lexies monolingues  les liens vers d autres axies et enfin les r  f  rences externes  Certains   l  ments de l   axie  sont susceptibles d     tre modifi  s au cours du projet avec l   ajout de liens vers une nouvelle langue ou vers  une nouvelle r  f  rence externe  Les liens vers les lexies monolingues et les liens vers les r  f  rences externes  sont donc d  crits formellement par le sch  ma Papillon axies donn   en annexe B  Ce sch  ma red  finit les  deux   l  ments pr  c  dents du sch  ma Papillon    La cat  gorie s  mantique est repr  sent  e par l     l  ment  lt semant ic    cat gt   Les axies reliant des lexies  peuvent prendre quatre valeurs possibles  entit   entity  processus process    tat state et r  sultat  result  Les axies peuvent aussi relier des phrases enti  res  La valeur de la cat  gorie s  mantique indique  alors le type de phrase  example pour un exemple  idiom pour un idiotisme  citation pour une  citation et proverb pour un proverbe    Les liens vers les lexies sont repr  sent  s en fonction des langues  Le nom de l     l  ment regroupant les  liens vers une langue donn  e est construit avec le code    trois lettres ISO 639 2 T repr  sentant cette langue   Par exemple  les liens vers des lexies fran  aises seront regroup  s dans l     l  ment  lt fra gt   pour des lexies  anglaises  ce sera l     l  ment  lt eng gt   etc    Chaque r  f  rence vers une lexie est ensuite repr  sent  e par l   attribut href de t
155. arties  Un dictionnaire peut avoir plusieurs pr  sentations diff  rentes mais il n   aura toujours qu   une seule  microstructure  De plus en plus de dictionnaires sont disponibles non seulement dans des version papier  mais aussi sous forme d   applications sur ordinateur  par exemple le Collins ou le Hachette Oxford  ou sur  la Toile  par exemple  le FeM  FeM  ou le Websters  dictionary com     A chaque version est associ  e une  pr  sentation diff  rente  mais toutes les versions sont   labor  es    partir de la m  me structure logique  C   est  le cas du FeM  voir 1 2 1      1 2  Exemples de dictionnaires    usage humain    1 2 1  Un dictionnaire monodirectionnel trilingue   le FeM  Introduction    Le dictionnaire fran  ais malais  Kamus Perancis Melayu Dewan   Gut96   a   t   construiten coop  ration  entre le service Culturel de l Ambassade de France    Kuala Lumpur  le Dewan Bahasa dan Pustaka       Unit  Terjemahan Melalui Komputer  Universiti Sains Malaysia  Penang  et le Groupe d   tude pour la Traduction  Automatique  GETA  Universit   Joseph Fourier  Grenoble  amp CNRS  sous la coordination de l   association  Champollion    C   est un dictionnaire trilingue monodirectionnel  Sa macrostructure est donc constitu  e d   un seul vo   lume  C   est un dictionnaire    usage humain  Il comporte environ 20 000 articles et 50 000 sens de mots ou  lexies  Dans sa version papier d  finitive  l   anglais a   t   supprim    alors qu   il a   t   conserv   dans les variantes  
156. as un  seul d   entre eux n     tait satisfaisant  par exemple  l   Union Europ  enne a besoin de plusieurs syst  mes de  codage pour couvrir toutes ses langues d   usage  ISO 8859 1    16   ISO99a   M  me pour une seule langue  comme le fran  ais  aucun syst  me de codage ne couvrait tous les caract  res  il manque entre autres le ce  coll   dans l    ISO 8859 1 ou ISOLATIN 1 qui est un caract  re mais pas une lettre   les signes de ponctuation  et les symboles techniques en usage courant    UNICODE n   est pas un encodage  C   est une table mettant en correspondance un caract  re avec un  num  ro unique  Il est possible de repr  senter une suite de caract  res de la table UNICODE avec plusieurs  encodages diff  rents  Comme la table UNICODE poss  de un nombre de caract  res largement sup  rieur     256  il n   est pas possible de les repr  senter sur un octet  La majorit   des machines actuelles utilise cependant  un codage des caract  res sur un octet    On utilise alors soit le num  ro du caract  re par exemple U 00FC en hexad  cimal pour repr  senter        soit un syst  me d   encodage variable sur plusieurs octets  UTF 8  Unicode Transformation Format   repr  sente les caract  res Unicode sur un nombre variable d   octets  Les caract  res de la table ASCII  Ame   rican Standard Code for Information Interchange   et  plus pr  cis  ment  les caract  res de la table Unicode  compris entre U 0000 et U 007F seront repr  sent  s    l   identique sur un octet  le premier bit 
157. asse  class en utilisant list     3  Outils de manipulation de dictionnaires 41    4  Inversion    L   inversion se compose de deux   tapes   le regroupement et la division  Pour diviser une donn  e a  on  peut utiliser l   op  ration suivante   split a by F assign list   slot1   f1  slot2   f2          5  Encha  nement    Les fonctions d   enchainement sont utilis  es dans l   exemple suivant pour produire un dictionnaire fran  ais   vietnamien avec un fran  ais anglais et un anglais vietnamien     6  Combinaison parall  le    Pour combiner en parall  le deux dictionnaires Dictl et Dict2 pour obtenir Dict3  on passe par deux    tapes          cr  ation des articles de Dict3    partir de Dictl         int  gration des articles de Dict2    Dict3     7  Combinaison en   toile    Comme c   est une g  n  ralisation de l   encha  nement et de la combinaison parall  le  la combinaison en    toile peut   tre impl  ment  e avec les op  rations pr  sent  es pr  c  demment     3 2 2  Exemple    Dans la production en ligne  un ou plusieurs articles sont produits    chaque demande  Par exemple    tant  donn   un mot fran  ais  on peut cr  er dynamiquement un article fran  ais vietnamien par enchainement  en  cherchant un article fran  ais anglais et quelques articles anglais vietnamien  dans les dictionnaires corres   pondants  Voici les structures des articles de d  part     fe entry    fre string    eng   list of  eng string      ev entry   eng string    vie   list of  vie string     V
158. athieu Mangeot   gt    lt user ref name  Gilles Serasset   gt     lt  group gt     lt   Groups  gt     lt dictionaries gt                    190 D   Application    Papillon  projet de base lexicale multilingue sur Internet     lt dict ref name  DiCo  href  DiCo xml   gt    lt dict ref name  FeM  href  FeM xml   gt    lt dict ref name  JMDict  href  JMDict xml   gt    lt dict ref name  papillon  href  papillon xml1   gt    lt dict ref name  SAIKAM  href  SAIKAM xml   gt    lt  dictionaries gt    lt  database gt   Ce fichier est en   volution constante  tout comme le contenu de la base elle m  me        Le dictionnaire Papillon    Le dictionnaire Papillon est d  crit par l     l  ment DML  lt dict ionary gt   La description formelle de cet    l  ment est r  alis  e par le sch  ma DML donn   en annexe A  Ce dictionnaire est ensuite r  parti en plusieurs  volumes r  f  renc  s par l     l  ment  lt volume gt    On trouve un volume interlingue Axies et un volume pour  chaque langue  English pour l   anglais  French pour le fran  ais  Japanese pour le japonais  Lao pour  le lao et Thai pour le tha    Les liens entre les volumes sont not  s par l     l  ment  lt 1inks gt   Les articles des    volumes de chaque langue sont reli  s aux articles du volume interlingue   Voici la description en LEXARD   du dictionnaire Papillon     define dictionary Papillon   owner GETA   comment  Papillon Multilingual Dictionary             Category  multilingual    creation date  16 05 2001    install
159. ation date  16 05 2001    encoding  UTF 8      format  XML     hw number 381    type  pivot          version 1    source languages  Axies     target languages  English French Japanese Lao Thai     contents  general vocabulary     domain  general     legal  all rights belong to GETA and NII    cdm element  headword pronunciation pos corpus    volumes  English French Japanese Lao Thai Axies               links  from Axies   to English French Japanese Lao Thai      Voici le document XML   quivalent     lt dictionary  xsi schemaLocation  http   www clips imag fr geta services dml  http   www clips imag fr geta services dml dml xsd   history ref  papillon his xml           category  multilingual   creation date  21 06 01   encoding  UTF 8   format  XML     4  Analyse g  n  rale et impl  mentation 191    hw number  381   installation date  16 05 2001   fullname  Papillon Multilingual Dictionary        name  Papillon   owner  GETA   type  pivot   version  1  gt    lt languages gt    lt source language lang  axi   gt    lt target language lang  eng   gt    lt target language lang  fra   gt    lt target language lang  jpn   gt    lt target language lang  lao   gt    lt target language lang  tha   gt    lt  languages gt    lt contents gt general vocabulary lt  contents gt    lt domain gt general lt  domain gt    lt legal gt all rights belong to GETA and NII lt  legal gt    lt cdm elements gt    lt headword delay  1s   gt    lt pronunciation delay  5s   gt    lt pos delay  5s   gt    lt
160. atisfaisant en termes de fonctionnalit  s puisqu   il permet I    annotation de pages et le par   tage des annotations par des groupes d   utilisateurs  Cependant  les annotations sont stock  es sur le serveur  de ThirdVoice  Il n   est pas possible de les g  rer soi m  me  ce qui peut poser des probl  mes de confidentia   lit    Il n   est pas non plus possible d   annoter des documents stock  s localement  Ils doivent absolument   tre  install  s sur un serveur Web public  De plus  cet outil n   est disponible que sur Windows  ce qui limite aussi  son utilisation     3 3 3  L annoteur d   Amaya  Pr  sentation    Amaya  Amaya   le navigateur   diteur du W3C  World Wide Web Consortium  impl  mente depuis peu  un syst  me d   annotation  L   utilisateur peut sp  cifier le serveur d annotations ou encore stocker ses anno   tations en local  Il est donc possible de travailler en local sans se connecter au web  Les annotations sont  stock  es sous forme de fichiers xhtml  XHTML 1 0  et d  crites par des fichiers XML utilisant les RDF et  les XPointer    RDF  Resource Description Framework   RDF  est une structure pour les m  tadonn  es  RDF permet une  interop  rabilit   entre les applications qui   changent des informations sur le Web  RDF facilite le traitement  automatique des ressources Web     96 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      XPointer  XML Pointer Language   XPointer  est une recommandation XML  C   est u
161. aux  Dans l   exemple  le      est  repr  sent   par  Seacute      Un   l  ment peut englober d   autres   l  ments de fa  on    construire une structure d   arbre  Ici  l     l  ment   lt entry gt  englobe les   l  ments  lt headword gt  et  lt pos gt      1  Notions du domaine 11    entry  gt    lt headword gt abr  eacute  ger lt  headword gt    lt pos gt v t  lt  pos gt    lt  entry gt   Le projet de la TEI  Text Encoding Initiative   Ide95b Johnson95  termin   en mai 94 avait pour but  d   unifier la s  mantique des balises SGML pour encoder les textes  Le groupe de travail sur les dictionnaires  a notamment publi   une D  finition de Type de Document  DTD  g  n  rale pour encoder les dictionnaires   Certains dictionnaires enfin utilisent directement un format de pr  sentation pour le stockage  Ces formats  ne refl  tent pas directement la structure logique de ces dictionnaires  Il faut alors leur appliquer un traitement  pour obtenir une structure logique plus directement utilisable  C   est le cas des formats RTF  Rich Text  Format  et HTML  HyperText Markup Language   HTML 4 0   De plus  les traitement ne peuvent pas   tre  totalement automatiques et sont tr  s co  teux  Doan Nguyen98a 98b         1 1 5  La pr  sentation des informations    La structure de pr  sentation de l   article  polices  couleurs  tailles  est appel  e pr  sentation du diction   naire  Cette structure est ind  pendante de la structure logique m  me si  en g  n  ral  elle en refl  te certaines  p
162. avec au moins 5 000 mots vedettes  Le texte XML  des exemples est rendu lisible pour le lecteur  Les entit  s XML repr  sentant les caract  res   lt      gt   et   amp    sont donc converties     lt category gt   bilingual     multilingual   lt  category gt     lt source language gt eng lt  source language gt   lt creation date gt  gt 19900101T00 00 00Z lt      lt hw number gt  gt 5000 lt  hw number gt    Voici un extrait du r  sultat sur la base lexicale du laboratoire XRCE  Pour simplifier  nous ne pr  sentons  que les noms des ressources r  pondant    la requ  te et non les informations compl  tes     lt name gt EuroWordNet lt  name gt     lt name gt German Dictionary lt  name gt     lt name gt Hungarian_en hu lt  name gt     lt name gt JMDict_en ja lt  name gt     lt name gt Multilingual medical dictionary lt  name gt     lt name gt Oxford Hachette French dictionary lt  name gt     lt name gt Oxford Spanish Dictionary lt  name gt     lt name gt Urdu English Dictionary lt  name gt     lt name gt DHydro Dictionary lt  name gt              4 3 2  Elaboration des requ  tes    Une API de consultation de la base lexicale est disponible  Les clients de la base l   utilisent pour r  diger  leurs requ  tes de consultation de ressources  Ils peuvent consulter plusieurs ressources    la fois  utiliser des  expressions r  guli  res  etc  Ils configurent ensuite le r  sultat des requ  tes grace aux API de microstructure  et de pr  sentation    L utilisateur indique le nom des ressourc
163. berg Ajs bErg N  i Aj   c s   e     b b   e E   r r   g g  hautbois    O bwA N  h     au O   t     b b   oi wA   s      homme   m N  h     0 0   mm m   e      onze   6z J        on 6   z z   e      skate  skEjt N  s s   k k   a EJ   t t   e      tocsin  tOk s   N  t t   0 0   c k   s s  lin  E        FIG  A 16     extrait de la base BDLex  La figure A 17 repr  sente un autre exemple avec les indices associ  s     GRAPH_ACC HG CS FREQ F_Catach FREQ Elementaire  alors 11 A C1 BO 111 22   avoir 21 V CO BO TR 11 2   chaussure 11 N BO 701    tre 21 V CO BO TR 4  de 11 p CO BO 2 3   la 11 d CO BO 1 7  rayonner 11 V BO                                  FIG  A 17     extrait de BDLex avec les indices associ  s    Chaque entr  e lexicale est munie de marques de fronti  re sp  cifiant la nature du terme plac   imm  diatement  apr  s  Lorsqu   une partie du mot est une autre entr  e lexicale  celle ci n est pas d  compos  e  Actuellement   68 pr  fixes et 107 suffixes ont   t   introduits dans BDLEX  Ceux ci peuvent   tre utilis  s pour proc  der    une    1  Notions du domaine 23    analyse morphologique d  rivationnelle  Les mat  riaux lexicaux de BDLEX sont disponibles sous l   environ   nement ORACLE sur station de travail SUN  L   acc  s aux informations peut s   effectuer au gr  ce aux outils  dont dispose ORACLE     Ce dictionnaire est typiquement    usage informatique  De plus  les informations de ce dictionnaire sont  cod  es et difficilement utilisables par un humain     1 3 3 
164. btient pour chaque champ la  liste des valeurs possibles  Dans notre exemple  le champ de la cat  gorie grammaticale ne peut comporter  que certaines valeurs  Si le lexicographe appelle la macro liste valeurs  elle affiche automatiquement  la liste des cat  gories autoris  es et ins  re la cat  gorie s  lectionn  e     86 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      C01101 rtf    a  IO E AA ASE    Caabaq     Style suivant     Caaba   3   Caaba equ gt Kaaba    Y  Kaabaq    Pr f 4   Caaba ici gt building     ba  nent   pra provenance_f  Kaaba Y cat_e  commentaire_unl  uw     cab T  FEM          FIG  B 13     fen  tre de la macro style suivant    C01101 rtf   e  Y E   COREA EEE    Caaba   Caaba  qg    Caaba equ gt Kaaba          Kaaba  pr   Kaaba  Pr     4    Caaba icl gt building     baiment    Kaaba    qg     cab  g  FEM 4       FIG  B 14     fen  tre de la macro liste valeurs    Gr  ce    la macro v  rification  le lexicographe peut v  rifier si une valeur est bien permise pour  le champ s  lectionn    Dans notre exemple  la macro appliqu  e au champ de cat  gorie v  rifie si la valeur  s  lectionn  e appartient bien    la liste des cat  gories grammaticales d  finie par le lexicologue  Elle envoie  un message d   erreur  voir figure B 15  si le champ n   est pas correctement rempli        La macro v  rification g  n  rale permet au lexicographe de v  rifier la coh  rence d une entr  e  enti  re  Pour chaque style  elle 
165. bute   gt       setf string  concatenate string  list2xml item      setf string  concatenate string   lt    element   gt        progn  setf string  concatenate   lt   element attribute   gt       dolist  item ma liste    setf string  concatenate string  list2xml item       setf string  concatenate string   lt    element   gt                         string      neq  first ma liste  nil    concatenate string   lt    princ to string  first ma liste      gt           On voit qu il s   agit d   une op  ration assez simple si on la programme    ce niveau  En C    il faudrait  beaucoup plus de code et l   efficacit   ne serait pas sup  rieure     4 1 2  Manipulations internes des donn  es    La manipulation interne des donn  es se fait gr  ce aux outils XML   quip  s de parseurs  Il existe essen   tiellement l    API SAX  Simple Api for XML   SAX 2 0  et l    API DOM  Document Object Model   DOM    Il est aussi possile d   utiliser le langage XSLT en   crivant une feuille de stype XSL pour chaque transforma   tion    Par exemple  pour la fusion d  crite dans la section 2 2 3 de cette partie  nous utilisons une feuille  de style XSL  Cette feuille de style nous permet de fusionner deux articles qui ont le m  me mot vedette   lt headword gt   S   ils ont la m  me cat  gorie  lt pos gt   les lexies sont regroup  es  Elles portent ensuite      at   tribut provenance qui indique le nom de leur dictionnaire d   origine    Voici un extrait de cette feuille de style            lt    mod  le
166. c  dente et suivante    Pour les dictionnaires class  s par ordre alphab  tique  ici tous sauf la base de concepts ELRA   il est  possible de consulter les entr  es pr  c  dant et suivant celles affich  es  Pour cela  lorsque le script consulte  un dictionnaire    la recherche d   une entr  e  il compte les lignes  Lorsque l   utilisateur demande l   entr  e  pr  c  dente ou suivante  le script utilise ce num  ro de ligne pour faire sa recherche  Elle s   effectue donc plus  rapidement que lorsque le script effectue une recherche    l   aide d   une expression r  guli  re  L utilisateur se  retrouve partiellement dans le contexte de la lecture d   un dictionnaire papier o   le contexte de l   entr  e est  directement sous ses yeux     Pages fabriqu  es    la vol  e    Pour   viter de convertir    chaque fois le texte source en HTML  nous aurions pu convertir en une seule  fois tous les dictionnaires source  Cependant  m  me si cette solution r  duit le temps d   attente lors de la  recherche d   une entr  e  elle pr  sente deux inconv  nients importants  D abord  la fabrication    la vol  e  des pages HTML permet d   une part de respecter le copyright en interdisant aux utilisateurs de r  cup  rer  enti  rement le dictionnaire en une seule fois  ensuite  on peut retoucher le rendu final directement en modi   fiant le script Perl     Ajout d   une nouvelle ressource    Les crit  res que doivent satisfaire les nouvelles ressources pour   tre ajout  es au syst  me sont simples  
167. c  der    toute  la ressource     Il n   est pas encore possible d   afficher le contexte d   un article  c   est    dire d   afficher par exemple les 5  articles pr  c  dents et suivants selon la nomenclature  Nous ne pouvons obtenir qu   un article    la fois     Dans les maquettes pr  sent  es jusqu ici  le r  sultat n est pas encore param  trable par l   utilisateur     1 3  Regroupement de ressources locales et distantes   DicoFeJ    1 3 1  Pr  sentation    DicoFeJ est un serveur de dictionnaires fran  ais anglais japonais con  u selon l   architecture de Dico   Web  L utilisateur consulte ce serveur    partir d   un terme fran  ais  anglais ou japonais  Nous utilisons deux  ressources   un dictionnaire fran  ais anglais provenant du FeM et le dictionnaire japonais anglais  Edict   EDICT  de Jim Breen  Pour repr  senter du fran  ais et du japonais dans la m  me page  nous devons utiliser  Unicode  Nous transformons donc    la vol  e l   encodage des r  sultats de l   ISO LATIN 1 pour le fran  ais et  de l    EUC JP pour le japonais vers l   Unicode encod   en UTF 8    Notre serveur r  utilise le serveur distant du dictionnaire japonais anglais d  velopp   par Jim Breen de  l   universit   Monash    Melbourne en Australie  EDict   Nous avons programm   un module interfacique   wrapper  qui consulte ce serveur  ram  ne le r  sultat et le convertit en Unicode  Ce r  sultat converti est  ensuite affich   avec les autres r  sultats obtenus localement  Dans notre exemple  figu
168. car les r  ponses aux  requ  tes sont quasi instantan  es  De plus  du point de vue des   diteurs  c   est un moyen de vendre leurs  dictionnaires sur c  d  roms  ce qu   ils ne peuvent pas faire avec des serveurs de consultation sur le Web   On trouve donc principalement des versions   lectroniques des grands dictionnaires imprim  s du commerce     tant donn   que le service est payant  les dictionnaires sont le plus souvent de meilleure qualit   que ceux que  l   on trouve sur le Web  La qualit   est garantie gr  ce    l     quivalence de ces dictionnaires avec leur version  papier     2 1 1  Une application basique   le Collins on line  Introduction    Le Collins On Line est un dictionnaire   lectronique bilingue fran  ais anglais de Harper Collins publi   sher d  velopp   par AND software  Son utilisation est relativement simple et convient tr  s bien pour une  recherche rapide d   une traduction d   un mot  La rapidit   permet    l   utilisateur de ne pas perdre le contexte  de la phrase contenant le mot cherch       Interface    Dans une premi  re fen  tre  il y a un cadre de saisie du mot recherch   dans la langue source avec  dans  le deuxi  me cadre  au fur et    mesure que l   on rentre les lettres du mot  les mots se rapprochant le plus des  lettres saisies par ordre alphab  tique  Il faut s  lectionner un mot du cadre du bas pour faire une recherche   Ensuite  il y a deux boutons au bas de la fen  tre   Retourner et Rechercher    Si l   on clique sur le bouton Rec
169. ch Key  snow  longest match found     NE NID     first snow  of season    A 2   HR   H snow boat   SE  p   Si  snow country   BE   gt   snow damage   ME  22902  light snow fall  small snow flakes  ER   Miz3oD  snow festival   WE  OE SFA  ice field  ice floe  snow field   A        Y snow gun   MECH OE  BHC ODS  snow mingled    with rain  i A      EY  snow mobile    Anua    AA u ee     ve AN A Nn  aaaceecececlloouuu    q Te SP Es Y       FIG  B 7     l   article neige du serveur dicofej    1 3 2  Discussion    La transformation    la vol  e des pages permet de contourner l   impossibilit   l  gale de stocker toutes les  ressources localement  On acc  de aux ressources pr  sentes sur ces serveurs distants  Hachette  Websters et  Edict  gr  ce    des interfaces de connexion  wrappers  que nous avons programm  es en Perl     Pour nous permettre de visualiser du fran  ais et du japonais en m  me temps  nous utilisons la norme  Unicode et son codage UTF 8     Dans nos maquettes  nous utilisons aussi des modules compl  mentaires en amont et ou en aval de la  consultation des ressources  Les analyseurs morphologiques et les correcteurs orthographiques servent en  amont pour obtenir un lemme    partir d   une forme de surface  L   interrogation du dictionnaire se fait ensuite  avec le lemme     80 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      Avantages    D utilisateur dispose de plusieurs ressources dans la m  me interface  Il peu
170. cologues qui supervisent la construction de nouvelles ressources et l   int  gration des contribu   tions ont besoin d   outils pour contr  ler le flux des donn  es et pour appliquer des m  canismes de v  rification  des donn  es  En effet  les ressources sont en constante   volution     1 2  D  veloppement partag   de ressources libres    Le d  veloppement actuel d    Internet et son esprit communautaire nous permettent d envisager le d  veloppement  partag   de ressources libres de droits  Nous souhaitons mettre en place un environnement qui permette       114 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    n importe quel utilisateur de notre serveur de contribuer    la construction des ressources directement  c   est      dire en ligne     travers le Web    Les contributions sont ensuite g  r  es par un petit groupe de sp  cialistes lexicologues  Ceux ci v  rifient  les contributions et d  cident de les int  grer ou non aux ressources existantes  Comme on risque d   arriver     de nombreuses contributions  il faut permettre    des contributeurs de  pr  parer le travail  des lexicographes  g  rant la base en annotant les contributions d   autres contributeurs     1 2 1  Principe g  n  ral socio   conomique du partage    Nous souhaitons que les utilisateurs partagent les ressources personnelles qu   ils ont construites  Ils sont  invit  s    envoyer    la base leurs contributions qui seront ensuite partag  es avec tout o
171. comprenant  entre autres l anglais  le fran  ais  le japonais  le lao et le tai  L acc  s est  gratuit pourvu que l usage ne soit pas commercial  licence de logiciel libre    Notre projet  initi   par quelques sp  cialistes de linguistique informatique   se veut utile et ouvert    la collaboration de toutes les personnes ayant un  int  r  t pour les langues japonaise  fran  aise  lao ou thai     370YI5 ki  SET  ERIN ES DERD AL      FEOS L  CHET  gt  AEFPOERIFOR MZA NA  TAREA  ULA OY IP RICE HERD SULT 7 Y A RIC RY  BHA DAR SILERACHCBMVOAEU EF  gt     13P10H 3604      Local intranet zone    Fic  D 4     page d accueil du serveur Papillon    Lorsque les lexicographes et contributeurs ont fini leur travail  ils se reconnectent au serveur Papillon et  envoient les articles modifi  s et les nouveaux articles  Ces donn  es sont stock  es dans leur espace virtuel en    attente de r  vision     Extraction de donn  es    Chaque utilisateur peut extraire de la base Papillon de nouveaux dictionnaires au format qu   il souhaite   Pour cela  il doit sp  cifier la structure de son dictionnaire    l   aide d   une interface sp  cialis  e  Cette structure  est ensuite convertie en une feuille de style XSLT qui est envoy  e au serveur Papillon  Le syst  me g  n  re  automatiquement son dictionnaire    partir de la feuille de style     3  Sp  cifications externes 183    Validation correction des contributions    Les sp  cialistes lexicologues ou lexicographes en chef r  visent les contributions
172. conna  t  un locuteur fournira des exemples ou des idiomes dans sa langue   etc  De plus  ces ressources peuvent rester en constante   volution  s   enrichir continuellement et suivre les  changements des langues    Il faut donc  pour cela  concevoir des outils pour g  rer les diff  rents intervenants et leur niveau de  comp  tences vari  s  Nous devons aussi proposer des outils permettant de contribuer facilement et directe   ment en ligne    la construction de nouvelles ressources  Pour garantir une portabilit   et une compatibilit    avec un maximum d outils existants et    venir  nous baserons nos d  finitions sur le standard XML et ses  d  riv  s  Namespace  XLINK  XPointer  XPath  XSLT  Schemas  etc       4 Introduction    Organisation de la these    Dans la premi  re partie de ce document intitul  e  Contexte actuel de la dictionnairique     nous expose   rons certaines notions du domaine de la lexicographie computationnelle puis nous examinerons en d  tail  plusieurs dictionnaires vari  s  Nous   tudierons ensuite les applications de consultation de dictionnaires  des  outils de manipulation de ressources et des m  thodes de construction de nouveaux dictionnaires  Nous conti   nuerons cette partie par une explication des standards relatifs aux dictionnaires qu   nous ont paru int  ressants  pour la suite de nos travaux  Enfin  nous terminerons par l     tude de projets sur les dictionnaires bas  s sur  ces standards    Dans la seconde partie  intitul  e  Exploration d
173. contributeurs et stock  es dans leur  espace virtuel    Pour v  rifier les donn  es pr  sentes sur la base  les lexicologues   laborent des contraintes de coh  rence  sur une interface sp  cialis  e  La contrainte de coh  rence sera ensuite traduite par exemple en feuille de style  XSLT et appliqu  e    la base lexicale en t  che de fond  lorsque le serveur est inactif ou que le nombre de  requ  tes est limit    Des pointeurs sur les donn  es posant probl  me sont alors g  n  r  s par l   application des  feuilles XSLT    Par exemple  les lexicologues peuvent v  rifier la validit   des liens pr  sents dans la base  Ils r  digeront  alors des contraintes de coh  rences traduites en une feuille de style du type de celle de la section 2 3 3    Les lexicologues pr  parent ensuite avec ces pointeurs des ensembles de donn  es    v  rifier  Les contri   buteurs se connectent alors    la base pour piocher dans ces ensembles de donn  es    Ils v  rifient aussi les diverses contributions stock  es dans les espaces virtuels des contributeurs  Lors   qu ils d  cident d   int  grer des nouveaux articles ou des contributions dans une ressource  ils ajoutent des  informations dans un fichier d    historique des modifications  La ressource modifi  e comporte un lien vers cet  historique gr  ce    un identificateur     chaque modification  il faut stocker le nom du modificateur et la date  et   ventuellement des commentaires   Voici un exemple d   historique      lt administration id  h00001 
174. ct        text     gt    lt     ajout d   un nouvel exempl     lt example id  e1   gt Soup  onn   du meurtre de son   pouse  il a    t   arr  t   par les gendarmes mercredi lt  example gt    lt  xsl apply templates  gt    lt  xsl copy gt    lt  xsl template gt    lt  xsl stylesheet gt   Le r  sultat de l   application de cette feuille de style    la lexie meurt re 1 est la m  me lexie contenant  un exemple de plus                 152 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    4  Int  gration des outils de manipulation   construction et consultation de dictionnaires    4 1  Manipulation des donn  es    Pour manipuler les donn  es lexicales  nous utilisons plusieurs outils  Pour la r  cup  ration de donn  es  existantes et la production de nouvelles donn  es  il s   agit des outils d  finis par Hai Doan Nguyen dans sa  th  se  Pour les manipulations internes de donn  es  ce sont des outils de manipulation XML     4 1 1  R  cup  ration des ressources existantes    La r  cup  ration de ressources existantes se fait en suivant la m  thodologie R  CUPDIC  Les informa   tions sont d   abord nettoy  es puis marqu  es    l   aide d   un outil poss  dant un langage d    expressions r  guli  res   Word  BBEdit  scripts Perl  etc    Ensuite  la structure que l   on veut obtenir est d  crite selon une grammaire  H grammar  L outil H grammar r  cup  re ensuite la ressource et la transforme en objets structur  s CLOS   Common Lisp 
175. ction avec les serveurs partenaires                                  155  4 2 1  Principe de r  ciprocit     o ses sea 4 crm    pan ee da pan 155  4 2 2  Fournisseur de services           156  4 2 3  Fournisseur de ressources                                   157   4 3  Consultation de la base                                             159    4 3 1  S  lection des ressources                                   159    vi Table des mati  res    4 3 2    laboration des requ  tes                                    161   4 3 3  Visualisation du r  sultat                                     162   4 3 4  Personnalisation du r  sultat                                 164   4 4  R  daction des articles et contributions                                  164  4 4 1  R  daction en ligne viale Web                                164   4 4 2  R  daction avec des   diteurs structur  s                              165   4 4 3  R  daction avec des pseudo   diteurs structur  s                              166   4 4 4  R  daction avec des   diteurs sp  cialis  s                            167   D  Application    Papillon  projet de base lexicale multilingue sur Internet 171  Introduction 171  1  Pr  sentation du projet Papillon 172  1 1  Historique et buts du projet                ee 172  1 2  Architecture g  n  rale du projet                                    173  1 3  Points forts di  projet  e a o    eae da dus 4 REE Ma OMA a ew aw we A wes 174   2  Cahier des charges 176  2 1  Aspects cooperat
176. ctions fran  aises  A l   heure actuelle  10 000 articles sont d  j   traduits         Le projet SAIKAM  SAIKAM  comporte environ 4 000 articles japonais tha   encod  s en XML     Les ressources sont d   abord    r  cup  rer pour les transformer au format XML DML dans les structures  d  finies pour le projet  Il faudra ensuite calculer des liens entre diff  rentes langues automatiquement puis  les faire r  viser     2 3 2    tapes de la r  cup  ration    Nous avons d  fini une m  thodologie de construction de la base    partir des ressources existantes  Nous  distinguons trois   tapes successives  chacune constitu  e de t  ches pouvant   tre r  alis  es en parall  le           tape 1   r  cup  ration  primaire  de toutes les ressources disponibles compl  tes ou non avec transfor   mation du format source vers XML DML et de l   encodage d   origine vers UTF 8           tape 2  fusion et int  gration des donn  es dans les dictionnaires monolingues de Papillon  Le diction   naire fran  ais contiendra les donn  es de la base DiCo et de la partie fran  aise du FeM  Le dictionnaire  anglais contiendra les parties anglaises du FeM  de JMDict  et de SAIKAM  Le dictionnaire japonais  contiendra les parties japonaises de JMDict et de SAIKAM  LE dictionnaire tha   contiendra la partie  tha  landaise de SAIKAM           tape 3     volution par travail coop  ratif sur le Web     180 D   Application    Papillon  projet de base lexicale multilingue sur Internet    2 4  Description des inter
177. cts  Il semble que l   on n   aie  pas encore trouv   la solution id  ale  Peut   tre faudrait il envisager de pouvoir utiliser toutes ces m  thodes  en parall  le selon les besoins   travailler en ligne pour de petites contributions sp  cialis  es  et avec un   diteur  sp  cialis   pour la r  daction et la v  rification d   articles entiers     5  Standards li  s    la repr  sentation de dictionnaires 55    5  Standards li  s    la repr  sentation de  dictionnaires    Dans cette partie  nous pr  senterons les standards que nous avons estim  s les plus importants pour  la repr  sentation des dictionnaires  En effet  pour garantir le plus de portabilit    de compatibilit   et de  r  utilisabilit   possible    nos dictionnaires  il faut utiliser au maximum les standards existants    tous les  stades de l     laboration des dictionnaires et surtout lors de la d  finition de leur structure     5 1  Pour les caracteres  Unicode et ses transcriptions    Le standard ISO UNICODE  ISO93  a   t   cr     en 1993  Les versions du standard sont compl  tement  compatibles et synchronis  es avec les versions correspondantes du standard international ISO IEC 10646   Il r  sout les probl  mes d   encodage des caract  res dans diff  rentes langues en sp  cifiant un num  ro unique  pour chaque caract  re  quelle que soit la plate forme  quel que soit le logiciel  quelle que soit la langue     Avant l   invention d Unicode  des centaines de syst  mes de codage de caract  res ont   t   cr    s  P
178. d    gt    lt attribute name  history ref  type  xlink hrefType   gt        href attribute    gt        this attribute is used for all the links between DML elements           lt complexType name  hrefType  gt    lt attribute ref  xlink href  use  required   gt     finition of xlink    gt      lt  complexType gt    lt     lang attribute    gt    lt     the DML lang attribute is based on ISO 639 2 T standard which    uses 3 letters code instead of two letters code to indicate the name of    the languages      lt simpleType name  lang  gt    lt restriction base  string  gt      lt       lt        gies   lt    g  gi  gi   lt      tes  tee     lt         lt enumeration value  aar   gt   Afar  639 1  aa    gt    lt enumeration value  abk   gt   Abkhazian  639 1  ab    gt    lt enumeration value  ace   gt   Achinese    gt     lt enumeration value  ach   gt        German  639 1  de    gt    lt enumeration value  dgr   gt     English  639 1  en    gt    lt enumeration value  enm   gt        French  639 1  Lr       lt enumeration value  frm   gt   Hungarian  639 1  hu    gt      lt enumeration value  hup   gt     Indonesian  639 1  id in    gt    lt enumeration value  ine   gt     Italian  639 1  It       lt enumeration value  jaw   gt   Japanese  639 1  ja    gt    lt enumeration value  jpr   gt     Korean  639 1  ko    gt    lt enumeration value  kos   gt     We add also our proper codes   lt attribute name  lang  type  d lang   gt        for special purpose    gt     2  Sch  ma XML
179. dans chaque langue de la base     l inverse  dans une base d   acceptions  celles ci sont au d  part des liens  de traduction entre deux ou plusieurs langues  Elles peuvent devenir des concepts lorsque la base a   t    suffisament compl  t  e    quilibr  e et raffin  e     1 1 3  La microstructure des dictionnaires    La structure logique de l   article forme la microstructure du dictionnaire  La microstructure varie beau   coup selon les dictionnaires  Elle peut   tre vue comme une structure compos  e d    objets linguistiques  Parmi  ces objets  nous pouvons trouver  le mot vedette  sa prononciation  les cat  gories grammaticales que peut  avoir ce mot vedette  nom  pronom  verbe  adjectif  adverbe  etc    des d  finitions  des traductions  des  exemples  des collocations  une   tymologie  des sens  des gloses  des   tiquettes  figur    commerce  phar   macie  a  ronautique  botanique  etc    des r  gimes lexicaux  des fonctions lexicales  etc    Un mot d  crit dans un dictionnaire est appel   vocable  Les mots prennent tr  s souvent plusieurs sens  diff  rents  Par exemple  le verbe blanchir a trois sens principaux   blanchir des l  gumes  blanchir de  l   argent sale  blanchiment  et blanchir un v  tement  blanchissage   Un sens de mot est aussi appel   lexie   Au vocable blanchir correspond donc trois lexies  Le contexte d   un article est constitu   des articles qui  pr  c  dent et suivent cet article selon la nomenclature du dictionnaire  Il est souvent tr  s utile lor
180. de d  crire que deux niveaux dans une base lexicale   le niveau de la base lexicale  regroupant tous les dictionnaires et le niveau du dictionnaire  Dans le cas d   un dictionnaire bilingue bidi   rectionnel  il faut donc une description avec LEXARD pour chaque partie de dictionnaire  Pourtant  ces  deux descriptions partagent beaucoup d   informations en commun comme la date de cr  ation  l   auteur de la  ressource  le domaine  etc     Extension de LEXARD    Pour prendre en compte la m  ta information sur les ressources ainsi que les informations sur les utilisa   teurs  nous   tendons LEXARD de fa  on triviale par ajout de champs    Pour affiner la description d   une base lexicale  nous compl  tons LEXARD en rajoutant un niveau dans  la description avec   le niveau base lexicale qui liste les dictionnaires de la base  le niveau dictionnaire qui  d  crit un dictionnaire et le niveau volume qui d  crit chaque volume de dictionnaire    Les figures C4  C 5 et C 6 montrent un exemple d utilisation des fonctions LEXARD   tendues    124 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     define lexical database GETA database   owner GETA   comment  base lexicale h  t  rog  ne du GETA    creation date  22 10 99    users  root MM GS CB    groups  universe administrators lexicologists         partner servers  XRCE analysers    dictionaries  FeM UNL fr Homerica       FIG  C 4     description d une base lexicale avec LEXARD   tendu 
181. de dictionnaires    structures simples   DicoSz  t  r  et Nihongo    2 2 1  Pr  sentation    Int  ress   par les langues  nous suivons r  guli  rement des cours de langues   trang  res  Nous avons donc  profit   de ce terrain d   exp  rimentation pour d   une part aider notre apprentissage avec des outils et d   autre  part pour tester des directions de recherche pour la conception d   un environnement    Nous avons ainsi con  u des serveurs utilis  s    la fois pour la consultation et pour la r  daction de nou   veaux articles  DicoSz  t  r est un serveur de dictionnaire pour apprenants du hongrois et Nihongo pour ap   prenants du japonais  Les buts principaux de ces exp  riences sont la consultation et la construction en ligne  des dictionnaires  Les dictionnaires sont construits au fur et    mesure de l   apprentissage des mots par les  participants aux le  ons  Ils sont aussi utilis  s pour apprendre le vocabulaire et r  viser les le  ons pr  c  dentes    Les parties consultation des serveurs DicoSz  t  r et Nihongo sont con  ues selon l   architecture DicoWeb   Les parties r  daction sont con  ues de mani  re analogue  Les utilisateurs entrent les donn  es en ligne    l   aide  d   un formulaire HTML  Le serveur r  cup  re les donn  es et les inclut dans les fichiers o   sont stock  s les  dictionnaires    Pour DicoSz  t  r  deux dictionnaires bilingues sont en cours de construction  un dictionnaire fran  ais   hongrois et un dictionnaire hongrois fran  ais  Chaque dicti
182. de l   octet est     0   Les caract  res compris entre U 0080 et U 07FF seront encod  s avec deux octets  le premier bit du  premier octet est    1  cela indique qu   il faut lire le deuxi  me octet pour reconstituer le caract  re   etc    Il devient alors possible de n   utiliser qu   une seule table de codage pour repr  senter un dictionnaire mul   tilingue comprenant par exemple  du fran  ais  du japonais et de l   arabe  L utilisation d Unicode se r  pand  de plus en plus  bien que la majorit   des plates formes ne l   utilisent pas encore en natif  c   est    dire qu il  faut toujours effectuer une transformation pour obtenir le caract  re           56 A   Contexte actuel de la  dictionnairique     5 2  Pour la structure des documents   le balisage    5 2 1  Le standard des   diteurs   SGML    SGML  ISO86  est un standard international pour la d  finition de m  thodes de repr  sentation de docu   ments sous forme   lectronique  C   est un langage de balisage de l   information    l   aide d     tiquettes devenu  une norme ISO en 1986    Ce standard a   t   principalement utilis   dans le monde de l     dition  C   est pourquoi on trouve principa   lement des dictionnaires d   usage encod  s en SGML comme le NODE ou le OHD d  crits plus haut    C   est un m  talangage  c   est    dire un moyen de d  finir formellement un langage permettant la repr  sentation  d   un document   lectronique  Il permet donc de d  finir des ensemble d     tiquettes autoris  es et requises et 
183. de la  base DiCo     2 2 3  Articles interlingues   les axies    Les articles du dictionnaire interlingue relient les lexies monolingues des diff  rentes langues ayant le  m  me sens  Ce sont des acceptions interlingues ou axies  Les axies ont une cat  gorie s  mantique pouvant  prendre quatre valeurs diff  rentes   entit    processus  r  sultat et   tat     DiCo anglais Dictionnaire interlingue DiCo fran  ais           Lexie river        Lexie fleuve    Lexie rivi  re        into   sea x  not   into   sea               Axie 34    river icl gt into   sea               river icl gt not into sea           FIG  D 3     axies reli  es par des liens de raffinement    Les axies sont reli  es entre elles par des liens de raffinement et de quasi synonymie h  rit  s des fonction  lexicales de la lexicologie explicative et combinatoire  Les liens de raffinement sont   ventuellement d  cor  s  par une glose en anglais expliquant ce lien  Dans l   exemple de la figure D 3  l   axie 33 li  e    la lexie anglaise  RIVER est reli  e par des liens de raffinement aux axies 34 et 35 li  es aux lexies fran  aises RIVI  RE et  FLEUVE   Le lien de raffinement de l   axie 33 vers l   axie 34 est d  cor   par une glose not into sea  pas    2  Cahier des charges 179    dans la mer  et l   autre lien de raffinement de l   axie 33 vers l axie 35 est d  cor   par la glose into sea   dans la mer   Ces gloses sont traduites puis utilis  es pour g  n  rer la partie contrastive des dictionnaires  bilingues
184. de la r  vision  le sp  cialiste lexicographe pourra visualiser toutes les  contributions sur un article ainsi que les annotations sur l   article lui m  me ainsi que sur les contributions    Trois types de contribution sont possibles  l   import de lexiques ayant leur propre format  l   ajout de  nouveaux articles et enfin les contributions sur une partie d   article     Import de lexiques    Certains traducteurs d  veloppent leurs propres lexiques priv  s  Ils peuvent contribuer en envoyant leurs  lexiques    la base  Les soci  t  s ou laboratoires poss  dant des ressources lexicales peuvent contribuer de la  m  me mani  re  Ces ressources ont un format propre  Elles doivent   tre r  cup  r  s puis int  gr  s dans la base  par un sp  cialiste lexicographe  Dans un premier temps  les ressources sont r  cup  r  es avec leur structure  logique plus ou moins compl  te puis certaines peuvent   tre ajout  es    la soupe lexicale en cours de r  vision     Ajout de nouveaux articles    Les lexicographes r  digent de nouveaux articles directement au format de la base de donn  es  Ces ar   ticles sont envoy  s    la base et stock  s dans l   espace priv   du lexicographe sous forme de document XML   Ils sont ensuite r  vis  s par un sp  cialiste lexicologue puis int  gr  s dans la base     Contributions sur des parties d   articles    Les contributions sur des parties d   articles sont stock  es avec leur date de cr  ation dans l   espace virtuel  du contributeur sous forme de feuill
185. dictionnaires diff  rents  g  n  r  s    partir de la base ou externes    Les consulteurs peuvent consulter gratuitement une partie de la base  S   ils veulent consulter toute la  base  personnaliser le r  sultat de leurs requ  tes ou extraire de nouvelles ressources de la base  ils doivent  payer avec les points qu   ils ont gagn  s au pr  alable avec leurs contributions    On d  sire en fait que le serveur soit fait de telle sorte que les consulteurs soient incit  s    devenir contri   buteurs  et que cela soit tr  s facile  Il faudra donc   viter de faire remplir un grand formulaire    quelqu   un  qui d  sire contribuer  Une meilleure strat  gie consiste    demander    chaque consulteur de s   inscrire     son  premier acc  s  exactement comme le font les serveurs de courriel  puis    lui permettre de passer en  mode  contributeur  n   importe quand     Les serveurs partenaires    Ces serveurs   changent des donn  es avec la base pour enrichir leurs ressources  Ils se rendent des ser   vices mutuels selon les outils dont ils disposent  Par exemple  un analyseur morphologique est int  ress   par    116 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    les nouveaux mots qui sont int  gr  s dans la base et sur lesquels il n a pas d information  En   change  il peut  lemmatiser les mots des requ  tes faites sur la base avant la consultation     1 2 3  Gestion des contributions    Les contributions sont envoy  es    la base 
186. donc que  sur peu de machines  Pour am  liorer l   accessibilit   de l   interface  un clavier virtuel tha   a   t   programm    en java  Il permet aux contributeurs travaillant sur une machine qui n   est pas   quip  e de la m  thode de  saisie du tha   de pouvoir quand m  me r  diger les articles en ligne  Lors de la consultation  un choix est  propos      l   utilisateur pour le tha    S   il a des polices tha   install  es sur son ordinateur  le serveur enverra le  texte encod   en TIS 160  encodage sp  cifique au tha     Si  par contre  son ordinateur n   en est pas   quip    le    4  M  thodes de construction de dictionnaires 53    serveur enverra alors des images au format gif repr  sentant le texte tha      la place     La base lexicale a   t   initialis  e avec des listes de mots japonais anglais et tha   anglais  Les liens initiaux  ont   t   g  n  r  s en calculant un score mesurant la similarit   entre leurs d  finitions anglaises  La plupart du  temps  les lexicographes suppriment des liens existants incorrects  C   est un travail plus facile que d   entrer  de nouveaux liens  Pour l instant  88 contributeurs se sont enregistr  s sur le serveur  La couverture actuelle  est d environ 1 700 termes r  vis  s en ligne et de 2 000 termes r  vis  s hors connexion qui seront int  gr  s     la base     4 5 3  Interface de consultation    La figure A 41 montre un article de SAIKAM vu    travers l   interface de consultation     2 4   lt      N     Meaning  Thai    sruumuz
187. donn  es              1 1 5  La pr  sentation des informations    1 2  Exemples de dictionnaires    usage humain    1 2 1  Un dictionnaire monodirectionnel trilingue  le FEM                     1 2 2  Un dictionnaire d usage monolingue  le NODE                       1 2 3  Un dictionnaire d   usage bilingue  le DHO                          1 2 4  Un dictionnaire tr  s complexe   le DEC                            1 2 5  Une simplification du DEC  la base DiCo                              1 2 6  Conclusion                 1 3  Exemples de dictionnaires    usage machinal                                1 3 1  Un dictionnaire provenant de la traduction automatique  le RUSFRA              1 3 2  Une base de donn  es lexicales pour    la phonologie  BDLex                     1 3 3  Une base de concepts multilingue  la base M  modata                    1 3 4  Des bases lexicales utilisables en traduction automatique  les bases UNL            1 3 5  Conclusion                 2  Outils de consultation de dictionnaires  2 1  Applications de consultation sur ordinateur  2 1 1  Une application basique  le Collins  2 1 2  Une application plus riche   Oxford  2 1 3  Une application   volu  e   MoBiDic  2 2  Consultation de dictionnaires sur Internet    OMEliNE 0 ca Sen de bee due     SUDET       Des ee tee UE ae       ii Table des mati  res    2 2 1  Consultation simple du dictionnaire universel francophone                 30  2 2 2  Consultation plus   volu  e d   un dictionnaire  EDict  
188. dword  anglais suivi   ventuellement d   une liste de  restrictions illustrant un sens pr  cis du mot vedette  Un seul mot vedette regroupe donc plusieurs sens avec  des restrictions diff  rentes  Chaque sens peut avoir des traductions dans chaque langue du projet    Pour visualiser un mot vedette UNL  ses diff  rentes acceptions et leurs diff  rentes traductions  nous  avons utilis   un visualisateur d   arbres hyperboliques d  velopp   par la soci  t   InXight  Ce visualisateur  permet de naviguer dans l   arbre en cliquant sur les n  uds  et de relier des n  uds    des pages html gr  ce     des liens hypertexte  C   est une applet programm  e en java qui lit un fichier texte repr  sentant un arbre en  entr  e et l   affiche    l     cran comme un arbre hyperbolique  Il est possible de sp  cifier les couleurs de chaque  n  ud et de chaque arc     3 2 2  Exemple d   arbre hyperbolique    L utilisateur demande un mot vedette  Notre maquette consulte alors les dictionnaires UNL disponibles  pour chaque langue et extrait toutes les acceptions correspondant au mot vedette demand   ainsi que leurs  traductions  Un fichier texte repr  sentant l   arbre est ensuite construit    la vol  e  puis affich      l   aide de  l   applet d   arbre hyperbolique sur l     cran de l   utilisateur  On peut ensuite naviguer dans      arbre avec la souris    Dans l   exemple de la figure B 20  le mot vedette demand   est le mot anglais desert  Il est plac   au  centre de la figure et colori   en 
189. e    L utilisateur choisit d   abord le dictionnaire qu   il veut consulter dans la liste en haut  Ici nous avons  s  lectionn   le Oxford Hachette anglais fran  ais  Il choisit ensuite le volume anglais  gt  fran  ais ou fran  ais     28 A   Contexte actuel de la  dictionnairique      gt anglais  Il peut enfin consulter le dictionnaire en tapant le d  but du mot qu   il cherche dans la case de  recherche                       Oxford SuperLex pour Macintosh          OHD   OSD   TE    Le Dictionnaire Hachette Oxford Dictionnaire fran  ais anglais    abr  g   Ef   abr  ger  abr  gement M   abr  ger  abreuver  abreuvoir  abr  viation  abri   abribus  abricot  abricot    abricotier  abrit     abriter  abrogation  abroger  abrupt    abr  ger   ab 1eZe   fi verb table  assiEger verbe transitif    rendre court  to shorten  mot  expr ession   to summarize  texte   discours   abrEger   tElEvision   en   t  l     to shorten   television    to   TV    donner une version abr  g  e de qch to give an  abridged version of sth  donner qch sous une forme abrEgEe  to give sth in abbreviated form  terme   to give sth in  summarized form  texte      rendre bref  to cut short  sth   j ai d abrEger ma visite I had to  cut short my visit  une crise cardiaque a abrEgE sa carriEre a  heart attack cut short his career  abrEgel     keep it short    abrEger les souffrances de qn to put an end to sb s suffering   disons  pour abrEger  qu ils se sEparent to cut GB ou make Us  a long story short  let s jus
190. e  DCB   DCB     Les objectifs du projet du DCB sont les suivants          la r  alisation d un dictionnaire bilingue canadien  anglais francais  fran  ais anglais  a l   intention    46 A   Contexte actuel de la  dictionnairique     d utilisateurs ayant de bonnes connaissances linguistiques dans les deux langues  date de publica   tion   2004          la constitution d   une base de donn  es de textes canadiens g  n  raux et sp  cialis  s en anglais et en  francais         la constitution d   une base de donn  es dictionnairique    usages multiples         le d  veloppement de la recherche en lexicographie bilingue au Canada     Trois universit  s canadiennes sont impliqu  es dans ce projet  l   universit   d Ottawa  l   universit   de  Montr  al et l   universit   Laval  Les ateliers de r  daction du dictionnaire sont situ  s    l   universit   de Montr  al  et    l   universit   d Ottawa  Les r  dacteurs sont pour la plupart des   tudiants en linguistique et traduction de  ces deux universit  s  Ce projet a donn   lieu    de nombreuses publications  Nous en avons utilis   principale   ment deux comme sources d information    Langlois97  et  Roberts99      4 2 2  Pr  paration des articles    Les donn  es s  lectionn  es par les lexicographes pour un mot vedette sont compil  es dans un article de  format pr  d  termin    Ce format  qui correspond une DTD SGML  est assez complexe car il est con  u pour  tenir compte de tous les renseignements qui peuvent figurer dans n   impo
191. e  analys  s et int  gr  s dans la base  Les outils construits pour cela  analyse du RTF  ont   t   tr  s simples     cr  er  du fait de l   utilisation d   un paragraphe par   l  ment d   information    Il a m  me   t   possible  dans un premier temps  d utiliser les outils de Recherche Remplacement int  gr  s     Word qui ont permis de cr  er  sans aucun effort  des fichiers texte balis  s utilisables directement par la base  centrale  La m  thodologie employ  e est sch  matis  e dans la figure A 34     4  M  thodes de construction de dictionnaires 45       Cr  ation des fichiers Word     partir de donn  es  pr   existantes    Retour des fichiers    corriger  V  rifications diverses          FIG  A 34     m  thodologie de cr  ation du FeM    4 1 3  Bilan de la m  thode    L utilisation d   un traitement de texte simple a permis la construction de ce dictionnaire de 20 000 entr  es  dont 50 000 acceptions  10 000 exemples et 8 000 tournures    partir d   un  brouillon  initial par composition  d   un dictionnaire fran  ais anglais et d   un anglais malais  Le principal avantage de cette m  thode est sa  simplicit    Les principaux d  veloppements informatiques ont port   sur l   exploitation de la base et non sur sa  cr  ation  Le seul d  veloppement n  cessaire pour la cr  ation de la base a   t   l   analyse des fichiers Word RTF    La distribution du travail entre les diff  rents lexicographes est  elle aussi  tr  s simple mais ce mode  de distribution  bas   sur l     ch
192. e  family   birthplace     originator lt br  gt   Pe e  fr   house  fr  maison    P  lt br  gt   Fei  42  lower house  of Parliament  etc   lt br  gt   Ed  95   n  house  one s own    P  lt br  gt       A HS  A     Lage Fr La  the Blue House  South Korea s presidential  palace   lt br  gt     FE PA 2  ro   Speaker of the House  US  lt br  gt   2x Fe BY  MAEL       n  house and lot lt  output gt     4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 159    Interface de modification    Les contributions regues par la base lexicale ne sont pas tout de suite int  gr  es dans les ressources  Elles  sont d   abord stock  es dans l   espace virtuel du contributeur puis   ventuellement annot  es et remodifi  es par  d   autres contributeurs puis finalement r  vis  es par un groupe de sp  cialistes lexicologues  Lorsqu   elles sont  accept  es  elles sont int  gr  es dans les ressources  Comme ces ressources peuvent   tre distantes  Il faut une  API pour pouvoir se connecter aux serveurs qui les g  rent et leur envoyer les modifications accept  es    Voici une API de modification du dictionnaire hongrois fran  ais DicoSz  t  r d  crit en partie B     lt api type  supplier  category  modification  name  DicoSz  t  r  gt     lt info gt Dictionnaire hongrois francais lt  intfo gt    lt url href  http   www clips imag fr geta services dicoszotar   gt    lt protocol type  post  login  getabase  password  toto   gt    lt encoding input  ISO 8859 1   gt
193. e A 39  pr  sente une lexie et permet de l     diter  L   dition des fonctions  lexicales est une t  che difficile lorsque les lexicographes travaillent sur un traitement de texte  Il faut faire  attention    bien mettre les majuscules au bon endroit  passer en exposant ou en indice les parties qui doivent  l     tre  etc  Bref  au lieu de travailler sur la signification d   une fonction lexicale  le lexicographe travaille sur  sa forme  Avec DECID  le lexicographe peut   diter la fonction Perm   IncepReal3  usual simple   ment en tapant la s  quence   permlincepreal3 usual  La mise en forme est totalement prise en charge par le  logiciel     4 4 3  Discussion    Cet   diteur d  j   utilisable  utilis   et utile n   est qu   une premi  re   tape vers un outil plus ambitieux  Il  faudrait le doter d   un syst  me de v  rification de contraintes de coh  rence et l   int  grer    des outils plus    4  M  thodes de construction de dictionnaires 51       Oo HA ACHAT  nom  masc  la    E  m          Achat par X de Y    Z pour W   S   d Ofld acheter 1           C   tait justement l achat d un troussau que retardait un peu son arrivee  F Mauriac  La  reine le prie de Iui avancer l argent pour      achat de catte parure dont elle r  ve Le  gouvernement autorise l achat de nouvelles machines agricoles pour soixante millions de  francs  L achat d une voiture repr  sente pour lu un gros sacrifice d argent L achat  d   quipement  la semaine derni  re  s est   leve    2 000 000    kg sym   
194. e C 18 est repr  sent   en XML de la fa  on suivante    lt automaton xmlns xl  http   www w3 org 1999 xlink   xl type  extended  gt    lt nodes gt    lt node xl type  locator  xl title  starting node   xl label  1   gt    lt node xl type  locator  xl label  2   gt    lt node xl type  locator  xl label  3   gt    lt node xl type  locator  xl label  4   gt    lt node xl type  locator  xl label  5   gt    lt node xl type  locator  xl title  ending node   xl label  6   gt    lt  nodes gt    lt arcs gt    lt arc xl type  arc  type  oriented  xl from  1   xl to  2  gt N lt  arc gt    lt arc xl type  arc  type  oriented  xl from  2        2  D  finition du noyau de l   environnement avec SUBLIM 141    x1 to 3  gt N lt  arc gt      are xl type  arc  type  oriented    xlifrem  2   aito   4  se Via E faro  Rare xlitype   arc  type  oriented  xl  from  2   xl to  5  gt epsilon lt  arc gt      are xlitype  arc  type  oriented    xigirem  3   xl to  6  gt 4 N lt  arc gt   arc x1 type  arc  type  oriented  xl from   gt 3   xl to  6  gt epsilon lt  arc gt   are Elitype  arc  Eype  oriented  li from  4   xl to  6  gt 4 N lt  arc gt   xarc xl type  arc  type  oriented    xl from  5   xlzto  6  gt N  rare   lt fares gt    lt  arcs gt    lt  automaton gt                 Fonctions    L exemple suivant repr  sente la fonction lexicale  lambda x1  CausOper  x0x1  d  finie par Igor  Mel   tchuk  Mel   tchuk95   Cette fonction signifie pour un mot cl   qui est un nom de sentiment  faire en  sorte qu
195. e ci n   est pas explicitement compr  hensible et elle peut   tre ambigu       1  Notions du domaine 17    A Voeabl  AVERSE  nom  f  m  a  N   de lexie  litt  Averse de X   Chute abondante et soudaine d un liquide X qu tombe en gouttes  dispers  es  comme si c   tait une averse IIA    Magn X    Figur X   X   larmes            T   Formule  Regime s  mantique    TF  d  crivant la lexie  i dN BER  h bia syn xique S  pem agents logiques  C une averse de larmes    1  Averse de  est      obligatoirement  Fonctions lexicales suivi d un nom    NB   Les expressions r  pandre  lt une averse de larmes gt  sont en fait des FL de LARME et  seront d  crites dans l article de dictionnaire de ce dernier lexeme          Fonction lexicale  Syn  pluie II 1 appliqu  e sur  Voc verser  N   X  w Averse    R  sultat de  andre    aie  P nc la fonction    CausFunc  d  clencher  une     chez N Pluie    synonyme  Exemples de Averse       chaque peine d amour  elle r  pand une averse de larmes  La nouvelle d  clencha chez elle  une averse de larmes    FIG  A 9     extraits du vocable averse du DEC en HTML    1 2 5  Une simplification du DEC   la base DiCo    Introduction    Les r  cents travaux d    Alain Polgu  re  Polgu  re00  sur la construction de bases lexicales pour des lingui   ciels et la r  daction de dictionnaires publics g  n  raux sont une application directe de la lexicologie explica   tive et combinatoire  Mel   tchuk95   Le projet DiCo vise    construire une base lexicale du fran  ais de 
196. e de style XSL  Pour visualiser la contribution  la feuille de style est  appliqu  e sur l   article portant la contribution  Il est aussi possible de visualiser plusieurs contributions  En  effet  il suffit d appliquer les feuilles de style suivant l   ordre chronologique des dates de cr  ation    Dans l   exemple suivant  le contributeur souhaite ajouter un exemple d   usage    cette lexie dont la struc   ture correspond    celle d  crite dans la section 2 3 3  Voici la lexie d   origine     lt lexie id   meurtre 1  gt     3  Paradigme de construction coop  rative 151     lt headword gt meurtre lt  headword gt    lt government pattern  gt    lt lexical functions  gt    lt axies gt    lt refaxie href  a001   gt    lt  axies gt    lt examples  gt    lt  lexie  gt   L exemple est le suivant   Soupgonn   du meurtre de son   pouse  il a   t   arr  t   par les gendarmes mer   credi   Il sera ajout      l     l  ment  lt exemples gt  de la lexie meurtre 1  Voici la feuille de style XSLT  permettant d   ajouter cet exemple    la lexie meurtre 1    lt xsl stylesheet gt   lt xsl output method  xml   gt    lt xsl template match        priority   1  gt         lt     mod  le par d  faut   recopie 1   l  ment et son contenu    gt    lt xslscopy gt    lt xsl apply templates select       text     gt    lt  xsl copy gt    lt  xsl template gt    I mod  le de la contribution    gt    lt xsl template match    lexie   id  meurtre 1  examples  gt    lt xsl copy gt    lt xsl apply templates sele
197. e dictionnaire  L     l  ment  lt ent__seq gt  est un identificateur unique de  l   article  L   l  ment  lt k_ele gt  regroupe les informations concernant l     criture en kanji du mot vedette   L   l  ment  lt r_ele gt  regroupe les   l  ment concernant l     criture en kana du mot vedette      entry  gt     5  Evaluations pr  liminaires et exemples     lt ent_seq gt 1259660 lt  ent_seq gt    lt k_ele gt     ckeb gt  FUT     lt  keb gt      lt ke_pri gt ichil lt  ke_pri gt    lt ke_pri gt jddl lt  ke_pri gt    lt  k_ele gt    lt r_ele gt      lt reb gt  ao 5  lt  reb gt      lt re_pri gt ichil lt  re_pri gt    lt re_pri gt jddl lt  re_pri gt    lt  r_ele gt    lt sense gt    lt gloss gt to abandon lt  gloss gt    lt gloss gt to fail lt  gloss gt    lt gloss gt to desert lt  gloss gt    lt  sense gt    lt  entry gt     5 2 2  Lexie japonaise provenant de l   article    Cet article est r  parti en une lexie japonaise    lt lexie id  mizuteru 1  basic  yes  gt      lt headword gt  ART 4  lt  headword gt      lt kun yomi gt  RIT 2  lt  kun yomi gt    lt jmdict data gt    lt ent_seq gt 1259660 lt  ent_seq gt    lt ke_pri gt ichil lt  ke_pri gt    lt ke_pri gt jddl lt  ke_pri gt    lt re_pri gt ichil lt  re_pri gt    lt re_pri gt jddl lt  re_pri gt    lt  3jmdict data gt    lt axies gt    lt refaxie href  a44   gt    lt  axies gt    lt  lexie gt   Cette lexie est reli  e    l   axie a44           5 2 3  Lexies anglaises provenant de l   article    207    L article g  n  re trois 
198. e du c  t   des utilisateurs de dictionnaires en   tudiant plusieurs outils de consul   tation  Certains dictionnaires comme le Collins on line ou le Oxford Hachette  Corr  ard94  sont consultables  par des applications install  es localement sur des postes de travail  D   autres sont accessibles via des serveurs  Web sur Internet comme le site dictionary com  Ces outils ont des limitations  Nous verrons les am  liorations    ventuelles que l   on pourrait effectuer    Nous continuons cette partie en nous pla  ant du c  t   des lexicographes et lexicologues qui construisent  les dictionnaires  Nous   tudions les m  thodes de manipulation de dictionnaires d  crites dans la th  se de Ha    Doan Nguyen  Doan Nguyen98a   Elles permettent d   une part de r  cup  rer des dictionnaires  c   est    dire  de les transformer de leur format d   origine vers un format plus facile    manipuler et d   autre part d   effectuer  des op  rations ensemblistes sur plusieurs dictionnaires    Nous   tudions ensuite plusieurs techniques de construction de dictionnaires  Certaines fonctionnent di   rectement via le Web  le projet SAIKAM de dictionnaire japonais thai  SAIKAM    D   autres utilisent des    diteurs de texte classiques comme Word     technique du dictionnaire fran  ais anglais malais  Gut96     des   diteurs de documents structur  s SGML  technique du dictionnaire bilingue canadien  Roberts99   ou  encore des   diteurs sp  cialis  s con  us de fa  on ad hoc  DECID pour le DEC     Ensui
199. e du serveur Papillon    Les listes de distribution de courrier   lectronique sont archiv  es et stock  es dans la base de donn  es du  serveur Papillon  Les archives sont ensuite consultables directement via le Web  Pour g  rer l   archivage des  courriers  nous utilisons MHonArc  MHonArc   Il a fallu modifier le code source pour pouvoir convertir  tous les courriers en Unicode UTF 8 avant de les stocker dans la base     198 D   Application    Papillon  projet de base lexicale multilingue sur Internet    Enfin  le serveur Papillon est accessible par le Web  Le serveur est une combinaison des serveurs Apache  pour les objets statiques et Enhydra pour les objets dynamiques  Enhydra  Enhydra  est un serveur Web  dynamique java disponible selon les termes d une licence de logiciel libre  OpenSource      4 2 2 Organisation de la base de donn  es    Le choix d une base de donn  es relationnelle traditionnelle a   t   fait en attendant que se g  n  ralisent les  bases de donn  es XML int  grant des outils de manipulation comme DOM  XLink  XPointer et Xpath  Des  projets sont en cours comme XML DB  XML DB   X Hive  X Hive  ou encore Tamino  Tamino      Poids Historiques    aaa  aaa       Arau 1  5002   250 3000  Voir 1  3220   352 155    Base lexicale    users   Dicos   Volumes     l  ments   Articles  CDM Contributions  Annotations  FeM   FeM    Meurtre  EDict Arau  Dico fra   Sentaku  Pap fra   Verbe  Pap jpn   Nom  Pap eng   Adj  Pap tha  Pap lao       Users Dictionnaires     onf
200. e entre autres le login  le mot de passe  l   adresse    lectronique  les cr  dits et les groupes auxquels appartient l   utilisateur et ses pr  f  rences stock  es sous  forme de feuilles de style XSL et CSS    La table des historiques permet de stocker les historiques de tous les   l  ments DML ayant un attribut  history  La cl   de chaque entr  e est l   identificateur de l   historique    Pour l instant  les poids sont stock  s dans une table    part  Cette table reprend les principes du poids sur  les   l  ments expos  s en partie C  Cette m  thode a cependant ses limites  En effet  il ne sera pas possible  de stocker chaque poids si la base compte par exemple 300 000   l  ments et 3 000 utilisateurs diff  rents  qui personnalisent ces poids  On arrive alors    un volume de donn  es d  passant le t  raoctet  Il faudra alors  trouver un autre moyen de stockage comme des listes de poids pour chaque   l  ment ou des matrices creuses     4 2 3  Utilisation de la base lexicale    Les donn  es linguistiques sont stock  es dans la base de donn  es sous forme de texte XML  Ces donn  es  sont accessibles selon plusieurs cl  s  Ces cl  s correspondent aux   l  ments communs de l   ensemble CDM  qui se trouvent dans les donn  es  La liste des   l  ments de cet ensemble est d  finie en partie C  Un article  sera par exemple directement accessible selon le mot vedette  la prononciation  la cat  gorie grammaticale   les traductions  les idiotismes  Sinon  les autres informations sont 
201. e filtrer  corriger  valider et int  grer les contributions de tous  en fonction bien s  r des comp  tences de  chacun    6  La base est aliment  e au d  part par la r  utilisation de ressources lexicales informatis  es libres de  droits  Il est ainsi pr  vu de r  cup  rer en 2001 2002 les ressources informatis  es existantes suivantes  le  JMDict de Jim Breen compos   de 70 000 articles japonais  gt  anglais  le FeM compos   de 20 000 articles  et 50 000 lexies fran  ais  gt  anglais  le dictionnaire du projet SAIKAM d   environ 4 000 articles japonais lt     gt tha    Ensuite  les foncionnalit  s de contribution lexicale g  n  ralis  e seront mises en route quand un noyau  suffisant aura   t   r  alis      7  La base fonctionne en  source ouverte   Les utilisateurs sont encourag  s    contribuer  Chaque contri   bution effective valid  e augmente un capital de points initial  Chaque extraction d   un dictionnaire sous forme  de fichier diminue ce capital de points  La consultation reste gratuite  Les utilisateurs peuvent de cette fa  on  contribuer en mettant    disposition de tous leurs propres lexiques personnels sous forme de contributions    8  Les liens sont construit de fa  on pragmatique  Une axie n   est pas un concept  mais a vocation     le devenir  Les axies  liens interlingues  refl  tent au d  part des relations de traduction  Si un contributeur  s   aper  oit qu il s   agit de synonymes  quasi  parfaits  donc qu   ils correspondent au m  me  concept   on    1 
202. e in MULTI   LEX  Centre for Computational Linguistics  UMIST  novembre 1991  30 p      Fellbaum98  Christiane Fellbaum  1998  WordNet  an Electronic Lexical Database  MIT press  Cambridge   MA   500 p      Fischer98  Laurent Fischer  amp  Georges Fafiotte  1998  BLAK  un assistant de d  couverte des caract  res  chinois fonctionnant par acc  s dynamique    des ressources lexicales  Proc  NLP IA 98   Moncton  N B   Canada  18 21 ao  t 1998  vol  1 2  pp  13 17      Gaschler94a  Jean Gaschler  amp  Mathieu Lafourcade  1994a  Manipulating Human Oriented Dictionaries  with Very Simple Tools  Proc  COLING 94  Kyoto  Japon  vol  1 2  pp 283 286      Gaschler94b  Jean Gaschler  amp  Mathieu Lafourcade  1994b  A Case of Building and Manipulating a Dic   tionary with Very Simple Tools  the FEM Dictionary  Proc  Proc  ICLA  Penang  Malaysia    26 28 July 1994 vol  1 1  pp  34 37      GENELEX93  GENELEX  1993  Projet Eureka Genelex  mod  le s  mantique  Rapport Technique  Projet  Eureka  Genelex  mars 1994  185 p      Gsi93  GSI ERLI  1993  Le dictionnaire AlethDic Version 1 5  62 p      Gut96  Y van Gut  Puteri Rashida Megat Ramli  Zaharin Yusoff  Chuah Choy Kim  Salina A  Samat   Christian Boitet  Nicolas N  dobejkine  Mathieu Lafourcade et al   1996  Kamus Perancis   Melayu Dewan  dictionnaire francais malais  Dewan Bahasa Dan Pustaka  Kuala Lumpur   667 p      Heid92  Ulrich Heid  M  Hein  amp  O  Christ  1992  Extracting linguistic information from machine   readable versions of t
203. e interm  diaire pointant  sur chaque lexie fusionn  e  figure D 16     Par contre  si ses connaissances lui permettent de d  cider que deux axies peuvent   tre reli  es par des  liens de raffinement  il modifie les axies en ajoutant ces liens entre les axies existantes  voir figure D 17      210 D   Application    Papillon  projet de base lexicale multilingue sur Internet              Axie 45    Axie 46         to give up 1  to desert 1       to abandon 1    FIG  D 16     ajout d   axies interm  diaires    abandonner 3         abandonner 2     Axie 41             Axie 42            to give up 1  to fail 1        to desert 1  to abandon 1    FIG  D 17     ajout de liens de raffinement entre axies    Conclusion    Conclusion 213    Nous avons pr  sent   dans cette th  se un environnement centralis   et distribu   de r  cup  ration  manipu   lation  construction et consultation de ressources lexicales h  t  rog  nes et multilingues  Cet environnement  r  pond aux probl  mes complexes de structuration et manipulation de donn  es h  t  rog  nes  de visualisa   tion d une grande quantit   de donn  es et de construction en collecticiel par des personnes aux comp  tences  diverses contr  l  e par un groupe central de lexicologues    Nous avons d   abord r  solu s  par  ment ces probl  mes gr  ce    des exp  rimentations vari  es sur la consul   tation de ressources h  t  rog  nes  l   enrichissement et personnalisation du r  sultat ainsi que la construction  de ressources    Notre e
204. e notation XML puis son architecture g  n  rale en montrant quels outils  il est possible d utiliser  Enfin  nous d  taillons les interactions des diff  rents utilisateurs avec notre environ   nement pour consulter et construire des dictionnaires    Dans la derni  re partie intitul  e  Application de notre environnement    Papillon  projet de de base lexi   cale multilingue sur Internet   nous appliquons nos outils sur un cas concret de construction d   une base  lexicale multilingue pour le projet Papillon  Nous pr  sentons d   abord l   historique  les buts et l   architecture  g  n  rale du projet Papillon  Nous d  finissons ensuite les principes lexicologiques  puis nous pr  sentons les  sp  cifications externes ainsi que l   analyse g  n  rale et l   impl  mentation du projet  Nous terminons par des    valuations pr  liminaires au projet     Probl  mes particuliers int  ressants    Dans cette th  se  nous identifierons certains probl  mes durs tels que la structuration et la manipulation  de donn  es h  t  rog  nes  la visualisation d   une grande quantit   de donn  es et la construction en coop  ration  par des personnes aux comp  tences diverses    Nous r  soudrons s  par  ment ces probl  mes gr  ce    des exp  rimentations vari  es sur la consultation  de ressources h  t  rog  nes  l   enrichissement et personnalisation du r  sultat ainsi que la construction de res   sources en Coop  ration    Nous serons ensuite en mesure de concevoir un environnement r  pondant    t
205. e nouvelles directions  bilan et cahier des charges d un  environnement avanc     nous explorons plusieurs directions de recherche sur la consultation et la construc   tion de dictionnaires  Nous exposons d   abord nos travaux sur la consultation en ligne de ressources lexicales  h  t  rog  nes locales ou distantes  Ensuite  nous d  taillerons deux m  thodes de construction de dictionnaires    l   une  d  mocratique  et l   autre en ligne pour des dictionnaires avec des structures simples  Nous relatons  Pexploration de plusieurs outils d   aide    la consultation comme des correcteurs orthographiques  des anno   teurs de documents  des conjugueurs  des plug ins  etc  Enfin  nous   tablissons le cahier des charges d un  environnement plus  g  n  rique  en tirant le bilan de nos exp  riences    Dans la troisi  me partie intitul  e  Sp  cification d   un environnement de gestion et consultation de bases  lexicales et dictionnaires   nous sp  cifions et de d  finissons un environnement complet de manipulation   cr  ation et consultation de dictionnaires  Nous dressons d   abord la liste des sp  cifications de notre envi   ronnement provenant de nos diverses exp  riences  Nous d  taillons ensuite le syst  me de bases lexicales  SUBLIM qui r  pond en grande partie    nos sp  cifications du point de vue de l   architecture interne de notre  environnement tout en soulignant ses manques pour nos objectifs  Nous d  crivons ensuite l   architecture in   terne qui reprend SUBLIM avec un
206. e ordinateur  Conception et  R  alisation DCS  University of Sheffield  Royaume Uni  10 f  vrier 1997  9 p      Curbow95  D  Curbow  amp  E  Dykstra Erickson  1995  The OpenDoc User Experience  MacTech  Volume  22  juin 1995  pp  83 97      Descotte00a  Sylvianne Descotte  Jean Luc Husson  Laurent Romary  Marc Van Campenhoudt  amp  Nadia  Viscogliosi  2000  Dhydro   a generic environment developed to edit and access multilingual  terminological data on the Internet  2e Ccnf  rence internationale sur la terminologie maritime   Turku  Finlande  mai 2000  11 p      Descotte00b  Sylvianne Descotte  Jean Luc Husson  Laurent Romary  Marc Van Campenhoudt  amp  Nadia  Viscogliosi  2000  From specialised lexicography to conceptual databases   which format for  a multilingual maritime dictionary   2e conf  rence internationale sur la terminologie maritime   Turku  Finlande  mai 2000  17 p      Doan Nguyen96a  Hai Doan Nguyen  1996a  Transformations in Dictionary Resources Accumulation    Towards a Generic Approach  Papers in Computational Lexicography  COMPLEX    96  Lin   guistics Institute  Hungarian Academy of Sciences  Budapest  Hongrie  1996  pp  29 38      Doan Nguyen96b  Hat Doan Nguyen  1996b  Towards a Generic Approach to the Problem of Dictionary  Resources Accumulation  Informatique et Langue Naturelle  ILN   96  Nantes  1996  pp  209   218      Doan Nguyen98a  Hai Doan Nguyen  1998a  Techniques g  n  riques d   accumulation d   ensembles  lexicaux structur  s    partir de r
207. e permet de visualiser le contenu de plusieurs  ressources    la fois  De plus  du fait de l   utilisation directe du format d   origine  nous n   avons pas besoin de    78 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      r  cup  rer les ressources pour les transformer dans un autre format  La fid  lit   par rapport    l   original est  aussi garantie  Enfin  il n   y a pas de perte d information     La transformation    la vol  e des pages permet de faire rapidement des modifications dans la pr  sentation  du r  sultat  Nous avons la possibilit   d   acc  der aux articles pr  c  dant et suivant l   article visualis   selon la  nomenclature du dictionnaire     Inconv  nients    Cette technique ne permet pas d   utiliser n   importe quelle structure  Il faut qu   elle soit simple et lisible  par l   humain pour que l   on puisse la transformer ais  ment  Ces structures doivent   tre du genre SGML   HTML  ou des structures textuelles aussi simples     Il est impossible de manipuler les ressources car elles ont des formats diff  rents  Par exemple  la fusion  d   articles correspondant au m  me mot vedette mais provenant de ressources diff  rentes est impossible  Nous  devons utiliser les ressources telles quelles     Nous demandons un article    la fois et nous le transformons  S   il fallait transformer toute la ressource  avant de l   utiliser  nous ne pourrions pas utiliser ce type de serveur  car il ne permet jamais d   ac
208. e quelqu un   prouve   Les r  sultats de son application    la lexie D  SESPOIR sont les suivants   pousser  r  duire quelqu   un au d  sespoir  jeter quelqu un dans le d  sespoir  frapper quelqu   un de d  sespoir   La fonction est not  e en XML de la fa  on suivante     lt function name  CausOper    gt     lt arguments gt    lt first value  desespoir   gt    lt  arguments gt    lt valgroup gt    lt value gt pousser lt  value gt    lt value gt r  duire  qqun au d  sespoir  lt  value gt    lt value gt jeter  qqun dans le d  sespoir  lt  value gt    lt value gt frapper  qqun de d  sespoir  lt  value gt    lt  valgroup gt    lt  function gt     Structures de traits    Les structures de traits sont not  s en XML par des   l  ments  Si les traits sont typ  s  le type est not   par  un attribut  si le trait a plusieurs valeurs  l     l  ment est dupliqu       lt traitl type  typel  gt valeurl lt  traitl gt     lt traitl type  type2  gt valeur2 lt  traitl gt        Ensembles    Les ensembles sont d  finis au niveau de la d  finition des documents  Dans un sch  ma XML  les en   sembles sont not  s de la facon suivante    lt complexType mixed  yes  name  jours feri  s  gt    lt choice minOccurs  0  maxOccurs  unbounded  gt     142 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     lt element name  samedi  type  string   gt    lt element name  dimanche  type  string   gt    lt  choice gt    lt  complexType gt   Cet exemple d  finit 
209. e ref  d history  use  optional   gt      lt attribute ref  d history ref  use  optional   gt         lt  complexType gt    lt  element gt    lt     partner servers element  gt    lt     Lists all the users or groups that have the rights to exchange    some data with the database  The partners are other programs    2  Sch  ma XML de DML 239     databases  lemmatizers  etc    not humans     gt    lt element name  partner servers  gt    lt complexType gt      lt choice minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d group ref   gt    lt element ref  d user ref   gt    lt  choice gt    lt  complexType gt    lt  element  gt   as users element  gt    lt     Lists all the various users of the database     gt                     lt element name  users  gt    lt complexType gt    lt sequence minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d user ref   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     group ref element  gt    lt     This element is used to make a reference to a group of the  database     gt    lt element name  group ref  gt    lt complexType gt    lt attribute name  name  type  string  use  optional   gt    lt  complexType gt    lt  element gt    lt     groups element    gt    lt  l    Lists all the various groups of the database     gt    lt element name  groups  gt    lt complexType gt    lt sequence minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d group   gt                                 lt  sequence gt    lt
210. e sont jamais disponibles  Le r  sultat des requ  tes n   est pas personnalisable par  Putilisateur    Tous ces inconv  nients sont compr  hensibles dans le cas de serveurs Web  car les propri  taires des  dictionnaires ne veulent pas que l   on puisse pirater enti  rement leurs ressources     3  Outils de manipulation de dictionnaires 37    3  Outils de manipulation de dictionnaires    Nous nous int  ressons maintenant aux outils qui permettent de manipuler des dictionnaires d  j   exis   tants  Le plus souvent  on d  sire r  utiliser des dictionnaires existants en les transformant et en les combinant  suivant plusieurs op  rations comme la fusion ou l   intersection    Il existe des progr  s r  cents dans la r  cup  ration et la fusion comme R  CUPDIC et PRODUCDIC   Doan Nguyen98a 98b   Ces m  thodologies ont   t   d  crites par Hai Doan Nguyen dans le cadre de sa th  se     3 1  Une m  thode de r  cup  ration de dictionnaires  R  CUPDIC    3 1 1  Pr  sentation    Cette m  thodologie permet de  r  cup  rer  un dictionnaire dans son format d   origine et de le transformer  en une structure plus profonde o   toute l   information est explicite  Elle inclut deux   tapes principales          la transduction utilise des outils du type des macros Word       base de rechercher remplacer pour  nettoyer le dictionnaire  marquer le plus d information possible et produire un fichier en format texte   pur   ASCII   Ainsi    pourra   tre remplac   par  Symbol_S  ou toute autre notation 
211. e unl fran  ais   DIC     charge en m  moire un diction   naire           QUIT    ferme la connexion          TRAN  parametres   UNL  graphe unl   UNL     traduction d   un graphe UNL         UWLS uw   recherche les traductions en fran  ais d une UW          UWTR uw   recherche une traduction en frangais d   une UW       Le processus fils traite la requ  te et renvoie la r  ponse au client     4 2 3  Exemples de sessions    Lorsque le serveur de d  conversion des graphes UNL en   nonc  s fran  ais re  oit un graphe UNL  il  analyse le graphe et en extrait les UW qu il contient  Il se connecte ensuite au serveur du dictionnaire UNL   fran  ais en ouvrant une session Telnet Dict avec la commande telnet silfide imag fr 2628  Il  s identifie avec la commande AUTH  envoie la liste des UW    traduire en fran  ais avec la commande UWLS   Lorsqu il regoit le r  sultat  il ferme la session avec la commande QUIT    Lorsque l   administrateur du serveur de dictionnaires souhaite mettre    jour le dictionnaire  il peut aussi  le faire    distance  Pour cela  il se connecte au serveur du dictionnaire UNL fran  ais en ouvrant aussi une  session Telnet Dict  Il s   identifie avec la commande AUTH  il envoie le nouveau dictionnaire avec la com   mande LOAD et ferme la session avec la commande QUIT     4 3  Consultation par un outil de recherche   Sherlock    4 3 1  Pr  sentation    L application Sherlock sur Macintosh consulte automatiquement de nombreux CGIs distants  Elle per   met d   eff
212. e xlink  XLink 1 0   Nous ajoutons aussi nos  propres attributs          l attribut type  bidirectionnal  ou type  oriented  indique si le lien est bidirectionnel ou non         l attribut id est du type des sch  mas XML ID  Il permet d   attribuer un identificateur unique    chaque  lien  Cet indentificateur sera utilis   par la suite pour impl  menter des syst  mes de r  seaux pond  r  s         le texte de l     l  ment permet d     tiqueter les liens     140 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Voici un exemple de lien     lt link type  oriented  id  1001    href  example xml xpointer    node  x1  label  n002      gt    La r  f  rence    l     l  ment externe se fait avec l   attribut href  La r  f  rence est not  e sous forme d   URI   Si l   objet n   a pas d   identificateur unique  id   le lien est d  crit en suivant la norme XPointer  XPointer    Sinon  il est point   de cette fa  on      lt link type  oriented  id  1001  href  example xml n002   gt     Automates    La d  finition d   un automate suit celle d   un graphe  Le n  ud de d  part est not   avec l attribut xl title    starting  node   Les n  uds d   arriv  e sont not  s avec l   attribut xl title  ending node   L exemple  de la figure C 18 repr  sente le r  gime de la lexie ENSEIGNER  X enseigne Y    Z   Mel   tchuk95      f  I  Y I Z             N rare     FIG  C 18     r  gime d ENSEIGNER sous forme d   automate    L   automate de la figur
213. ec une granularit   relativement  grossi  re  Ils seront ensuite analys  s pour trouver les informations n  cessaires     5 3  Contraintes d   impl  mentation    Nous voulons   laborer un environnement qui soit le plus portable possible  Sa conception doit s   appuyer  sur un maximum de standards  De plus  nous souhaitons manipuler des structures h  t  rog  nes avec les  m  mes outils  Nous avons donc besoin d   un syst  me g  n  rique de structuration des donn  es lexicales     5 3 1  Utiliser la technologie XML pour manipuler les donn  es    Le format standard    l   heure actuelle pour la structuration des donn  es est XML  XML 1 0   Son im   portance croissante dans le domaine de l   informatique nous incite fortement    l   utiliser pour manipuler les  donn  es  Il nous semble int  ressant pour plusieurs raisons          compatibilit   et portabilit     XML est une recommandation du consortium W3C  Les outils compa   tibles avec cette recommandation peuvent donc lire tous les documents XML valides         utilisation d UNICODE   Nous pouvons utiliser le standard UNICODE  avec le codage UTF 8 par  exemple  directement dans les fichiers XML  Nous pourrons donc facilement repr  senter des diction   naires multilingues     5  Conclusion   cahier des charges d   un environnement unifi   107        multiplicit   des normes et recommandations autour de XML   XML a donn   naissance    d autres  normes et recommandations qui l   utilisent directement comme XML Namespace  XSL  XPA
214. echnologies de l   infor   mation  des mod  les de donn  es terminologiques  ISO 12620  Cat  gories de donn  es  ISO 12200   MARTIF  Melby94  ISO99b     le format d   encodage XML  XML 1 0  et des techniques de transfor   mation de documents structur  s par des feuilles de style XSL  XSLT 1 0          la param  trisation sous la forme de documents XML de la totalit   des donn  es manipul  es         la mise en   uvre d   un sc  nario   ditorial aussi coh  rent et robuste que possible et la r  partition claire  des responsabilit  s de chaque type d   acteur  consultant  r  dacteur  administrateur          implication continue et soutenue des utilisateurs finals dans les phases de tests de ces outils gr  ce     la mise en place d   un espace interactif de discussion entre utilisateurs  experts et cr  ateurs de termi   nologie hydrographique     6 2  Int  gration de lexiques et de bases terminologiques   SALT    6 2 1  Pr  sentation    SALT  Standards based Access to multilingual Lexicons and Terminologies   SALT  est un projet com   mun de la NSF et du cinqui  me PCRD de la communaut   europ  enne  Commenc   en 1999  il se terminera en  2001  Les membres principaux du projet c  t   europ  en sont l   Institut f  r   bersetzer  und Dolmetscheraus   bildung de l   universit   de Vienne  l   Institut f  r Informationsmanagement  Fachhochschule de K  ln  l    Acca   demia Europea di Bolzano       University of Surrey  le LORIA  l   Institut der Gesellschaft zur F  rderung der  Ange
215. ectuer des recherches sur plusieurs moteurs de recherche en parall  le  ce qui est un gain de temps  consid  rable  Sherlock utilise des plug ins pour se connecter aux diff  rents CGIs impl  mentant des moteurs  de recherche dans des domaines tr  s vari  s    Notre application DicoWeb peut   tre consid  r  e comme un moteur de recherche dans un dictionnaire   Comme cette application est disponible sur le Web et fonctionne via un CGI  nous avons pu d  velopper un  plug in pour Sherlock qui peut consulter notre serveur DicoWeb automatiquement  Cela permet de tester  Putilisabilit   de DicoWeb par une autre application cliente     102 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      4 3 2  Le plug in Sherlock    Un plug in est un fichier texte balis   en pseudo XML et rang   dans un dossier sp  cial utilis   par l   ap   plication Sherlock  Dans ce fichier  nous devons indiquer les param  tres que Sherlock doit utiliser pour  consulter l   application DicoWeb  Notre plug in est pr  sent   dans la figure B 27      lt    pseudo XML d   APPLE pour Sherlock    gt        search   name  DicoWeb FeM   action  http   clips imag fr cgi bin geta dicoweb dicoweb pl   method  get   gt         lt input name  SOURCE  value  fr  gt     lt input name  RESEARCH  value  dict  gt     lt input name  FORMNAME  value  sherlock internal  gt    lt input name  FEM  value  on  gt            lt input name  ENTRY  user gt    lt interpret  bannerStart   lt
216. ed  both hours          and minutes must be present    For example  to indicate 1 20 pm on May the 31st  1999 for Eastern  Standard Time which is 5 hours behind Coordinated Universal Time  UIC    one would write  1999 05 31T13 20 00 05 00     gt     lt simpleType name  date  gt    lt restriction base  dateType   gt         lt  simpleType gt    lt     delay attribute    gt    lt     indicates the delay when querying the element wearing this       attribute eg  5 seconds  Maybe  the type could be a time type    gt    lt attribute name  delay  type  d durationType   gt    lt     durationType type    gt    lt     indicates a duration eg  5 seconds and 10 cents   5 10S  I  took the duration type of sxml schema  PB  if  gt  to 24H  it takes days   It must be revised       gt    lt simpleType name  durationType  gt            lt restriction base  duration   gt         lt  simpleType gt    lt   id attribute      gt   ll the elements with the ID attribute have a unique ID for all the  lexical database    gt    lt attribute name  id  type  ID   gt    lt     history attribute    gt    lt     The history attribute is used to link an element with its       history log file where all the changes are stored  gt    lt attribute name  history  type  ID   gt    lt     history ref attribute    gt     236     lt         lt       lt        it is the simple del       Annexe A   sch  ma XML pour DML             The history ref attribute is used to reference the file where  all the changes are store
217. ef  http   www xrce xerox com research mltt demos french cgi   gt     4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 157        lt protocol type  get  login  toto  password  foo   gt    lt delay min  1s  average  1s  max  2s  timeout  10s   gt    lt encoding input  ISO 8859 1  output  IS0 8859 1   gt    lt format input  txt  output  txt   gt    lt arguments gt    lt element name  input  type  string   gt    lt  arguments gt    lt result gt    lt element name  output  gt    lt complexType gt    lt sequence maxOccurs  unbound  gt    lt element name  lemma  type  string   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt  result gt    lt  api gt   Voici un exemple d   argument     lt input  gt cochons lt  input  gt   Voici le r  sultat obtenu     lt output gt    lt item gt    lt lemma gt cocher lt  lemma gt    lt analysis gt  Imp PL P1 Verb lt  analysis gt    lt  item gt    lt item gt    lt lemma gt cocher lt  lemma gt    lt analysis gt  IndP PL P1 Verb lt  analysis gt    lt  item gt    lt item gt    lt lemma gt cochon lt  lemma gt    lt analysis gt  Masc PL Adj lt  analysis gt    lt  item gt    lt item gt    lt lemma gt cochon lt  lemma gt    lt analysis gt  Masc PL Noun lt  analysis gt    lt  item gt    lt  output  gt        4 2 3  Fournisseur de ressources    Les ressources distantes peuvent   tre consultables par la base mais aussi modifiables  Nous avons donc  pr  vu un type d    API pour chaque t  che     158 C  
218. eflexie gt N   lt  surface gt     lt surface gt A poss lt  surface gt    lt  surface group gt    lt  actor gt    lt  mod gt    lt  government pattern gt    lt lexical functions gt    lt function name  V0  gt    lt valgroup gt    lt reflexie href  ftuer 1  gt tuer lt  reflexie gt    lt  valgroup gt    lt jEunection gt    lt  lexical functions gt    lt examples gt    lt example id  el  gt C   est ici que le double meurtre a   t            commis  lt  example gt    lt  examples gt    lt full idioms gt    lt idiom id  11  href  papillon axi xml i04  gt  appel au  meurtre_ lt  idiom gt    lt  full idioms gt    lt axies gt    lt refaxie href  papillon axi xml a01   gt         lt  axies gt     lt  lexie gt    Cette lexie n   a pas encore   t   modifi  e  Elle ne porte donc pas d   autres attributs history que celui de  l     l  ment  lt lexie gt  indiquant sa provenance  Aucun poids n   a encore   t   calcul    La lexie ne porte donc  pas non plus d   attributs id sur tous les   l  ments susceptibles de porter un poids    Lorsque nous voudrons int  grer des informations plus fines provenant d   autres dictionnaires  en parti   culier des informations qui ne sont pas dans les sch  mas de Papillon  nous ajouterons pour chaque diction   naire un   l  ment suppl  mentaire portant son nom regroupant ces informations directement dans l     l  ment   lt lexie gt   Ces informations pourront   tre r  utilis  es afin de reg  n  rer les dictionnaires d   origine     4  Analyse g  n  rale et im
219. ellement de cr  er pour leurs  propres besoins des dictionnaires    usage humain  Les serveurs Web proposant la consultation en ligne de  dictionnaires se d  veloppent sur Internet pour r  pondre    cette demande mais  l   aussi  leur grand nombre  et la quasi impossibilit   de configurer le r  sultat des requ  tes lanc  es sur ces serveurs ou de modifier les  donn  es de ces serveurs freinent les utilisateurs    La consultation de dictionnaires non plus imprim  s mais accessibles sur ordinateur peut   tre consid  ra   blement enrichie gr  ce    des outils disponibles sur l   ordinateur  Il n   est maintenant plus n  cessaire de se  limiter    la recherche d   un article correspondant    un mot pr  cis  Il est possible de faire des recherches  multicrit  res avec pr  traitement de la requ  te et d   obtenir plusieurs articles ordonn  s selon un certain crit  re    La d  mocratisation d    Internet  la baisse des prix des ordinateurs familiaux et le succ  s des discussions en  ligne rendent maintenant possible le travail collaboratif des internautes depuis leur domicile  De plus  il est  aussi envisageable gr  ce    l   esprit communautaire et libre d Internet de trouver des contributeurs travaillant  b  n  volement pour le d  veloppement de ressources libres de droits     Int  r  t de notre travail    Le regroupement des ressources lexicales aux formats h  t  rog  nes stock  es localement ou    distance est  une premi  re   tape indispensable    leur manipulation et    leur r
220. enance    gt    lt xsl value of select      provenance   gt    lt  xsl attribute gt    lt xsl copy of select  dml lexie     gt    lt  xsl element gt      ixelsit gt    lt  xsl for each gt   Cial E gt    lt  xsl for each gt   PESTO   lt  xsl for each gt   rixsl copr   lt  xsl template gt     4 1 3  Production de nouvelles ressources    Pour produire de nouvelles ressources    partir des ressources stock  es dans la base lexicale  il est pos   sible d   utiliser l    outil PRODUCDIC d  fini  impl  ment   et exp  riment   par Hai Doan Nguyen dans sa th  se   Cet outil permet d   effectuer des op  rations ensemblistes sur les ressources   s  lection  fusion  intersection   extraction  combinaisons  etc  Le format d   entr  e de cet outil est aussi le format LISPO  Nous avons donc  mis au point une feuille de style XSL qui permet de transformer nos ressources du format XML vers le  format LISPO  Cela permet ensuite d   utiliser PRODUCDIC    Voici un extrait de la feuille de style transformant des documents au format XML vers le format LISPO       lt     mod  le pour les commentaires    gt    lt xsl template match  comment     gt       lt xsl value of select      gt      lt xsl text gt    lt  xsl text gt    lt  xsl template gt    lt xsl template match      gt    lt xsl apply templates  gt    lt  xsl template gt    lt     mod  le pour les   l  ments     lt xsl template match     gt    lt xsl apply templates select  comment      gt      lt        recopie du nom de 1   l  ment  gt    
221. ent op  rationnelle    L utilisation d   un formulaire HTML limite aussi cette technique  En effet  la structure du dictionnaire     construire doit rester tr  s simple  De plus  elle demande aux utilisateurs d     tre connect  s en permanence  lors de la r  daction de l   article  En particulier  on peut int  grer de l   information multim  dia  et aussi enrichir  consid  rablement les foncitonnalit  s de consultation     3  Nouvelles directions pour la consultation 91    3  Nouvelles directions pour la consultation    L utilisation de machines pour stocker et consulter les dictionnaires permet d   enrichir le concept de  dictionnaire qui   tait bas   jusqu      r  cemment sur les dictionnaires imprim  s    usage humain     3 1  Elargissement du concept de dictionnaire   DicoSz  t  r    DicoSz  t  r est un dictionnaire pour apprenants du hongrois  Il est compos   d   une partie fran  ais  gt  hongrois  et d   une partie hongrois  gt francais  Ce dictionnaire est en cours de construction  Il nous a permis de tester  plusieurs nouveaux concepts     3 1 1  Utilisation de donn  es multim  dia    Nous avons d   abord test   l   utilisation de donn  es multim  dia en ajoutant dans certains articles une  image pour illustrer le sens port   par le mot vedette  Cette technique permet de construire un dictionnaire  monolingue  ici en hongrois  mais consultable par tous les utilisateurs qui peuvent visualiser l   image  Ceux   ci comprendront la signification du mot vedette dans leur l
222. ent r  diger des  contraintes de coh  rence sur une base lexicale d  finie avec DML    Comme toute l   information contenue dans la base est d  crite sous forme de documents XML  il est  possible d     crire des modules de v  rification avec un langage de programmation impl  mentant une API  DOM  DOM     Nous montrons dans cet exemple une solution simple utilisant le langage XSLT  XSLT 1 0  pour expri   mer ces contraintes  Pour faciliter la compr  hension  nous avons repris les exemples du chapitre pr  c  dent  exprim  s avec SUBLIM  Nous avons donc une base lexicale compos  e du dictionnaire French et du diction   naire Pivot    Voici une partie de la structure d   un article du dictionnaire French      lt element name  lexie  gt     lt complexType gt    lt sequence gt    lt element name  headword  type  string   gt    lt element ref  government pattern   gt    lt element ref  lexical functions   gt    lt element ref  examples   gt    lt element name  axies  gt    lt complexType gt    lt sequence gt    lt element ref  refaxie   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt  sequence gt    lt attribute ref  id   gt    lt  complexType gt    lt  element gt    lt element name  refaxie  gt    lt complexType gt    lt attribute ref  href   gt    lt  complexType gt     lt  element gt    Voici une partie de la structure du dictionnaire Pivot     lt element name  axie  gt     lt complexType gt    lt sequence gt    lt element name  semantic cat  type  string   gt
223. ents toniques du russe y ont   t   ajout  s  afin d   obtenir un dictionnaire plus utile  Il comporte environ 10 000 unit  s lexicales pour chaque langue  correspondant    environ 26 000 lemmes pour le fran  ais et 30 000 lemmes pour le russe    Les articles de la figure A 15 sont des articles de ce dictionnaire  naturel   Ils sont divis  s en 2 parties  La  premi  re est compos  e de l   unit   lexicale russe suivie du lemme correspondant et d   une variable utilis  e par  le syst  me  La deuxi  me est compos  e de l   unit   lexicale fran  aise correspondant    la traduction de l   entr  e  russe  suivie d   un num  ro unique  d   un code morphosyntaxique et enfin du lemme fran  ais correspondant       obratitq obrathaptq  vi    2 adresser   v adresser        obratitq obrathapytqsya  vi r     8 traiter    v traiter        obratitq obrathaptq  vi    4 transformer   v transformer       FIG  A 15     trois articles du dictionnaire RUSFRA    1 3 2  Une base de donn  es lexicales pour la phonologie   BDLex    BDLex  P  rennou92  est un projet d  velopp   dans le cadre du GDRPRC CHM par le groupe IHMPT de  VIRIT  Universit   Paul Sabatier de Toulouse  Son objectif   tait de rendre disponibles diff  rents mat  riaux  lexicaux utilis  s dans les interfaces en langage naturel   crit ou oral et dans les syst  mes d    aide linguistique   Un lexique de formes fl  chies repr  sent  es aux plans morpho syntaxique  phonologique et orthographique a    t   produit  La version la plus compl
224. er et  cochon  Les analyseurs morphologiques sont des d  mons UNIX qui tournent en permanence  Ils r  pondent     des requ  tes de diff  rentes applications et   taient d  j   utilis  s avant que nous ne programmions cette in   terface    Le but ici n   est pas de fournir une v  ritable recherche aid  e par le contexte  mais de proposer une petite  aide suppl  mentaire  En effet  il existe des outils sp  cialis  s dans la recherche    l   aide du contexte  Ces  outils   vitent par exemple que  lorsque l   utilisateur tape cochons  il obtienne l   entr  e cocher   nom  commun qui n   a rien    voir avec sa premi  re demande  Notre syst  me n   est pas con  u pour r  soudre ce genre  de probl  me  Cependant  l   analyse morphologique de l   entr  e peut s   av  rer utile lorsqu   on ne ma  trise pas la  langue source  La liste des nouvelles entr  es est ensuite utilis  e par le script pour consulter les dictionnaires    L utilisateur peut profiter directement du langage d   expressions r  guli  res  En effet  s   il tape une entr  e    1  Exp  riences sur la consultation en ligne 77    sous forme d   expression r  guli  re  celle ci sera interpr  t  e telle quelle par le script  Par exemple  si l   utilisa   teur tape b 11  ici  le point correspond    n   importe quel caract  re  et s  lectionne l   anglais comme langue  source  il obtiendra les entr  es ball  bell  bill et bull  Des petits exemples lui sont donn  s en  ligne  ainsi que quelques explications        Entr  e pr  
225. er n    Nom pour X      7  Exemples  La m  sentente pourrait   tre le mobile du meurtre     8  Idiomes         _appel au meurtre_        _crier au meurtre_    FIG  A 10     extraits de la lexie MEURTRE de la base DiCo    Nous pouvons voir dans cette figure que le d  coupage structurel pourrait   tre plus fin que ces huit  champs  En effet  le texte de certains champs est en fait un contenu structur    Par exemple  dans la formule  s  mantique ou le r  gime  X et Y r  f  rent    des actants  dans la fonction lexicale  S1   la double barre     a une s  mantique particuli  re   elle distingue les r  sultats de la fonction n   englobant pas le nom de  l   unit   lexicale  auteur  de ceux qui l   englobent  meurtrier   Cependant  une telle structure serait tr  s  complexe    repr  senter dans une base de donn  es  C   est pourquoi on limite le d  coupage d   une entr  e en  huit champs seulement  Les utilisateurs savent ensuite interpr  ter la structure interne restant dans le texte  des diff  rents champs     Pr  sentation du dictionnaire    Le LAF est directement g  n  r      partir de la base DiCo  Il tente de rapprocher la lexicographie  th  orique   et la lexicographie  commerciale  en utilisant la lexicologie explicative et combinatoire  La figure A 11    1  Notions du domaine 19    repr  sente l   article du LAF g  n  r      partir de l   entr  e de DiCo d  crite plus haut     MEURTRE  nom  mase    ACTION DE TUER  Meurtre par l individu X   de N  A__  de l individu Y  de N 
226. era lui m  me automatiquement le stockage dans la base     3 4  Consultation    La consultation sur le site de Papillon suit les principes de la partie C  Les utilisateurs consultent la base  avec n importe quel navigateur Web  Pour ne pas p  naliser les utilisateurs  la transformation des documents  XML avec des feuilles de style XSL se fait sur le serveur  Le r  sultat final est enti  rement au format HTML   Il est ensuite envoy      l   utilisateur    Les utilisateurs peuvent d  finir leurs pr  f  rences de pr  sentation    l   aide d   une interface sp  cialis  e  Ces  pr  f  rences sont ensuite envoy  es au serveur puis stock  es sous forme de feuilles de style XSL  XSLT et  XSL FO  et CSS dans l   espace virtuel des utilisateurs  Elles sont ensuite appliqu  es au r  sultat de chaque  requ  te de ces utilisateurs  Il est aussi possible de partager des pr  f  rences entre groupes d utilisateurs     188 D   Application    Papillon  projet de base lexicale multilingue sur Internet    4  Analyse g  n  rale et impl  mentation    4 1  D  finition des structures avec DML    4 1 1  Organisation des sch  mas XML    La d  finition formelle de toutes les structures utilis  es dans le projet Papillon est faite par des sch  mas  XML  Le langage des sch  mas XML permet d importer ou de red  finir des parties de sch  mas avec les  clauses  lt import gt  et  lt redefine gt   Nous avons donc organis   nos sch  mas XML en red  finissant des  parties d   autres sch  mas  La figure D 5 mont
227. es    consulter avec        l  ment  lt name gt   l   ordre de tri du r  sultat  avec l     l  ment  lt word order gt   les   l  ments CDM qu il veut consulter avec lt cdm elements gt   le  nombre d    articles suivant et pr  c  dant les articles r  sultats avec l     l  ment  lt context gt   le nom du module  utilis   pour le pr  traitement de l   input avec l     l  ment  lt preprocessing gt   s   il utilise une expression  r  guli  re ou non avec l     l  ment  lt regex gt   et la cha  ne de caract  res qu il recherche ou une expression  r  guli  re avec l     l  ment  lt input  gt     Le r  sultat est une liste d   articles correspondant aux crit  res de la recherche  Il est stock   dans l     l  ment   lt output gt     Voici l    API de consultation de la base lexicale du GETA      lt api type  client  category  consultation  name  getabase  gt     lt info gt API de consultation de la base lexicale du GETA lt  info gt    lt url href  http   www clips imag fr cgi bin geta dicoweb   ftp    www clips imag fr geta services dicoweb   mailto dicoweb imag fr   telnet   www clips imag fr 2628   gt     lt protocol type  post get ftp mailto DICT  login  anonymous   gt    lt delay min  1s  average  1s  max  2s  timeout  10s   gt    lt encoding input  ASCIT ISO 8859 1 UTF 8  output  UTF 8   gt    lt format input  txt xml  output  xml html txt   gt     lt arguments gt              162 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 
228. es V    1  Sp  cifications externes de l   environnement 112  1 1  Sp  cification du noyau    4 e wie pue       nn ee e ME BU UE DE Race pie mg       112  1 1 1  Choix du formalisme de repr  sentation                            112   1 1 2  Manipulation des ressources                                   112   1 1 3  Construction de nouvelles ressources                            113   1 2  D  veloppement partag   de ressources libres                                113  1 2 1  Principe g  n  ral socio   conomique du partage                       114   1 2 2  D  finition d   un serveur et des diff  rents acteurs                         114   1 2 3  Gestion des contributions                                  116   1 3  Int  gration des exp  riences pr  c  dentes                                116  1 3 1  Consultation des ressources                                 116   1 3 2  R  daction des articles                                     119   1 3 3  Utilisation de modules externes                               120   2  D  finition du noyau de l   environnement avec SUBLIM 122  2 1    tude critique de SUBLIM                                       122  2 1 1  Architecture lexicale du syst  me                                122  2 1 2  Architecture linguistique du syst  me                              124  2 1 3  Architecture logicielle du syst  me                               126   2 2  Passag   de SUBLIM    XML   eg ak ee ca e a a a mal Ae 127  2 2 1  L espace de noms  DML   amp  24  
229. es lexicales  Pour cela  nous devons d  finir un serveur et ses diff  rents utilisateurs  La construc   tion des ressources se fait en coop  ration par une communaut   de contributeurs b  n  voles    Toutes les contributions sont r  vis  es par un groupe de sp  cialistes lexicographes avant d     tre int  gr  es     la base lexicale  La base fonctionne sur un syst  me de points  toute contribution accept  e augmente le  nombre de points du contributeur et    l   inverse  exportation de la base diminue le nombre de points  La  consultation demeure gratuite pour tous les utilisateurs     3 1  D  finition du serveur et ses diff  rents utilisateurs    3 1 1  Mise en place du serveur    L architecture logicielle de notre serveur est tir  e de celle de SUBLIM qui distingue fortement les  probl  mes de stockage  de manipulation et de visualisation de donn  es  voir figure C 20   Elle est bas  e  sur trois niveaux          niveau fournisseurs   ce niveau rassemble les fournisseurs de ressources  Elles peuvent   tre stock  es  et acc  d  es en local  Il est possible d   utiliser diverses formes de stockage comme le stockage dans des  fichiers avec acc  s par index  dans des bases de donn  es  ou tout en m  moire  Elles peuvent aussi   tre  stock  es dans un endroit distant accessible par le r  seau  Ce niveau est invisible pour l utilisateur         niveau interne   ce niveau est en charge des diff  rentes manipulations sur les articles de dictionnaires  ainsi que la r  cup  ration de
230. es lexicales apport  es par  chaque utilisateur de la base  Ce principe est sp  cifi   en partie C avec le syst  me de cr  dit de points accord    pour chaque contribution    la base  Ce principe est r  alis   dans le projet Papillon d  s le d  part avec la    214 Conclusion    r  cup  ration de ressources provenant d   horizons divers   le dictionnaire JMDict de Jim Breen  la base DiCo  d Alain Polgu  re  le FEM du GETA et les donn  es du projet SAIKAM    4  Le principe de consultation gratuite consiste    toujours laisser la possibilit   au public de consulter la  base gratuitement  Ce principe a   t   observ   avec le premier serveur du FeM wAlex construit par Mathieu  Lafourcade et ensuite exp  riment   avec les maquettes DicoWeb  DicoSz  t  r  DicoFeJ  Nihongo et le FeM   Il est sp  cifi   en partie C et r  alis   dans le projet Papillon    5  Le principe de personnalisation g  n  ral consiste    laisser    chaque utilisateur de la base lexicale  la possibilit   de personnaliser les requ  tes  les r  sultats  les propositions de travail de la base  etc  Le  r  sultat des requ  tes est personnalis   principalement par Putilisation de feuilles de style  Ce principe a    t   exp  riment   en premier lieu avec la nouvelle maquette du serveur du FeM qui permet de configurer  le r  sultat    la vol  e  En partie C  nous avons propos   d impl  menter ce principe en cr  ant un espace vir   tuel pour chaque utilisateur  o   il peut stocker ses feuilles de style et en laissant la 
231. essources dictionnairiques informatis  es multilingues  h  t  rog  nes  Th  se de nouveau doctorat  Sp  cialit   Informatique  Institut National Polytech   nique de Grenoble  168 p      Doan Nguyen98b  Hat Doan Nguyen  1998b  Accumulation of Lexical Sets  Acquisition of Dictionary Re   sources and Production of New Lexical Sets  17th International Conference on Computational  Linguistics and 36th Annual Meeting of the Association for Computational Linguistics  Proc   COLING ACL 98  vol 1 1  Montr  al  Canada  10 14 ao  t 1998  pp 330 335      Dolan96  William B  Dolan  amp  Stephen D  Richardson  1996  Interactive Lexical Priming for Disambi   guation  Proc  MIDDIM   96  Post COLING seminar on Interactive Disambiguation  C  Boitet  ed  Le Col de Porte  Is  re  France  12 14 aotit 1996  vol  1 1  pp  54 56      Dutoit92  Dominique Dutoit  1992  A Set Theoretic Approach to Lexical Semantics  Proc  COLING 92   C  Boitet ed   Nantes  France  18 21 juillet 1992  pp  982 987      EDR93  EDR  1993  EDR Electronic Dictionary Technical Guide Project Report  n   042  Japan Elec   tronic Dictionary Research Institute Ltd   16 ao  t 1993  144 p      Farwell92  David Farwell  Louise Guthrie  amp  Yorick Wilks  1992  The Automatic Creation of Lexical En   tries for a Multilingual MT System  Proc  COLING 92  C  Boitet ed  vol  2 4  Nantes  France   18 21 juillet 1992  pp  532 538     Bibliographie 221     Fedder91  L  Fedder  J  McNaught  amp  S  Smith  1991  Typed Feature Logic and its rol
232. est un dictionnaire tr  s complexe  L utilisation de         50 A   Contexte actuel de la  dictionnairique     Word comme interface pour lexicographe n   est donc pas possible  m  me s   il a   t   possible par ailleurs de  r  cup  rer et de reg  n  rer les fichiers originaux      4 4 2  L   diteur sp  cialis   DECID    Dans la m  thodologie adopt  e  l     dition se fait directement au niveau de la base lexicale  Lors de la  construction de DECID  lPaccent a   t   mis sur le confort du lexicographe  L interface a   t   directement  inspir  e de la version papier du DEC                                O    ACHETER  verbe   ACHETEUR  nom  mase  f8     APPRENDRE  verbe  irr     1b pas de sg  Achats par X de Y aZ   Activit    commerciale   ensemble de tous les achats la de X de Yaz    APPRENTI  nom  mase  fem          Mult acha 1a     APPRENTISSAGE  nom  m      AUTORISER  verbe  pas de       AVERSE  nom  f  m    A PIED  loc  adverbiale    A TOUTE VITESSE  loc  ad             Fic  A 38     fen  tre principale de DECID    D  s que l   on cr  e un dictionnaire  la fen  tre principale du dictionnaire appara  t  voir figure A 38   Dans  la premi  re partie  il y a la liste des vocables  Si l   on clique sur l   un d   eux  les lexies correspondantes  apparaissent dans la liste de droite  On passe en mode   dition en appuyant sur la touche Entr  e du pav    num  rique  En double cliquant sur un r  sum    on ouvre la fen  tre de la lexie correspondante    La seconde fen  tre  voir figur
233. estion et consultation de bases lexicales et dictionnaires    Les   l  ments pr  sent  s en arguments sont consultables avec des expressions r  guli  res et les op  rateurs  de comparaison suivants      gt    gt     lt    lt           Il est possible de faire des recherches sur le nom  lt name gt   le type  monodirectionnel  bidirectionnel   pivot   lt type gt   le domaine  lt domain gt   la cat  gorie  monolingue  bilingue  multilingue   lt category gt    le contenu  lt content s gt   les langues sources et cibles  lt source language gt  et  lt target language gt    les dates de cr  ation et d   installation dans la base  lt creation date gt  et  lt installation date gt    l encodage  lt encoding gt   le format  lt format gt   le propri  taire des ressources  lt owner gt   la version   lt version gt   le nombre de mots vedettes  lt hw numbe r gt   le nombre d    octets du fichier source  lt bytes gt    et les aspects l  gaux  lt legal gt     Voici l    API de m  ta information de la base lexicale du GETA     lt api type  client  category  meta info  name  GETA public database  gt     lt info gt API utilis  e pour consulter 1 information disponible       sur les ressources de la base lt  info gt     lt url href   http   www clips imag fr cgi bin geta dictlist  ftp    www clips imag fr geta services dictlist  mailto dictlist imag fr  telnet   www clips imag fr 2628   gt     lt protocol type  post get ftp mailto DICT  login  anonymous   gt                        lt delay min  1
234. et en ajouter d   autres     L   diteur Amaya travaille avec des documents au format XHTML  XHTML 1 0   Nous pouvons ais  ment    tablir une bijection entre le document XML de la base et le document XHTML que le contributeur ou le  lexicographe   dite avec Amaya  Il suffit pour cela de transformer le document XML dans le format XHTML  et de lui associer une feuille de style    la sortie de la base  et inversement une fois les modifications ef   fectu  es     Base Lexicale                Serveur  A  feuilles de style  XSLT  F Internet  v    diteur HTML  Client Document  XHTML   CSS             FIG  C 21     transformation et   dition d un document XHTML    La transformation d un document XML vers un document XHTML se fait avec la feuille de style XSLT  d  crite dans la section pr  c  dente concernant la visualisation du r  sultat  La transformation inverse se fait  de la m  me mani  re  Le tableau C 6 montre des exemples de r  troconversion d   l  ments XHTML vers les    l  ments XML de d  part     166 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    XHTML XML  avant conversion apr  s conversion     lt span class  headword  gt meurtre lt  span gt     lt headword gt meurtre lt  headword gt      lt span class  pronunciation  gt meu rtr e   lt pronunciation gt meu  rtr e  lt  pronunciation   lt  span gt      lt span class  pos   gt n m  lt  span gt   lt pos gt n m  lt  pos gt    lt span  class  example  gt La m  sentente    lt
235. et les lexicologues sp  cialistes  lexicologists  charg  s du contre des  donn  es    Les informations relatives    chaque utilisateur sont stock  es dans un ficher    part r  f  renc   par l     l  ment   lt  user ref  gt     Tous les dictionnaires sont r  f  renc  s par des pointeurs sur les documents XML les d  crivant  Les  pointeurs sont les attributs href des   l  ments  lt dict   ref gt   Ces   l  ments sont regroup  s dans l     l  ment   lt dictionaries gt     L   exemple suivant est la version XML de la figure C 4 montrant une base lexicale      lt database xsi schemaLocation  http   www clips imag fr geta services dml   http   clips imag fr geta services dml dml xsd    name  GETA Lexical Database    creation date  22 10 99    history ref  http   clips imag fr geta services dml database his xml    owner  GETA  gt    lt partner servers gt   lt user ref name  XRCE Analyser  href  xrce xml   gt    lt  partner servers gt   lt users gt    lt user ref name  Mathieu Mangeot  href  mangeot xml   gt    lt user ref name  Mutsuko Tomokiyo  href  tomokiyo xml   gt    lt user ref name  John Doe  href  doe xml   gt    lt  users gt    lt groups gt    lt group name  universe  gt    lt user ref name  Mathieu Mangeot   gt    lt user ref name  Mutsuko Tomokiyo   gt              136 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires        lt user ref name  John Doe   gt    lt  group gt    lt group name  lexicologists  gt         lt user
236. exType gt    lt sequence gt    lt element ref  d node  minOccurs  1  maxOccurs  unbounded   gt    lt  sequence gt    lt  complexType gt    lt  element gt     254 Annexe A   sch  ma XML pour DML     lt     DML element to represent a node    gt    lt element name  node  gt    lt complexType mixed  true  gt    lt attribute ref  xlink type  fixed  locator   gt    lt attribute ref  xlink label   gt    lt attribute name  xlink title  gt      lt simpleType gt    lt restriction base  xlink titleType  gt    lt     to note the starting node of an automaton    gt    lt enumeration value  starting node   gt    lt      to note an ending node of an automaton    gt    lt enumeration value  ending node   gt    lt  restriction gt    lt  simpleType gt    lt  attribute gt    lt  complexType gt    lt  element  gt    lt      DML element to represent a list of arcs    gt    lt element name  arcs  gt    lt complexType gt    lt sequence gt    lt element ref  d arcType  minOccurs  0  maxOccurs  unbounded   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     DML element to represent an arc    gt    lt element name  arc  type  d arcType   gt    lt     DML type to represent an arc    gt         lt complexType name  arcType  mixed  true  gt    lt attribute ref  xlink type  fixed  arc   gt    lt attribute ref  xlink from   gt    lt attribute ref  xlink to   gt               lt     an oriented arc has the attribute oriented  true      lt attribute name  oriented  type  boolean   gt    l
237. exicographe a deux options d   affichage   il peut voir les balises comme dans l   exemple ou ne voir  que le texte  Cette deuxi  me option correspond    la vue de l   article que les lecteurs du dictionnaire auront  par la suite    Les articles pr  par  s en format SGML sont ensuite stock  s dans une base de donn  es lexicographiques   Il est aussi possible d   imprimer chaque article de fa  on    ce qu   il ressemble    un vrai article de dictionnaire     4 2 3  R  vision des entr  es    C   est sur l   article imprim   que se penchent les r  viseurs  en effet  ces derniers pr  f  rent travailler sur  Particle complet  ce qui n   est pas toujours possible lorsqu ils r  visent l   article    l     cran  La possibilit    d     taler c  te    c  te l   article et les documents consult  s et imprim  s par les lexicographes lors de la r  daction  facilite la r  vision       cette   tape  l   informatique joue plut  t un r  le d   arri  re plan  Il arrive  par exemple  que les r  viseurs  aient besoin de consulter eux m  mes les corpus pour clarifier certains points ou pour trouver d   autres    4  M  thodes de construction de dictionnaires 47       WordPerfect 9   H  DICOSGML f e f fier a bras nm sgm  Read Only     Et EME File Name  FIER   A BRAS NM lt f  lemame     Mexicographer gt Lexicographers    Initials     EEE Language Direction     EEE Centre  OTTAWA  lt fenter    Mate created  gt Date Created  YYYY MM DD   2000 07 18  lt da created      Matecedted gt Date Edited  please
238. exies sont materialis  s par un trait  L   utilisateur peut cr  er ou supprimer des liens direc   tement    l   aide de la souris  Lorsque l   utilisateur cr  e un lien en tra  ant un trait bleu entre deux lexies  une    4  Analyse g  n  rale et impl  mentation 201    axie est g  n  r  e automatiquement au milieu  Cet outil est encore    l     tat de maquette  Il sera am  lior   et mis     disposition des contributeurs sur le serveur de Papillon lorsque l     tape de r  vision des liens sera atteinte   Le visualisateur d   arbres hyperboliques   tudi   en partie B n   a pu   tre utilis   ici  car il ne permet pas d     diter    Cette interface est encore    l     tat de maquette  Il faudrait encore l   am  liorer pour la rendre plus fonc   tionnelle  en ajoutant par exemple la possibilit   de visualiser et manipuler un contexte plus global que deux  lexies  plusieurs vocables et plusieurs langues      4 3 4  Pseudo   diteur structur      Les lexicographes r  digeant des articles monolingues peuvent souhaiter travailler chez eux en local  sans connexion au r  seau  Pour cela  nous g  n  rons des squelettes d articles au format RTF depuis la base  en suivant la m  thode d  crite en partie C  Si ces squelettes proviennent d   articles de la base    compl  ter   ces articles sont marqu  s pour   viter la duplication des efforts de r  daction  Les fichiers RTF sont ensuite  envoy  s avec un mod  le de document contenant des macros d   aide    la r  daction aux lexicographes qui  t
239. fType   gt    lt 1 definitions for the axie dictionary  a   lt   Note  lements whose content can vary e g               xternal references  have to be redefined in the schema specific to  the axie volume    gt                                   a  axie element  gt    lt  l    An axie is an interlingual link between lexies of different  languages  It consists also in links to other set of semantic symbols  following other theories like WordNet  UNL  etc       lt element name  axie  gt    lt complexType gt    lt sequence minOccurs  0  gt    lt element ref  d semantic cat  minOccurs  0  maxOccurs  1   gt    lt group ref  d language links  minOccurs  0  maxOccurs  1   gt         lt element ref  d refinements  minOccurs  0  maxOccurs  1   gt    lt element ref  d generalizations  minOccurs  0  maxOccurs  1   gt    lt element ref  d synonyms  minOccurs  0  maxOccurs  1   gt     lt element ref  d external references  minOccurs  0  maxOccurs  1   gt           266 Annexe B   sch  mas XML pour Papillon     lt  sequence gt    lt attribute ref  d id  use  required   gt    lt attribute ref  d history  use  optional   gt    lt attribute ref  d status  use  optional   gt    lt  complexType gt    lt  element gt    lt     semantic cat element  gt    lt     semantic category of an axie    gt    lt element name  semantic cat  gt    lt simpleType gt    lt restriction base  string  gt    lt enumeration value  entity   gt    lt enumeration value  process   gt    lt enumeration value  result   gt    
240. for Translators  Kinga  Klaudy  J  nos Kohn  eds    Transferre necesse est  Scholastica  Budapest  1997  pp  558 568      Quint87  Vincent Quint  1987  Une approche de l   dition structur  e des documents  Th  se d     tat   Sp  cialit   Math  matiques  Universit   Joseph Fourier Grenoble 1  281 p       Roberts99  Roda p  Roberts  amp  Lucie Langlois  1999  L apport de l informatique    la recherche lexicogra   hique  Proc  de l    Association canadienne fran  aise pour l   avancement des sciences  ACFAS   Universit   d Ottawa  Ottawa  Canada  10 14 mai 1999      Selva00  Thierry Selva  2000  Ressources et activit  s p  dagogiques dans un environnement informa   tique d aide    l   apprentissage lexical du francais langue seconde  Nouvelle th  se  Sp  cialit      Automatique et Informatique  Universit   de Franche Comt    210 p      Serasset93  Gilles S  rasset  amp    tienne Blanc  1993  Une approche par acceptions pour les bases lexicales  multilingues  Proc  T TA TAO 93  Montr  al  30 septembre 2 octobre 1993  A  Clas ed  vol   1 1  pp 65 84      Serasset94a  Gilles S  rasset  1994a  Approche   cum  nique au probl  me du codage des structures linguis   tiques  Proc  TALN 94   Le traitement automatique du langage naturel en France aujourd   hui   Marseille  7 8 avril 1994  Ph  Blache ed  vol  1 1  pp  109 118      Serasset94b  Gilles S  rasset  1994b  An Interlingual Lexical Organisation Based on Acceptions  From the  PARAX Mock up to the NADIA System Proc  ICLA 94  Penang 
241. fran  aise de ce mot    Pour la recherche dans la base ELRA  le script cherche d   abord les num  ros de concept dans le diction   naire correspondant    la langue source  puis cherche dans les dictionnaires correspondant aux langues cibles  les traductions correspondant aux num  ros de concept     Pr  traitement de l   entr  e    Le pr  traitement de l   entr  e consiste    utiliser tous les modules permettant soit de corriger les   ventuelles  erreurs de l   utilisateur  soit de trouver     partir d   une forme de surface  le ou les mots vedettes correspon   dants    Nous proposons donc  selon la disponibilit   des modules dans chaque langue  d   utiliser d   abord un  correcteur orthographique et de fautes de frappe  Pour l   outil DicoWeb fonctionnant    XRCE  nous avons  utilis   le correcteur orthographique bas   sur des r  gles de phon  tique utilis   dans la nouvelle version du  c  d  rom du dictionnaire Hachette Multim  dia  Si l   utilisateur tape ortograf  nous obtiendrons apr  s  correction orthographe  voir figure B 6     Une fois l   entr  e corrig  e  pour obtenir une liste des lemmes correspondant    une forme de surface  nous  utilisons un analyseur morphologique  L entr  e est d   abord envoy  e par le script    l   analyseur morpholo   gique correspondant    la langue source  Le r  sultat est ensuite d  cod   de fa  on    fournir une liste d   entr  es  plausibles  Ainsi  si l   utilisateur tape l   entr  e cochons  la liste des nouvelles entr  es sera coch
242. ge format   Negotiated interchange ISO TC 37 SC 3 WG I   Gen  ve  118 p      ISO99c  ISO  1999c  ISO DIS 12620 Terminology   Computer Applications Data Categories ISO TC  37 SC 3 WG L  Gen  ve  71 p      Johnson95  E  Johnson  1995  The Text Encoding Initiative  TEXT Technology vol  5  n  3  Autumn 1995   pp 174 175      Keene89  Sonia Keene  1989  Object Oriented Programming in Common LISP  A Programmer   s Guide  to CLOS  Addison Wesley 1989  266 p      Larcheveque96  Jean Marie Larchev  que  1996  Requirement analysis and solution proposals for the ma   nagement of bilingual dictionaries  Rapport interne XRCE  18 juin 1996      Lafourcade94  Mathieu Lafourcade  1994  G  nie logiciel pour le g  nie linguiciel  Th  se de nouveau Doc   torat  IMAG UJF  Grenoble 1  d  cembre 1994  318 p      Lafourcade96a  Mathieu Lafourcade  1996  Serveurs de dictionnaires   Etude de cas avec l   outil ALEX et  le projet de dictionnaire francais anglais malais  Proc  S  minaire LEXIQUE  Grenoble  13   14 novembre 1996  CLIPS IMAG  P  les langage naturel et parole du GDR PRC CHM   vol   1 1  pp  185 192      Lafourcade96b  Mathieu Lafourcade  1996  Structured Lexical data  how to make them widely available   useful and reasonably protected    a practical example with a trilingual dictionary  Proc   COLING 96  Copenhagen  Denmark  Vol 2 2  pp  1106 1110      Lafourcade97  Mathieu Lafourcade  1997  Construction et services dictionnaires n lingues  exemple des  projets Fe   Quatri  me conf  rence
243. grand nombre de  structures de dictionnaires sans imposer leur conversion en une seule structure particuli  re  Cela autorise  l   utilisation de donn  es provenant de th  ories linguistiques diff  rentes  Nous avons exp  riment   ce principe  avec DicoWeb o   nous utilisons des donn  es ayant des structures tr  s diff  rentes  En partie C  DML est bas    sur ce principe puisqu il reprend le syst  me SUBLIM de la th  se de Gilles S  rasset  Ce principe est observ    dans le projet Papillon avec d   une part l   utilisation d   une structure complexe  celle de DiCo  et d   autre part   la possibilit   de r  f  rencer des donn  es externes au projet comme les UW du projet UNL  les cat  gories  s  mantiques du dictionnaire de NTT  les synonymes du projet WordNet  etc    2  Le principe d   abstraction du niveau donn  es consiste    diff  rencier le niveau de stockage des infor   mations du niveau de manipulation  Nous avons exp  riment   ce principe avec la maquette DicoWeb dans  laquelle nous utilisons des ressources stock  es directement sous forme de fichiers texte et d   autres provenant  de serveurs Web distants  en partie C  nous sp  cifions ce principe avec      API de fournisseur de ressources   Ensuite  dans le projet Papillon  nous r  alisons ce principe avec l   utilisation d   un SGBD pour le stockage et  de programmes en DOM pour la manipulation     Principes li  s    l   aspect collaboratif    3  Le principe de mutualisation consiste    mettre en commun les ressourc
244. grande  taille et    g  n  rer    partir de cette base un dictionnaire d   usage public  le Lexique Actif du Fran  ais  LAF    Cette recherche est men  e conjointement par Igor Mel tchuk et Alain Polgu  re avec l   aide des   tudiants  de l   Observatoire de Linguistique Sens Texte de l   universit   de Montr  al au Canada  La base DiCo est en  cours de r  daction  Il est pr  vu    terme d   obtenir environ 3 000 vocables ayant chacun plusieurs lexies  en  moyenne trois lexies      18 A   Contexte actuel de la  dictionnairique     Format du dictionnaire    Cette base lexicale est g  r  e par l   outil FileMaker   Chaque entr  e de la base correspond    une lexie   Un vocable peut avoir une ou plusieurs lexies selon qu il est monos  mique ou polys  mique  Les lexies d un  m  me vocable auront g  n  ralement le m  me nom et les m  mes propri  t  s grammaticales  chaque lexie est  compos  e de huit champs diff  rents  Nous donnons dans l   exemple de la figure A 10 repr  sentant l   unique  lexie du vocable monos  mique MEURTRE le nom de tous les champs suivis de leur valeur           1  Nom de l unit   lexicale   MEURTRE  2  Propri  t  s grammaticales   nom  masc  3  Formule s  mantique   action de tuer     _ PAR L individu X DE L individu Y       4  R  gime   X   I   de N  A poss  Y   II   de N  A poss    5   Quasi   synonymes   QSyn  assassinat  homicide l  crime       6  Fonctions lexicales            VO  tuer       A0  meurtrier adj       S1  auteur  de ART _        meurtri
245. group ref name  universe   gt    lt group ref name  administrators   gt    lt  groups gt    lt  user gt        3 2  Gestion des contributions    Lors de la premi  re connexion au serveur  les utilisateurs doivent se cr  er un compte  Ils peuvent ensuite  contribuer    n   importe quel moment  L utilisateur peut contribuer spontan  ment sur un article s   il a par  exemple constat   une erreur en consultant la base  ou consult   sur le serveur une liste de choses    faire   Cette liste est propos  e par les sp  cialistes lexicologues de la base en fonction du profil des utilisateurs si  possible avec une aide automatique  d  tection de sch  mas d   incompl  tude  d   erreur  etc      Pour   viter que la base ne soit pollu  e par des contributions non v  rifi  es  celles ci sont tout d   abord  stock  es sous forme de documents XML dans l   espace virtuel du contributeur  Elles sont ensuite v  rifi  es  par les sp  cialistes lexicographes qui d  cident ou non de les int  grer    la base     3 2 1  V  rification des donn  es    Le groupe des sp  cialistes lexicologues a plusieurs t  ches    effectuer  Il doit constamment v  rifier les  donn  es pr  sentes dans la base  puisque celle ci n   est jamais fig  e dans un   tat stable  La v  rification des  donn  es permet de pr  parer le travail    faire  Les articles    v  rifier seront propos  s aux contributeurs en  fonction de leur profil de comp  tences    Il doit enfin v  rifier et int  grer les contributions propos  es par les 
246. guider notre travail  Cependant  nous arrivons    des conclusions convergentes     6 1  Plate forme de gestion d   une base sur l   hydrographie   DHYDRO    6 1 1  Pr  sentation    Le projet DHYDRO  DHYDRO  Descotte00a 00b   Dictionnaire Hydrographique Multilingue Norma   lis    est un projet MLIS de la communaut   europ  enne  Ce projet a dur   18 mois entre 1998 et 2000  Le  consortium a   t   organis   autour de l   organisme international  OHTI   Les autres partenaires sont         l     quipe langue et dialogue du LORIA en Lorraine       le bureau hydrographique international  BHI     Monaco         le service hydrographique et oc  anographique de la marine fran  aise  SHOM     Paris     VIDS  Institut f  r Deutsche Sprache     Mannheim         le centre de recherche TERMISTI a Bruxelles     Le projet DHYDRO avait pour objet de cr  er sur Internet un espace terminologique multilingue sp  cialis    dans le domaine de l   hydrographie  Cet espace est con  u autour du Dictionnaire Hydrographique Interna   tional  DHD   publi   par le BHI sous la forme de trois volumes ind  pendants  en anglais  en fran  ais et en  espagnol  d  crivant environ 7 000 concepts communs  La plate forme DHYDRO int  gr  e au site Internet  de l   OHI rassemble sur un site web interactif des services utiles aux terminologues  aux traducteurs et aux  sp  cialistes de l   hydrographie  notamment les outils suivants          un outil d   dition coll  giale et    distance d   une base terminologique mu
247. he content of the group article for validation  lt group  name    article    gt  lt all   gt  lt  group gt     gt    lt group name  article  gt                        lt sequence gt    lt element ref  d lexie  minOccurs  1  maxOccurs  1   gt    lt  sequence gt    lt  group gt    lt 1 DML definitions for APIs        gt    lt       API element      gt    lt     This element encodes the APIs used by clients and suppliers of          the database to exchange data with it  API   Application Programming    250 Annexe A   sch  ma XML pour DML    Interface    gt    lt element name  api  gt    lt complexType gt    lt sequence maxOccurs  unbounded  gt      lt     provides general information on the API    gt         lt element name  info  type  string   gt    lt  l    indicates the URLs used for connection  ref  d url   gt    lt     indicates the protocols used for connection  ref  d protocol   gt    lt        indicates the connection delays    gt   ref  d delay   gt    lt     indicates the input and output encodings    gt            lt element       ne   lt element     lt element     lt element ref  d encodings   gt            lt     indicates the input and output formats    gt   ref  d formats   gt         lt element name  arguments  type  d argumentsType   gt   format of the  lt   gt      lt element name  result  type  d resultType   gt      lt element     lt     format of the arguments          q result   lt  sequence gt    lt attribute name  creation date  type  d dateType  use  o
248. he syntactic  actant of a formula    gt            lt element name  surface  gt    lt complexType mixed  true  gt     264 Annexe B   sch  mas XML pour Papillon     lt choice minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d pos   gt    lt element ref  d reflexie   gt                        lt  choice gt    lt  complexType gt    lt  element gt    lt   reflexie element  gt   1 reference to another lexie with an xlink    gt    lt element name  reflexie  type  d refType   gt    lt     lexical functions element    gt    lt     comes from the meaning text theory Lists all the lexical  functions of the lexie    gt   lt element name  lexical functions  gt    lt complexType gt      lt sequence maxOccurs  unbounded  gt    lt element ref  d function   gt         lt  sequence gt    lt  complexType gt    lt  element gt    lt     function element    gt    lt     is a common DML element already declared in the DML schema    gt    lt     comment element  gt    lt     comment in a lexical function    gt            lt element name  comment  type  string   gt                              I fct example element A   lt     example in a lexical function    gt    lt element name  fct example  type  string   gt    lt  l   examples element  gt    lt  l    lists some usage examples of a lexie    gt    lt element name  examples  gt    lt complexType gt      lt sequence maxOccurs  unbounded  gt    lt element ref  d example   gt         lt  sequence gt    lt  complexType gt    lt  element gt    
249. hercher  une deuxi  me fen  tre appara  t  comportant la traduction du mot  pr  alablement s  lectionn    Elle contient pour chaque cat  gorie grammaticale  n  vt  vi etc   la traduction  du mot avec une pr  cision de sens dans la langue source entre parenth  ses s   il y a plusieurs traductions  possibles  et la traduction de locutions contenant le mot  avec une pr  cision de sens si n  cessaire     la fin  de la liste sont indiqu  es les sous entr  es du dictionnaire  Les deux fen  tres sont repr  sent  es dans la figure  A 20     2  Outils de consultation de dictionnaires 27    Francais Anglais O     Fran  ais Anglais raison      Rechercher  a    reason  locution avoir raison    to be right  locution donner raison a qn  sens  personne     to agree with sb  sens  fait     to prove sb right y   locution avoir raison de qn qchE      to get the better off    Retourner    Rechercher  sb sth    FIG  A 20     l   article raison du Collins on line    raison  raisonnable  raisonnablement  raisonn    e  raisonnement  raisonner          Discussion    Le Collins est b  ti sur des structures de donn  e relativement simples et fig  es  Il est con  u pour une  utilisation commerciale  Une fois que la pr  sentation des articles est d  finie  il n   y a pas de possibilit  s  d   volution    Cette interface a cependant deux propri  t  s int  ressantes  Le contexte du mot recherch   est syst  matiquement  affich    ce qui permet de consulter des articles voisins de celui que l   on cherche  
250. ic formula  gt    lt complexType mixed  true  gt    lt choice minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d sem label   gt    lt element ref  d sem actant   gt    lt element ref  d actor   gt    lt  choice gt    lt  complexType gt    lt  element gt    lt   government pattern element  gt    lt     comes from the meaning text theory    gt    lt element name  government pattern  gt    lt complexType gt    lt sequence minOccurs  1  maxOccurs  unbounded  gt    lt element ref  d mod   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     mod element    gt    lt  l   There might be more than one government pattern  we call them   modifications   for the same lexical unit  We need a way to encode  that     gt    lt element name  mod  gt    lt complexType gt    lt sequence minOccurs  1  maxOccurs  unbounded  gt    lt element ref  d actor   gt    lt  sequence gt    lt     number of the modification in the government pattern    gt    lt attribute name  nb  type  positivelnteger   gt    lt  complexType gt                       1  Sch  ma g  n  ral de Papillon 263        lt  element  gt    lt I sem label element  gt    lt     semantic label comes from the meaning text theory  Used to          tag the semantic formula  We should define a closed list of possible  values    gt    lt element name  sem label  type  string   gt                                 lt  l    sem actant element    gt    lt  l   semantic actant comes from the meaning text theory  Used to 
251. ications clientes du serveur du dictionnaire  UNL fran  ais puissent communiquer avec le serveur  nous avons mis en place un protocole d   interrogation    100 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc       lt  lt previous next gt  gt     megy    verbe    Infinitif    Temps Indicatif Pr  sent    Type Ind  fini        conjuguer     FIG  B 25     utilisation d un conjugueur dans DicoSz  t  r       R  ponse du conjugueur     Pluriel g  me personne       FIG  B 26     r  sultat du conjugueur    de dictionnaires fonctionnant par Telnet  Le Dictionary Server Protocol  DICT  est une transaction TCP  bas  e sur un protocole de requ  te r  ponse qui permet    un client d   acc  der    des entr  es de dictionnaires   Ce protocole est d  crit dans la RFC 2229  Dict      4  Coop  ration entre applications 101    4 2 2  Commandes disponibles    Le serveur   coute sur le port 2628 qui est r  serv   au protocole Telnet DICT  Lorsqu il regoit une de   mande de communication de la part d   un client  il cr  e un processus fils qui s   occupera de traiter la requ  te   Chaque nom de commande est compos   de quatre lettres  Pour l   instant  seules les commandes suivantes  sont impl  ment  es          AUTH username password    authentification         CLUW uw    UW la plus proche pr  sente dans le dictionnaire         HEAD headword    UWs ayant le m  me mot t  te           HELP    affichage de ce texte                 LOAD  DIC  dictionnair
252. ick on       Another Search O English    Japanese   Choose dictionary    O Examine the kanji in a selected compound  Also click on the  compound you wish to examine    O Repeat this search  choose another Dictionary above       Search for a Kanji    Press to set the buttons to their default settings         FIG  A 24     interface et r  sultats de WWWJDict    La figure A 25 montre l article obtenu de la figure A 24 au format original XML   Se ry  gt     lt ent_seq gt 1491240 lt  ent_seq gt     lt k_ele gt  lt keb gt  TER  lt  keb gt  lt  k_ele gt        ee elepeweks vas A     lt  reb gt  lt  r_ele gt    lt sense gt  lt gloss gt constancy lt  gloss gt    lt gloss gt immutable lt  gloss gt  lt  sense gt    lt  entry gt     FIG  A 25     article de EDICT au format XML    2 2 3  Consultation de plusieurs dictionnaires   le site dictionary com  Introduction    Le site Web dictionary com  Dictionary com  est maintenu par la soci  t   Lexico bas  e en Californie   Il permet de consulter des ressources en ligne depuis 1998  Ce serveur consulte plusieurs dictionnaires en    2  Outils de consultation de dictionnaires 33    m  me temps et affiche tous les articles dans une m  me fen  tre    Tous les dictionnaires disponibles sont monolingues anglais  On trouve le American Heritage  Dic   tionary of the English Language  le Webster   s Revised Unabridged Dictionary  le WordNet    version 1 6   des informations provenant du CIA World Factbook  le Free On line Dictionary of Computing de 1 
253. ieurs poids provenant de th  ories ou de ressources  diff  rentes    L exemple suivant est une base constitu  e de 7 objets  l   article fran  ais rivi  re avec l   identifica   teur fra01  l   article fran  ais fleuve avec l   identificateur   ra02  l   article fran  ais cours d   eau avec  l   identificateur fra03  l   article anglais river avec l   identificateur eng01  un lien 1k01 reliant l   article  fran  ais rivi  re et l   article anglais river  un lien 1k02 reliant l   article fran  ais fleuve et l   article  anglais river et un lien 1k03 entre l   article fran  ais cours d   eau et l   article anglais river    Pour tous ces objets  nous pouvons calculer des poids diff  rents  Ici  nous avons not   la fr  quence de  consultation de ces objets par des utilisateurs de la base  la fr  quence d   apparition de ces termes dans le  corpus align   anglais fran  ais Hansard et les r  sultats de recherche de ces termes sur le moteur de recherche  Google  Voici par exemple  dans le tableau C 1 plusieurs syst  mes de poids pour les m  mes objets     Ga objet  consultation   tr  q  Hansard  Google    CO iie 6 y 314000   fra   eue 5 555   151000  rads   cos Peau    RS   28000     Tor  rene     3050 39500  k02    fleuve lt  sriver    O  93801  CIKO3  cours d eme  gt mer    BO  30040       TAB  C 1     diff  rents syst  mes de poids sur les m  mes objets    2  D  finition du noyau de l   environnement avec SUBLIM 131    2 2 3  S  mantique du sous ensemble CDM de DML  D  finition d
254. ificateur du nouvel   l  ment r  sultant de la fusion     4 3  Impl  mentation des interfaces    4 3 1  Consultation de la base    La consultation de la base peut s   effectuer directement avec un navigateur Web en suivant les principes  d  crits en partie C  L interface est du type de celle de l   exp  rience DicoWeb d  crite en partie B    Les utilisateurs ont la possibilit   de sp  cifier leurs pr  f  rences de visualisation gr  ce    une interface  sp  cialis  e  Ces pr  f  rences sont ensuite envoy  es au serveur et stock  es sous forme de feuilles de style  XSL et CSS  Les utilisateurs peuvent aussi partager des feuilles de style entre groupes d   utilisateurs     200 D   Application    Papillon  projet de base lexicale multilingue sur Internet    4 3 2  Contribution sur les articles monolingues    Les contributions sur les articles peuvent se faire de deux mani  res  Pour des contributions localis  es et  syst  matiques  une interface avec un formulaire HTML peut   tre cr    e  Par exemple  un linguiste travaillant  sur la prononciation aura besoin d   une interface pour pouvoir entrer la prononciation de chaque mot vedette    Pour les autres contributions  l   utilisateur modifie l   article et le renvoie au serveur  Le syst  me calcule  les   l  ments modifi  s par rapport    l   article initial  Il g  n  re ensuite automatiquement une feuille de style  XSL en indiquant les endroits modifi  s sur l   article par des pointeurs XPointer  voir partie C section 3 2 2   e
255. ification d un environnement de gestion et consultation de bases lexicales et dictionnaires    correspondant aux mots qu   ils recherchent dans la base  La base lexicale se connectera alors au lemmatiseur  avant de rechercher les articles correspondant    la requ  te de l   utilisateur    Le principe de points peut s   appliquer aussi aux partenaires  En effet  chaque service rendu par un  partenaire fait augmenter son nombre de points     l inverse  chaque information demand  e    la base fait  baisser le nombre de points  Cependant  des difficult  s surgissent  il peut   tre difficile de quantifier un  service en nombre de points ou d   arr  ter le service si un programme partenaire est d  biteur  etc    Pour communiquer avec tous les fournisseurs  nous devons standardiser les   changes  Nous proposons  de les standardiser gr  ce    des API  La plupart du temps  il sera cependant n  cessaire d     crire un adaptateur   wrapper  pour interfacer un fournisseur avec notre environnement afin qu   il respecte      API d  finie    Les API fournisseur contiennent de la m  ta information sur le fournisseur  des informations de connexion  et enfin la structure des   l  ments utilis  s en entr  e et en sortie  Ces API sont d  crites par l     l  ment  lt api gt     Pour la m  ta information  l   attribut name indique le nom du fournisseur  l     l  ment  lt information gt   contient un texte explicatif sur le service propos   par le fournisseur    Pour la connexion  l     l  ment  lt
256. ight          comp ambiguous eg   1      type 1  ambiguous    gt  A1Z V         light      PRES    type 1  non ambig    gt  Al V    soft    34 type 2  ambig      gt  A2Z V         saf e       Ai x    type 2  non ambig      gt  A2 V         unsaf e       AD3 Q       there are 3 bases to be indexed       1         normal      gt  AD4    2       comparative      gt  ADS    3    superlative    gt  A V    best driest    NOUN  Q    is the noun both regular and variable          example of  irregular noun   mouse  T 3    yes    gt  NREG    2 3    no    gt  NIRG    FIG  A 36     exemple de manuel d   indexage source pour l outil ATLAS    D  s que la compilation est termin  e  le linguiste peut utiliser des fonctions pour rajouter des cartes  dans son manuel ou en supprimer interactivement  Il peut aussi visualiser et imprimer tout ou partie de  son manuel  Le manuel peut   tre aussi visualis   sous forme arborescente  L interpr  teur de menus permet    4  M  thodes de construction de dictionnaires 49                                               NREG  ER NON m    I_ gt VER       AZ V   ADI    Am      AIZ V   ROOT L    A1 V       gt  ADJ AD2    AZV   L    A2 V          AD4  AD3 ADS      AV    __INVAR    FIG  A 37     forme arborescente pour le manuel papier correspondant    d    indexer interactivement un mot dans un dictionnaire en suivant le format du manuel d   indexage compil    au pr  alable     4 3 3  Discussion    ATLAS propose un menu relativement complet de fonctions de manip
257. ign is omitted      is  assumed  The letter  T  is the date time separator and  hh    mm            2  Sch  ma XML de DML 235        ss  represent hour  minute and second respectively  Additional digits  can be used to increase the precision of fractional seconds if desired  i e the format ss ss    with any number of digits after the decimal  point is supported  The fractional seconds part is optional  other  parts of the lexical form are not optional  To accommodate year values  greater than 9999 additional digits can be added to the left of this  representation  Leading zeros are required if the year value would  otherwise have fewer than four digits  otherwise they are forbidden   The year 0000 is prohibited    The CCYY field must have at least four digits  the MM  DD  SS  hh   mm and ss fields exactly two digits each  not counting fractional  seconds   leading zeroes must be used if the field would otherwise have  too few digits    This representation may be immediately followed by a  Z  to indicate  Coordinated Universal Time  UTC  or  to indicate the time zone  i e   the difference between the local time and Coordinated Universal Time   immediately followed by a sign    or    followed by the difference from                                                                            UTC represented as hh mm  note  the minutes part is required   See  ISO 8601 Date and Time Formats  chapter D  for details about legal  values in the various fields  If the time zone is includ
258. il et le r  int  grer    La m  thode classique permet de r  agir tr  s facilement    un changement de structure des dictionnaires  Il  est aussi plus facile d     laborer des outils de v  rification des articles  Par contre  elle ne permet pas non plus  de travailler directement en ligne  De plus  il faut   quiper tous les r  dacteurs d   un   diteur ad  quat    La m  thode sp  cialis  e est tr  s pratique pour la r  daction des articles  On peut proposer des outils  d   aide    la r  daction et de v  rification  De plus  il est possible d     diter des dictionnaires tr  s complexes  comme le DEC  Par contre  ces   diteurs ne s   adaptent pas bien aux changements de structure  Il faut alors  les reprogrammer  Enfin  ils ne permettent pas non plus de travailler en ligne en  collecticiel     La m  thode en ligne est tr  s int  ressante car elle permet aux contributeurs de travailler simultan  ment  en  collecticiel   Ils n   ont besoin que d   un simple navigateur Web  Elle ne semble par contre valable que  pour des dictionnaires    structure simple ou pour des modifications d   articles tr  s localis  es  Il faut aussi  enrichir cette solution gr  ce    des outils d   aide    la r  daction  De plus  la gestion des contributions doit   tre  rigoureuse et supervis  e par un petit groupe de sp  cialistes pour   viter la pollution volontaire ou non du  dictionnaire par des contributions incorrectes    Ces m  thodes pr  sentent toutes des avantages et des inconv  nients bien distin
259. in m   C R     FIG  A 45     exemple d   article de dictionnaire anglais francais    La figure A 46 montre le m  me exemple encod   avec les balises de la TEI     60 A   Contexte actuel de la  dictionnairique      lt entry n  1  gt  lt form gt  lt orth gt dresser lt  orth gt  lt  form gt    lt gramGrp gt  lt pos gt n lt  pos gt  lt  gramGrp gt     lt sense n  a   gt     lt sense gt  lt usg type dom gt Theat lt  usg gt    lt trans gt  lt tr gt habilleur lt  tr gt  lt gen gt m lt  gen gt  lt  trans gt    lt trans gt  lt tr gt  euse lt  tr gt   lt gen gt f lt  gen gt  lt  trans gt     lt  sense gt     lt sense gt  lt usg type dom gt Comm lt  usg gt     lt form type compound gt  lt orth gt window lt oRef gt  lt  orth gt  lt  form gt    lt trans gt  lt tr gt   talagiste lt  tr gt  lt gen gt mf lt  gen gt  lt  trans gt    lt  sense gt     lt eg gt  lt q gt she   s a stylish lt oRef gt  lt  q gt  lt trans gt  lt tr gt elle s   habille avec  chie lt  tr gt     lt  trans gt  lt  eg gt     lt xr type see gt V  lt ref target hair gt hair lt  ref gt  lt  xr gt  lt  sense gt    lt sense n  b  gt  lt usg type category gt tool lt  usg gt    lt sense gt  lt usg type hint gt for wood lt  usg gt    lt trans gt  lt tr gt raboteuse lt  tr gt  lt gen gt f lt  gen gt  lt  trans gt    lt  sense gt     lt sense gt  lt usg type hint gt for stone lt  usg gt    lt trans gt  lt tr gt rabotin lt  tr gt  lt gen gt m lt  gen gt  lt  trans gt    lt  sense gt     lt  sense gt     lt  entry gt           FIG  
260. inal  le symbole nul    une action  ou une condition       bil  bi2       cil  ci2       etc  sont respectivement les expressions d   entr  e de B  C  etc         bol  bo2       col  co2       etc  sont respectivement les variables de sortie de B  C  etc     Les variables de sortie de la r  gle  ao1  ao2        doivent se trouver parmi les variables de sortie de la  partie droite  bol  bo2       col  co2       etc    Les expressions d   entr  e suivent la syntaxe d   expressions de  LISP  et peuvent contenir des variables d   entr  e  ail  ai2       et des variables de sortie des unit  s pr  c  dentes  de la partie droite  par exemple  cil peut contenir bol  bo2        Le nombre de variables et expressions pour  chaque unit   peut varier    partir de z  ro    La figure A 32 montre une grammaire H grammar permettant la r  cup  ration des articles de BABEL   Dans les r  gles syntaxiques  le caract  re     correspond au symbole nul  le caract  re   gt   devant un nom  de symbole comme   gt hwd  indique que ce symbole est terminal  Dans les r  gles d analyse lexicale  la  notation  _ 10  signifie que le symbole est compos   de 10 caract  res  le symbole to cparen correspond    3  Outils de manipulation de dictionnaires 39    grammar babel glossary    Acquisition du glossaire BABEL de I  Kind                         era    syntax rules  1  babel entry  entry    gt  gt hwd  hwd  body  body         babel  trim whites hwd  body   entry   2 2  body  body    gt   sense  S1  sense   S  
261. instant trois types diff  rents    comp  tences  int  r  t et activit            un pointeur sur ses annotations sur le contenu de la base avec l     l  ment  lt annotations gt      148 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    les contributions qu il envoie    la base avec l     l  ment avec l     l  ment  lt contributions  gt      les points qu il a accumul  s en contribuant    la base avec l     l  ment avec l     l  ment  lt credits gt        un pointeur sur l   historique de ses requ  tes avec l     l  ment  lt requests gt          des pointeurs sur ses pr  f  rences  Dans l   exemple suivant  nous avons stock   une feuille de style CSS  avec l     l  ment  lt xsl stylesheet gt  pour les pr  f  rences de pr  sentation de l   utilisateur Mathieu Mangeot         les groupes auxquels l   utilisateur appartient avec l     l  ment  lt groups gt      La description formelle de l     l  ment  lt user gt  est contenue dans le sch  ma XML dml en annexe de  ce document  Elle est r  f  renc  e par l   attribut xsi schemaLocation  Les informations sont toutes  repr  sent  es sous forme de documents XML  Lorsque le syst  me a besoin d   une information  il lit le docu   ment XML correspondant et l   analyse pour trouver l   information  Les modifications de l     l  ment  lt user gt   et de ses descendants sont stock  es dans le document point   par l   attributhistory ref    LAUSET   xsi schemaLocation  http   www clips im
262. ion  cr  ation et consultation coop  ratives et distribu  es de dictionnaires   du point de vue de l   architecture interne  de l   architecture lexicale et des interactions avec les diff  rents  utilisateurs    Dans une premi  re section  nous donnons les sp  cifications externes du noyau  du serveur de construc   tion collaborative  et des fonctionnalit  s  en nous basant sur les exp  riences pr  c  dentes    Dans la deuxi  me partie  nous d  finissons plus pr  cis  ment le noyau en utilisant le formalisme SUBLIM  de Gilles S  rasset que nous   tendons et traduisons en XML    Nous donnons ensuite les sp  cifications internes du serveur de construction collaborative et d utilisation  mutualis  e d   une base lexicale multilingue riche    Enfin  nous pr  cisons les fonctionnalit  s de manipulation et d     change avec d   autres programmes  puis  de consultation et de contribution humaines     112 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    1  Sp  cifications externes de  l   environnement    Dans ce chapitre  nous d  crivons les sp  cifications externes d   un environnement permettant de r  cup  rer  des ressources existantes  d en construire de fa  on collaborative  aspect  collecticiel   gr  ce aux contribu   tions et d   en produire de nouvelles pour l   export    partir des donn  es existantes    Nous sp  cifions d   abord le noyau de notre environnement  puis le principe de d  veloppement en com   munaut   de re
263. ion gt   xi Redefining elements of other schemas   gt    lt     including dml schema for common DML elements used in the  dictionary    gt    lt redefine  schemaLocation  http   www clips imag fr geta services dml dml xsd  gt    lt     valueType type  gt    lt     redefinition of the value of a function    gt    lt complexType name  valueType  mixed  true  gt    lt complexContent  gt    lt extension base  d valueType  gt    lt choice gt    lt element ref  d reflexie  minOccurs  0   gt    lt  choice gt    lt  extension gt    lt  complexContent  gt    lt  complexType gt      lt   redefine gt     260 Annexe B   sch  mas XML pour Papillon                                   lt I common definitions for monolingual dictionaries           lt     Note  the elements specific to a dictionary language have to  be redefined in a specific schema    gt    ci lexie element  gt     lt     A lexie is an entry of a Papillon monolingual dictionary  The          structure of the articles  that is microstructure of the monolingual  dictionaries  is based on the structure used for the formal lexical  database DiCo of the OLST laboratory at Universite de Montreal  The  encoding methodology is directly borrowed from the explanatory and                      combinatorial lexicology  which is part of the meaning text theory  elaborated by Igor Melc   uk and his colleagues     gt    lt element name  lexie  gt    lt complexType gt    lt sequence gt      lt element ref  d headword  minOccurs  1  maxOccurs 
264. ionnaires    La d  claration d   un espace de noms sur un   l  ment XML se fait avec l   attribut xm1ns  On peut lui  associer localement un raccourci qui sera ensuite utilis   comme pr  fixe par les   l  ments de niveau inf  rieur  d  pendants pour les qualifier  Ce raccourci est s  par   de l   attribut xmlns par      Dans l exemple de la  figure C 12  il est not   par dm1      lt MyElement  xmlns dml  http   www clips imag fr geta services dml  gt      lt dml MyDescendant  gt      lt  myElement gt     FIG  C 12     exemple d utilisation de l   espace de noms DML    Les espaces de noms servent      viter les collisions entre deux   l  ments portant le m  me nom mais  n ayant pas la m  me s  mantique  c   est    dire faisant partie de deux espaces de noms distincts  On peut  par exemple trouver dans un document deux   l  ments pr  fix  s de mani  re diff  rente   lt dml table gt  et   lt html table gt   Ces   l  ments ne seront pas interpr  t  s de la m  me mani  re    Pour noter les liens entre nos documents XML comme des liens intradictionnaires de synonymie ou des  liens interdictionnaires de traduction  nous utilisons la recommandation XLink  XLink 1 0   L espace de  noms xlink est d  clar   avec l   URI suivante  http    www w3 org 1999 xlink    Pour d  crire un document XML  nous pouvons utiliser soit une DTD  D  finition de Type de Document    soit un sch  ma XML  XML Schemas   Les DTD sont celles de SGML  un peu simplifi  es  Elles sont plus  concises que les sch  ma
265. ions de la ressource de fa  on    pouvoir reg  n  rer cette ressource     partir de la forme r  cup  r  e  Nous sp  cifions ce principe en partie C et l   appliquons    la r  cup  ration des    Conclusion 215    dictionnaires FeM  JMDict et DiCo dans le projet Papillon de fa  on    pouvoir reg  n  rer des dictionnaires     partir de la base dans ces formats    10  Le principe de r  ciprocit   consiste    consid  rer que la base devrait   changer des informations avec  des programmes partenaires  Ce principe a   t   exp  riment   dans les maquettes DicoWeb avec les lemma   tiseurs et DicoSz  t  r avec les conjugueurs  Nous avons sp  cifi   ce principe en partie C avec les API de  fournisseurs de services et de ressources  Le projet Papillon impl  mente ces API     Problemes complexes restant a r  soudre    L analyse et la mise au point d   un environnement de cr  ation  manipulation et consultation de ressources  lexicales a fait surgir des probl  mes complexes restant    r  soudre  Ces probl  mes appartiennent    des do   maines vari  s de l   informatique    Le stockage et le calcul des poids ne posent pas de probl  mes lorsqu   on a peu de donn  es et peu d   uti   lisateurs  Par contre  nous pensons arriver au bout de peu de temps    plus de 100 000 articles dans la base   Envisageons que ces articles soient reli  s par environ 300 000 liens et que la base comporte plus de 3 000 uti   lisateurs  Si un poids diff  rent est associ      chaque   l  ment  cela repr  sente plus
266. ire de s   adapter aux   volutions  du domaine  Sa conception doit   tre pens  e pour une utilisation    long terme  L absence de contraintes de  rendement nous permet de rester    un niveau g  n  rique et de ne pas nous restreindre    une t  che particuli  re    Nous ferons d   abord un bilan des exp  riences pr  c  dentes  puis exposerons les probl  mes encore non  r  solus et enfin terminerons par les contraintes d   impl  mentation     5 1  Bilan des exp  riences pr  c  dentes    5 1 1  Sur la consultation en ligne  Pour la consultation de dictionnaires  nous sommes arriv               pr  senter la m  ta information sur les ressources  importante pour pouvoir les s  lectionner et les    valuer et le r  sultat est totalement satisfaisant         pr  senter des dictionnaires h  t  rog  nes de fa  on unifi  e  avec un r  sultat tr  s satisfaisant  bien que  l   on bute sur une impossibilit   de principe  on ne peut pas traiter les informations renvoy  es par les  diff  rents serveurs  et on ne peut donc pas les fusionner ou les filtrer    un niveau fin         donner des moyens    Putilisateur de personnaliser ses requ  tes  Le r  sultat est satisfaisant mais on  voudrait faire bien plus     5 1 2  Sur la construction de dictionnaires    Pour la construction de dictionnaires  nous avons fait progresser deux m  thodes d  ja employ  es avec  succ  s pour des r  alisations importantes  FeM  SAIKAM   La m  thode  d  mocratique  permet de faire des  allers retours entre le lexic
267. iste aai deu ae a a AA dupe    176  2 1 1  Langues pr  sentes au d  part                                 176   2 152  Utilisateurs VIS  S   dia ee muet aber etes Pate meer 176   2 1 3    laboration du serveur                                     176   2 2  Principes lexicologiques                                        177  2 2 1  Architecture pivot de la base                                  177   2 2 2  Articles monolingues  les lexies de la base DICO                      178   2 2 3  Articles interlingues  les axies                                   178   2 3  Ressources    r  cup  rer et calendrier                                  179  2 3 1  Types de donn  es    r  cup  rer          pe eR ge de die entend 179   2 3 2    tapes de la r  cup  ration                                     179   2 4  Description des interactions et sorties                                 180  2 4 1  Types de sorties    produire                                   180   2 4 2  Types de consultation de la base                                180   2 4 3  Ouvertures possibles    d autres modules                           180   3  Sp  cifications externes 181  3 1  Serveur Papillon 2  amp  44 5 visser eae Ge OR ae Se SAN sue dede 181  SALT SC  NATIOS TYPE cet 24 eh dw ew dite ane Se ek ee a nes hate 181   3 1 2  Utilisateurs et groupes                                     183   3 1 3  Outils utilis  s pour construire le serveur                             184   3 2  Structures de  donn  es o s ewe a SG s
268. it en SUBLIM dans  la th  se de Gilles S  rasset  S  rasset94e  et exp  riment   par Etienne Blanc dans PARAX  Blanc96     Chaque langue du projet sera d  crite dans un dictionnaire monolingue  Ces dictionnaires seront reli  s  entre eux par un dictionnaire pivot de liens interlingues appel  s acceptions interlingues  axi   Ces acceptions  seront aussi reli  es entre elles par des liens de raffinement     DiCo fran  ais DiCo japonais    Vocable carte n f    UNL        FIG  D 2     macrostructure du dictionnaire Papillon    Les mots sont repr  sent  s dans les dictionnaires monolingues par des vocables     chaque vocable cor   respond un ou plusieurs sens de mots appel  s lexies  Chaque lexie est li  e    une acception du dictionnaire  pivot    Dans l   exemple de la figure D 2  le vocable fran  ais CARTE a deux sens ou lexies   CARTE    JOUER  et CARTE G  OGRAPHIQUE  La lexie CARTE    JOUER est reli  e    l   acception interlingue 343 et l   autre  lexie CARTE G  OGRAPHIQUE est reli  e    l   acception interlingue 345  L   acception 343 est    son tour li  e     plusieurs lexies de diff  rents dictionnaires monolingues   la lexie KAADO du dictionnaire japonais  la lexie  CARD I  playing card  du dictionnaire anglais  la lexie CARTE    JOUER du dictionnaire fran  ais  etc    Pour trouver la traduction en japonais de la lexie fran  aise CARTE    JOUER   il faut donc passer par  l   acception interlingue 343 reli  e    cette lexie  Cette acception est reli  e    la lexie japonai
269. italique pour les cat  gories grammaticales     Le serveur doit donc proposer un syst  me de pr  f  rences pour chaque utilisateur  Les pr  f  rences doivent    tre stock  es sur le serveur pour pouvoir   tre utilis  es lors d   une prochaine session  Il faut aussi pouvoir les  changer dynamiquement en cours de consultation    Plus g  n  ralement  les profils des utilisateurs seront stock  s dans leur espace virtuel  Ces profils sont  divers  pr  f  rences  comp  tences  int  r  ts  et peuvent varier selon les ressources  Une personne peut par  exemple contribuer    la prononciation d   un dictionnaire fran  ais et consulter un dictionnaire bilingue anglais   japonais    Les profils se r  partissent dans plusieurs dimensions et le syst  me doit les affiner automatiquement en  fonction des actions des utilisateurs     1  Sp  cifications externes de l   environnement 119    1 3 2  R  daction des articles    La r  daction des articles et des liens entre les articles impose plusieurs formes de contraintes  En effet   plusieurs cat  gories de personnes sont amen  es    contribuer    la construction d   un dictionnaire  Les types de  contribution peuvent   tre tr  s diff  rents  Les plates formes pour lexicographes seront donc n  cessairement  diff  rentes pour r  pondre aux besoins de tous les contributeurs     Accessibilit      La plate forme doit   tre accessible et utilisable par le plus grand nombre de personnes possibles  Chaque  personne souhaitant contribuer doit pouvoir le
270. itet94  Christian Boitet  amp  Marc Seligman  1994  The  Whiteboard  Architecture  A Way to Integrate  Heterogeneous Components of NLP Systems  Proc  COLING 94  Kyoto  Japan  5 9 August  1994  M  Nagao ed  vol  1 2  pp  426 430      Boufaida98  Mahmoud Boufaida  amp  Zizette Boufriche Boufaida  1998  On extending a Semantic Data  Model with Some Aspects of Rules and Objects  Proceedings of the 5th KRDB Workshop   Seattle  WA  7 p      Bonhomme98  St  phane Bonhomme  1998  Transformation de documents structur  s  une combinaison  des approches explicites et automatique  Th  se de nouveau doctorat  Sp  cialit   Informatique   Universit   Joseph Fourier Grenoble 1  212 p      Briscoe93  Ted Briscoe  Valeria De Paiva    Anne Coperstake  1993  Inheritance  Defaults and the Lexi   con Cambridge University Press  Cambridge  298 p      Buseman96  A  Buseman et al   1996  The Linguist s Shoebox  Summer Institute of Linguistics  111 p      Byrd87  R  J  Byrd et al   1987  Tools and Methods for Computational Lexicology  Journal of Compu   tational Linguistics  13 3 4  pp  219 240      Calzolari90  Nicoletta Calzolari  1990  Acquisition of Lexical Information from a Large Textual Italian  Corpus  Proc  COLING 90  Helsinki  H  Karlgren ed   vol  3 3  pp  54 59      Calzolari89b  Nicoletta Calzolari  amp  R  Bindi  1989  Lexical Databases and Textual Corpora  Perspec   tives of Integration for a Lexical Knowledge Base  Technical Report  Universita di Pisa  Di   partimento di linguistica  1
271. ith obj    usu  be abbreviated  shorten  a word  phrase   or text   the business of artists and repertoire  commonly  abbreviated to A  amp  R   as adj    abbreviated  this book is an  abbreviated version of the earlier work     ORIGIN  late Middle Enelish  from late Latin abbreviat    shortened   from the verb abbreviare  from Latin brevis  short      FIG  A 6     pr  sentation de l   article abbreviate du NODE    Format du dictionnaire    Ce dictionnaire est aussi publi   par OUP  Le format interne est donc SGML  Le dictionnaire est stock    dans deux fichiers  un pour le volume anglais fran  ais et un pour le volume fran  ais anglais  Leur taille est  d   environ 15 m  gaoctets chacun  La prononciation est not  e avec      API    Le tableau A 2 d  crit les   l  ments SGML de l   exemple de la figure A 7        TAB  A 2       l  ments SGML du DHO     lt se gt  lt hw gt abr amp ea ger lt   hw gt  lt pr gt  lt ph gt abKeZe lt  ph gt  lt  pr gt     lt hg gt  lt ps gt  vtr lt  ps gt  lt  hg gt  lt s2 num 1 gt   lt ic gt rendre court lt  ic gt   to shorten    lt co gt mot expression lt  co gt    to summarize   lt co gt  texte  discours lt  co gt      lt sl gt    amp hw     amp o0q t amp ea l amp ea vision  cq  en  amp oqg t   amp ea l amp ea  amp cq  lt  sl gt  to  shorten  amp 0q television  cq  to  amp 0q TV amp cq         lt  se gt     FIG  A 7     l   article abr  ger du DHO en format original  SGML      Le mot vedette abr  ger est suivi de sa prononciation  de sa cat  gorie
272. ition de la lexie MEURTRE avec Word                             201  D 10   dition de la lexie MEURTRE avec Amaya                            202  D 11 requ  te sur la base Papillon                                      203  D 12 r  partition d   un article du FeM en lexies et axies                                   205  D 13 r  partition d   un article de JMDict en lexies et axies                          206  D 14 fusion manuelle de certaines lexies anglaises                               208  D 15 axies apr  s fusion manuelle de certaines lexies anglaises                      209  D 16 ajout d   axies interm  diaires so s coso aoe ee 210  D 17 ajout de liens de raffinement entre axies                               210    A l organisation des   l  ments de DML                                 233    xil Table des figures    Introduction    Introduction 3    Situation et motivations    Partout dans le monde  les centres de recherche publics et priv  s en traitement automatique des langues  naturelles  TALN  accumulent de plus en plus de ressources lexicales de formats h  t  rog  nes pour les be   soins de leurs diverses applications  Ces ressources sont difficiles    maintenir et    manipuler  Il faut souvent  reconstruire de z  ro un dictionnaire ad hoc pour chaque nouvelle application    L utilisation d   Internet favorise la communication entre individus  Ceux ci ont  de ce fait  besoin de  communiquer    travers des langues diff  rentes et donc d   utiliser et aussi   ventu
273. l   ensemble jours feri  s comme   tant le samedi et le dimanche     Disjonction    La disjonction est aussi d  finie au niveau de la d  finition des documents  Dans un sch  ma XML  la  disjonction est not  e avec l     l  ment  lt xsd  choice gt  de la fa  on suivante    lt complexType name  section  gt    lt sequence gt    lt choice gt    lt element name  paragraphe  type  string   gt    lt element name  illustration  type  string   gt    lt  choice gt    lt  sequence gt    lt  complexType gt   Cet exemple d  finit une section comme   tant une succession de paragraphes et d illustrations     Types de base    Le type de base d   un document XML est la chaine de caract  res  Grace aux sch  mas XML  nous pouvons  utiliser un certain nombre d autres types de base repr  sent  s par la figure C 19     enr inde  orc fy an  cepa as RS ED a  ring  boolean   ENTITY  ID  IDREF  OName  binary  decim       FIG  C 19     types simples des sch  mas XML    2  D  finition du noyau de l   environnement avec SUBLIM 143    H  ritage    Le m  canisme d   h  ritage de LINGARD est r  alis   en XML par un programme impl  mentant une API  DOM  DOM      l heure actuelle  les principaux langages de programmation r  pandus comme C  C    java   Perl impl  mentent le DOM     2 3 3  V  rificateurs de coh  rence    Nous avons vu dans le chapitre pr  c  dent comment r  diger une contrainte de coh  rence gr  ce au lan   gage de v  rification de coh  rence inclus dans SUBLIM  Nous allons voir maintenant comm
274. l   gt    lt  volumes gt    lt  dictionary gt     Description d   un volume    L   l  ment  lt volume gt  regroupe des articles de dictionnaires ayant la m  me langue source  La des   cription formelle de cet   l  ment est contenue dans le sch  ma DML en annexe de ce document  Elle est  r  f  renc  e par l   attribut xsi   schemaLocat ion    Les modifications de l     l  ment  lt volume gt  et de ses descendants sont stock  es dans le document point    par l   attributhistory ref    L exemple suivant est la version XML de la figure C 6 d  crivant le volume du dictionnaire FeM     lt volume   xsi schemaLocation  http   clips imag fr geta services dml   http   clips imag fr geta services dml dml xsd    history ref  http   clips imag fr geta services dml fem his xml   name  FeM_fr_en ms        source language  fra  gt    lt article gt     articles   lt  volume gt   2 3 2  D  finitions de microstructure    Pour repr  senter les microstructures des dictionnaires  nous proposons d   une part de reprendre les struc   tures d  finies avec LINGARD en XML et d   autre part de d  finir quelques structures de traits de base  Nous  reprenons ici la sp  cification de LINGARD point par point     Arbres    Pour repr  senter un arbre de d  pendances associ      la phrase  Le chat mange une souris    par exemple   on peut utiliser un   l  ment  n  ud d  cor     lt nd gt  avec des attributs correspondant aux variables grammati   cales            lt nd ul  manger  time  present  aspect  imperfec
275. l eds  1995  pp  288 294     Christian Boitet  1997  GETA s methodology and its current development towards personal  networking communication and speech translation in the context of the UNL and C STAR  projects  Proc  PACLING  Ohme  Tokyo  Japon  PACLING  vol  1 1  pp  23 57     Christian Boitet  Etienne Blanc  Mathieu Mangeot Lerebours  Pierre Guillaume  Nicolas  N  deau  Mutsuko Tomokiyo  amp  Jerzy Sitko  1998  Processing of French in the UNL Project   Year 1   Final Report  The United Nations University and Universit   Joseph Fourier  Gre   noble  mars 1998  216 p     Christian Boitet  Pierre Guillaume  amp  Maurice Quezel Ambrunaz  1982  ARIANE 78  an inte   grated environment for automatic translation and human revision  Proc  COLING 82  Prague   July 1982  pp  19 27     Christian Boitet  amp  Nicolas Nedobejkine  1982  Base lexicale   organisation g  n  rale et in   dexage Rapport final  projet ESOPE ADI  partie D  GETA  Grenoble  1982  30 p     Christian Boitet  amp  Nicolas Nedobejkine  1986a  Toward Integrated Dictionary for M A T   Motivations and Linguistic Organisation  Proc  COLING 86  Bonn  25  29 ao  t 1986 vol   1 1  pp  423 428     Bibliographie 219     Boitet86b  Christian Boitet  amp  Nicolas Nedobejkine  1986b  Vers une base lexicale int  gr  e pour la  T a O   motivations et organisation linguistique  Proc  Journ  es francophones de l   informa   tique  bases de donn  es et bases de connaissances  Grenoble  janvier 1986  vol  1 1  pp  151   169      Bo
276. la base peuvent avoir besoin d   annoter les parties de ressources qu   ils consultent   Les lexicographes et les contributeurs ont besoin de partager des remarques sur des parties d   articles en  cours de r  daction  Les lecteurs peuvent ajouter leurs remarques personnelles et se construire leur propre  dictionnaire personnel  Il faut aussi pouvoir annoter des liens interlingues    Les annotations doivent donc pouvoir   tre partag  es par plusieurs utilisateurs ou groupes d   utilisateurs   Ces groupes peuvent   tre des lexicographes travaillant sur la m  me ressource  des contributeurs qui ont en  commun les m  mes langues  etc    Du c  t   des clients  il faut une interface permettant d   annoter n   importe quelle partie d   information  disponible sur la base  Du c  t   du serveur  il faut d une part stocker les informations de gestion pour les  utilisateurs et les groupes mais aussi stocker pour chaque utilisateur un dictionnaire personnel d   annotations       change entre bases lexicales    Les bases lexicales sont en constante   volution  Certaines peuvent   tre r  parties sur le r  seau  Pour  qu   elles puissent se synchroniser  il faut leur permettre d     changer des donn  es  Par exemple  un nouvel  article r  dig   sur une base sera r  percut   sur les autres bases  Ces   changes de donn  es entre bases lexicales  partenaires doivent pouvoir se faire automatiquement  Il faut donc   laborer un protocole d     change entre  bases lexicales et clients fournisseur
277. laisser       abandonner           E  nCCE             sert src gt army     d  serter desert    desert obj place  A  abandonner    aesertiobj human placelra      A       ert obj human   desertiirioatate  desert aoj gt ground   desert icl gt punishment  e sent                  PT aeCEAGCE  ina                            inxight Je    FIG  B 20     article desert de la base lexicale UNL    3 3  Annotation d   un article de dictionnaire    Lors de la consultation d   un dictionnaire  les utilisateurs souhaitent souvent ajouter des remarques sur  des articles d  j     crits  Lors de la r  daction  les r  dacteurs souhaitent faire des commentaires sur des in   formations qu   ils veulent ajouter mais ne savent pas comment ajouter  Ces annotations doivent pouvoir   tre  partag  es entre groupes d utilisateurs et de r  dacteurs     3 3 1  Notre outil    Partant de ce constat  nous avons impl  ment   une maquette permettant d   annoter les dictionnaires  consultables sur nos serveurs comme DicoWeb  FeM  etc  Les annotations sont stock  es sur un serveur   Chaque utilisateur g  re son propre dictionnaire d   annotations  Il peut partager ses annotations avec plusieurs  groupes d utilisateurs     Lorsqu un utilisateur recherche une entr  e  notre outil consulte le serveur d   annotations et affiche les  annotations appartenant aux groupes dont fait partie l   utilisateur  Ensuite  l   utilisateur peut modifier ses  annotations ou en cr  er de nouvelles    partager   ventuellement entre
278. le  si l   uti   lisateur ne s  lectionne que l   anglais comme langue source et cible  le script consultera le dictionnaire NODE  monolingue anglais et la base ELRA  S   il choisit le fran  ais comme langue source et l   anglais comme langue  cible  le script consultera le dictionnaire FeM  le OHD fran  ais anglais et la base ELRA  S   il choisit l   espa   gnol comme langue source  le script ne consultera que la base ELRA    La base ELRA et le dictionnaire FeM sont multilingues  Si l   utilisateur n   a s  lectionn   que certaines  langues cibles  par exemple l   anglais  le malais du FeM et les autres langues de la base ELRA ne sont pas  affich  es  Cela permet de personnaliser l   affichage en fonction des demandes de l   utilisateur  Les diction   naires ne subissent aucune modification  ils sont consult  s directement dans leur format d   origine    Perl dispose d   un puissant langage d   expressions r  guli  res     chaque dictionnaire correspond une ex   pression r  guli  re  Pour chercher une entr  e du OHD  par exemple  on utilisera le patron    lt   hc  w gt Sentry lt    o   Sentry repr  sente l   entr  e demand  e    Le dictionnaire FeM est unidirectionnel  du fran  ais vers l   anglais et le malais  Cependant  gr  ce aux  expressions r  guli  res  nous pouvons chercher la traduction d un mot malais en fran  ais ou plus exactement   chercher dans quelles entr  es fran  aises appara  t ce mot malais  L utilisateur pourra alors se faire une id  e  de la traduction 
279. lectronique  Les lexico   logues g  rent les contributions  Ils les r  visent et les int  grent aux ressources existantes  Ils proposent aussi  des listes de choses    faire par les contributeurs     184 D   Application    Papillon  projet de base lexicale multilingue sur Internet    Les utilisateurs peuvent se constituer en groupes pour partager des annotations et des contributions  cr  er  une liste de distribution par courrier   lectronique  etc  Ils doivent   tre au minimum deux pour constituer un  groupe  Ils envoient leur demande    un aministrateur qui cr  e le groupe     Liste des commandes    Pour g  rer les diff  rents utilisateurs et groupes  le serveur interpr  te les commandes suivantes          cr  ation d   un nouvel utilisateur       modification des donn  es d   un utilisateur       suppression d   un utilisateur existant       cr  ation d   un nouveau groupe       ajout d   un utilisateur dans un groupe       suppression d   un utilisateur dans un groupe        suppression d   un groupe    Le serveur Web de Papillon doit proposer des interfaces sous forme de formulaires HTML permettant  d   acc  der    ces commandes  Par exemple  pour l   ajout d   un nouvel utilisateur dans la base  celui ci devra  renseigner cinq champs du formulaire HTML   nom  pr  nom  login  mot de passe et adresse   lectronique   Le formulaire HTML envoie ensuite les donn  es au serveur qui ex  cute la commande  cr  ation d   un nouvel  utilisateur  avec ces donn  es comme param  tres 
280. les bases de donn  es  dictionnairiques  Journ  e ANRT   Les CIFRE dans le domaine de l   audiovisuel  Institut Na   tional de l    Audiovisuel  23 septembre 99  Paris  4 p      Mangeot99b  Mathieu Mangeot Lerebours  1999b  Acc  s unique    des dictionnaires h  t  rog  nes  Proc   LTT   99  VIe Journ  es scientifiques du R  seau th  matique de l    AUF Lexicologie  Terminolo   gie  Traduction    diteurs A  Clas  H  Awaiss et J  Hardane  Beyrouth  Liban  11 13 novembre  1999  pp 311 316      Mangeot00  Mathieu Mangeot Lerebours  2000  Papillon Lexical Database Project  Monolingual Dictio   naries  amp  Interlingual Links  WAINS   7  7th Workshop on Advanced Information Network and  System  7 8 d  cembre 2000  Kasetsart University  Bangkok  Tha  lande     para  tre       Meijs92  Willem Meijs  1992  Computers and Written Texts Chapitre 6  Butler  C  editor  Oxford  Basil  Blackwell  Ltd  pp  141 165      McCord89  Michael C  McCord   1989  Design of LMT  A Prolog based machine translation system   Computational Linguistics  1989  Vol 15 1   pp  33 52         Melcuk92  Igor Mel tchuk  1984  1988  1992  DEC   Dictionnaire Explicatif et Combinatoire du francais  contemporain  recherches lexico s  mantiques I  II et III  Presses de l   Universit   de Montr  al   Montr  al  Qu  bec   Canada  172 p   332 p  et 323 p      Melcuk95  Igor Mel   tchuk  Andr   Clas  amp Alain Polgu  re  1995  Introduction    la lexicologie explicative  et combinatoire  Louvain la neuve  ed  Duculot  256 p
281. leur  signification  Un tel ensemble constitue la DTD  Document Type Definition  qui est une sorte de grammaire  hors contexte    SGML permet de d  finir des hi  rarchies multiples et permet aussi de ne pas fermer ou ouvrir des balises   Pour l   analyse  il faut alors imp  rativement se servir de la DTD  Dans l   exemple suivant  toutes les balises  ne sont pas ferm  es     lt semaine gt     lt jours feries gt    lt jour num 6 gt samedi   lt jour num 7 gt dimanche   lt  semaine gt     5 2 2  Un standard plus r  cent   XML et ses d  riv  s    XML  Connolly97  est apparu en 1997  C   est un sous ensemble simplifi   de SGML  Les recherches  sur XML ont donn   naissance    une recommandation du W3C  XML 1 0  respectant la norme UNICODE   15093   XML rend possible la repr  sentation d une grande vari  t   d   information  Toutes ces caract  ristiques  garantissent la lisibilit   par de humains  ainsi que la p  rennit   et la compatibilit   avec un nombre croissant  d outils  De plus  comme XML est un sous ensemble de SGML  la conversion de dictionnaires bien form  s  au niveau XML n est pas n  cessaire  Comme XML est un format textuel  il sera toujours possible de lire les  fichiers originaux encod  s en XML    Un document XML a une structure en forme d   arbre comme SGML mais avec un seul   l  ment racine   Tous les   l  ments ont une balise ouvrante et une balise fermante  Les balises facultatives de SGML ne sont  plus autoris  es  ce qui rend beaucoup plus facile   regard en a
282. lexType gt    lt  element gt    lt  l    politeness element  gt    lt     language level    gt    lt element name  politeness  gt    lt complexType gt    lt attribute name  grade  type  d politenessType   gt    lt  complexType gt    lt  element gt    lt  l    politeness grade type    gt    lt     has to be redefined into the language specific schemata    gt    lt simpleType name  politenessType  gt    lt restriction base  string   gt    lt  simpleType gt    lt     usage element  gt    lt     language level    gt    lt element name  usage  gt    lt complexType gt    lt attribute name  grade  type  d usageType   gt    lt  complexType gt    lt  element gt    lt     usage grade type    gt    lt      has to be redefined into the language specific schemata    gt                       262 Annexe B   sch  mas XML pour Papillon     lt simpleType name  usageType  gt    lt restriction base  string   gt                  lt  simpleType gt    lt I reference element  gt    lt     language level    gt    lt element name  reference  gt    lt complexType gt    lt attribute name  grade  type  d referenceType   gt    lt  complexType gt    lt  element gt    lt I reference grade type     lt      has to be redefined into the language specific schemata    gt                  lt simpleType name  referenceType  gt    lt restriction base  string   gt               lt  simpleType gt    lt  l    semantic formula element    gt    lt     comes from the meaning text theory    gt      lt element name  semant
283. lexicologue peut souhaiter int  grer ce dictionnaire r  cup  r   au dictionnaire Papillon pour  constituer un squelette  Pour cela  il d  crit l   algorithme de manipulation du dictionnaire en partie avec le  langage PRODUCDIC et en partie avec des commandes du syst  me Papillon  Il envoie ensuite cet algo   rithme au syst  me  Ce dernier manipule alors automatiquement le dictionnaire r  cup  r   pour compl  ter le  dictionnaire Papillon  Si le dictionnaire r  cup  r   est envoy   par un contributeur  celui ci obtient des points  de cr  dit pour sa contribution     3 1 2  Utilisateurs et groupes  Utilisateurs    Lors de leur premi  re connexion  les utilisateurs sont invit  s    s   enregistrer dans la base  Ils doivent  fournir leur nom  pr  nom  un login et un mot de passe ainsi qu   une adresse courriel  Ils peuvent aussi  indiquer leurs int  r  ts  leurs comp  tences  et   ventuellement leur d  sir d   apporter    la base le contenu de  fichiers dont ils disposent  Un espace virtuel leur est ensuite allou   avec un capital de points de d  part pour  les contributions  Ils peuvent ensuite stocker leurs pr  f  rences  annotations  contributions  etc     Groupes    Au d  part  trois groupes pr  d  finis sont enregistr  s sur le serveur   l   univers  ensemble de tous les uti   lisateurs   les administrateurs et les lexicologues  Les administrateurs cr  ent des comptes utilisateurs et des  groupes  administrent les serveurs Web  ftp et les listes de discussion par courrier   
284. lexies anglaises dont le mot vedette est une traduction anglaise contenue dans  Particle  L   identificateur de la lexie suivante porte le num  ro 2 car une pr  c  dente lexie a d  j     t   cr    e avec    ce mot vedette lors de la r  cup  ration du FeM    lt lexie id  to abandon 2  basic  no  gt    lt headword gt to abandon lt  headword gt    lt axies gt    lt refaxie href  a44   gt    lt  axies gt     208 D   Application    Papillon  projet de base lexicale multilingue sur Internet       lexie gt   Cette lexie est aussi reli  e    l   axie a44     5 2 4  Axies provenant de l   article    L article g  n  re une axie reliant la lexie japonaise et les lexies anglaises  Voici l   axie a44 reliant les  deux lexies pr  d  centes      lt axie id  a44  gt    lt eng gt    lt reflexie href  to fail 1   gt    lt reflexie href  to abandon 2   gt    lt reflexie href  to desert 2   gt    lt  eng gt    lt jpn gt    lt reflexie href  mizuteru 1   gt    lt  jpn gt     lt  axie gt        5 3  Fusion   ventuelle de lexies anglaises    Le travail automatique est termin    Le contenu de la base est maintenant r  vis   par des sp  cialistes  lexicologues qui d  cident de fusionner ou de s  parer des lexies ou des axies  Dans la suite  nous imaginons  qu   un linguiste sp  cialiste de l   anglais d  cide de fusionner les deux lexies anglaises to desert 1 etto  desert 2 d une part  puis les deux lexies anglaises to abandon 1 et to abandon 2 d   autre part     figure D 14    abandonner 3       aba
285. linguistiques  et microstructures  structures lexicales  pour repr  senter  les donn  es          des outils permettant la manipulation des ressources lexicales          un environnement de construction de dictionnaires en coop  ration et de navigation consultation dans  une base lexicale     1 2  Architecture g  n  rale du projet    La base lexicale devra r  sider sur un serveur reli      Internet  Le d  veloppement des ressources se fera     distance par les contributeurs  Le sc  nario est le suivant  ceux ci envoient leurs contributions  Elles sont  stock  es dans leur espace virtuel avant d     tre r  vis  es par les lexicologues  Une fois r  vis  es  les contri   butions sont int  gr  es    la base lexicale  La base est ensuite consult  e via Internet par les utilisateurs  qui  peuvent configurer le r  sultat de leurs requ  tes     Utilisateur Utilisateur  Lexicologue Contributeur    Articles Articles Articles Articles    Base Lexicale  Papillon                                                         y y  Int  gration des   lt               Contributions  contributions    Int  gration des  ressources d   origine    FeM JMDict ins DiCo  er    FIG  D 1     vue globale de la base lexicale Papillon         La m  thode retenue est de construire une base lexicale multilingue     pivot  et d en extraire des diction   naires bilingues ou multicibles    la vol  e ou hors ligne  avec ou sans filtrage  et dans des formats vari  s  pour  usages humains et machinaux  Pour chaque lang
286. lobale suivante  l     l  ment axie indiqu    comme cible sur un lien du dictionnaire French existe bien dans le dictionnaire Pivot  Cette contrainte porte  sur tous les liens du dictionnaire French  L expression bool  enne de la figure C 11 v  rifie l   existence de  l   axie cible dans le dictionnaire Pivot     2  D  finition du noyau de l   environnement avec SUBLIM 127     def linguistic class axie        feature structure   id integer    semantic cat string    fra  set of reflexie      external references  set of reference     def linguistic class reflexie   link  source Pivot  axie   target French  lexie              FIG  C 10     microstructure du dictionnaire Pivot        define coherence rule verification target link   applies on  French  refaxie  target  axie    verifies  exist  Pivot   axie    rror message  L axie cible du lien n   existe pas     level  critical           FIG  C 11     exemple de r  gle de coh  rence en SUBLIM    Critique    Le niveau bases de donn  es limite le stockage    une base de donn  es locale  Or le stockage des ressources  ne se fait pas forc  ment en local  Il faut aussi pouvoir interagir avec des ressources distantes r  pondant    un  protocole de communication sp  cifique    L   interaction avec les clients et les fournisseurs n   a pas   t   abord   dans la d  finition de SUBLIM  Il faut  sp  cifier des interfaces pour que le niveau interne communique avec le niveau fournisseurs de stockage des  donn  es et le niveau d   interaction a
287. lt     example element  gt    lt  l   a usage example of a lexie    gt            lt element name  example  gt    lt complexType mixed  true  gt    lt attribute ref  d id  use  optional   gt    lt attribute ref  d lang   gt    lt attribute ref  xlink href  use  optional   gt            lt  complexType gt    lt  element gt    lt     examples element  gt    lt     lists some full idioms containing the lexie    gt      lt element name  full idioms  gt     1  Sch  ma g  n  ral de Papillon 265     lt complexType gt    lt sequence maxOccurs  unbounded  gt    lt element ref  d idiom   gt      lt  sequence gt    lt  complexType gt    lt  element gt    lt     idiom element    gt    lt     a full idioms containing the lexie    gt         lt element name  idiom  gt    lt complexType mixed  true  gt    lt attribute ref  d id  use  optional   gt    lt attribute ref  xlink href  use  optional   gt            lt  complexType gt    lt  element  gt    lt  axies element     lt     lists all the references to axies Normally  a lexie should be  linked to only one axie  Non conforming cases should be signalled to  the lexicologists     gt    lt element name  axies  gt    lt complexType gt      lt sequence maxOccurs  unbounded  gt    lt element ref  d refaxie   gt                              lt  sequence gt    lt  complexType gt    lt  element gt    lt  refaxie element a   lt I references to an axie with an xlink  The link can be tagged  with a gloss     gt    lt element name  refaxie  type  d re
288. lt element ref  d reflx   gt    lt  sequence gt    lt attribute ref  d resource   gt    lt  complexType gt    lt  element gt    i reflx element  gt    lt     Represents a LexiGuide concept corresponding to the axie     gt    lt element name  reflx  type  d refType   gt    lt  schema gt           272 Annexe B   sch  mas XML pour Papillon    3  Sch  ma de Papillon francais        lt     XML Schema for Papillon French lexies volume for the Papillon  lexical database  In this schema are define all the language specific  elements like parts of speech  etc  Namespace    http   www clips imag fr geta services dml  This schema is identified by the location   http   www clips imag fr geta services dml papillon fra xsd  SAuthor  mangeot   Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr   Date  2001 09 15 09 37 10    SRevision  1 14      gt    lt schema targetNamespace  http   www clips imag fr geta services dml  gt    lt annotation gt    lt documentation xml lang  en  gt  XML Schema for  Papillon French lexies volume for the Papillon lexical  database  In this schema are define all the language  specific elements like parts of speech  etc  Namespace    http    www clips imag fr geta services dml This schema is identified by  the location  http   www clips imag fr geta services dml papillon fra xsd   lt  documentation gt    lt  annotation gt                                                lt   Redefining elements of Papillon common schema     lt redefine  schemaLocation  http   www cli
289. lt enumeration value  loc    gt    lt       locution adjectivale    gt    lt enumeration value  loc  adj    gt    lt     locution pr  positionnelle    gt    lt enumeration value  loc  prep    gt    lt        locution adverbiale    gt    lt enumeration value  loc  adv    gt    lt     locution nominale    gt    lt enumeration value  loc  nom    gt    lt frestriction gt    lt  simpleType gt    lt  redefine gt      lt  schema gt     4  Sch  ma de Papillon japonais 275    4  Sch  ma de Papillon japonais        lt     XML Schema for Papillon Japanese lexies volume for the Papillon  lexical database  In this schema are define all the language specific  elements like parts of speech  numeric specifiers  etc  Namespace         http   www clips imag fr geta services dml  This schema is identified by the location   http   www clips imag fr geta services dml papillon jpn xsd   SAuthor  mangeot   Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr   Date  2001 09 15 09 37 10     SRevision  1 14      gt     lt schema targetNamespace  http   www clips imag fr geta services dml  gt                  lt annotation gt    lt documentation xml lang  en  gt  XML Schema for Papillon  Japanese lexies volume for the Papillon lexical database  In          this schema are define all the language specific elements  like parts of speech  numeric specifiers  etc  Namespace    http    www clips imag fr geta services dml This schema is identified by  the location  http   www clips imag fr geta services dml pa
290. lt enumeration value  state   gt    lt enumeration value  gloss   gt    lt enumeration value  idiom   gt    lt enumeration value  citation   gt    lt enumeration value  proverb   gt                                             lt  restriction gt    lt  simpleType gt    lt  element gt    lt     language links group    gt    lt     This group contains the links from the axie to the monolingual  lexies  All the links to lexies of one language are grouped into a  language element  It has to be redefined in the schema specific to the  axies volume    gt    lt group name  languages links  gt    lt all  gt    lt  group gt   ZI refinements element     lt  l    lists all the axies that refines this axie    gt    lt element name  refinements  type  d refaxiesType   gt    lt     generalizations element    gt    lt     lists all the axies that generalize this axie    gt    lt element name  generalizations  type  d refaxiesType   gt    lt     synonyms element    gt    lt  l     lists all the axies synonyms of this axie    gt    lt element name  synonyms  type  d refaxiesType   gt    lt     refs type    gt    lt     lists all the axies synonyms of this axie    gt    lt complexType name  refsType  gt    lt sequence gt         lt element ref  d reflexie  minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d refexample  minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d refidiom  minOccurs  0  maxOccurs  unbounded   gt         lt  sequence gt     1  Sch  ma g  n  ral de Papill
291. ltilingue  cr  ation ou re   cherche puis import de fiches multilingues  gestion locale des informations conceptuelles  lexicales et  s  mantiques selon les droits du r  dacteur sur les langues concern  es  export puis validation de la fiche  modifi  e          un outil d exploration de publications multilingues de r  f  rence  align  es par paires de langues         un espace interactif de communication permettant aux r  dacteurs d   interagir efficacement          62 A   Contexte actuel de la  dictionnairique         des solutions pour d  river de cette base divers produits tels que des glossaires bilingues ou trilingues   et des dictionnaires monolingues         un outil de r  troconversion des 3 dictionnaires monolingues initiaux en une unique base terminolo   gique  approche conceptuelle  multilingue         de larges possibilit  s d   extension du syst  me  ajout de nouvelles langues et de responsables   DHY   DRO comporte   galement une interface web offrant ainsi au plus grand nombre un acc  s direct aux  donn  es hydrographiques  recherche sur le contenu dans les diverses langues et pr  sentation des  r  sultats selon divers formats      6 1 2  G  n  ricit   et flexibilit   de Dhydro    Les outils sont adapt  s mais totalement ind  pendants d   une part de tout domaine terminologique et  d   autre part de toute plate forme mat  rielle  Les efforts ont principalement port   sur          l   utilisation intensive de normes et de standards existant dans les champs des t
292. lumes  un volume  tri   selon les mots vedettes d   une langue et donnant les traductions de ces mots vedettes dans une autre  langue  et un autre volume sym  trique  Ce sont des dictionnaires bilingues bidirectionnels  Ces dictionnaires  bilingues sont rarement bijectifs     chaque mot vedette d   une langue ne correspond pas une traduction et  une seule dans l   autre langue  sauf certains lexiques terminologiques simplifi  s  Par exemple  un dictionnaire  bilingue bidirectionnel anglais fran  ais est compos   de deux volumes  un volume anglais  gt  fran  ais et un  volume fran  ais  gt  anglais     1  Notions du domaine 9    nglish  a       English    English LA    Monolingue    En   toile    Fra Eng  Eng Era Fran  Fra Eng Eng  Eng Fra May    Bilingue Multilingue  Bidirectionnel Monodirectionnel    FIG  A 1     exemples de macrostructures    Une macrostructure plus   labor  e destin  e aux bases lexicales multilingues consiste    organiser en   toile  autour d   un dictionnaire central de concepts ou d   acceptions des dictionnaires monolingues contenant dans  chaque langue de la base les traductions des concepts ou acceptions du dictionnaire central  Le dictionnaire  central joue le r  le de pivot de la base  Ce sont des bases de concepts ou d acceptions comme la base PARAX   Blanc95 97  d  velopp  e au GETA ou le projet ULTRA dirig   par Yorick Wilks  Farwell92     Dans une base de concepts  ceux ci sont d  finis en premier  On cherche ensuite comment ils sont traduits  
293. ment racine du r  sultat est   fusion    gt    lt fusion gt    lt xsl variable name  source  select  document   f_source     gt    lt xsl variable name  ref  select  document   f_ref    gt    lt     copie du fichier  f_source dans le r  sultat    gt    lt xsl copy of select   source   gt    lt      copie du fichier  f_ref dans le r  sultat    gt    lt xsl copy of select  Sref   gt    lt  fusion gt      lt  xsl template gt    lt  xsl stylesheet gt   Nous voulons v  rifier la contrainte de coh  rence globale suivante   l     l  ment axie indiqu   comme cible  sur un lien du dictionnaire French existe bien dans le dictionnaire Pivot  Cette contrainte porte sur tous les  liens du dictionnaire French  elle v  rifie l   existence de l   axie cible dans le dictionnaire Pivot    lt xsl stylesheet version  1 0  gt            lt     application du mod  le sur le n  ud fusion    gt    lt xsl template match  fusion  gt    lt     application du mod  le identification pour chaque refaxi  gt      lt xsl for each select  dictionary lexie axies refaxie  gt        2  D  finition du noyau de l   environnement avec SUBLIM 145        lt xsl call template name  identification   gt    lt  xsl for each gt    lt  xsl template gt    lt   model identification    gt    lt xsl template name  identification  gt    lt xsl variable name  axicour  select  string attribute  href    gt    lt xsl value of select  Saxicour   gt                  lt     pour chaque axie    gt    lt xsl for each select   fusion dic
294. ments    Pour noter l   encodage des diff  rents documents de la base  nous d  finissons dans le sch  ma DML le  type encodingType  Les valeurs de ce type sont celles d  crites par   IANA  Internet Assigned Number  Authority  pour les encodages  Ce sont aussi les valeurs utilis  es pour les types MIME  Multipurpose In   ternet Mail Extension   Parmi les plus utilis  es nous trouvons ASCII sur 7 bits  ISO 8859 1 sur un octet  8  bits  pour les langues latines  Shift JIS sur un ou deux octets pour le japonais  UTF 8 sur un octet pour les  caract  res Unicode  etc     Statut d   un   l  ment    D attribut DML status d   un   l  ment est utilis   pour indiquer son statut  Il peut prendre entre autres  les valeurs auto si l     l  ment a   t   fabriqu   automatiquement  rough si l     l  ment n   a pas encore   t   r  vis     revised s il a   t   r  vis    etc     Poids d   un   l  ment    Nous pr  voyons d   utiliser des syst  mes de poids sur les   l  ments de notre base  Cela devrait permettre de  personnaliser des pr  f  rences ou de noter des fr  quences en ne m  morisant que les poids  et de transformer  toute la base en une sorte de  r  seau neuronal   V  ronis90  susceptible d apprentissage    Cependant  si nous voulons impl  menter plusieurs syst  mes de poids  nous devons s  parer les   l  ments  et les liens entre   l  ments de leur poids  Les   l  ments et les liens doivent porter des identificateurs uniques   Cela permettra de les r  f  rencer et de leur associer plus
295. n  L   l  ment  lt langSet gt  contient  une section de langue  Ici  il y a une section pour l   anglais et une section pour le hongrois  L   l  ment  lt t ig gt    term information group  repr  sente une section terminologique compos  e d   un terme et de l   information  associ  e  L   l  ment  lt termNote type    termType     gt  est la cat  gorie ISO 12620 du terme        Conclusion 65    Conclusion    Cette partie nous a permis d   identifier les limites des outils actuels et d   imaginer des voies de recherche  possibles pour nos futures exp  rimentations    Pour la consultation de dictionnaires  il serait tr  s int  ressant de pouvoir acc  der    la m  ta information  sur les ressources afin de distinguer leur qualit   et leur couverture  Les utilisateurs aimeraient aussi pou   voir consulter plusieurs dictionnaires avec la m  me interface m  me si ces dictionnaires ont des formats  h  t  rog  nes  Ils pourraient de ce fait comparer plus facilement les articles des diff  rents dictionnaires  Il  nous semble aussi n  cessaire de proposer des outils d   aide en amont ou en aval de la consultation  comme  des correcteurs orthographiques et des lemmatiseurs  pour la recherche  ou des conjugueurs  pour l   utili   sation   Enfin  il est indispensable que l utilisateur puisse personnaliser le r  sultat de ses requ  tes au ni   veau de la structure  informations    cacher  etc   et de la pr  sentation  style  couleurs  polices  etc   afin de  s  lectionner uniquement les info
296. n  es  voir  figure B 19   Un score final est donn      l   utilisateur en fonction du nombre d   erreurs qu   il a faites    Cette interface est tr  s pratique pour l   apprentissage du vocabulaire  Cependant  sa mise en place n   est  possible que si les informations sont pr  sentes dans tous les articles du dictionnaire  et elle d  pend de la    92 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc       lt  lt previous next gt        FIG  B 18     article fa du serveur DicoSz  t  r      Quizz Dico Web  hongrois XRCE    fermer   fermer  exemple   exemple    debout i   tre  assis    Entr  es 5      Le  ons  toutes  1   Votre note est de 4 5     FIG  B 19     utilisation de DicoSz  t  r par un quizz       3  Nouvelles directions pour la consultation 93    structure du dictionnaire  L application est relativement sommaire  Elle a principalement pour but d   illus   trer l   utilisation d   un dictionnaire par une autre application  Pour des renseignements plus complets sur les  environnements d   apprentissage  il est possible de se r  f  rer    la th  se de Thierry Selva  Selva00      3 2  Visualisation au moyen d   arbres hyperboliques    3 2 1  Introduction    Le projet UNL utilise    l   heure actuelle environ 16 langues  Les bases lexicales UNL de chaque langue  sont compos  es d   un dictionnaire bilingue reliant les unit  s lexicales UNL aux lemmes de la langue  Une  unit   lexicale  UW  est compos  e d   un mot vedette  hea
297. n  profil de comp  tences     Probl  me de gestion des contributions    Tous les utilisateurs qui poss  dent un compte virtuel sur le serveur peuvent envoyer leurs contributions  au serveur  Si ces contributions sont int  gr  es sans contr  le  la base lexicale risque de se trouver pollu  e  par des contributions ou des corrections erron  es  Il faut donc mettre en place un m  canisme de gestion des  contributions par un groupe restreint d   experts qui permette de n   int  grer les contributions que si elles ont    t   valid  es    Les contributions ne seront donc pas int  gr  es directement dans la base  mais elles seront stock  es dans  l   espace virtuel du contributeur jusqu      ce qu   elles soient r  vis  es  valid  es et int  gr  es     106 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      5 2 2  Gestion d   une base multilingue    Lors de nos exp  riences pr  c  dentes  nous avons utilis   plusieurs dictionnaires bilingues  mais nous  n avons pas encore manipul   de v  ritable base lexicale multilingue  D   autre part  nous avons r  utilis   les  ressources lexicales dans leur format d   origine  et nous n   avons donc pas non plus r  solu le probl  me de la  structuration des informations lexicales     Evolution des dictionnaires bilingues vers une base lexicale multilingue    Nous ma  trisons la fabrication de dictionnaires bilingues en utilisant diverses m  thodes  Nous souhaitons  maintenant monter d   un degr  
298. n langage utilis    comme base pour r  f  rencer une portion de document XML  XPointer est bas   sur XPath  XPath   Il permet  l   examen d   une structure hi  rarchique de document et le choix de ses parties internes bas   sur diverses  propri  t  s comme le type des   l  ments  les valeurs d   attributs  les caract  res et leur position relative     Exemple d   annotation    Tout d   abord  l   utilisateur configure son logiciel pour utiliser les annotations  Il doit indiquer son nom  d utilisateur et le serveur sur lequel seront stock  es les annotations  Pour notre exemple  nous avons stock    les annotations en local pour pouvoir les analyser    Les annotations sont index  es par document annot    Lorsque l   utilisateur annote un document  un fichier  d   index est cr     ou modifi    Ce fichier d   index contient une liste d   associations entre un document annot   et  un index d   annotations  Pour l   exemple  nous avons annot   le titre de cette section  l   annoteur Amaya  Le  fichier d   index est compos   des informations suivantes     file  home mmangeot MM These partieB html   file  home mmangeot  amaya annotations index01   Il indique donc que le fichier partieB html a   t   annot   et que les annotations sont index  es dans le  fichier index01  Ce fichier est au format XML  Il utilise la norme RDF pour noter les annotations sur un  document  La figure B 22 repr  sente un extrait de ce fichier            lt        d  claration des espaces de noms    gt     lt 
299. n programme ne peut d  duire automatiquement cette structure  Si l   on veut utiliser ces dictionnaires  avec des machines  il faut donc trouver un moyen de r  cup  rer ces informations    Une seconde observation est que ces dictionnaires ont des structures tr  s vari  es  Si l   on veut repr  senter  un maximum de dictionnaires avec le m  me langage  il faut donc que ce langage soit g  n  rique et qu il  puisse repr  senter un grand nombre de structures linguistiques comme des arbres  des tableaux de r  gimes   des fonctions lexicales  etc    Un troisi  me point est que tous ces dictionnaires ont des formats diff  rents  Si l   on veut les utiliser en  m  me temps  il faut donc trouver un moyen d   unifier les formats soit avec un format commun  soit avec des    20 A   Contexte actuel de la  dictionnairique     outils de transformation dynamiques    Enfin  la s  mantique des marques ou balises contenues dans les dictionnaires n   est pas non plus unifi  e   Pour repr  senter le mot vedette  on utilise parfois l     l  ment  lt hw gt   parfois l     l  ment  entry   parfois  l     l  ment  lt h1 gt   etc  Il faut donc l   aussi trouver un moyen de s    accorder pour pouvoir manipuler diff  rents  dictionnaires    l   aide des op  rations de fusion  d   union  d   intersection  etc     1 3  Exemples de dictionnaires    usage machinal    1 3 1  Un dictionnaire provenant de la traduction automatique   le RUSFRA    Le syst  me RUS FRA  Boitet82a 82b  est un syst  me de traduction
300. nbounded   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt     DML element for value of a function    gt    lt    It has to be redefined in schemas specific to the dictionaries  eet       lt element name  value  type  d valueType   gt    lt complexType name  valueType   gt    lt  schema gt        256 Annexe A   sch  ma XML pour DML    Annexe B   sch  mas XML pour Papillon    Annexe B   sch  mas XML pour Papillon 259    1  Sch  ma g  n  ral de Papillon        lt     XML Schema for common elements of Papillon dictionary  These   elements are used to encode Papillon monolingual dictionaries and   Papillon axies dictionary Namespace    http   www clips imag fr geta services dml          This schema is identified by the location              http    www clips imag fr geta services dml papillon xsd   SAuthor  mangeot   Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr   Date  2001 09 15 09 37 10     SRevision  1 14      gt     lt schema targetNamespace  http   www clips imag fr geta services dml  gt            lt annotation gt    lt documentation xml lang  en  gt  XML Schema for common elements  of Papillon dictionary  These elements are used to encode Papillon    monolingual dictionaries and Papillon axies dictionary Namespace               http   www clips imag fr geta services dml   This schema is identified by the location    http   www clips imag fr geta services dml papillon xsd   lt  documentation gt                                             lt  annotat
301. ndonner 2           Axie 41    Axie 42   Axie 44           a         to abandon 1 Ea    N      XN   lt            FIG  D 14     fusion manuelle de certaines lexies anglaises    5    valuations pr  liminaires et exemples 209    5 3 1  Lexies apr  s fusion    Dans l   exemple suivant  le linguiste a d  cid   de fusionner les deux lexies anglaises to abandon 1 et  to abandon 2 ayant le m  me mot vedette  to abandon   La lexie to abandon 2 est supprim  e mais  son id ne sera jamais r  affect       lt lexie id  to abandon 1  basic  yes  gt     lt headword gt to abandon lt  headword gt    lt fem data gt  lt gloss gt renoncer a lt  gloss gt  lt  fem data gt    lt axies gt  lt refaxie href  a42   gt  lt  axies gt     lt  lexie gt     5 3 2  Axies apr  s fusion    Maintenant  le linguiste doit g  rer les anciennes axies qui   taient reli  es aux lexies qu il vient de fu   sionner  Il se trouve alors dans la situation de la figure D 15  Pour obtenir une configuration normale  il faut  r  soudre les conflits g  n  r  s par la fusion des lexies anglaises     savoir qu   une lexie ne peut pointer vers deux  axies diff  rentes  Dans la figure D 15  to desert 1 pointe sur les axies a41 et a42 etto abandon 1    pointe sur les axies a42 et a44   abandonner 3  abandonner 2                    to give up 1                to abandon 1    FIG  D 15     axies apr  s fusion manuelle de certaines lexies anglaises    S il n   a aucune information sur les autres langues  le lexicologue ajoutera une axi
302. ner parmi tous les articles des dictionnaires  s  lectionn  s pr  c  demment que ceux qui int  ressent l   utilisateur  Cela revient en fait    red  finir une nomen   clature personnalis  e selon les propres crit  res de l   utilisateur    Voici des exemples de s  lection dans la macrostructure      seulement les verbes intransitifs du premier groupe     les articles class  s selon l   origine des mots vedettes  e g  latin  esquimo  grec  puis selon l   ordre  alphab  tique     les m  mes articles que le Lexis mais r  ordonn  s selon la phonologie  selon les deux derni  res syl   labes  comme un dictionnaire de rimes     tous les mots polonais de huit lettres finissant par  icz   ou conformes    une expression r  guli  re  donn  e   class  s par ordre alphab  tique mais sans aucune information  simple liste de mots      tous les mots d   origine latine du domaine juridique class  s selon leur date d    apparition     tous les homophones du fran  ais class  s par famille d   homophones et par ordre alphab  tique  motl  homophone 11     homophone In       mot m     homophone m1     homophone mn      recherches par champs s  mantiques  d  rivations s  mantiques  etc     Requ  tes sur la microstructure    Lorsque la liste des articles est d  finie  il faut s  lectionner les informations dans la microstructure  si  Pon ne veut pas voir toutes les informations contenues dans les articles   Voici des exemples de s  lection dans la microstructure          les d  finitions en fran  ai
303. nformation sur les ressources disponibles  de consulter plusieurs  ressources h  t  rog  nes    la fois    partir d   un navigateur  et aussi de regrouper des ressources locales et  distantes avec un r  sultat transparent pour l   utilisateur  Nous avons r  alis   pour cela DictList et DicoWeb   Le second est en usage exp  rimental continu depuis trois ans sur le site interne de XRCE  Une version  publique est cependant disponible    l adresse suivante  DicoWeb     Nous nous sommes attaqu   au probl  me de la construction de dictionnaires sous deux angles  D   une  part  les besoins du projet UNL nous ont amen      am  liorer la m  thode  d  mocratique  de la construction  du dictionnaire fran  ais anglais malais FeM  Word    utilis   en  pseudo   diteur syntaxique   expos  e en  premi  re partie  D   autre part  nous avons exp  riment   une autre m  thode de construction en ligne de dic   tionnaires    structures simples pour apprenants de langues   trang  res  prototypes DicoSz  t  r  DicoSz  t  r   pour le hongrois et Nihongo  Nihongo  pour le japonais     Nous avons r  alis   et exp  riment   plusieurs outils am  liorant la consultation  gr  ce    l    ajout de modules  d   aide en amont et en aval de la consultation  comme des lemmatiseurs  des correcteurs orthographiques   des conjugueurs  de svisualisateurs d    objets complexes comme des arbres  etc    Nous avons ensuite cherch   a am  liorer la coop  ration entre utilisateurs et contributeurs en   tudiant des  outils
304. ng       exemple string                            FIG  C 8     description d un r  gime du DEC avec LINGARD    Cette structure s   exprime sous forme d   une structure de traits   le premier comporte un automate automate   regime  le second donne l   ordre dans lequel les arguments apparaissent dans le r  gime argument  order  et le troisi  me donne l   ensemble des exemples exemples regime        Le langage LINGARD est tr  s puissant puisqu il permet de repr  senter un grand nombre de structures  informatiques et linguistiques  L utilisateur n   est pas limit      une th  orie linguistique en particulier  Ce  langage est g  n  rique     126 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    Critique    Il est possible de repr  senter un grand nombre de structures de dictionnaires h  t  rog  nes mais il n   est  cependant pas possible de faire le lien entre ces structures  Lorsqu   on utilise plusieurs ressources    la fois   il semble pourtant int  ressant de pouvoir les fusionner dans la mesure du possible  Nous proposons donc  d   ajouter un m  canisme de fusion de structures linguistiques bas   sur des objets linguistiques communs     2 1 3  Architecture logicielle du syst  me  Pr  sentation  L architecture logicielle de SUBLIM pr  voit trois niveaux          BD pour le stockage physique des donn  es        Structure pour les diff  rentes manipulations sur les entr  es de dictionnaires  C   est lui qui manipule  les str
305. ng developing of a five   language lexical database by voluntary contributors on the Internet  The architecture of the database is made up  of a monolingual dictionary for each language and a pivot dictionary of interlingual acceptions  axies  linking  the monolingual entries  lexies  which structure comes from the domain of explanatory and combinatory  lexicology  Extra languages are planned to be added soon    The architecture of the server is quite generic and could be reused rapidly in other contexts  translation memories  and tools for translators  communication and multilingual IR  multimedia annotations      Keywords  Lexicology  Computational Lexicography  Dictionaries  Multilingual Lexical Databases  XML  Schemata  Lexical Servers    
306. nibles                                    101  4 2 3  Exemples de sessions    ca                                 101   4 3  Consultation par un outil de recherche  Sherlock                          101  4 3 1  Pr  sentation    a fw a OR e a de ne dus BE A den de rie dt re ES 101  4 3 2  Le plug in Sherlock cies rra a added ee A 102  4 3 3  Interface de l outil Sherlock                                  102  4 34  DISCUSSION eur a we RN wR ee ee ee ee       102   5  Conclusion  cahier des charges d   un environnement unifi   104  5 1  Bilan des exp  riences pr  c  dentes                                   104  5 1 1  Sur la consultation en ligne                                   104  5 1 2  Sur la construction de dictionnaires                              104  5 1 3  Sur l   utilisation d   outils annexes                                105   5 2  Probl  mes restants non r  solus                                      105  5 2 1  Construction en communaut      travers le Web                        105  5 2 2  Gestion d   une base multilingue                               106   5 3  Contraintes d   impl  mentation                                     106  5 3 1  Utiliser la technologie XML pour manipuler les donn  es                   106  5 3 2  Utiliser un syst  me g  n  rique de structuration de donn  es lexicales              107    C  Sp  cification d   un environnement de gestion et consultation de bases lexicales et dic   tionnaires 111    Introduction 111    Table des mati  r
307. non ambigu           la traduction par analyse utilise un formalisme nomm   H grammar  L utilisateur d  crit la grammaire  du dictionnaire    r  cup  rer en H grammar  Il ajoute ensuite les actions de construction d   objets et de  d  tection d   erreurs  La d  tection d   erreurs permet de corriger automatiquement les erreurs les plus  fr  quentes  Si un d  tail est faux dans un article  il n   est pas rejet   en bloc  Un compilateur utilise  ensuite la description pour construire l   ensemble d   objets constituant une repr  sentation structur  e du  dictionnaire     3 1 2  Exemple d   article avant r  cup  ration    La figure A 30 repr  sente un article du dictionnaire BABEL au format d   origine avant la r  cup  ration   Il s   agit d   un dictionnaire d   abr  viations       COM Command  file name extension     Commercial Business  Domain Name   Internet     FIG  A 30     article de BABEL avant r  cup  ration    Il arrive fr  quemment qu   un article ne v  rifie pas la syntaxe indiqu  e par ses auteurs  Dans BABEL  par  exemple  on peut trouver des parenth  ses en trop  on a des     oubli  s  etc  Il faut alors normaliser  L    article  de la figure A 29 donn   en exemple est correct    Cet article a une structure implicite   c est sa pr  sentation qui refl  te sa structure  Les diff  rentes infor   mations sont distingu  es par leur mise en forme et des caract  res sp  ciaux  les parenth  ses       le      les    38 A   Contexte actuel de la  dictionnairique     crochet
308. ns lesquelles nous notons des informations de gestion pour chaque ajout d   information dans ces  dictionnaires  Nous avons ensuite g  n  ralis   et sp  cifi   ce principe en l   appliquant    toutes les informations  de la base lexicale en partie C  Pour cela  nous utilisons les attributs DML history ref et history ainsi que  des fichiers d   historique  Nous appliquons ce principe au projet Papillon en cr  ant une table dans la base de  donn  es r  serv  e aux historiques des modifications    8  Le principe de protection des donn  es communes consiste    n   int  grer dans la base commune que des  donn  es r  vis  es par des sp  cialistes  Ce principe vient d   une constatation r  alis  e sur des projets comme  SAIKAM  En effet  lorsque beaucoup de contributeurs apportent des donn  es nouvelles directement dans  la base  celle ci se retrouve  m  me sans mauvaise intention  pollu  e par des contributions erron  es  Il est  tr  s difficile ensuite de les corriger  De ce fait  la base n   est jamais dans un   tat stable  En partie C  nous  avons donc sp  cifi   que les contributions sont d   abord stock  es dans l   espace virtuel du contributeur puis  sont r  vis  es par des sp  cialistes avant d     tre int  gr  es    la base  En partie D  nous observons ce principe  dans le projet Papillon     Principes de mise en   uvre    9  Le principe de r  cup  ration totale intervient lors de la r  cup  ration d   une ressource lexicale  Il  consiste    r  cup  rer toutes les informat
309. ns pas encore pu tester notre environnement pour la construction de nouvelles ressources  dans des conditions r  elles d utilisation permettant de mettre au point et de v  rifier l   utilisabilit   de nos  outils  Le projet Papillon lanc   en collaboration entre le GETA CLIPS  le National Institute of Informatics  de Tokyo au Japon  et de nombreux autres partenaires  nous permettra de tester notre environnement pour  la construction de dictionnaires multilingues avec entre autres le fran  ais  le japonais  le tha    le lao et le  vietnamien  Nous pr  voyons d   ajouter    court terme le malais  puis le cor  en et le chinois    Un financement post doctoral de la JSPS  Japanese Society for the Promotion of Science  nous a   t    accord   pour travailler deux ans sur le projet Papillon au NII    Tokyo  Nous mettrons en place un serveur  qui impl  mente notre environnement de cr  ation de nouvelles ressources et r  aliserons ensuite les t  ches  d   administration n  cessit  es par un tel serveur    Nous pr  voyons de mettre en place les diff  rentes interfaces pour la consultation et la personnalisation  du r  sultat des donn  es et aussi des interfaces pour pr  parer le travail des lexicologues sur la v  rification    216 Conclusion    et le contr  le des donn  es  Nous testerons nos diff  rentes m  thodes de construction de dictionnaires aupr  s  des contributeurs b  n  voles    Enfin  le cadre de ce projet nous permettra de nous attaquer aux probl  mes restant    r  soudre   
310. ns peu adv   91 F  sous peu adv  92 F abr  ger v_trans  91 1 fra poco adv  91 1 fra poco tempo  adv  91 I tra poco adv   92  I abbreviare v_trans                               FIG  A 18     concepts 91 et 92 et leurs traductions dans la base M  modata    Un concept peut   tre traduit dans une langue donn  e par une ou plusieurs traductions  Le concept n  91  est ici traduit par 3 traductions dans toutes les langues sauf en anglais et en espagnol o   il n   y a qu   une  traduction     24 A   Contexte actuel de la  dictionnairique     1 3 4  Des bases lexicales utilisables en traduction automatique   les bases UNL    Fond   a l   IAS  Institute of Advanced Studies  de UNU  Universit   des Nations Unies     Tokyo en  avril 1996  le projet UNL  UNL96 97  rassemble maintenant des partenaires du monde entier  avec plus de  14 langues couvertes  Le but de ce projet est la d  finition d   un format d   change  le langage UNL  codant  la s  mantique d   un document de mani  re suffisamment pr  cise pour permettre sa  d  conversion  dans la  langue maternelle du lecteur  Le mod  le d  velopp   dans le projet UNL est fond   sur une repr  sentation  interlingue  sous forme de graphes s  mantiques     partir de laquelle on peut g  n  rer des textes dans la  langue de notre choix    Depuis le 1      janvier 2000  les sp  cifications du  langage UNL  sont ouvertes    tous sur le serveur de  PIAS  Les enjeux scientifiques de cette recherche sont d   ordre conceptuel  linguistique et informa
311. ntre deux   l  ments   lt volume gt   Les articles frangais  gt anglais seront mis dans un   l  ment et les articles fran  ais  gt  anglais  dans un autre   l  ment     Description d   une base lexicale    Pour d  crire une base lexicale  nous reprenons la fonction define lexical database du lan   gage LEXARD avec l     l  ment  lt database gt   La description formelle de cet   l  ment est contenue dans le  sch  ma XML dml en annexe de ce document  Elle est r  f  renc  e par l   attribut xsi  schemaLocation     2  D  finition du noyau de l   environnement avec SUBLIM 135    Base lexicale   lt database  gt     LY A    Groupes Utilisateurs Dictionnaires Serveurs   lt  dai  gt    er  gt   lt  dictionaries  gt  partenaires    we l a  lt partner servers  Admin Lexicologues EN       administrators lexicologists rofiles gt  Liens Volumes    Univers Prefs Contribs  lt jinks  lt volume gt   universe  Articles   lt article gt     FIG  C 16     organisation logique d une base lexicale    Les modifications de l     l  ment  lt database gt  et de ses descendants sont stock  es dans le document  point   par l   attributhistory ref    Nous ajoutons    LEXARD la possibilit   de d  finir diff  rents utilisateurs et groupes de la base  Les  diff  rents r  les de ces utilisateurs sont d  crits dans la premi  re partie de ce chapitre  Au d  part  trois groupes  sont pr  d  finis   l   univers  universe  contenant tous les utilisateurs de la base  les administrateurs de  la base  administrators  
312. numeration value   A An    gt    lt     keishikimeishi  formal noun   gt    lt enumeration value   e Gal n  s   lt     daimeishi  pronoun   gt    lt enumeration value   A al Per   lt  l   rentaishi  demonstrative   gt    lt enumeration value   488 12 qa  db   lt        fukushi  adverb   gt     a        lt enumeration value   al pa  np   lt     setsuzokushi  conjunction   gt    lt enumeration value   R   AE pol Ni   lt     kand  shi  interjection   gt    lt enumeration value   HEURES  r     lt     jid  shi  intransitive verb   gt    lt enumeration value      ie  ny   lt     tad  shi  transitive verb   gt    lt enumeration value   HE Et da    gt    lt     keiy  shi  adjective    gt   or FF Sa    lt enumeration value   HE Aa mie   lt     keiy  d  shi  adjectival verb   gt   ETS      lt enumeration value     Bal ne   lt       jod  shi  auxiliary   gt    lt enumeration value   EH  h qa  ny   lt  l    kakujoshi  case postposition   gt      lt enumeration value    48  an   i gt     4  Sch  ma de Papillon japonais 277              lt     setsuzokujoshi  conjonctive postposition   gt          lt enumeration value     foe BY Gal a   lt     fukujoshi  adverbial postposition   gt     Ea    lt enumeration value   al  BN El  E   lt     kakarijoshi  topic postposition   gt    lt enumeration value   FETE E     gt    lt     s  joshi  sentence final postposition   gt   Z  EE    lt enumeration value   Aa Bit AA    gt    lt     kant  joshi  emotional postposition   gt   Ht 2   lt enumeration val
313. nvironnement r  pond    l   ensemble de ces probl  mes en ajoutant un niveau d   abstraction qui  domine les bases de donn  es utilis  es pour le stockage et en int  grant un serveur pour la construction  coop  rative  Son noyau inclut un formalisme g  n  rique de d  finition des structures  Il permet de conce   voir une v  ritable  plate forme lexicale  g  n  rique et extensible    Nous avons appliqu   cet environnement au projet Papillon de d  veloppement par des b  n  voles sur  Internet d   une base lexicale multilingue dont l   architecture est constitu  e d   un dictionnaire monolingue de  sens  lexies  pour chaque langue et d   un dictionnaire pivot d   acceptions interlingues  axie  reliant les articles  monolingues  Les exp  riences pr  liminaires ont   t   concluantes     Principes d  gag  s devant ce travail    Au cours de notre travail  plusieurs principes se sont d  gag  s  et ont   t   tant  t affin  s  tant  t g  n  ralis  s   mais toujours exp  riment  s et valid  s  Nous proposons ci dessous une liste des  dix commandements  de la  construction d   une base de donn  es lexicales id  ale     Principes de structuration logique    1  Le principe d   exhaustivit   reprend le principe d    cecum  nisme provient de la th  se de Gilles S  rasset  Il  s   agit de la volont   d   accueillir dans une base lexicale toutes les th  ories linguistiques  et en particulier celles  relatives au niveau lexical  gr  ce    un formalisme g  n  rique permettant de repr  senter un 
314. ocation   http    www clips imag fr geta services dml papillon axi xsd   lt  documentation gt                                    lt  annotation gt   al Redefining elements of Papillon common schema       p   lt        including schema for common papillon elements used in the    dictionary and redefining some groups The content of these groups Can  evolve     gt    lt redefine       schemaLocation  http   www clips imag fr geta services dml papillon xsd  gt   Aim article group        lt     An article of the Papillon interlingual pivot dictionary is an  axie    gt            lt group name  article  gt      lt sequence gt    lt element ref  d axie  minOccurs  1  maxOccurs  1   gt    lt  sequence gt    lt  group gt    lt     languages links group    gt    lt     this group contains the links from the axie to the monolingual  lexies  All the links to lexies of one language are grouped into  a language element  If a new language is added to the Papillon  dictionary  a new group will be added here   gt           2  Sch  ma du volume Papillon axies     lt group name  languages links  gt                                                      lt sequence gt    lt element ref  d eng  minOccurs  0  maxOccurs  1   gt    lt element ref  d fra  minOccurs  0  maxOccurs  1   gt    lt element ref  d  jpn  minOccurs  0  maxOccurs  1   gt    lt element ref  d lao  minOccurs  0  maxOccurs  1   gt    lt element ref  d tha  minOccurs  0  maxOccurs  1   gt    lt  sequence gt    lt  group gt    lt  l 
315. oici la structure de l   article    cr  er     fv entry   fre string    vie   list of  vie string      Voici l   algorithme de cr  ation dynamique de ces articles     create FV from French  French  FE dict  EV dict  def   FE entry    find entry  French  FE dict     V set    NIL   for all eng in eng   FE entry  do   EV entry    find entry  eng  EV dict     V set    union V set  vie  EV entry     FV entry    create FV entry  fre  FE entry   V set                  42 A   Contexte actuel de la  dictionnairique     return FV entry   La production en ligne ne permet pas de v  rifier la qualit   linguistique des articles produits  Elle sert  plut  t    produire des squelettes ou brouillons de dictionnaires dont la qualit   linguistique sera r  vis  e par  des sp  cialistes     Donn  e   FE dict   Donn  e   EV dict R  sultat   FV dict       love  y  u  thu  ng like  th  ch   aimer   y  u  thu  ng  th  ch    TAB  A 3     r  sultat de l application de l   algorithme au mot vedette aimer    3 3  Conclusion    Ces techniques ont   t     prouv  es puisque R  CUPDIC a permis de r  cup  rer plus de 1 650 000 articles  et que 543 000 articles ont   t   produits avec PRODUCDIC  Cet environnement est tr  s puissant mais il n   est  pas adapt   pour un linguiste  lexicographe  lexicologue   En effet  il faut savoir programmer en Macintosh  Common Lisp  MCL  pour pouvoir l   utiliser  Ces outils sont sp  cialis  s    Il faudrait ajouter une interface utilisable par un linguiste mais l   outil re
316. ojet LexiGuide de la soci  t   LexiQuest  not  s avec l     l  ment  lt LexiGuideConcept gt     Voici par exemple l   axie reliant la lexie fran  aise MEURTRE      lt axie id  a01  gt     lt semantic cat gt entity lt  semantic cat gt   ira    lt reflexie href  meurtre 1   gt    lt  ira gt     4  Analyse g  n  rale et impl  mentation 197     lt eng  gt    lt reflexie href  murder 1   gt    lt  eng gt    lt external reter  nces  gt    lt UNL resource  UNL fr unl  gt    lt refuw href  murder icl gt action agt gt human obj gt human    gt    lt  UNL gt    lt WordNet resource  Wordnet txt  gt    lt refsynset href  00143589   gt    lt  WordNet  gt    lt  external references gt    lt  axie gt   Les axies d idiome ou de d  finition pourront aussi contenir comme r  f  rence externe leur repr  sentation  comme graphe UNL  Celui ci sera not   avec l     l  ment  lt UNL graph gt            4 2  Impl  mentation du serveur    4 2 1  Architecture g  n  rale du serveur    La figure D 6 montre l   architecture g  n  rale du serveur Papillon  Le c  ur du serveur est constitu   d   un  SGBD en logiciel libre  Nous avions d   abord choisi MySQL  MySQL  car c   est un outil tr  s r  pandu  Nous  avons cependant renonc      l   utiliser    cause d   incompatibilit   avec la repr  sentation des documents Unicode   Nous avons donc finalement choisi PostgreSQL  PostgreSQL      Administrateur                           Serveur       Dynamique      Enhydra    Mail Web             FIG  D 6     architectur
317. ologue et les lexicographes  ces derniers travaillant sur Word     un logiciel de  traitement de texte du commerce tr  s r  pandu  Nous proposons en plus des outils d   aide    l   indexation sous  forme de macros     5  Conclusion   cahier des charges d   un environnement unifi   105    L   autre m  thode permet la construction en ligne de dictionnaires ayant des structures simples  Ces deux  m  thodes sont compl  mentaires  Il faut les am  liorer et m  me les unifier pour pouvoir construire des dic   tionnaires plus complexes en ligne et localement     5 1 3  Sur l   utilisation d    outils annexes    Nos outils utilisent des modules annexes pour l   annotation de documents et pour l   aide    la consulta   tion comme les analyseurs morphologiques et les conjugueurs  Le r  sultat est tr  s satisfaisant  en terme de  fonctionnalit  s comme en temps de r  ponse   gr  ce    l   augmentation des d  bits sur le r  seau  le fait qu   un  module soit distant ne provoque pas d   attente suppl  mentaire perceptible  Par contre  ce que nous avons fait  a   t   ad hoc et il faut absolument standardiser les interfaces de ces modules et pr  voir des API  Application  Programming Interface  pour pouvoir les changer et les adapter facilement  voir l   outil ODILE d Isabelle  Tomasino  Tomasino90       5 2  Probl  mes restants non r  solus    5 2 1  Construction en communaut      travers le Web    Lors de nos exp  riences pr  c  dentes  nous avons con  u une technique permettant de r  dige
318. on 267     lt  complexType gt    lt element name  refexample  type  d refType   gt    lt element name  refidiom  type  d refType   gt    lt     refaxies type    gt    lt     type that refers to another axie with an xlink    gt    lt complexType name  refaxiesType  gt    lt sequence minOccurs  0  maxOccurs  unbounded  gt    lt element ref  d refaxie   gt                                             lt  sequence gt    lt  complexType gt    lt   external references group    gt    lt     lists the external references of an axie  It has to be  redefined in the schema specific to the axies volume    gt    lt group name  external references  gt    lt all  gt      oreup gt      lt  schema gt     268 Annexe B   sch  mas XML pour Papillon    2  Sch  ma du volume Papillon axies        lt     XML Schema for Papillon axies volume used as pivot dictionary for  the Papillon lexical database  Namespace    http   www clips imag fr geta services dml  This schema is identified by the location   http   www clips imag fr geta services dml papillon axi xsd  SAuthor  mangeot   Mathieu MANGEOT LEREBOURS Mathieu Mangeot imag fr   Date  2001 09 15 09 37 10    SRevision  1 14      gt    lt schema targetNamespace  http   www clips imag fr geta services dml  gt    lt annotation gt    lt documentation xml lang  en  gt  XML Schema for Papillon axies  volume used as pivot dictionary for the Papillon lexical database   Namespace   http    www clips imag fr geta services dml This schema is  identified by the l
319. on du noyau de l   environnement avec SUBLIM 123          d  finition des dictionnaires monolingues             define monolingual dictionary english   language  English    Owner  EDR          d  finition du dictionnaire interlingue         define interlingual dictionary concept dictionary   links  english Japanese    Owner  EDR          d  finition des dictionnaires bilingues         define bilingual dictionary Japanese english   type unidirectional    source japanese   target english   owner  EDR                           FIG  C 2     description de dictionnaires avec LEXARD     define lexical database EDR   owner EDR    comment  Une base lexicale fond  e sur une approche mixte    dictionaries   english japanese english Japanese  Japanese english concept dictionary      FIG  C 3     description d une base lexicale avec LEXARD    de d  finir un compte pour chaque utilisateur et des groupes d   utilisateurs  Pour chaque base lexicale  il faut  pr  voir des groupes de base   administrateurs  lexicologues  lexicographes  contributeurs et lecteurs    Nos exp  rimentations men  es sur des bases lexicales h  t  rog  nes montrent l   importance de la m  ta   information sur les dictionnaires  Cette information permet aux utilisateurs d   avoir une meilleure id  e de la  qualit   d   une ressource et de pouvoir s  lectionner celle qui correspond le mieux    leurs besoins  Il faut donc  ajouter des attributs d  crivant la m  ta information sur chaque dictionnaire    LEXARD ne permet 
320. on lt  co gt    to summarize     lt co gt texte  discours lt  co gt      lt sl gt   t  l  vision  en  t  l    lt  sl gt   to shorten  television  to  TV          lt  dml lexie gt    lt  dml syntactic sense gt    lt  dml entry gt     FIG  C 14     article provenant du DHO apr  s r  cup  ration    2 3  Red  finition des langages de SUBLIM en XML    Dans cette section  nous red  finissons les langages LEXARD et LINGARD en XML en reprenant les  mots cl  s de ces langages  Cela nous permet de d  crire enti  rement la base sous forme de documents XML     2 3 1  D  finitions de macrostructure    Pour d  crire la macrostructure de nos dictionnaires ainsi que de notre base lexicale  nous utilisons des  documents XML  Le syst  me analyse ces documents pour trouver les informations dont il a besoin pour ses    134 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires     lt dnlsentry gt    lt dml headword gt abr  ger lt  dml headword gt    lt dml pronunciation encoding  geta  gt abre je  lt  dml pronunciation gt    lt dml syntactic cat  gt    lt dml pos gt v tr  lt  dml pos gt    lt dml lexie provenance  FeM  gt    lt gloss lang  fra  gt un texte lt  gloss gt    lt dml translation lang  eng  gt to shorten lt  dml translation gt    lt dml translation lang  eng  gt to abridge lt  dml translation gt    lt dml translation lang  msa  gt memendekkan  lt  dml translation gt    lt dml translation lang  msa  gt meringkaskan  lt  dml translation gt   
321. oncise Dictionary de 65 000 articles   deux dictionnaires fran  ais hongrois  deux dictionnaires italien hongrois et d   autres dictionnaires sp  cialis  s  multilingues    Le syst  me permet de consulter tous ces dictionnaires avec la m  me interface  Il utilise des lemmatiseurs  pour aider la consultation  Les utilisateurs ont aussi la possibilit   de cr  er leurs propres dictionnaires et de  les ajouter au syst  me     Interface    L utilisateur peut d   abord param  trer de nombreuses options  le nombre de dictionnaires qu   il consulte   la langue d   interface  la taille des fen  tres  etc  L interface est compos  e d   une fen  tre de consultation et de  r  glages d   options puis de 4 fen  tres de r  sultat  La figure A 22 repr  sente l   interface et toutes les fen  tres  de r  sultat     yy S    Fordit  st  mogat  s a MorphoLogict  l  MORPHOLOGIC       Keresend    Mir  l      naz  magyar    BER EE       h  4  El   haz  Alap      EE Alap  Es house  EX  house  n  haz    _ H  z  Alap  housing  EX        haz  Sz  kincst  r MN  place  E        szinonim  k        haz  Sz  kincst  r        szinonim  k   havi v  rz  s   havibaj   havonk  nti   h  z   haza       FIG  A 22     r  sultats d une requ  te sur MoBiDictionary    Lorsqu on interroge le syst  me  la premi  re fen  tre affiche pour chaque dictionnaire dans lequel le  syst  me a trouv   une r  ponse une ligne avec le mot et le nom du dictionnaire  Dans la deuxi  me fen  tre se    30 A   Contexte actuel de la  dictionn
322. onn  e au moment de la validation et de l   int  gration dans la base      1 2 2  D  finition d   un serveur et des diff  rents acteurs    La base lexicale est utilis  e par de nombreux utilisateurs  Il faut donc l installer sur un serveur  Ce  serveur doit   tre accessible par le Web  par FTP et par Telnet  Pour la communication entre utilisateurs  il  faut aussi envisager un serveur de courriel et de listes de distribution    Le serveur r  pond    de multiples requ  tes venant de diff  rentes applications  Il doit tourner en d  mon  pour pouvoir r  pondre automatiquement et 24h 24    Sur le serveur  il faut mettre en place un syst  me de gestion des utilisateurs et groupes avec des droits  d   acc  s diff  rents  Nous distinguons plusieurs types d   utilisateurs      1  Sp  cifications externes de l   environnement 115    L administrateur    Il d  finit des t  ches administratives  Il g  re les droits d   acc  s des utilisateurs  Il ajoute les nouveaux  profils d utilisateurs ou de groupes d   utilisateurs dans la base     Le lexicologue lexicographe en chef    Il s   occupe de la r  cup  ration  de la manipulation et de la construction des dictionnaires    Il r  cup  re et convertit la structure logique des ressources existantes    int  grer dans la base     partir de  ces ressources r  cup  r  es  il construit ensuite un squelette de dictionnaire qui sera ensuite compl  t      Il g  re un projet collaboratif de construction de nouvelles ressources  Il d  finit la macrostr
323. onnaire est actuellement compos   d   environ 600  articles    Pour Nihongo  nous avons not   les traductions avec des liens interlingues  Deux dictionnaires mono   lingues sont en cours de construction  un dictionnaire fran  ais de 210 articles et un dictionnaire japonais  de 350 articles  Les articles de ces 2 dictionnaires sont reli  s entre eux par des liens de traduction  Lors  de la consultation  le serveur consulte d   abord le dictionnaire de la langue source  stocke temporairement  les articles qui r  pondent    la requ  te puis consulte le dictionnaire de la langue cible et s  lectionne les ar   ticles cibles reli  s aux articles sources pr  c  demment stock  s  Il recompose ensuite    la vol  e des articles  de dictionnaires bilingues d   usage avec les informations contenues dans tous les articles     2 2 2  Structure des articles    Lors de la r  daction  l   utilisateur entre des informations sur un mot fran  ais et sur sa traduction dans  l   autre langue     partir de ces informations  le serveur construit un article pour le mot fran  ais et un article  pour le mot de l   autre langue  Chaque article sera ensuite ins  r   dans le dictionnaire correspondant    sa  langue    Les articles sont encod  s au format XML  Lors de la cr  ation des articles ou de la modification d   une  partie de ces articles  des informations d   administration sont ajout  es pour permettre la r  vision des infor   mations  Nous stockons aussi des informations relatives aux le  ons po
324. ont red  finies dans les sch  mas XML sp  cifiques aux langues     4  Analyse g  n  rale et impl  mentation 193    La formule s  mantique est repr  sent  e par l     l  ment  lt semantic formula gt   C   est un substitut de  la d  finition lexicographique de la lexie  Elle est form  e d   une   tiquette s  mantique suivie d   une structure  d  crivant les actants de l   unit   lexicale  La formule s  mantique de l   exemple suivant dit que le sens principal  de MEURTRE est l   action de tuer et qu   elle comprend deux actants   celui qui tue  X  et celui qui est tu     Y     Le r  gime de la lexie est repr  sent   par l     l  ment  lt government   pattern gt   Le r  gime indique les  valences actives de l   unit   lexicale  Cette information est pr  sent  e au moyen d   une table pr  sent  e dans le  DEC  Mel   tchuk84 88 92   Le r  gime ci dessous indique que le tueur et la victime d   un meurtre peuvent    tre exprim  s par un compl  ment pr  positionnel pr  c  d   de de ou par des adjectifs possessifs    Les fonctions lexicales sont regroup  es dans l     l  ment  lt lexical functions gt   Elles sont or   donn  es selon la m  thodologie standard utilis  e dans le DEC  Mel   tchuk84 88 92   les fonctions paradig   matiques qui correspondent aux d  rivations s  mantiques sont suivies des fonctions syntagmatiques qui en   codent les collocations  Enfin viennent les fonctions lexicales non standard  Les fonctions lexicales de base  sont au nombre de 52  Ce sont les m  mes pou
325. opyright    1996  1992 by Houghton Miia Company   Published by Houghton Milin Company  All nights reserved     abbreviation  Ab bre    vi a tion   n   LL  abbreyiatio  cf  F   abbr  e Jviation   1  The act of shortening  or reducing     2  The result of abbreviating  an abridgment    Tylor     3  The form to which a word or phrase is reduced by  contraction and omissich  a letter or letters  standing for a  word or phrase of which they are a part  as  Gen  for Genesis   U S A  for United States of America    4   Mus   One dash  or more  through the stem of a note   dividing it respectively into quavers  semiquavers  or  demi semiquavers    Moore    Source  Websters Revised Unabridged Dictionary     1996  1998 MICRA  Inc   abbreviation n 1  a shortened form of a word or phrase 2     shortening something by omitting parts of it  Source  Woriet    1 6     1997 Princeton University          FIG  A 27     r  ponses d   une requ  te sur dictionary com    R  sultat    Les outils de bases de donn  es conviennent tr  s bien pour stocker et utiliser des bases terminologiques  du type Eurodicautom  La structure des entr  es de ces bases est constitu  e en g  n  ral au premier niveau  d   un mot ou d   une structure attribut valeur     Dans l   exemple de la figure A 29  chaque valeur est stock  e dans un champ de la base de donn  es  Le  champ porte le nom de l   attribut  Collection  ID Number  Date  Reliability  Subject  Term  Reference   Par  contre  pour une structure d   article pl
326. or various comments    gt    lt complexType name  annotationType  mixed  true  gt    lt attribute name  indexer  type  string   gt    lt attribute name  date  type  d dateType   gt      lt  complexType gt    lt  l   element creation    gt    lt        describes the creation of an element    gt      lt element name  creation  type  d annotationType   gt    lt     element modification    gt         lt     describes the modification of an element    gt            lt element name  modification  type  d annotationType   gt         lt   element revision    gt    lt        describes the revision of an element    gt    lt element name  revision  type  d annotationType   gt                     lt   DML definitions for common elements and  structures        gt     lt       Tree structure      gt     lt     DML element to represent a tree    gt      lt element name  nd  gt    lt complexType mixed  true  gt    lt sequence gt    lt element ref  d nd   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt       Graph structure      gt    lt     DML element to represent a graph    gt    lt element name  graph  gt    lt complexType gt    lt sequence gt    lt element ref  d nodes  minOccurs  1  maxOccurs  1   gt    lt element ref  d arcs  minOccurs  1  maxOccurs  1   gt    lt  sequence gt    lt attribute ref  xlink type  fixed  extended   gt    lt  complexType gt    lt  element gt    lt      DML element to represent a list of nodes    gt    lt element name  nodes  gt    lt compl
327. ormat LAF  Lexique Actif du Fran  ais   au format FeM ou  machinal  pour la traduction au   tomatique  les outils d   aide aux traducteurs  de correction  de paraprasage  ou pour l   indexation  la synth  se  de parole  etc    3  La consultation des donn  es se fait de mani  re interactive par le Web  avec possibilit  s de contr  ler  la pr  sentation et de filtrer les informations  comme dans l   exp  rience r  alis  e avec le serveur du FeM en  partie B    4  La structure des dictionnaires utilise un fondement linguistique en pointe  Elle reprend en effet la  structure du  DiCo    labor  e par Igor Mel   tchuk et Alain Polgu  re et est bas  e sur la lexicologie explicative  et combinatoire  branche de la th  orie sens texte    5  La construction des ressources est coop  rative et se fait sur le Web  Le serveur Papillon rend la base  accessible par tous en lecture  Tout client voulant consulter la base est un contributeur potentiel  Il s   inscrit  lors de sa premi  re connexion et re  oit un  compte  avec mot de passe et zone de travail dans laquelle seront  mis ses profils d   int  r  t et de comp  tence  l   historique de ses consultations et surtout ses contributions   fragments d   entr  es  corrections  annotations  remarques g  n  rales     Il est possible de construire des groupes et d  finir les r  gles d   acc  s associ  es  Un groupe pr  d  fini   groupe central de sp  cialistes lexicologues  sera seul habilit      modifier la base  Le r  le de ses membres  sera d
328. orsque la microstructure d   un article est repr  sent  e par des   l  ments sp  cifiques  c   est une structure  explicite  Elle peut   tre interpr  t  e par une machine et elle n   est pas ambigu    Lorsqu   au contraire la micro   structure n   est repr  sent  e que par des   l  ments de pr  sentation de l   article  c   est une structure implicite   Elle ne peut   tre interpr  t  e que par des humains  elle est souvent ambigu       1 1 4  Le format des donn  es    Un dictionnaire peut rev  tir plusieurs formes  Imprim    c   est un dictionnaire papier  Repr  sent   par des  fichiers de caract  res  c   est un dictionnaire   lectronique  Inclus dans un fichier binaire et utilis   par une  application sp  cifique  c   est un dictionnaire compil      Historiquement  les premiers dictionnaires   taient exclusivement en format papier  Par la suite  pour  simplifier la manipulation des donn  es  celles ci ont   t   stock  es sous forme   lectronique  Dans un premier  temps  seules les indications de typographie de la pr  sentation   taient incluses dans ces donn  es  Puis  petit     petit  une s  paration s   est faite entre la structure logique du dictionnaire et sa pr  sentation    Les dictionnaires construits plus r  cemment sont stock  s uniquement avec leur structure logique et les  informations typographiques ont disparu  De plus  les dictionnaire ne sont plus   labor  s seulement pour des  humains  Des informations non pertinentes pour les humains mais cruciales pour des
329. our visualiser des objets complexes comme des arbres  des graphes  du son ou de la vid  o  il faudra  pouvoir utiliser des visualisateurs sp  cialis  s  Ces visualisateurs seront utilis  s comme des plug ins par  les interfaces de consultation navigation  Il faut pour cela que leur interface API soit compatible avec ces  interfaces  Une liste de ces plug ins devra   tre mise    jour et disponible sur le serveur de la base lexicale    Toutes les requ  tes effectu  es par un utilisateur devront   tre not  es dans un historique  L utilisateur  pourra alors comparer des r  sultats ou relancer des requ  tes d  j   effectu  es sans probl  mes     Personnalisation des requ  tes et des r  sultats    La grande quantit   d   informations et leur h  t  rog  n  it   n  cessitent s  lection et organisation de la part  des utilisateurs qui consultent la base  Ceux ci doivent pouvoir personnaliser le r  sultat de leurs requ  tes   Les personnalisations portent sur          la structure  L utilisateur peut choisir les informations qu   il veut visualiser et celles qui ne l   int  ressent  pas  S   il consulte plusieurs ressources  il peut choisir l   ordre d   apparition des ressources  Par exemple   si l utilisateur ne conna  t pas le malais  il peut le masquer         la pr  sentation  L utilisateur peut s  lectionner un style particulier pour chaque   l  ment d   information   Par exemple  il peut s  lectionner la couleur bleue pour toutes les informations concernant le fran  ais  ou l   
330. ources qui ne sont pas r  cup  r  es vers notre format DML et install  es localement  nous de   vons indiquer le format  lt  format  gt  etl   encodage   lt encoding gt    Les valeurs de l     l  ment   lt encoding gt    sont du type DML encodingType    Nous indiquons aussi des informations sur le dictionnaire comme le fournisseur de la ressource   lt source gt     le propri  taire   lt owner gt    le responsable au niveau de la base   lt responsible gt    les droits sur le dic   tionnaire   lt legal gt   et des commentaires   lt comments gt      La liste d     l  ments de l   ensemble CDM consultables avec pour chacun le d  lai de r  ponse maximal est  indiqu  e avec l     l  ment   lt cdm elements gt    L   l  ment   lt corpus gt   est sp  cial  il permet d indi   quer que l   on recherche un mot contenu dans n   importe quel   l  ment du dictionnaire    L emplacement du dictionnaire est not   avec une URI suivant la norme xlink  XLink 1 0     Nous indiquons ensuite les droits des diff  rents utilisateurs en suivant ces r  les  Les administrateurs    lt administrators gt   peuvent modifier le fichier de description du dictionnaire et son emplacement    Les lexicologues   lt lexicologists gt   peuvent effectuer des transformations sur tout le dictionnaire et  lancer des v  rificateurs de coh  rence  Les lecteurs   lt readers gt   peuvent consulter le dictionnaire    L   exemple suivant est la version XML de la figure C 5 d  crivant le dictionnaire FeM     lt dictionary      
331. ous ces probl  mes se  pla  ant au dessus des bases de donn  es utilis  es pour le stockage et int  grant un serveur pour la construction  coop  rative  Son noyau inclura un formalisme g  n  rique de d  finition des structures    Nous appliquerons enfin cet environnement au projet Papillon de d  veloppement par des b  n  voles sur  Internet d   une base lexicale multilingue dont      architecture est constitu  e d   un dictionnaire monolingue pour  chaque langue et d   un dictionnaire pivot d   acceptions interlingues reliant les articles monolingues     A  Contexte actuel de la     dictionnairique     A  Contexte actuel de la  dictionnairique  7    Introduction    Avant de commencer  il est utile de d  crire le contexte actuel de la  dictionnairique   branche relati   vement jeune du TALN  Ce terme est un peu plus g  n  ral que  lexicographie computationnelle  qui fait  r  f  rence aux outils et techniques de construction de dictionnaires    Nous commen  ons bien s  r par fixer notre technologie de base  nous illustrons la vari  t   des contenus et  des structures des  dictionnaires  en   tudiant en d  tail le format  la structure et la pr  sentation de plusieurs  dictionnaires  Nous d  crivons des dictionnaires monolingues  multilingues     usage humain ou machinal   des dictionnaires    structures internes simples et d autres beaucoup plus complexes comme le Dictionnaire  Explicatif et Contemporain  DEC  d   Igor Mel   tchuk  Mel tchuk84 88 92     Nous nous pla  ons ensuit
332. pertoires     1 1 4  Architecture et interface de DictList    Un petit script CGI programm   en Perl permet alors de consulter    travers le web les informations  disponibles sur les ressources install  es localement  La figure B 3 repr  sente l   architecture de cet outil    Pour se servir de l   outil  l   utilisateur a besoin d   un navigateur web  L interface est un formulaire HTML  ins  r   dans la partie gauche d   une page web  L utilisateur peut effectuer une recherche multicrit  res en  choisissant parmi la cat  gorie  les langues sources et cibles  le domaine et le format  Lorsqu il appuie sur  le bouton  search   la requ  te HTTP est envoy  e au CGI   crit en Perl  Le CGI consulte et s  lectionne les  fichiers README encod  s en XML en fonction des crit  res  transforme le XML en HTML et renvoie le  r  sultat dans la partie droite de la fen  tre  La figure B 4 repr  sente      interface et le r  sultat d   une requ  te sur  DictList     72 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc       lt dictionary readme gt    lt readme info gt    lt creation date gt 6 May 1999 lt  creation date gt    lt author gt Laurent Griot lt  author gt    lt  readme info gt    lt general info gt    lt name gt EuroWordNet lt  name gt    lt category gt multilingual dictionary lt  category gt    lt domain gt general lt  domain gt    lt source language gt English lt  source language gt   lt creation date see  version lt  creation date gt   
333. pillon dans leur espace virtuel    La consultation de la base Papillon se fait avec un navigateur Web classique  L utilisateur compose sa  requ  te et visualise le r  sultat dans son navigateur     Annotation    Les utilisateurs peuvent annoter toutes les donn  es de la base Papillon  Il est possible d   annoter les  articles lors de la consultation ou directement le travail d   autres contributeurs lors de la correction d   articles  existants  Les annotations sont stock  es sur le serveur dans l   espace virtuel des utilisateurs  Elles peuvent    tre partag  es entre des groupes d utilisateurs     Contribution directe    Les personnes souhaitant contribuer doivent imp  rativement s   enregistrer la premi  re fois sur le serveur  Papillon  Par la suite  il se connectent et s   identifient  Dans la partie   dition du serveur  un classement  r  compense les contributeurs du mois  Ensuite  les contributeurs ont acc  s    un panneau d   articles et de liens     r  viser  Ils t  l  chargent les articles sur lesquels il souhaitent travailler et les   ditent ensuite localement sur  leur machine  Il est aussi possible de contribuer et d   annoter des contributions d   autres contributeurs     182 D  Application    Papillon  projet de base lexicale multilingue sur Internet       EE           Papillon       go    pillon    informations Consultation   dition Contacts Aide    Le projet Papillon  Kear    The Papillon project    Ce projet a pour bulle cr  er une base lexicale multilingue 
334. pillon jpn xsd   lt  documentation gt    lt  annotation gt    lt   Redefining elements of Papillon common schema              lt redefine  schemaLocation  http   www clips imag fr geta services dml papillon xsd  gt        article group    gt            lt     An article of the Papillon Japanese volume is an lexie    gt    lt group name  article  gt    lt sequence minOccurs  1  maxOccurs  1  gt    lt element ref  d lexie   gt    lt  sequence gt    lt  group gt    lt     language specific group    gt    lt   Here we define the elements specific to the Japanese language            lt group name  language specific  gt    lt sequence gt    lt element ref  d kun yomi  maxOccurs  unbounded   gt    lt element ref  d on yomi  maxOccurs  unbounded   gt     276 Annexe B   sch  mas XML pour Papillon     lt    Maybe this should be put in the general lexie structure    gt    lt element ref  d language levels  minOccurs  0  maxOccurs  1   gt               lt  sequence gt    lt  group gt    lt     posType type    gt    lt   Here are defined the parts of speech of the Japanese language   a   lt simpleType name  posType  gt    lt restriction base  d posType  gt        sett  go  pretix   gt   TE       lt enumeration value t HE ARH   gt    lt       setsubigo  suffix   gt       lt enumeration value   te Fea  j gt    lt     josh  shi  numeral   gt    lt enumeration value   Edu Ea  np   lt        z  goseibun  productive a   A A   lt enumeration value   ERA Aug Fe   lt      meishi  noun   gt    lt e
335. pl  mentation 195    Sp  cificit  s du francais    Les sp  cificit  s du fran  ais sont d  crites formellement par le sch  ma Papillon fran  ais donn   en annexe  B de ce document  Ce sch  ma red  finit le groupe sp  cifique aux langues de la lexie ainsi que la liste des  cat  gories grammaticales  Pour le fran  ais  il n   y a pas d   informations sp  cifiques    ajouter  Le groupe   lt language specific gt  est donc vide    Les cat  gories grammaticales utilis  es pour le fran  ais sont pour l   instant au nombre de 29  La liste pro   vient du travail lexicographique r  alis   au GETA sur les dictionnaires FeM et UNL fran  ais  Nous n   avons  pas utilis   la liste des cat  gories grammaticales de DiCo  car elle est moins pr  cise  Les cat  gories sont  d  crites dans le sch  ma Papillon fran  ais donn   en annexe B     Sp  cificit  s du japonais    Les sp  cificit  s du japonais sont d  crites formellement par le sch  ma Papillon japonais donn   en annexe  B de ce document    Les cat  gories grammaticales utilis  es pour le japonais sont tir  es principalement de la liste des 29  cat  gories du dictionnaire Gakken Kokugo Daijiten   dit   en 1985 par Gakush  kenky  sya  Tokyo  Elles sont  d  crites dans le sch  ma Papillon japonais donn   en annexe B    Nous avons ajout  s plusieurs informations sp  cifiques au japonais la transcription des kanji  les quanti   ficateurs et les niveaux de langue  politesse et d  f  rence     Tout d   abord  les lexies japonaises sont souvent
336. ple  set of string      indexer string     quality  one of  manual   auto   reviewed       properties  set of property      uws  set of string                    FIG  C 7     description d une unit   lexicale avec LINGARD    Dans la figure C 7  l   objet linguistique french ent ry est une structure de traits feature  structure   Les traits ont des types diff  rents  cha  nes de caract  res string  ensembles set of ou   num  ration  one of de cha  nes de caract  res  Cet objet linguistique est relativement simple     LINGARD permet aussi de repr  senter des structures plus complexes comme celle du DEC  Mel   t   chuk84 88 92   Chaque article du DEC   tant tr  s complet  nous ne repr  senterons ici qu   une partie d   article     Les lexies du DEC sont d  crites par un r  gime repr  sentant les r  alisations syntaxiques des arguments  du pr  dicat  Ce r  gime est le reflet imprimable d   une structure complexe o   l   on retrouve l   ensemble des  combinaisons possibles des r  alisations d   arguments  On peut repr  senter cette structure de mani  re abstraite  par un automate dont chaque chemin forme un combinaison valide  voir figure C 8       def linguistic class r  gime   feature structure            automate automate r  gime    argument order  list of string      exemples exemples regime        def linguistic class automate r  gime  automaton  arcs r  alisation argument      def linguistic class exemples r  gim    set of   feature structure     r  alisations  list of  stri
337. plexType mixed  true  gt    lt attribute ref  d lang   gt    lt attribute ref  d delay   gt                                          lt  complexType gt    lt  element gt    lt 1 DML definitions for a volume file  Fe   lt     volume element  gt    lt      This element describes a volume  It is a list of articles  sorted following the nomenclature of the dictionary    gt    lt element name  volume  gt    lt complexType gt    lt sequence gt      lt group ref  d article  minOccurs  0  maxOccurs  unbounded   gt    lt  sequence gt    lt attribute ref  d history  use  optional   gt    lt attribute ref  d history ref  use  optional   gt                                 lt attribute name  creation date  type  d dateType  use  optional   gt    lt attribute name  encoding  type  d encodingType  use  optional   gt    lt attribute name  format  type  d formatType  use  optional   gt    lt attribute name  hw number  type  positivelnteger  use  optional   gt    lt attribute name  installation date  type  d dateType  use  optional   gt    lt attribute name  name  type  string  use  optional   gt    lt attribute name  source language  type  d lang  use  optional   gt    lt attribute name  version  type  string  use  optional   gt    lt  complexType gt    lt  element  gt        article group    gt    lt  l    Its content is an article of a dictionary  It has to be  redefined in other schemas for specific volumes    gt    lt     due to a bug in XSV  redefinition is not implemented  I    change t
338. possibilit   d annoter les  informations de la base  Ce principe a   t   r  alis   dans le projet Papillon avec l   utilisation de profils d   utili   sateurs ainsi que des pr  f  rences personnalis  es  modifiables strictement via des interfaces appropri  es  et  si possible   voluant automatiquement par suivi et apprentissage du syst  me     Principes li  s aux donn  es    6  Le principe d   h  ritage s applique de fa  on vari  e  En ce qui concerne les groupes d   utilisateurs  il  consiste    utiliser une hi  rarchie de groupes d   utilisateurs qui h  ritent de plusieurs propri  t  s comme les  feuilles de style  les droits d   acc  s  les poids  Ces propri  t  s sont d  finies une seule fois pour l   univers des  utilisateurs  Par d  faut chaque groupe et chaque utilisateur h  rite de ces propri  t  s  Chacun peut ensuite  d  finir au niveau d   un groupe ou d   un utilisateur d   autres propri  t  s qui seront    leur tour h  rit  es  Ce  principe est sp  cifi   en partie C et r  alis   dans le projet Papillon    diff  rents endroits  l   aussi par les groupes  d utilisateurs  les poids  les d  finitions des sch  mas  etc    7  Le principe de tra  abilit   consiste    noter tous les changements effectu  s sur les informations lexi   cales et   tre capable de tracer tous les changements successifs subis par ces informations depuis leur cr  ation  ou leur importation dans la base  Ce principe a   t   exp  riment   en partie B dans les maquettes DicoSz  t  r et  Nihongo da
339. possible de proposer une DTD simple pour coder tous les dictionnaires  Les probl  mes rencontr  s    5  Standards li  s    la repr  sentation de dictionnaires 59    sont     la contradiction entre la g  n  ralit   de la description  qui doit   tre applicable    un grand nombre de  dictionnaires  et le pouvoir descriptif  c   est    dire la possibilit   de d  crire avec pr  cision la structure  de n   importe quel dictionnaire     le besoin de permettre diff  rents usages et vues du dictionnaire encod    comme par exemple une  version imprim  e et une version base de donn  es     la dualit   dans les dictionnaires entre la structure de surface li  e    la pr  sentation et la structure  profonde li  e    l   organisation logique et linguistique  dite aussi microstructure     Malgr   ces probl  mes  le chapitre 12 de la TEI P3 propose un certain nombre d   l  ments d   information  qu il est int  ressant de noter  comme      les informations sur la forme du mot  orthographe  prononciation  accentuation  etc    les informations grammaticales  cat  gories  sous cat  gories  etc     les d  finitions ou traductions   l     tymologie   les renvois   les entr  es apparent  es   les informations d   usage    les exemples     2  Un exemple    La figure A 45 montre un exemple d   article de dictionnaire     dresser   a  Theat  habilleur m  euse  f   Comm  window     talagiste  mf  she s a stylish   elle  s habille avec chic  V hair    b   tool   for wood  raboteuse       for stone  rabot
340. pour les sp  cialistes lexicologues                          203   5    valuations pr  liminaires et exemples 204  5 1  R  cup  ration du FeM se 44 o tr an mous RES YG aw ee dre hausse 204  5 1 1  Exemple d   article apr  s r  cup  ration                            204  5 1 2  Lexies fran  aises provenant de cet article                           205  5 1 3  Lexies anglaises provenant du m  me article                          206  5 1 4  Axies provenant du m  me article                              206   5 2  R  cup  ration de JMDIEt eiii lo ea ba Pet due e re ae Gt th da 206  9 2 1  Exemple d article s sus sie 2  amp  are aie da a Nm Ames als ds 206  5 2 2  Lexie japonaise provenant de l   article                             207  5 2 3  Lexies anglaises provenant de l   article                              207  5 2 4  Axies provenant de l   article                                 208   5 3  Fusion   ventuelle de lexies anglaises                                   208  3 31  LEXIS apres  IUSION  2 2 io e eG we Re rie us RO ar   tat ant de 209  5 3 2  AXies apr  s TUSION s    o 44       mu do ad    4 a a    ee ee    209  Conclusion 213  Principes d  gag  s devant ce travail   s s                                 213  Principes de structuration logique                                 213  Principes li  s    l   aspect collaboratif                                 213  Principes li  s aux donn  es                                     214  Principes de mise en   uvre s        amp  4  
341. produites par des  contributeurs  La base lexicale ne sera jamais dans un   tat fig    Il faut donc pr  voir des proc  dures de  validation des donn  es pour surveiller en permanence l     tat des informations contenues dans la base  Cela  n  cessite des outils permettant de mettre en place des contraintes sur les ressources et des v  rificateurs de  coh  rence    Gr  ce    ces outils  on pourra guider les contributeurs en leur proposant des informations    compl  ter  et  aider les r  viseurs en rep  rant certaines erreurs ou inconsistances    Ces outils permettront de v  rifier  d   enrichir des articles et de faire de multiples recherches  Il devront    tre associ  s    un langage de requ  tes puissant    Lorsqu un article de dictionnaire sera mal form    il faudra pouvoir le trouver  Les v  rificateurs pourront    tre lanc  s par exemple en t  che de fond sur la base lexicale    Par exemple  le lexicologue responsable d   une ressource peut avoir besoin d   extraire de la base en  construction tous les articles qui n   ont pas de traduction  Il les enverra ensuite aux lexicographes qui les  compl  teront     C   Sp  cification d   un environnement de  gestion et consultation de bases lexicales et  dictionnaires    C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires 111    Introduction       partir du cahier des charges pr  c  dent  nous pouvons maintenant passer    la sp  cification d un en   vironnement complet de manipulat
342. ps imag fr geta services dml papillon xsd  gt    lt l   article group    gt         lt     An article of the Papillon French volume is an lexie    gt    lt group name  article  gt    lt sequence gt    lt element ref  d lexie  minOccurs  1  maxOccurs  1   gt    lt  sequence gt    lt  group gt    lt     language specific group    gt    lt   Here are defined the elements specific to the French language       lt group name  language specific  gt    lt sequence  gt    lt  group gt      lt     posType type    gt     3  Sch  ma de Papillon fran  ais                                                                                                                                     273     lt I Here are defined the parts of speech of the French language    gt    lt simpleType name  posType  gt    lt restriction base  d posType  gt    lt     nom commun masculin  noun masculine     gt    lt enumeration value  n m    gt    lt     nom commun masculin invariable  noun masculine invariable     gt    lt enumeration value  n m  inv    gt    lt     nom commun masculin pluriel  noun masculine plural     gt    lt enumeration value  n m  pl    gt    lt     nom commun masculin et ou f  minin      noun masculine and or  feminine           lt enumeration value  n m  f    gt    lt     nom commun masculin et ou f  minin      noun masculine and or  feminine 777      gt    lt enumeration value  n m         gt    lt     nom commun f  minin  noun feminine     gt    lt enumeration value  n f    gt    lt    
343. ptional   gt    lt attribute name  name  type  string  use  optional   gt    lt attribute name  type  gt    lt simpleType gt    lt restriction base  string  gt               lt enumeration value  supplier   gt    lt enumeration value  client   gt    lt  restriction gt    lt  simpleType gt    lt  attribute gt    lt     indicates the input and output       formats    gt         lt attribute name  category  gt    lt simpleType gt    lt restriction base  string  gt      lt enumeration   lt enumeration   lt enumeration   lt enumeration    value  preprocessing   gt     value  meta info   gt     value  consultation   gt     value  modil    fication   gt         lt  restriction gt    lt  simpleType gt    lt  attribute gt    lt  complexType gt    lt  element  gt      lt      url element    gt     2  Sch  ma XML de DML 251        lt     indicates the URLs used for connection    gt    lt element name  url  gt      lt complexType gt    lt attribute ref  xlink href   gt    lt  complexType gt    lt  element  gt    lt     protocol element    gt    lt     indicates the protocol used for connection    gt      lt element name  protocol  gt    lt complexType gt    lt attribute name  type  type  string   gt         lt attribute name  login  type  string   gt    lt attribute name  password  type  string   gt         lt  complexType gt    lt  element  gt    lt Q  delay element  gt    lt     indicates the connection delays for the API    gt         lt element name  delay  gt    lt complexType gt   
344. que la base regroupant toutes les UW  sont maintenues par l     quipe responsable du projet    Les dictionnaires bilingues sont maintenus par les   quipes partenaires  Chaque partenaire est responsable  du dictionnaire associant sa langue et l    UNL  Le GETA s   occupe donc du dictionnaire fran  ais UNL    La microstructure du dictionnaire d  crit pour chaque article une correspondance entre un mot fran  ais  suivi de variables utilis  es dans le syst  me de traduction automatique ARIANE puis d   une UW  L   UW est  compos  e d   un mot vedette en anglais suivi de restrictions s  mantiques    Dans l   exemple de la figure A 19  le mot fran  ais abr  ger est suvi des variables ARIANE suivantes     AUX  AVOIR   CAT  CATV   VAL1  GN    et de UW  Shorten  obj gt word     Cette UW  est une d  notation d   ensembles d   acceptions interlingues  Elle est compos  e du mot vedette anglais shorten  suivi de la restriction s  mantique ob j gt word  Ici  cette restriction de sens signifie que shorten s   applique  seulement aux mots  obj gt word       abr  ger   AUX  AVOIR    CAT  CATV    VAL1  GN    shorten obj gt word       FIG  A 19     Particle abr  ger du dictionnaire fran  ais UNL au format original    Ce dictionnaire est en constant d  veloppement afin d   ajouter de nouveaux mots ou de distinguer plu   sieurs sens diff  rents  Il contient actuellement environ 40 000 articles     1  Notions du domaine 25    1 3 5  Conclusion    Les dictionnaires que nous venons de pr  senter sont
345. ques venant surtout de la masse  et de la vari  t   des informations    construire  La construction d   un dictionnaire est un travail men   en  collaboration par diff  rents lexicographes qui doivent respecter une coh  rence  non seulement en ce qui  concerne la forme sp  cifi  e par le lexicologue  abr  viations  balises      mais aussi sur le fond  m  me crit  re  de s  lection des sens  m  mes crit  res de d  composition en entr  es et sous entr  es dans le cas d   homo   graphes        Enfin  les choix faits par certains lexicographes peuvent influer sur les d  cisions que devront prendre  d   autres lexicographes  liens syntaxiques ou s  mantiques entre entr  es   Les outils informatiques construits  doivent donc tenir compte de      aspect distribu   du travail de lexicographie    Lors du travail de lexicographie  il peut arriver que le lexicologue souhaite modifier la structure du  dictionnaire afin de mieux prendre en compte certains ph  nom  nes qui ont   t   mal   valu  s ou sous estim  s   Cela peut se traduire par un changement des interfaces d     dition et par une modification des   ventuels  outils de v  rification automatique de coh  rence  Un outil pour lexicographes doit donc   tre suffisamment  param  trable et   volutif pour autoriser de tels changements    Il existe diff  rentes m  thodologies pour cr  er et maintenir des dictionnaires complexes  Nous parlerons  de construction         directe   utilisant l   interface d   une base de donn  es         d 
346. r  partition se fait selon le script d  crit dans la section 3 3  de cette partie        bears a     v tr   Lexie abandonner 1   Lexie to leave 1 E    Lexie abandonner 2     d  serter  Mil     Lexie to desert     Lexie abandonner 3   renoncer                                                             Lexie to give up 1             Lexie to abandon 1                Lexie ee   c  der  a 43   Lexie to give in to 1             FIG  D 12     r  partition d un article du FeM en lexies et axies    5 1 2  Lexies francaises provenant de cet article    L article pr  c  dent a g  n  r   automatiquement six lexies fran  aises correspondant    tous les sous sens  de l   article  Les identificateurs de ces lexies sont num  rot  s de abandonner 1    abandonnerS4   Les informations sp  cifiques au FeM sont stock  es dans l     l  ment  lt fem gt   Elles serviront par exemple     reg  n  rer ensuite l   article original  Voici en exemple la lexie abandonner 3      lt lexie id  abandonner 3  basic  no  gt    lt headword gt abandonner lt  headword gt    lt pronunciation encoding  GETA  gt aban done  lt  pronunciation gt    lt pos gt v tr  lt  pos gt    lt fem gt  lt gloss gt renoncer a lt  gloss gt  lt  fem gt    lt axies gt  lt refaxie href   a42   gt  lt  axies gt     lt  lexie gt    Cette lexie est reli  e    l   axie dont l   identificateur est a42     206 D   Application    Papillon  projet de base lexicale multilingue sur Internet    5 1 3  Lexies anglaises provenant du m  me article    
347. r  vis  s et compl  t  s pour les int  grer dans la base apr  s  filtrage  Il peut renvoyer plusieurs fois les fichiers aux indexeurs  si le r  sultat n   est pas satisfaisant    Les indexeurs travaillent    domicile sur leur ordinateur personnel  Ils n   ont besoin que du logiciel  Word    sur Mac ou PC  Pour faciliter le travail des lexicographes  nous avons ajout   des outils d aide     l indexation sous forme de macros Word         Les postes des lexicographes    Le lexicographe dispose d   une vue globale de l   extrait de dictionnaire avec lequel il travaille  Il peut  corriger tr  s rapidement les erreurs qu   il d  tecte et peut s   inspirer des articles pr  c  dents ou suivants  qu   il  voit en totalit   sans avoir    ouvrir de fen  tres suppl  mentaires    Chaque unit   d   information est donn  e sous forme de paragraphe dans un style particulier  Gaschler94a   94b      l   aide des macros  le lexicographe peut s  lectionner la cat  gorie dans une liste  ce qui   vite les  erreurs dans les abr  viations   v  rifier la validit   d   une entr  e ou calculer l   ensemble des styles pouvant  suivre le style courant  afin d ins  rer un nouvel   l  ment d   information  Mangeot97   La figure B 12 montre  un exemple de fichier d     dition d   un dictionnaire     2  Am  lioration des m  thodes de construction 85    Boutons de macros   Style suivant          Prononciation  z Cat  gorie  Style Menu sp  cial V  rification  pour lexicographe       2   Fic Format Outils Lef  
348. r chaque langue  Certaines sont rarement utilis  es dans cer   taines langues  mais toutes sont th  oriquement possibles  Ces fonctions lexicales de base peuvent   tre com   bin  es  Dans l   exemple suivant  la fonction lexicale  VO repr  sente le verbe associ   au nom MEURTRE   TUER     Chaque fonction lexicale est repr  sent  e par l   l  ment DML  lt   unction gt   Chaque valeur de fonction  est repr  sent  e par un   l  ment  lt value gt   Les valeur ayant une distance s  mantique proche sont regroup  s  dans un   l  ment  lt valgroup gt   Lorsque la valeur d   une fonction lexicale est une autre lexie  sa r  f  rence  est indiqu  e avec un lien  Cela permet de construire un v  ritable r  seau entre les lexies monolingues    Les exemples d   usage de la lexie sont repr  sent  s par l     l  ment  lt examples gt   Chaque exemple porte  aussi un identificateur unique dans la base  Cet identificateur est repr  sent   par l   attribut id du type DML  ID  Il nous permet de relier aussi les traductions des exemples via le dictionnaire interlingue    Les idiotismes contenant la lexie sont repr  sent  s par l     l  ment  lt fu11 1dioms gt   Chaque idiotisme  porte aussi un identificateur unique qui nous permet de relier ses traductions via le dictionnaire interlingue    Enfin  les liens interlingues vers les axies sont regroup  s dans l     l  ment  lt axies gt   Chaque lien est  ensuite repr  sent   par l     l  ment  lt refaxie gt   La r  f  rence est not  e avec l   attribut
349. r des articles  de dictionnaires en ligne  Mais  m  me si nous prenons en compte des informations permettant la r  vision  des donn  es  la technique n   est valable que pour un tout petit groupe d utilisateurs et elle ne permet pas  encore la r  vision des donn  es    Il reste donc    mettre en place un vrai  collecticiel  qui permette la construction collaborative de dic   tionnaires via le Web comme dans le projet Alliance Web  AllianceWeb   Les membres de la communaut    virtuelle concern  s par cette construction ont des r  les diff  rents  Les informations envoy  es par les contri   buteurs doivent   tre r  vis  es par un petit groupe d   experts  Cette organisation pose des probl  mes de droits  d   acc  s diff  rents et de gestion des contributions  qui ne peuvent   tre int  gr  es qu   apr  s r  vision     Probl  me de droits d   acc  s    Si deux utilisateurs   crivent ou modifient la m  me donn  e en m  me temps  des probl  mes de conflits  surgissent  De plus  certaines donn  es doivent   tre prot  g  es du grand public  Pour r  soudre ces probl  mes   il faut organiser un serveur g  rant diff  rents utilisateurs et groupes    Une solution satisfaisante est que chaque utilisateur ait avoir un compte virtuel sur le serveur avec des  droits d   acc  s particuliers  Les utilisateurs pourront librement constituer des groupes partageant les m  mes  droits d   acc  s  Il sera aussi utile  voire n  cessaire  d   associer    chaque utilisateur un profil d   int  r  t et u
350. r geta services dicofej     HTML 4 0 HyperText Markup Language 4 0 Specification Recommandation du W3C   http   www w3 org TR REC html40     INTERLEX  INTERLEX Diffusion de dictionnaires   lectroniques via Internet ou c  d  roms  projet MLIS      MHonArc      MySQL      Nihongo      OLIF     http   interlex uax es     MHonArc convertisseur mel vers HTML     http   www mhonarc org     MySQL SGBD  http   www mysql com     Nihongo dictionnaire pour apprenants du japonais     http   www clips imag fr geta services nihongo     OLIF Open Lexicon Interchange Format   http   www olif net     Signets     MobiDic      Papillon     229    MobiDic dictionnaires hongrois anglais allemand     http   www mobidictionary com     Papillon base lexicale frangais japonais that     http   vulab ias unu edu papillon      PostgreSQL  PostgreSQL SGBD      RDF      RFC2396      SILFIDE      SALT      SAIKAM      SAX      Tamino      Third Voice      XHTML      XLINK      XMaster      XML     http   www postgresql org     RDF Resource Description Framework  Recommandation du W3C    http   w3 org RDF   RFC 2396 Request For Comments for Uniform Resource Identifiers  URI   Generic Syntax   Reg  te de IETF    http   www ietf org rfc rfc2396 txt    SILFIDE Serveur Interactif pour la Langue Francaise  son Identit    sa Diffusion et son Etude     http   www loria fr projets Silfide et http   silfide imag fr    SALT Standards based Access to Lexicons and Terminologie     http   www ttt org salt  et http   www
351. r japonais n   emploiera pas le m  me mot  Elle est repr  sent  e par l   attribut  grade de l     l  ment  lt reference grade  cotextuel    gt     Voici un extrait de la lexie japonaise ARAU correspondant au verbe fran  ais LAVER      7     lt lexie ia   gt  5 1  basic  true  gt           lt headword hn  1  gt  PAS  lt  headword gt   Pr a Lo 4  lt   kun yomi gt    lt pos gt  HH BA AA  lt  pos gt      lt language levels gt   lt politeness grade  neutral   gt    lt usage grade  NA   gt    lt reference grade  NA   gt    lt  language levels gt    lt  lexie gt     196 D   Application    Papillon  projet de base lexicale multilingue sur Internet    Articles interlingues    Les articles interlingues sont des acceptions ou liens interlingues  Ce sont des axies repr  sent  es par  l   l  ment  lt axie gt   Les axies ne sont que des liens entre les lexies monolingues  Elles ne contiennent pas de  d  finition  La description formelle de cet   l  ment est not  e par le sch  ma Papillon donn   en annexe B    Chaque axie contient un identificateur unique dans la base port   par l   attribut id  Cet attribut est du  type DML ID  Si l   axie est d  truite  l   identificateur n   est pas r  affect    Il est interne    la base et cach   des  utilisateurs  L   attribut history est un attribut DML  C   est un identificateur permettant de faire r  f  rence     l   historique des changements ayant eu lieu dans l   axie    L   axie est compos  e de quatre   l  ments principaux   la cat  gorie s  m
352. raditional dictionaries  a metalexicographic method and some  tools Proc  COMPLEX   92  Conference on Computational Lexicography an Text Research   Budapest  Hongrie  Linguistics Institute  Hungarian Academy of Sciences  pp  161 174      Ide95a  Nancy Ide  Jacques Le Maitre  amp Jean V  ronis  1995  Outline of a Model for Lexical Data   bases  Current Issues in Computational Linguistics  In Honour of Don Walker  Linguistica  Computazionale IX  X  Pisa  1995   pp 283 320      Ide95b  Nancy Ide  amp  Jean Veronis  1995  Text Encoding Initiative  background and context  Kluwer  Academic Publishers  242 p      ISO86  ISO  1986  ISO 8879  SGML  Information processing     Text and office systems     Standard  Generalized Markup Language  Gen  ve  155 p      15093  ISO  1993  ISO IEC 10646  UNICODE  Information technology     Universal Multiple Octet  Coded Character Set  UCS   Gen  ve  754 p      ISO96  ISO  1996  ISO IEC 10179  DSSSL  Information technology     Processing languages     Do   cument Style Semantics and Specification Language  Gen  ve  292 p      ISO98  ISO  1998  ISO 639 1  amp  2 Code for the representation of names of languages Part 1  amp  2  Alpha 3 code  Gen  ve  Partie 1  17 p   Partie 2  90 p      ISO99a  ISO  1999a  ISO IEC 8859 1    15     8 bit single byte coded graphic character sets  Latin  alphabet  Gen  ve     222 Bibliographie     ISO99b  ISO  1999b  ISO DIS 12200  MARTIF  Computer applications in terminology   Machine   readable terminology interchan
353. ravaillent chez eux avec l     diteur Word  voir figure D 9      K   CN      HTML Markup   Times T24 E 6 Ps      L   Se    gt                                      meurtre  meu rtr e   nm  action de tuer    PAR L individu X DE L individu Y  REGIME  X I Y  I  1  de N    1  de N  2  A poss    2  A poss    FONCTIONS LEXICALES    Qsyn   assassinat  homicide  2   crime    VO   tuer    AD   meurtier adj       FIG  D 9       dition de la lexie MEURTRE avec Word    202 D  Application    Papillon  projet de base lexicale multilingue sur Internet    Lorsque le lexicographe a fini de r  diger un fichier  il le renvoie    la base  L   le fichier est reconverti du  format RTF vers le format original XML DML  puis un sp  cialise lexicologue r  vise les articles avant de  les int  grer dans la base  Il enl  ve ensuite les marques sur les articles int  gr  s     4 3 5    diteur structur      Nous proposons aussi aux lexicographes r  digeant des articles monolingues de travailler directement  avec un   diteur structur   XHTML  Pour cela  nous transformons les squelettes d   articles du format XML  vers le format XHTML au moyen d   un feuille de style XSLT  XSLT 1 0  en suivant la m  thode d  crite dans  la partie C  Si ces squelettes proviennent d   articles de la base    compl  ter  ces articles sont marqu  s pour    viter la duplication des efforts de r  daction  Les fichiers XHTML sont ensuite envoy  s aux lexicographes  qui travaillent chez eux  voir figure D 10      meurtre    meu rtr e  
354. re B 7  l   entr  e du FeM  a   t   obtenue localement tandis que l   article du EDICT provient du serveur distant de Jim Breen     Lorsque l   utilisateur entre un mot fran  ais  DicoFeJ r  cup  re les traductions anglaises correspondant aux  mots vedettes trouv  s  Il consulte ensuite le dictionnaire japonais anglais avec ces traductions  Nous affi   chons ensuite les entr  es fran  aises du FeM et les entr  es japonaises de EDICT    la suite  Nous construisons  ainsi    la vol  e un brouillon de dictionnaire fran  ais japonais    D   autres ressources distantes sont disponibles  Ainsi  l   utilisateur peut compl  ter les informations sur  un terme en consultant le dictionnaire universel francophone  DUF  s   il s   agit d   un terme fran  ais  ou le  dictionnaire Websters si le terme est anglais  Il lui suffit de cocher les boutons correspondants  dictionnaires  optionnels      1  Exp  riences sur la consultation en ligne 79    File Edit View Go Communicator      as nw        DicoFeJ                Dictionnaires  optionnels HA  WE    Analyse  morphologique   sauf japonais   Expression r  guli  re   sauf japonais   rien  Entr  e        heiges      consulter     Si vous avez des  probl  mes avec les  accents  vous pouvez les  copier ict     Result of the morphological analysis     neiges neige Fem PL Noun     lt  lt previous next gt     neige me j  nf    snow    un bonhomme de neige   lt  lt   des   ufs battus en neige   lt  lt   faire boule de neige  fig     lt  lt     Sear
355. re Papillon    Voici la description en LEXARD   de la base lexicale Papillon      define lexical database GETA database     Owner GETA     comment  Papillon Lexical Database    creation date  25 06 01     users  root VB FL MM AP GS MT     administrators  MM GS     lexicologists  FL MT     partner servers  XRCE analyser     dictionaries  DiCo FeM JMDict Papillon SAIKAM      Voici le document XML   quivalent      lt database   xsi schemaLocation  http   www clips imag fr geta services dml  http   www clips imag fr geta services dml dml xsd   history ref  database his xml   name  Papillon Lexical Database   creation date  25 06 01   owner  GETA  gt    lt partner servers  gt   lt user ref name  XRCE Analyser  href  xrce xml   gt    lt  partner servers gt   lt users gt    lt user ref name  Vincent Berment  href  berment  xml   gt                                             lt user ref name  Francois Lareau  href  lareau xml   gt    lt user ref name  Mathieu Mangeot  href  mangeot xml   gt    lt user ref name  Alain Polguere  href  polguere xml   gt    lt user ref name  Gilles S  rasset  href  serasset xml   gt    lt user ref name  Mutsuko Tomokiyo  href  tomokiyo xml   gt    lt  users gt    lt groups gt      lt group name  lexicologists   gt    lt user ref name  Francis Bond   gt    lt user ref name  Mutsuko Tomokiyo   gt    lt user ref name  Francois Lareau   gt    lt user ref name  Alain Polgu  re   gt     lt  group gt     lt group name  administrators  gt    lt user ref name  M
356. re l   organisation des sch  mas XML utilis  s dans le projet  Papillon        Sch  ma XML  DML        lt import gt        Sch  ma XML  Papillon        lt redefine gt   lt redefine gt              Sch  ma XML     Sch  ma XML Sch  ma XML  Papillon fran  ais Papillon axies Papillon japonais  Sch  ma XML     Sch  ma XML Sch  ma XML  Papillon tha   Papillon anglais Papillon Lao                         FIG  D 5     organisation des sch  mas XML dans le projet Papillon    Au d  part  nous utilisons le sch  ma DML dans lequel sont d  finis les   l  ments communs DML  les bases  lexicales  les dictionnaires et les lexiques  Ensuite  le sch  ma Papillon importe le sch  ma DML et d  finit les    l  ments communs au projet comme les lexies et les axies  Enfin  les sch  mas sp  cifiques aux langues ou  aux lexiques comme papillon fra pour le fran  ais  papillon jpn pour le japonais et papillon axi pour les liens  interlingues red  finissent les   l  ments sp  cifiques du sch  ma g  n  ral papillon     4  Analyse g  n  rale et impl  mentation 189    4 1 2  Macrostructure des dictionnaires  La base lexicale    La base lexicale Papillon est d  crite par l     l  ment DML  lt database gt   La description formelle de  cet   l  ment est r  alis  e par le sch  ma DML donn   en annexe A  Pour l instant  la base contient quatre  dictionnaires r  f  renc  s par l     l  ment  lt dictionaries gt   Le FeM  le JMDict et le DiCo sont utilis  s  pour construire des squelettes d   articles du dictionnai
357. ribute    gt     238 Annexe A   sch  ma XML pour DML        lt     Indicates the weight of a linguistic element  It can be a  frequency score  etc  This weight can be used to choose between  various elements of the same type eg between two translations  The  possible values are between 0 0 and 1 0                 It is better to use the IDs and to store the different weights in  a table  It allows to store various weights  frequency in corpora   neuronal weigth  frequency in search engines  etc          a   lt attribute name  weight  type  d weightType   gt    lt simpleType name  weightType  gt         lt restriction base  float  gt     maxExclusive value  1 0   gt         minExclusive value  0 0   gt                           lt  restriction gt    lt  simpleType gt    lt I DML definitions for a database   gt    lt     databas lement             lt    The database element is the top element of the database  It  describes the whole database with the dictionaries  the various groups  and pointers to the users file    gt            lt element name  database  gt    lt complexType gt     lt sequence gt    lt element ref  d users   gt    lt element ref  d groups   gt    lt element ref  d partner servers   gt    lt element ref  d dictionaries   gt     lt  sequence gt     lt attribute name  creation date  type  d dateType  use  optional   gt      lt attribute name  name  type  string  use  optional   gt         lt attribute name  owner  type  string  use  optional   gt    lt attribut
358. rmations dont il a besoin dans une grande quantit   d   information    Pour la manipulation de dictionnaires  nous avons besoin de r  cup  rer des ressources existantes  de  produire    partir d   elles de nouvelles ressources et de faire des conversion entre formats  Les outils R  cupdic  et Producdic sont satisfaisants en terme de fonctionnalit  s  Il reste toutefois un probl  me d   interface et de  portabilit      Pour la construction de dictionnaires  il est possible de distinguer deux types d   apport  la r  daction  d articles entiers et les contributions localis  es sur des parties d   articles  Pour la r  daction  il faut proposer  des outils d   aide    la r  daction et aussi un m  canisme d   aller retour entre les r  dacteurs et la base pour  pouvoir r  viser le travail accompli  Pour les contributions  il faut des outils simples fonctionnant directement  en ligne et permettant de partager les contributions entre plusieurs utilisateurs  L utilisation d   un  tampon   est n  cessaire pour donner un statut  provisoire  aux nouvelles donn  es  Ensuite  il faut mettre au point une  proc  dure de validation  correction  int  gration des donn  es    Pour la structure interne des dictionnaires  nous souhaitons nous appuyer sur des standards existants pour  garantir la portabilit   et la compatibilit   avec un maximum d   outils existants et    venir  C   est pourquoi nous  pensons utiliser les standards UNICODE et XML ainsi que le r  sultat des recherches men  es par la 
359. ropres  ENAMDICT  qui contient plus  de 200 000 noms et une base d informations sur les kanji  KANJIDIC  qui d  taille les 6 353 kanji  inclus dans le standard JIS X 0208         le d  veloppement de logiciels et de serveurs pour consulter ces ressources     Depuis  le projet JMDict  Japanese Multilingual Dictionary  a pris la suite en 1999  Les buts sont de  convertir les ressources au format XML  XML 1 0  et encod   en Unicode  18093  UTF 8 et aussi d   ajou   ter d   autres langues cibles  Il y a actuellement environ 10 000 articles japonais fran  ais et 18 000 articles    japonais allemand   Toutes les ressources sont consultables en ligne  EDICT   De plus  les sources sont t  l  chargeables    gratuitement par FTP     Interface    Avec la m  me interface  il est possible de chercher un mot anglais  un mot japonais en choisissant son  dictionnaire dans une liste  d   examiner un kanji dans un mot compos   de plusieurs kanji ou de consulter la         32 A   Contexte actuel de la  dictionnairique     base des kanji  La figure A 24 montre l interface et les r  sultats de la recherche dans le dictionnaire EDICT     Jim Breen s WWWJDIC PES   Server    Dictionary Search screen Current Dictionary is  edict   Documentation   Dictionary Codes     k  Search Key  AH  longest match found  Click on  G  for a Google search    SARA  HABIDA  eternity  perpetuity  G   OARRFS UANI  eternity  perpetuity  G   QARH  AAX   constancy  immutable  G     Select an action from the following and cl
360. rtant d    outils utilisant XML  nous ont convaincu de l   utiliser pour nos travaux     5 3  Pour la repr  sentation du contenu    5 3 1  Proposition d   une structure tr  s riche   le mod  le GENELEX  Pr  sentation    Le projet EUREKA GENELEX  GENELEX93   GENEric LEXicon  s   est   tendu principalement sur 3  ans  1990 1993   Le but principal   tait la construction d   un dictionnaire g  n  rique pour diff  rentes langues  europ  ennes  le fran  ais  l italien et l espagnol   L   effort humain fut d   environ 250 hommes ann  es  GE   NELEX a produit un dictionnaire public d   environ 3 000 termes mais aussi des dictionnaires priv  s avec  des parties provenant de dictionnaires  propri  taires  reformat  s par chacun des membres du projet  ERLI   IBM et Larousse pour le fran  ais   Trois comp  tences distinctes ont   t   requises   celle du linguiste  celle du  formalisateur et celle du lexicographe    Le projet fonctionna de la fa  on suivante  D   abord le mod  le GENELEX a   t   d  crit    l   aide d   une DTD  SGML  impl  mentant les contraintes impos  es par le mod  le  en particulier des listes ferm  es de cat  gories  grammaticales et de traits morphologiques  Ce mod  le propose une structuration de donn  es lexicales en 3  couches   morphologie  syntaxe et s  mantique  L   unit   lexicale est le sens d   un mot    Un logiciel GENELEX fut ensuite r  alis   par chaque partenaire pour exploiter les donn  es  C   est une  surcouche logicielle au dessus de diff  rents sys
361. rte quel article  N  anmoins  il est  souple puisque seuls certains   l  ments d   information sont obligatoires quel que soit l   article   le mot vedette   la cat  gorie grammaticale  une division s  mantique  par exemple  En outre  le format hi  rarchique permet  d une part d identifier les parties les plus importantes de l   article  par ex  zone d   introduction  division s   s  mantique s   section des compos  s  section des expressions fig  es   et  d autre part  de subdiviser chacune  de ces parties en sous parties  qui sont elles m  mes subdivis  es plus loin  ce qui permet d   ajouter beaucoup  de d  tails sur chaque partie importante    Une fois le format de l   article type   tabli par un comit   sp  cial de l     quipe du DCB travaillant avec un  consultant  une DTD a   t   cr    e  Cette DTD permet aux lexicographes de r  diger des entr  es en SGML   Pour ce faire  ils utilisent divers logiciels  dont WordPerfect SGML    Les logiciels analysent la DTD pour produire un squelette d    article et proposent des facilit  s de r  daction  qui s adaptent    la DTD  la liste des balises disponible    un endroit pr  cis de la structure  l   insertion  ou la suppression d   un nouvelle balise  etc  De ce fait  la structure de l   article en cours de r  daction est  toujours conforme    la DTD  La r  daction est guid  e par la structure  La figure A 35 repr  sente l   article  fier    bras tel qu il appara  t    l     cran lorsque le lexicographe le r  dige en SGML    Le l
362. s       etc    Il faut donc modifier cet article si nous voulons le r  utiliser  Pour r  cup  rer l   article avec  Poutil H grammar  il faut   crire une grammaire de r  cup  ration dans ce formalisme  Voyons maintenant  comment   crire une grammaire H grammar     3 1 3  Grammaire de r  cup  ration    Une grammaire de r  cup  ration H grammar se compose de six mots clefs avec leurs instructions      grammar indique le nom de la grammaire     syntax rules permet de d  finir des r  gles d   analyse syntaxique pour la r  cup  ration     start symbol indique le symbole de d  part de la grammaire         lexical rules permet de d  finir des r  gles d   analyse lexicale pour construire les items lexicaux      lexical order permet de d  finir un ordre de pr  f  rence entre les items lexicaux     working code permet d     crire des fonctions Common Lisp et de les int  grer dans les r  gles syn   taxiques    La figure A 31 montre le squelette d   une r  gle d   analyse syntaxique            Nom  A ail ai2        aol ao2 rss    gt   B bil bi2       bol bo2       C  CIL CIZ ses    COL COZ ses     FIG  A 31     squelette de r  gle d analyse syntaxique de H grammar    man    Le nom d   une r  gle d   analyse syntaxique est optionnel  s   il existe  il est mis entre une paire de        A est un non terminal  ail  ai2      et aol  ao2      sont respectivement les variables d   entr  e et de sortie  de la r  gle    Dans la partie droite         B C      peuvent   tre un non terminal  un term
363. s  average  1s  max  2s  timeout  10s   gt    lt encoding input  ASCIT ISO 8859 1 UTF 8  output  UTF 8   gt    lt format input  txt xml  output  xml html txt   gt    lt arguments gt    lt element name  type  type  string   gt    lt element name  domain  type  string   gt    lt element name  category  type  string   gt    lt element name  contents  type  string   gt    lt element name  source language type  string   gt    lt element name  target language  type  string   gt    lt element name  creation date  type  string   gt    lt element name  installation date  type  string   gt    lt element name  encoding  type  string   gt                  lt element name  format  type  string   gt    lt element name  owner  type  string   gt    lt element name  version  type  string   gt    lt element name  hw number  type  string   gt    lt element name  bytes  type  string   gt    lt element name  source  type  string   gt                  lt element name  legal  type  string   gt    lt  arguments gt    lt result gt    lt element name  output  gt    lt complexType gt    lt sequence gt    lt element name  info  type  string   gt    lt  sequence gt    lt  complexType gt    lt  element gt     4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 161     lt  result gt     lt   api gt    Voici un exemple de requ  te sur la m  ta information   recherche des ressources bilingues et multilingues  avec l   anglais comme langue source  cr    es apr  s 1990 et 
364. s  des exemples d utilisation et la traduction en anglais de l   entr  e sans infor     mations grammaticales sur le frangais ni sur la provenance des entr  es     118 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires        les exemples du DHO  l     tymologie du NODE et les informations de tous les dictionnaires bilingues  anglais fran  ais disponibles  en indiquant la provenance         la d  finition du Robert avec les images du Larousse si l   article en contient une     Visualisation des donn  es    L utilisation d   un dictionnaire papier imprim   montre vite l   importance du contexte dans lequel un ar   ticle se trouve  c   est    dire l   importance des autres articles qui l   entourent dans l   ordre d  fini par la nomen   clature du dictionnaire  en g  n  ral l   ordre alphab  tique   Il est alors possible de d  couvrir des mots d   une  m  me famille ou des variantes orthographiques  etc  Pour garder cet avantage  il faut pouvoir         acc  der    tout moment aux articles pr  c  dant et suivant celui qu   on est en train de consulter  dans  un ordre suivant la nomenclature pr  c  demment d  finie par l   utilisateur  L   ordre par d  faut suivant la  nomenclature classique du dictionnaire         demander de visualiser une fen  tre plus ou moins grande repr  sentant le contexte autour d   un article  pr  cis  Par exemple  ouvrir une fen  tre avec les 5 articles pr  c  dant et suivant celui qu   on consulte     P
365. s a ius cias    ie eee a ce de    ee    88    2 2 3  Interface de r  daction                                    89    iv Table des mati  res    2 24  DISCUSSION   a e a E o a Oe a DE A 90   3  Nouvelles directions pour la consultation 91  3 1  Elargissement du concept de dictionnaire  DicoSz  t  r                        91  3 1 1  Utilisation de donn  es multim  dia                               91  3 1 2  Interface personnalis  e pour apprenants   le quizz                         91   3 2  Visualisation au moyen d   arbres hyperboliques                            93  3 2 1  Introduction  4 4 5 is 4 4 ba ue ER AY a ee ed EA 93  3 2 2  Exemple d arbre hyperbolique                                 93  3 2 3  DISCUSSION  via Bee md au a a Gh le ak Le da 93   3 3  Annotation d   un article de dictionnaire                               94  3 31  Notre QUUL tos es aoa oe RENE RONA SR M ANA NU   by daa en es 94  3 32  LC oual Third VoicE    ii LR SE AN Gri NE dee BE RIRE nas 95  3 3 3  L annoteur d Amaya ib ie Dhs DR RE RAE we be ed ho ad 95   4  Coop  ration entre applications 99  4 1  Aide    la consultation gr  ce    des modules externes                          99  4 121  Pr  sentation  ei eke Bu disease dette des see he ns 99  4 1 2  Utilisation d   un conjugueur                                 99   4 2  Consultation par une application de traduction automatique                         99  42  1  Pr  sentation 2 4    4 44 a ed sde das BW die doe be she 99  4 2 2  Commandes dispo
366. s de donn  es     1  Sp  cifications externes de l   environnement 121    D autre part  les applications clientes des bases lexicales peuvent devenir    leur tour fournisseurs de  services  Par exemple  la construction d   un analyseur morphologique n  cessite des cat  gories grammaticales  que la base peut fournir     son tour  l   analyseur morphologique une fois fini peut proposer ses services     la base  Celle ci doit pouvoir interroger ses clients pour voir ou r  utiliser les applications cr    es gr  ce aux  donn  es qu   elle a fourni  Il faut instaurer un syst  me de rappel automatique  call back  des clients  Ceux ci  doivent impl  menter une API standard d  finie par la base     122 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    2  D  finition du noyau de l   environnement  avec SUBLIM    D  finissons maintenant le noyau de notre environnement de manipulation  cr  ation et consultation de  ressources lexicales  Comme nous l   avons dit plus haut  nous utilisons pour cela SUBLIM  S  rasset94e     Mais ce syst  me est d  fini avec des langages dont la syntaxe  noyau  est   crite en LISP  Pour respecter  notre cahier des charges  nous red  finissons SUBLIM en XML en y ajoutant les nouvelles fonctionnalit  s  qu imposent notre environnement     2 1    tude critique de SUBLIM    Un lexicologue utilisant le syst  me SUBLIM d  crit la structure interne de sa base lexicale en utilisant  deux langages de haut niveau  L
367. s de la  r  daction d   un article ou de sa lecture de pouvoir aussi acc  der au contexte de cet article de fa  on    voir les  articles suivants et pr  c  dents    Une acception monolingue est une unit   s  mantique d   une langue  Une base d acceptions fournit un  lien entre les acceptions monolingues des diff  rents dictionnaires  L ensemble des acceptions interlingues    10 A   Contexte actuel de la  dictionnairique     est l   union des ensembles des acceptions monolingues des diff  rents dictionnaires de la base    Un concept est une repr  sentation abstraite mentale et g  n  rale  Une ontologie est un ensemble hi  rarchis    de concepts  de faits et de r  gles qui repr  sente une mod  lisation du monde  Une base de concepts poss  de  donc un dictionnaire interlingue repr  sentant une ontologie  contrairement    une base d   acceptions qui n   a  pas de dictionnaire interlingue    Ces objets linguistiques sont structur  s de mani  re plus ou moins complexe  Les microstructures de  certains dictionnaires se limitent    une suite de paires attribut valeur  D   autres sont plus   labor  es  et com   prennent des arbres  des tableaux  des graphes  etc  Une microstructure fr  quemment utilis  e est celle de  l   entr  e sous forme d   arbre  L avantage d   une telle structure est qu   elle est facilement repr  sentable dans  un format utilisant des balises  Il est aussi possible de repr  senter la plupart des microstructures    l   aide de  structures de traits  Ide95a     L
368. s dictionnaires remplis    l   aide    48 A   Contexte actuel de la  dictionnairique     d ATLAS sont utilis  s par le syst  me de traduction ARIANE GS     4 3 2  Les manuels d   indexage    Les manuels d indexage repr  sentent les arbres de d  cision utilis  s par les lexicographes lors de l   in   dexation d   une entr  e  Ils expliquent comment affecter les diff  rents codes utilis  s lors de la traduction  Le  linguiste   dite son manuel avec un   diteur de textes quelconque  Il le compile ensuite avec ATLAS  Lors   qu ATLAS d  tecte une erreur  il signale sa position et permet au linguiste de la corriger  La figure A 36  montre un exemple de manuel d indexage  La figure A 37 montre la forme arborescente pour le manuel  papier correspondant                                   ROOT  q       type of word to be indexed         L    noun         gt  NOUN    2    verb    gt  VERB    3       adjective      gt  ADJ    4      invariant      gt  INVAR  ADJ Q       what is the adjective type         this includes adj with no comp or sup   1      comp with MORE      gt  ADI    2    comp with ER    gt  AD2    3      irregular      gt  AD3  AD1 Q       ambiguous adjective      A  I 3    yes       gt  AZ V      obscure      2 3    no     gt  A V      expensive      AD2  Q       what is the type of the adjective          type 1    comp with ER  sup with EST  type 2    comp with ER  sup with ST         AMBIGUOUS ie     normal ambiguous eg   fast             normal   comp ambiguous eg     l
369. s lemmes correspondant aux  formes de surface que l   on trouve dans les textes    Un dictionnaire terminologique rassemble g  n  ralement des termes d   un domaine pr  cis de la langue   Un dictionnaire g  n  ral rassemble des mots vedettes sans se sp  cialiser dans un domaine particulier et  contient des informations assez riches et vari  es  Un lexique est un dictionnaire monolingue terminologique  dont la microstructure est tr  s simple    Le terme de ressource lexicale est un terme plus large que celui de dictionnaire  Les ressources peuvent    tre de plusieurs natures  des dictionnaires  des lexiques  des corpus  des th  saurus  etc  Les ressources  peuvent   tre utilis  es soit par des humains soit par des machines     1 1 2  La macrostructure des dictionnaires    L organisation des volumes forme la macrostructure du dictionnaire  La figure A 1 repr  sente les prin   cipaux exemples de macrostructures    La macrostructure la plus simple consiste en un seul volume  Les mots vedettes des dictionnaires com   pos  s d   un seul volume appartiennent    la m  me langue  La nomenclature de ces dictionnaires ne d  pend  que d   une seule langue  Ce sont des dictionnaires monodirectionnels  On trouve des dictionnaires mono   lingues mais aussi des dictionnaires multilingues index  s selon une seule langue  Ces derniers sont appel  s  dictionnaires multicibles ou furco  des  Boitet86a 86b     Une macrostructure fr  quemment utilis  e est celle du dictionnaire bilingue en deux vo
370. s mais souffrent de quelques d  ficiences   elles ne sont pas   crites en XML  ne  supportent pas les espaces de noms et n   offrent qu   un typage tr  s limit   des donn  es    C    est pourquoi nous pr  f  rons utiliser des sch  mas XML pour d  crire nos documents XML  Les sch  mas  apportent des fonctionnalit  s int  ressantes comme      un grand nombre de types de donn  es int  gr  s comme les bool  ens  les entiers  les intervalles de  temps  etc          la possibilit   de cr  er de nouveaux types par ajout de contraintes sur un type existant     la notion d   h  ritage       le support des espaces de noms     les indicateurs d   occurrences des   l  ments         la possibilit   de d  finir les attributs et leurs valeurs par d  faut en fonction du contexte d    apparition de  l     l  ment qui les porte     Par la suite  les descriptions seront not  es dans le sch  ma XML DML dont l   URL est    http   www clips imag fr geta services dml xsd    Ce sch  ma est le sch  ma de base de notre base lexicale  La structure de tous les documents    l  ments   attributs et types XML est d  crite soit directement par ce sch  ma XML  soit par un sch  ma qui importe ou  red  finit ce sch  ma     2  D  finition du noyau de l   environnement avec SUBLIM 129    2 2 2  Types et attributs communs de DML    Pour certaines informations  nous d  finissons des types et des attributs communs    tous les   l  ments de  DML  Cela permet de standardiser les donn  es  Les sch  mas XML disposent  
371. s the links between the volumes files in the  dictionary     gt    lt element name  links  gt    lt complexType gt    lt sequence gt    lt element ref  d arcType  minOccurs  0  maxOccurs  unbounded   gt    lt  sequence gt    lt  complexType gt    lt  element gt    lt a DML definitions for CDM elements  P   lt     headword element    gt    lt     This is the headword of the articles of the monolingual  dictionaries  It is the name of the lexies and vocables     gt      lt element name  headword  gt    lt complexType mixed  true  gt   at   hn attribute    gt    lt     Homograph number of the headword     gt            lt attribute name  hn  type  string  use  optional   gt    lt attribute ref  d delay   gt            lt  complexType gt    lt  element  gt    lt     pos element    gt    lt     Part of speech of the headword The type has to be redefined in  the schemas for the volumes     gt      lt element name  pos  type  d posType   gt    lt simpleType name  posType  gt    lt restriction base  string   gt      lt  simpleType gt    lt     pronunciation element    gt    lt     pronunciation of the headword     gt         lt element name  pronunciation  gt    lt complexType mixed  true  gt    lt attribute name  encoding  type  string  use  optional   gt    lt attribute ref  d delay   gt    lt  complexType gt    lt  element gt    lt     translation element    gt     2  Sch  ma XML de DML 249     lt     translation of the headword     gt    lt element name  translation  gt    lt com
372. sa   Meaning  English    vehicle car  Corresponding Thai Words     ATAUE BIBT S   eur TW HRS PIE TW TAS    Sample Usage      BOREM RG CHK     sa  da  nas 1497125088  e  TOBOS   ENENLLOD   usais sarunalssnate     RIS LY VY AIV    CBOAZAE    KRED     LUTLH  EULUSA   s sua ateaasa  Synonyms   0    Fields   0    FIG  A 41     article kuruma voiture  du dictionnaire japonais  tha      En plus de la recherche de mots  SAIKAM fournit des outils de recherche de corpus pour le japonais   L utilisateur peut chercher un mot selon sa fr  quence  sa prononciation ou son niveau de difficult       4 5 4  Discussion    Ce projet est tr  s prometteur dans le domaine de la coop  ration sur Internet pour la construction de bases  lexicales  Nous pouvons cependant regretter l   absence de lexicologues contr  lant les donn  es  De ce fait  le  degr   de qualit   d   une telle base est difficile      valuer     54 A   Contexte actuel de la  dictionnairique     4 6  Conclusion    La m  thode d  mocratique utilise des outils tr  s r  pandus  Elle est donc facile    mettre en   uvre  Les  changements de structure des dictionnaires en cours de construction  pourvu qu   ils restent petits  sont tout     fait possibles  Cette m  thode ne b  n  ficie pas par contre pour l   instant d    outils d   aide    la r  daction et de  v  rification  Elle n   est pas valable non plus pour des dictionnaires fortement structur  s  Enfin  elle n   est pas  non plus r  active  Il faut du temps pour distribuer le trava
373. se KAADO qui  est donc la traduction japonaise de la lexie CARTE    JOUER     178 D   Application    Papillon  projet de base lexicale multilingue sur Internet    2 2 2  Articles monolingues   les lexies de la base DiCo    Igor Mel tchuk et ses coll  gues ont mis au point la th  orie sens texte d   abord en Russie  en particulier  avec le laboratoire du professeur Rosenzweig  puis    l   universit   de Montr  al  Cette th  orie fournit les  informations n  cessaires pour passer d   une id  e  le sens     sa r  alisation dans une langue donn  e  le texte    La lexicologie explicative et combinatoire  Mel tchuk95  est issue de la th  orie sens texte  Elle d  crit une  m  thode de construction d   articles de dictionnaire bas  s sur cette th  orie  Cette m  thode est ind  pendante  des langues  Elle permet donc de rep  senter n   importe quelle langue    La lexicologie combinatoire a permis de construire le Dictionnaire Explicatif et Combinatoire du fran  ais  contemporain  Mel   tchuk92   Son usage est exp  rimental  Il comporte peu de vocables mais chacun est tr  s  d  taill    Les vocables sont divis  s en lexies qui repr  sentent les unit  s de base du dictionnaire  La mi   crostructure du DEC est trop complexe pour   tre utilis  e    grande   chelle  C   est pourquoi Alain Polgu  re   Polgu  re00  a simplifi   les structures utilis  es dans le DEC pour construire la base DiCo    La microstructure des dictionnaires monolingues du projet Papillon se base sur celle des lexies 
374. sions r  guli  res  par exemple  tous les mots  contenant la racine  coup  comme coup  coupole  couple  couper  d  couper  d  coupage  etc    Mais cepen   dant  lorsqu   un dictionnaire n   est pas public et c   est le cas  les concepteurs r  duisent volontairement les  options d   acc  s pour   viter le pillage     2  Outils de consultation de dictionnaires 31    le Dictionnaire    Avant propos abr  ger v tr   o  Rendre plus court  en dur  e  en    substance   Abr  ger une attente  fastidieuse  Abr  ger un article trop    long  Syn    courter  r  sumer     Ant  allonger     abreger Y Dictionare Uoversel Froxophre    1997  b e dorm      HACHETTE EDICEF pour les ba   dictiormairiques et la version reses    1997  AUPELF UREF pour les ajo cier es et  l adaptation lexicographique des bases       1997 Claude  Poirier pour la base lexicographique    Am  rique du Nord      Toute reproduction par qudque moyen que ce sort  sans autorisation explicite des ayants droit est  formellement interdite        FIG  A 23     interface et r  sultats de la consultation du DUF    2 2 2  Consultation plus   volu  e d   un dictionnaire   EDict    Introduction    Le projet EDICT a d  marr   en 1991  Il est dirig   par Jim Breen  professeur au campus de Melbourne de  l   universit   Monash en Australie  Il consiste en deux parties          la cr  ation et le maintien de trois documents   un lexique japonais anglais  EDICT  qui contient ac   tuellement plus de 70 000 articles  un dictionnaire de noms p
375. sses universitaires d Oxford  OUP  en 1998  C   est un dictionnaire    usage humain  Sa  macrostructure consiste donc en un seul volume  Sa microstructure contient la plupart des   l  ments d   un  dictionnaire monolingue classique parmi lesquels l     tymologie des entr  es  des exemples et des informations  encyclop  diques  Il contient environ 93 000 articles  Comme ce dictionnaire   tait disponible au XRCE    des  fins de recherche  nous avons pu l   utiliser pour nos exp  riences     Format interne du dictionnaire    Comme ce dictionnaire a   t   publi   par un   diteur sp  cialis    son format interne original est SGML  le  format le plus r  pandu chez les   diteurs  Sa microstructure est repr  sent  e sous forme d   un arbre pour chaque  article  Le dictionnaire est stock   dans un seul fichier d   une taille de 38 m  gaoctets  Pour la prononciation   l   alphabet utilis   est 1  Alphabet Phon  tique International  APT   Dans les exemples suivants  aucune police  API n     tait disponible  La pornonciation est repr  sent  e par une transcription    Le tableau A 1 d  crit les   l  ments SGML de l   exemple de la figure A 5     Pr  sentation du dictionnaire    La figure A 6 montre le m  me article dans une pr  sentation lisible par l humain     14 A   Contexte actuel de la  dictionnairique     TAB  A 1       l  ments SGML du NODE        lt se gt  lt hg gt  lt hw gt abbreviate lt  hw gt   lt pr gt  lt ph gt   bri vleIt lt  ph gt  lt  pr gt  lt  hg gt    lt sl gt  lt ps gt
376. ssources libres  et enfin l   int  gration des exp  riences pr  c  dentes     1 1  Sp  cification du noyau    Pour les raisons expos  es pr  c  demment  nous avons   t   conduits    prendre de la distance par rapport  aux bases de donn  es classiques qui ne serviront qu   au stockage  et ne seront pas directement utilis  es pour  la manipulation du contenu  r  alis   par traitement des cha  nes XML contenues dans les divers champs    Il nous faut donc passer au niveau sup  rieur et red  crire un environnement complet en partant du noyau  de cet environnement  Nous devons choisir un formalisme de repr  sentation des donn  es puis des outils pour  les manipuler au niveau interne     1 1 1  Choix du formalisme de repr  sentation    Le formalisme de repr  sentation des donn  es sera bas   sur SUBLIM  un Syst  me Universel de gestion de  Bases Lexicales Informatis  es Multilingues d  crit dans la th  se de Gilles S  rasset  S  rasset94e   Ce syst  me  permet au lexicologue de sp  cifier la structure interne d   une base lexicale en utilisant deux langages de haut  niveau   le langage LEXARD pour la macrostructure de la base et des dictionnaires et le langage LINGARD  pour la microstructure des dictionnaires    Avec ce syst  me  1l est donc possible de repr  senter de nombreuses structures des ressources h  t  rog  nes  provenant de la r  cup  ration  Le syst  me poss  de aussi un formalisme permettant de d  crire les v  rifications  que l   on souhaite appliquer aux donn  es     1
377. st  me doit impl  menter un formalisme tr  s souple permettant de repr  senter de nombreuses res   sources h  t  rog  nes  Les bases lexicales pourront contenir non seulement plusieurs dictionnaires pour plu   sieurs langues  mais aussi des objets qui ne seront pas des dictionnaires  Le formalisme devra ainsi permettre  d   associer des arbres  des images  du son ou de la vid  o    un mot    Les ressources traitables par le syst  me envisag   peuvent   tre          des dictionnaires g  n  raux monolingues  NODE  DEC         des dictionnaires g  n  raux bilingues  OHD  OUPES         des dictionnaires g  n  raux multilingues  FeM  Fe          des bases multilingues de concepts ou d   acceptions  ELRA  UNL         des dictionnaires de syst  mes de traduction  ARIANE RUS FRA          des bases de donn  es terminologiques  EURODICAUTOM         des m  moires de traduction  les r  ponses aux requ  tes sont les segments align  s contenant le mot          des banques d   arbres  les r  ponses sont les arbres repr  sentant des analyses de phrases incluant le  mot          des corpus annot  s ou non  les r  ponses sont les KWIC ou la fr  quence d   apparition du mot        des nomenclatures         des listes de noms propres  des annuaires  etc     108 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      Permettre la v  rification des donn  es    Certaines donn  es seront r  cup  r  es    partir de ressources existantes  d   autres seront 
378. st sa qualit   et sa couverture  O   se trouve t il     Plut  t que de stocker les m  ta donn  es dans un lieu qui leur est propre  nous avons choisi de les mettre     c  t   des donn  es qu   elles repr  sentent  ainsi  d  s que l   on ajoute un nouvel ensemble de donn  es  les  m  ta donn  es sont ajout  es en m  me temps  Cela permet aussi de consulter ces m  ta donn  es directement  lorsqu on acc  de au syst  me de fichier o   sont stock  es les donn  es     1 1 2  Protocole de nommage des fichiers    Pour permettre    notre outil d acc  der directement aux fichiers de m  ta donn  es  et pour clarifier l   or   ganisation des fichiers  nous avons instaur   un protocole de nommage des r  pertoires et des fichiers de  donn  es  Cela permet par exemple de prendre en compte automatiquement un nouvel ensemble de donn  es  sans modifications de l   outil     Les ressources sont dans la mesure du possible rang  es dans le m  me r  pertoire  Chaque ressource est  plac  e dans un r  pertoire dont le nom est compos   du nom de la ressource suivi des langues pr  sentes dans  la ressource dans l   ordre alphab  tique  Chaque nom de fichier de ressource contient le nom du dictionnaire  suivi de la langue source puis des langues cibles pr  sentes dans le fichier  Le nom de version ainsi que  l   encodage sont   ventuellement ajout  s  L extension repr  sentant le format  txt  rtf  xml  html  sgml  etc    termine le nom du fichier    Par exemple le fichier repr  sentant le volume fran  
379. ste assez abstrait  Il se pose  donc un probl  me de mise en   uvre pratique  Il faut donc continuer et am  liorer cette technique et carrosser  l   outil pour le rendre utilisable par un non informaticien     4  M  thodes de construction de dictionnaires 43    4  M  thodes de construction de  dictionnaires    Il y a plusieurs t  ches    r  aliser lors de la construction d   un dictionnaire  correspondant    diff  rents   profils          le lexicologue d  finit les informations qui seront contenues dans le dictionnaire  sp  cifie leur forme et  donne les crit  res permettant de d  finir les unit  s lexicales         l   informaticien cr  e les outils sp  cifiques au dictionnaire ainsi d  fini et met au point la m  thodologie  qui sera utilis  e lors de la construction du dictionnaire  Il construit de plus les interfaces n  cessaires  au lexicographe  poste de travail          le lexicographe construit le dictionnaire selon les sp  cifications ainsi faites  en cr  ant des nouvelles  unit  s ou en compl  tant des unit  s d  j   existantes     Dans la pratique  il ne peut y avoir de lexicologue qui ne soit en m  me temps lexicographe  Dans la suite   nous utiliserons cependant le terme de lexicologue pour d  signer la personne qui d  finit les informations  contenues dans le dictionnaire mais aussi qui contr  le le travail des lexicographes  r  dacteur en chef de la  publication d   un dictionnaire     La cr  ation d   outils pour les dictionnaires pose des probl  mes informati
380. ste un fort besoin en dictionnaires adapt  s  Par exemple  NTT  Nippon  Telegraph and Telephone  au Japon ou Lexiquest en France doivent d  velopper leurs propres dictionnaires  s  par  ment  Dans le monde acad  mique  les applications cr    es pour le fran  ais et le japonais offrent une  couverture r  duite alors que de tr  s bonnes ressources existent entre le japonais et l   anglais    Il est maintenant envisageable de construire ces ressources par Internet gr  ce    des linguistes  lexico   logues  lexicographes  traducteurs  informaticiens  etc  travaillant en coop  ration    Un projet similaire concernant l   anglais et le japonais est actif depuis plus de dix ans  et a permis la  construction effective d   un dictionnaire gratuit japonais anglais disponible sur Internet  C   est le projet EDict   dirig   par le professeur Jim Breen de Monash University en Australie  EDict   Le dictionnaire actuel JMDict  comprend actuellement plus de 70 000 articles de vocabulaire commun  un dictionnaire sp  cifique de kanji  et une vingtaine de dictionnaires sp  cialis  s  biologie  droit  etc      Enfin  le projet SAIKAM  Ampornaramveth00  en coop  ration entre le NII  Tokyo  Japon  et NECTEC   Bangkok  Tha  lande  est actif de puis environ cinq ans  Les   tudiants tha  landais travaillant ou ayant tra   vaill   au Japon ont construit un dictionnaire japonais tha   d environ 4 000 articles sur Internet en validant  des articles construits automatiquement    En ao  t 2000  le premier
381. stockage  des poids  calcul automatique des profils  et gestion des conflits sur les contributions     Bibliographie 217    Bibliographie     Aarts85  J  Aarts  amp  T  V  D  Heuvel  1985  Computational Tools for the Syntactic Analysis of Corpora   Linguistics  23 1  pp  303 335      Adriaens90  G  Adriaens  amp  M  Lemmens  1990  The Self Extending Lexicon  Off line and On line De   faulting of Lexical Information in the METAL Machine Translation System  Proc  Coling 90   Helsinki  20 25 August 1990  H  Karlgren ed  vol  3 3  pp  305 307      Aho86  A  Aho  R  Sethi  amp  J  Ullman  1986  COMPILATEURS Principes  techniques et outils  ed   Intereditions  Paris  875 p      Ampornaramveth98  Vutichai Ampornaramveth  1998  SAIKAM  An online dictionary development pro   ject  Proc  of the 4th Workshop on Academic Information Networks and Systems  f  vrier 98   NACSIS seminar house  Karuizawa  Japon      Ampornaramveth00  Vutichai Ampornaramveth  Akiko Aizawa  Keizo Oyama  amp  Tanasee Methapisit   2000  An Internet Based Collaborative Dictionary Development Project  SAIKAM  First In   ternational Symposium on Advanced Informatics  Proc  AdInfo 2000  9 10 mars 2000  NAC   SIS  Tokyo  Japon  4 p      Antoine92  F  Antoine  1992  Dictionnaire s  mode s  d emploi  La maison du dictionnaire  120 p      Atkins92  B  T  Sue Atkins  1992  Tools for computer aided corpus lexicography  the Hector Project   Proc  COMPLEX   92  Conference on Computational Lexicography and text research  Buda
382. sultat de la requ  te est en format XML  Le client utilisant un navigateur classique ne  peut donc pas encore visualiser directement son r  sultat  La visualisation du r  sultat se fait en deux phases    D abord le client red  finit la macrostructure des articles    l   aide d   une interface sp  cialis  e  La requ  te  est alors traduite en une feuille de style XSLT stock  e dans son espace virtuel  Il peut d  cider de fusionner les  articles selon leurs   l  ments DML  par exemple les articles ayant le m  me mot vedette et la m  me cat  gorie  grammaticale    Ensuite  le r  sultat XML est transform   pour l   essentiel en XHTML  XHTML 1 0  et la pr  sentation du  r  sultat est d  crite dans une feuille de style CSS  Il est possible d   associer des visualisateurs sous forme d    ap   plets java pour certains   l  ments XML particuliers  Pour ne pas p  naliser les clients ayant des   quipements  de bas de gamme  la transformation se fait sur le serveur    Les   l  ments XML ne n  cessitant pas de visualisateur particulier sont transform  s en   l  ments XHTML   lt span gt   L   attribut class de cet   l  ment prend alors la valeur du nom de l     l  ment XML  Cet attribut    4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 163    permet ensuite d   associer un style particulier    cet   l  ment  Les styles sont d  crits    part dans une feuille de  style CSS     Voici un exemple de conversion de quelques   l  ments DML     XML XHTML  
383. sur XPath  XPath   Il permet  choix de ses parties internes bas    valeurs d attributs  les caract  res      3    Exemple d annotation  Tout d   abord  l   utilisateur conf      Saa    009 ON nom a a     lt  EEE       FIG  B 24     exemple de document annot   avec Amaya    4  Coop  ration entre applications 99    4  Coop  ration entre applications    Dans cette section  nous exp  rimentons la coop  ration entre applications  Nous avons test   la coop  ration  dans les deux sens  la base lexicale pouvant jouer le r  le du client ou du serveur  D   un cot    nous utilisons  dans nos applications des outils d   aide    la consultation ou des ressources install  s sur des serveurs dis   tants  De l   autre  nos applications peuvent   tre utilis  es automatiquement par d   autres applications comme  serveurs de dictionnaires     4 1  Aide    la consultation gr  ce    des modules externes    4 1 1  Pr  sentation    DicoSz  t  r  notre serveur de dictionnaire pour apprenants du hongrois  a   t   enrichi par l   utilisation de  modules install  s sur des serveurs distants  Nous avons associ   des actions aux mots vedettes de DicoSz  t  r  pour faciliter l   apprentissage du hongrois  L   accusatif et le pluriel des noms hongrois n     tant pas toujours  r  guliers  nous avons associ   un g  n  rateur d   accusatif et de pluriel aux entr  es correspondantes  Nous avons  aussi associ   un conjugueur g  n  rique aux verbes    DicoSz  t  r est install   sur le serveur du CLIPS  DicoSz  t
384. syntaxique de H grammar                      38  A 32 grammaire H grammar de r  cup  ration de BABEL                        39  A 33 article de BABEL apr  s r  cup  ration  objet LISP                          40  A 34 m  thodologie de cr  ation du FM                                 45  A 35 r  daction d   un article du DCB avec WordPerfect                          47  A 36 exemple de manuel d indexage source pour l   outil ATLAS                    48    A 37 forme arborescente pour le manuel papier correspondant                      49    Table des figures    A 38 fen  tre principale de DECID o p o sop a piosa rop me da eee eee 50  A 39 fen  tre de lexie de DECID   200 5244 3 su bu Da bu a A a lc ee 51  A 40 interface d   dition de SAIKAM                                  52  A 41 article kuruma voiture  du dictionnaire japonais  that                      53  A 42 unit   morphologique semestriel de AlethDic                         58  A 43 unit   syntaxique semestriel de AlethDic                            58  A 44 unit   s  mantique semestriel de AlethDic                           58  A 45 exemple d   article de dictionnaire anglais fran  ais                                       59  A 46 exemple d   article encod   avec les balises de la TEI                        60  AAT document XLT sch o a eck 8 Dom M RE pue Se   mu Eu 63  B 1 description du dictionnaire EuroWordNet                             72  B 2 description du dictionnaire EuroWordNet en format texte                
385. t    lt     is a common DML element already declared in the DML schema    gt    lt     language specific group    gt    lt     This group has to be redefined in the schemas for the  monolingual dictionaries  It contains all the language specific       information     gt     1  Sch  ma g  n  ral de Papillon 261     lt     due to a bug in XSV  redefinition is not implemented  I    change the content of the group article for validation  lt group  name     language specific    gt   lt all   gt   lt  group gt     gt         lt group name  language specific  gt    lt sequence gt    lt element ref  d kun yomi  minOccurs  0  maxOccurs  1   gt    lt element ref  d on yomi  minOccurs  0  maxOccurs  1   gt                                    lt  sequence gt    lt  group gt    lt element name  kun yomi  type  string   gt    lt element name  on yomi  type  string   gt    lt     pronunciation element    gt    lt     is a common DML element already declared in the DML schema    gt    lt     pos element    gt    lt     is a common DML element already declared in the DML schema    gt    lt  l    language levels element  gt    lt     It has to be redefined into the language specific schemas    gt    lt element name  language levels  gt    lt complexType gt    lt sequence gt    lt element ref  d politeness  minOccurs  0  maxOccurs  1   gt         lt element ref  d usage  minOccurs  0  maxOccurs  1   gt    lt element ref  d reference  minOccurs  0  maxOccurs  1   gt    lt  sequence gt    lt  comp
386. t    lt    DML definitions for the history file   gt    lt     element history    gt    lt     The history file contains the logs of the modifications    performed on every element of the database  A log is referenced with  the DML history attribute    gt    lt element name  history  gt    lt complexType gt    lt sequence maxOccurs  unbounded  gt    lt element ref  d administration   gt    lt  sequence gt    lt attribute name  creation date  type  d dateType  use  optional   gt    lt attribute name  name  type  string  use  optional   gt         lt  complexType gt    lt  element gt    lt     element administration    gt   a  The element administration contains the administration          information and the history of the changes performed on the element  with the history attribute which references this element through this  id attribute    gt     lt element name  administration  gt            lt complexType gt    lt sequence gt    lt element ref  d creation  minOccurs  1  maxOccurs  1   gt    lt element ref  d modification  minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d revision  minOccurs  0  maxOccurs  unbounded   gt    lt  sequence gt    lt attribute ref  d id   gt    lt  complexType gt    lt  element gt    lt     type annotation    gt    lt     to describe all the changes on one element of the database  It  indicates the name of the person which has changed the element and the       2  Sch  ma XML de DML 253    date of the change  It can contain some text f
387. t    lt  xsl template gt     4 3 4  Personnalisation du r  sultat    D utilisateur d  finit ses pr  f  rences de pr  sentation du r  sultat avec une interface sp  cialis  e  Les infor   mations sont ensuite envoy  es au serveur puis traduites en feuille de style CSS  CSS 2 0  ou XSL FO  XSL   qui sera ensuite stock  e dans l   espace virtuel de l   utilisateur puis utilis  e pour afficher les r  sultats de ses  requ  tes    Pour chaque   l  ment d   information  l   utilisateur peut pr  ciser son style  couleur  police  taille  emplace   ment   Dans l   exemple  le mot vedette headword aura une taille double de la taille normale  font size   2em   les traductions anglaises eng seront en orange  color  orange   les traductions fran  aises fra  en bleu  color  blue   les traductions japonaises jpn en rouge  color  red  et la m  ta information  meta en gris  color  gray   L utilisateur ne veut pas visualiser les traductions malaises ms a  et indique       donc display none   Voici la feuille de style CSS exprimant ces pr  f  rences de pr  sentation             headword   font size  2em       eng   font family   Arial   sans serif  color  orange      fra   font family   Helvetica   sans serif  color  blue       Jpn   font family   Osaka   sans serif  color  red       msa   display  none       meta   font family   Times   serif  color  gray       4 4  R  daction des articles et contributions    Lorsque les lexicographes r  digent de nouveaux articles et que les autres utilisateurs
388. t    lt element ref  d domain   gt    lt element ref  d bytes   gt    lt element ref  d source   gt    lt element ref  d legal   gt    lt element ref  d comments   gt    lt element ref  d cdm elements   gt    lt element ref  d administrators   gt    lt element ref  d volumes   gt    lt element ref  d links   gt    lt  sequence gt     Annexe A   sch  ma XML pour DML    It notes the  languages  content   of headwords  etc  TE   ionary  ie monolingual            lt attribute ref  d history  use  optional   gt    lt attribute ref  d history ref  use  optional   gt      lt attribute       ame  category  type  categoryType  use  optional   gt         lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt attribute   lt  complexType gt    lt  element  gt    lt     element languages    gt    lt     lists the languages present in a dict   lt element name  languages  gt    lt complexType gt              ame  hw number  type  po  ame  name  type  string     ame  owner  type  string       EN  A O O A             ame  creation date  type  d dateType  use  optional   gt   ame  encoding  type  d encodingType  use  optional   gt   ame  format  type  d formatType  use  optional   gt   sitivelnteger  use  optional   gt    ame  installation date  type  d dateType  use  optional   gt     use  optional   gt     ame  nickname  type  string  use  optional   gt       use  optional   gt     ame  type  type  d dictType 
389. t  complexType gt    lt       Automaton structure      gt    lt     DML element to represent a graph    gt    lt element name  automaton  gt    lt complexType gt    lt sequence gt    lt element ref  d nodes  minOccurs  1  maxOccurs  1   gt    lt element ref  d arcs  minOccurs  1  maxOccurs  1   gt    lt  sequence gt    lt attribute ref  xlink type  fixed  locator   gt    lt  complexType gt    lt  element  gt      lt       Function structure      gt     2  Sch  ma XML de DML 255     lt      DML element to represent a function    gt    lt element name  function  gt    lt complexType mixed  true  gt    lt sequence gt     lt element ref  d arguments  minOccurs  0  maxOccurs  1   gt     lt choice gt    lt element ref  d value  maxOccurs  1   gt    lt element ref  d valgroup  minOccurs  0  maxOccurs  unbounded   gt                                       lt  choice gt    lt  sequence gt    lt attribute name  name  type  string   gt    lt  complexType gt    lt  element gt    lt     DML element for arguments of a function    gt    lt    It has to be redefined in schemas specific to the dictionaries  de   lt element name  arguments  gt    lt complexType gt    lt sequence  gt    lt  complexType gt    lt  element gt    lt     DML element for groups of values of a function    gt    lt element name  valgroup  gt    lt complexType mixed  true  gt    lt sequence gt    lt element name  comment  type  string  minOccurs  0  maxOccurs  1   gt    lt element ref  d value  minOccurs  0  maxOccurs  u
390. t  mes de stockage d   objets persistants  Cela permit    chaque  membre du projet de stocker ses donn  es comme il le souhaitait avec ses propres outils  Les dictionnaires  d   application   taient ensuite g  n  r  s par extraction des donn  es n  cessaires dans une forme adapt  e aux  besoins    Entre les deux  les fichiers SGML   taient charg  s et transform  s en objets pour   tre utilis  s avec le  logiciel     Exemples    La version 1 5 du dictionnaire AlethDic de GSI ERLI  LexiQuest depuis 1998  est encod  e selon la  structure GENELEX  AlethDic se compose de 128 066 unit  s morphologiques  85 446 unit  s syntaxiques  et 57 951 unit  s s  mantiques  Il est stock   dans un fichier au format SGML de 42 m  gaoctets  Les exemples  des figures A  42  A 43 et A 44 sont tir  s de ce fichier     58 A   Contexte actuel de la  dictionnairique      lt Um_S id  UM54070   catgram  NOM   sscatgram  COMMUN   autonomie  0UI   usyn_1  US80176  gt    lt Umg mf  PG101  gt    lt Lib gt semestriel lt  Lib gt    lt  Umg gt    lt fUm_S gt     FIG  A 42     unit   morphologique semestriel de AlethDic     lt Usyn  id  US80176   description  D_SN  gt    lt Corresp_Usyn_Usem usem_cible  NO_semestriel_SE1_PG101  gt    lt  Usyn gt        FIG  A 43     unit   syntaxique semestriel de AlethDic     lt Usem 1d  NO_semestriel_SE1_PG101    appellation  semestriel   trait_sem_valpond_1  TSVP_OBJET_TS_classificateur_de_nom _C  TSVP_PLUS_TS_SEMIOTIQUE_T  gt     lt  Usem gt           FIG  A 44     unit   s 
391. t comparer les articles   quivalents   Les modules compl  mentaires permettent de proposer de nouvelles fonctionnalit  s aux utilisateurs  ce  qui enrichit le concept de dictionnaire     Inconv  nients    Les interfaces de connexion aux ressources distantes doivent   tre programm  es ad hoc    Les informations provenant de ces ressources ont leur propre format qui est toujours un format de  pr  sentation et jamais un format logique  Elles ne sont donc pas analysables automatiquement et ne sont  par cons  quent utilisables que par des humains    Les modules ne peuvent pas   tre clients et fournisseurs en m  me temps  De plus  l   adaptation des inter   faces  wrappers  de ces modules doit aussi   tre faite    la main     1 4  Personnalisation du r  sultat des requ  tes   le FeM    1 4 1  Pr  sentation    Le serveur du FeM a   t   construit en reprenant la technique de DicoWeb avec des scripts CGI   crits en  Perl  Il dispose donc d   une recherche d   un article par expressions r  guli  res Perl et d   un acc  s aux entr  es  pr  c  dentes et suivantes  Il est disponible sur le serveur public initialement financ   par l   action SILFIDE   AUF CNRS   FeM     Nous avons modifi   la technique de DicoWeb pour la rendre plus r  active  Au lieu de s  parer le formu   laire HTML dans un cadre  frame  et le r  sultat des requ  tes dans un autre cadre  le formulaire HTML est  inclus dans la page du r  sultat  L   utilisateur du FeM est donc toujours devant la m  me page  dont le conten
392. t de simples conventions de l   auteur de la grammaire    La r  gle n  1 produit un article babel babel   entry    partir du mot vedette hwd et d   un corps body    La r  gle n  2 produit un corps body    partir d une liste de sens sense     La r  gle n  3 produit un sens    partir d une d  finition exps  d   une explication exp1 et d un domaine       subj   Les r  gles n  4 et 5 produisent une explication exp1    partir d un texte entre parenth  ses        Les r  gles n  6 et 7 produisent un domaine subj    partir d un texte entre crochets        Les r  gles n  8 et 9 produisent une liste de sens sense     partir de 2 sens sense s  par  s par un       Cette grammaire est interpr  t  e ensuite par un compilateur Macintosh Common Lisp qui produit des    objets LISP correspondant aux articles r  cup  r  s     3 1 4  Exemple d   article apr  s r  cup  ration    La figure A 33 montre le r  sultat de la r  cup  ration de l   article BABEL original apr  s compilation avec  H grammar     Cet article BABEL apr  s transformation est un objet LISP  Toutes les informations sont marqu  es ex   plicitement  Il est alors tr  s facile de les r  utiliser automatiquement pour produire de nouveaux ensembles    40 A   Contexte actuel de la  dictionnairique      BABEL   HWD     COM     BODY LIST   SENSE   EXPS    Command     EXPL    file name extension     SUBJ   NIL     SENSE   EXPS    Commercial Business     EXPL    Domain Name     SUBJ    Internet         FIG  A 33     article de BABEL apr  s
393. t destin      un lecteur humain  L utilisateur peut dans un premier temps  lire l   article rapidement de mani  re naturelle  Il peut ensuite  s   il est attentif aux d  tails de mise en page   retrouver toutes les informations pr  sentes dans la base DiCo  notamment la formule s  mantique ou le  r  gime    Ce formalisme est tr  s int  ressant puisque     partir des m  mes donn  es  il permet de produire des res   sources aussi bien pour des syst  mes lexicaux que pour des dictionnaires d   usage grand public  De plus   il permet de populariser la lexicologie explicative et combinatoire provenant de la th  orie sens texte  Nous  avons ici un net progr  s par rapport aux autres dictionnaires vus pr  c  demment qui n     taient destin  s qu       un usage uniquement humain et ne pouvaient donc pas   tre facilement utilisables par une machine sans  transformation    L utilisation d   une base de donn  e limite cependant la structuration des entr  es en champs  Il serait  int  ressant d    utiliser un syst  me de structuration plus   labor   du type XML afin de noter explicitement toute  la structure des articles     1 2 6  Conclusion    De cette revue de quelques dictionnaires    usage humain  il ressort que certaines informations ont une  structure implicite  Elles sont cod  es par une pr  sentation sp  ciale  styles  polices ou couleurs diff  rentes    Cela ne pose pas de probl  mes    l   humain  qui peut tout de suite d  duire la structure de la pr  sentation  Par  contre  u
394. t en y ajoutant le nom du contributeur et la date  La feuille de style est ensuite stock  e dans l   espace virtuel  du contributeur     4 3 3  Contribution sur les liens interlingues    La contribution sur les liens interlingues est sp  cifique car elle ne demande pas de r  daction  Il faut  simplement relier deux lexies de langues diff  rentes entre elles  De plus  les contributions sur les liens  interlingues sont faites par des personnes aux comp  tences diff  rentes de celle des contributeurs sur les  articles monolingues  Ce sont pour la plupart des traducteurs ou interpr  tes qui ont une bonne connaissance  des deux langues qu   ils veulent relier    Pour la cr  ation et la r  vision des liens interlingues entre lexies  une interface sp  cifique  voir figure  D 8  a   t   programm  e en Java en collaboration avec Magaly Drant  Cette interface poss  de trois fen  tres  principales  La fen  tre de gauche permet d   afficher des lexies d   une langue  la fen  tre de droite  des lexies  d   une autre langue et la fen  tre du milieu des axies repr  sentant les liens entre ces deux langues     File Edit Link Help          French   Anterlingual links                   Japanese    UV     Search       Search    Gloss    Existing links   gt      Confirm link    lt   Existing links                       French   Iinerlingual links Japanese       table de chevet      R4b FTN                FIG  D 8     interface java permettant de cr  er des liens entre lexies    Les liens entre l
395. t say they are separating       ucun r  sultat       FIG  A 21     l   article abr  ger du Oxford Superlex    La figure A 21 montre l   article abr  ger et l   interface du Oxford Superlex  Le contexte de l   article  trouv   s   affiche dans la partie gauche de la fen  tre  L utilisateur clique ensuite sur l   article qu   il veut consul   ter et celui ci s   affiche dans la partie droite     Discussion    Cette application est une simple adaptation   lectronique des dictionnaires imprim  s  Les seuls avantages  qu   elle rapporte sont la rapidit   de recherche et quelques facilit  s comme l   historique des recherches  Sur  Macintosh  les caract  res ne sont pas encod  s correctement    La qualit   des donn  es consult  es nous fait regretter les limitations de l   application  En effet  on ne peut  pas faire de recherche multidictionnaires  rechercher un mot autre que le mot vedette pr  sent dans le texte  de l   article  ni rechercher un mot    partir de sa prononciation     2  Outils de consultation de dictionnaires 29    2 1 3  Une application   volu  e   MoBiDic  Introduction    MoBiDic  MorphoLogic Bilingual Dictionary   Prosz  ky97  est une application d  velopp  e par la soci  t    hongroise Morphologic  Cette application permet des recherches multidictionnaire  Il est possible de consul   ter entre autres 21 dictionnaires anglais hongrois dont le English Hungarian School Dictionary de 35 000 ar   ticles  13 dictionnaires allemand hongrois dont le German Hungarian C
396. te  nous expliquons les standards principaux utilis  s dans la repr  sentation des dictionnaires comme  SGML  Standard Generalized Markup Language   puis les standards actuels comme Unicode et XML  eX   tended Markup Language  qui nous ont paru int  ressants pour la suite de nos travaux    Enfin  nous terminerons par une   tude de travaux r  cents en lexicographie et terminologie bas  s sur  XML comme les projet DHYDRO  Descotte00a 00b  et SALT  SALT      8 A   Contexte actuel de la  dictionnairique     1  Notions du domaine    1 1  D  finition des termes utilis  s dans la these    1 1 1  Introduction    Un dictionnaire est compos   d   un ensemble de volumes  Un volume est un ensemble d    articles tri  s se   lon un ordre sp  cifique  La liste ordonn  es de ces articles constitue la nomenclature du dictionnaire  L    ordre  utilis   est g  n  ralement l   ordre alphab  tique de la langue des mots vedettes  Un article est compos   d un  mot vedette et d un corps    Un texte est compos   de mots  Ces mots sont les formes de surface des lemmes  Les formes de surface  ne correspondent pas toujours de fa  on   vidente aux mots vedettes du dictionnaire  Par exemple  un verbe  n   est jamais index   selon ses formes conjugu  es  vais  allais irai  mais selon l   infinitif  aller   un nom com   mun  dictionnaires pauvresse actrices  est pratiquement toujours index   selon son singulier  dictionnaire   pauvre  acteur   G  n  ralement  les mots vedettes d   une langue donn  e sont le
397. teurs travaillent sur  les m  mes donn  es et d   autre part pour contr  ler l   avancement de la construction des ressources     1 3 3  Utilisation de modules externes  Pr  traitement de la requ  te    Avant de lancer la requ  te sur la base lexicale  il faut permettre    l   utilisateur d   effectuer des pr  traitements  sur la requ  te  Ces pr  traitements peuvent s   av  rer tr  s utiles surtout lorsque l   utilisateur ne ma  trise pas la  langue du ou des mots vedettes qu   il recherche  Les mots vedettes sont dans la plupart des cas des lemmes   Il est parfois difficile d   acc  der au lemme    partir d   une forme de surface  C   est pourquoi il serait int  ressant  de pouvoir ignorer les diacritiques  faire une analyse morphologique du mot vedette ou lancer une correction  orthographique avant interrogation     Actions associ  es aux informations    Lorsque le r  sultat de la requ  te est affich    il nous para  t int  ressant de pouvoir associer des actions aux  diff  rentes informations pr  sentes  Certaines actions peuvent nous permettre de continuer    naviguer dans  la base par exemple en suivant des liens de traduction ou de synonymie    Voici quelques exemples d   actions associ  es          Associer un conjugueur    un article repr  sentant un verbe       Associer un phon  tiseur    une prononciation         Associer un dictionnaire de synonymes    un autre dictionnaire pour cr  er des liens de synonymie     Annotation des donn  es    Tous les utilisateurs de 
398. tif  gt    lt nd ul  chat  determ  defini  gnr  masc  pos   1   gt    lt nd ul  souris  determ  indefini  gnr  fem  pos   1   gt    lt  nd gt     2  D  finition du noyau de l   environnement avec SUBLIM 139    Graphes    La figure C 17 montre un graphe UNL repr  sentant la phrase  Monkeys eat bananas       nonkey icl gt animal     a  generic  eat  icl gt action       arm  icl gt food      present entr     generic    FIG  C 17     exemple de graphe UNL    La d  finition de ce graphe se fait en XML se fait de la mani  re suivante    lt graph xmlns x1  http   www w3 org 1999 xlink   xl type  extended  gt    lt nodes gt    lt node xl type  locator  xl label  n001  gt   eat  icl gt action    present  entry lt  node gt    lt node xl type  locator  xl label  n002  gt   monkey  icl gt animal    generic lt  node gt    lt node xl type  locator  xl label  n003  gt   banana  icl gt food    generic lt  node gt    lt  nodes gt   ares   lt arc xl type  arc  type  oriented  xl from  n001  xl to  n002  gt agt lt  arc gt    lt arc xl type  arc  type  oriented  xl from  n001   xl to  n003  gt o0bj lt  arc gt    lt  arcs gt    lt  graph gt   La norme xlink  XLink 1 0  est utilis  e pour d  crire les arcs  Le type des arcs est soit orient   type  oriented    soit bijectif type  bijective   L origine et l   extr  mit   des arcs sont not  s avec les identificateurs des  n  uds from  n001  et to  n002                              Liens    La d  finition d   un lien se fait en utilisant aussi la norm
399. tion 97    Enfin  on trouve un pointeur vers l   annotation elle m  me not  e par l   attribut resource de l     l  ment   lt body gt   ici le fichier annot01 html     La figure B 23 montre finalement le fichier xhtml annot 01  html qui repr  sente le corps de l   annota   tion      lt html xmlns  http   www w3 org 1999 xhtml  gt    lt head gt    lt     titre g  n  r   automatiquement    gt    lt title gt Annotation of Partie B lt  title gt    lt  head gt    lt body gt    lt p gt Voici une  lt strong gt annotation lt  strong gt  port  e par le titre de  cette section   3 3 3  L   annoteur d Amaya lt  p gt    lt  body gt    lt  html gt     FIG  B 23     document XML repr  sentant une annotation  La figure B 24 montre l   annotation telle que l   utilisateur la voit sur son document     Discussion    Le syst  me d annotations d    Amaya r  pond    pratiquement tous nos besoins  On peut regretter cependant  l   absence de gestion de groupes d   utilisateurs donc l   impossibilit   de partager des annotations     98 B   Exploration de nouvelles directions  bilan et cahier des charges d un environnement avanc      Attributs    Pr  sentation   Amaya  Amaya   le navigate  impl  mente depuis peu un syst    d    annotations ou encore stocker s    en local sans se connecter au web  xhtml  KHTML 1 0  et d  crites pa    RDF  Resource Description  m  tadonn  es  RDF permet une in  informations sur le Web  RDF faci    XPointer  XML Pointer Langual   langage utilis   comme base pour  bas   
400. tionary axie  gt            lt     si Saxicour pointe sur axie   OK    gt    lt xsl if test  Saxicour string attribute  id   gt OK lt  xsl if gt    lt  xsl for each gt    lt  xsl template gt     lt  xsl stylesheet gt    Nous voulons v  rifier maintenant la contrainte de coh  rence locale suivante sur une lexie  l     l  ment   lt axies gt  ne doit comporter qu   un lien vers une axie  S   il y a deux liens  c   est une erreur  Il faudra ensuite  soit fusionner les deux axies  soit cr  er une deuxi  me lexie  Cette contrainte porte sur toutes les lexies du  dictionnaire French  elle compte le nombre de liens de l     l  ment  lt axies gt      lt xsl stylesheet version  1 0  gt            lt     application du mod  le sur les lexies  gt    lt xsl template match  lexie  gt    lt     si la lexie a plusieurs refaxie   rreur  gt      lt xsl 1f test  count  axies refaxie   gt 1  gt   Error  The lexie  amp lt a href    lt xsl value of select   id   gt     lt xsl value of select  headword text     gt   amp lt  a  gt  is linked to   various axies   Assif      lt  xsl template gt    lt  xsl stylesheet gt   Cette feuille de style produit un fichier d   erreur avec des liens activables vers les lexies posant probl  me        146 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dictionnaires    3  Paradigme de construction coop  rative    Dans ce chapitre  nous appliquons le principe de d  veloppement coop  ratif de LINUX    la construction  de ressourc
401. tionnaire  francais anglais malais                                  A  Base Format ARIANE  Format UNL    ERA Lexicale Dictionnaire  Dictionnaire Multilingue frangais UNL  anglais UNL  transfert lexical         Indexage    Format RTF       DU d indexage    Format Word       Pour compl  ter et  r  viser les donn  es    FIG  B 10     solution mise en   uvre    2 1 2  Structure interne de la base    La structure de la base n est pas fig  e  ce qui nous permet de la faire   voluer facilement en fonction des  besoins  Nous pouvons    tout moment int  grer de nouveaux dictionnaires ou g  n  rer automatiquement des  dictionnaires pour diff  rents syst  mes de d  conversion traduction comme ARIANE  Boitet82  ou le syst  me  DeCo utilis      l   Universit   des Nations Unies par le centre UNL  UNL97  pour le japonais et l   anglais    La base lexicale a   t   programm  e en Macintosh Common LISP Object System  MCL   Keene89   Steele90   Ce langage    objets nous a permis de d  finir la structure interne en suivant un mod  le    objets    La figure B 11 montre trois classes d   objets li  s entre eux          La classe appel  e Vocable est similaire    une entr  e de dictionnaire papier         La classe appel  e Acception fran  aise repr  sente une acception fran  aise selon le point de  vue du GETA     84 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc          Chaque UW UNL est repr  sent  e par une instance de la classe Acception UNL  
402. tique  Il  s   agit d   articuler          un mod  le de repr  sentation s  mantique          des outils permettant de faire l   aller retour entre un document en langue naturelle et ce mod  le         un syst  me d   information o   les donn  e   chang  es sont ind  pendantes des langues     Le mod  le d  velopp   dans le projet UNL est fond   sur une repr  sentation interlingue  sous forme de  graphes s  mantiques d  crivant la structure abstraite des   nonc  s     partir de laquelle on peut g  n  rer des  textes dans toute langue disposant d   un d  convertisseur  Il existe actuellement des g  n  rateurs exp  rimentaux  couvrant 14 langues et d  velopp  s dans 15 pays diff  rents  L   axe principal de recherche a port   dans un  premier temps sur la d  finition du langage d     change UNL et sur sa validation  par le d  veloppement de   d  convertisseurs   outils r  alisant la d  conversion ou traduction automatique d   un document UNL en un  document en langue naturelle     La macrostructure de la base est constitu  e d   une part pour chaque langue du projet d   un dictionnaire  bilingue associant les mots de cette langue avec les unit  s lexicales de l    UNL que l   on appelle UW  Univer   sal Words  et d   autre part d   une base regroupant toutes les UW et d   une base de relations reliant des couples  d UW  Une telle relation porte un poids qui indique sa fr  quence d   apparition dans les corpus    La base de relations est appel  e Knowledge Base  Cette base ainsi 
403. tiquement comme cat  gorie  adj   au lieu  de  a   pour les adjectifs  il peut cr  er un ensemble virtuel de toutes les lexies envoy  es par ce contributeur  et corriger la faute de fa  on syst  matique    D autre part  les ensembles virtuels peuvent servir pour construire un lexique et ensuite l   exporter selon  un format particulier  Par exemple  exporter la liste des verbes pronominaux fran  ais     186 D   Application    Papillon  projet de base lexicale multilingue sur Internet    Voici la liste des commandes auxquelles le syst  me doit r  pondre          cr  er une lexie       fusionner deux lexies       cr  er une axie       fusionner deux axies       cr  er un ensemble virtuel de lexies        cr  er un ensemble virtuel d axies    3 3  R  cup  ration    La r  cup  ration de ressources existantes se fait en deux   tapes en suivant un principe de  tra  abilit     utile pour la notori  t   des contributeurs et aussi pour la  d  pollution  ext  rieure comme dans l   exemple  pr  c  dent  Tout   l  ment d   information doit   tre tra  able    une granularit   d  finie par la structure XML   chaque   l  ment XML peut porter un attribut qui r  f  rencie l   historique de ses modifications    La premi  re   tape consiste    convertir le format et la structure des ressources  Le format d   origine est  converti vers le format XML DML  La structure est r  cup  r  e et un maximum d   informations est balis  e de  fa  on    pouvoir ensuite la r  utiliser  Cette   tape s   effect
404. u  est modifi   dynamiquement    chaque nouvelle requ  te    Un progr  s  par rapport    DicoWeb  est la possibilit   offerte    l   utilisateur de personnaliser le r  sultat de  ses requ  tes  Avant de consulter le serveur  l   utilisateur s  lectionne dans la partie gris  e    l   aide des boutons  les   l  ments d   information qu   il souhaite voir appara  tre dans le r  sultat de sa requ  te  Ainsi  si l utilisateur  est bilingue malais fran  ais et s   il n   est pas int  ress   par les traductions anglaises  il lui suffit de d  cocher  les cases correspondant aux traductions anglaises comme dans l   exemple de la figure B 8     1 4 2  Discussion    Avantages    Le r  sultat est param  trable dynamiquement par l utilisateur     Inconv  nients    L utilisateur ne peut param  trer qu   une partie du r  sultat en s  lectionnant les cat  gories d   information  qu il souhaite afficher ou non  Il n   est pas encore possible de changer la pr  sentation  couleurs  styles   ni la  structure du r  sultat    L utilisateur param  tre son r  sultat    chaque session  Il ne peut pas encore garder ses pr  f  rences pour  une nouvelle session  Pour cela  il semble n  cessaire qu les utilisateurs s   inscrivent sur le serveur  et que ce  dernier puisse les identifier    chaque nouvelle session     1  Exp  riences sur la consultation en ligne    essal   e se      nm    pengujian     preuve   ujian   percubaan   tentative   percubaan   ouvrage   karangan   esei      l essai   dim percuba
405. u partie des utilisateurs  de la base     Utilisateurs et groupes    Les utilisateurs de la base ont chacun un compte o   sont stock  s leurs profils  leurs pr  f  rences  leurs  contributions et leurs annnotations  Ils peuvent ensuite constituer librement des groupes en fonction d   int  r  ts  ou d   activit  s communs    Au d  part  la base contient trois groupes pr  d  finis  L univers regroupe tous les utilisateurs de la base   Le groupe des administrateurs administre le serveur et le base lexicale  Le groupe des lexicologues contr  le  la distribution du travail    faire et r  vise les contributions re  ues avant de les int  grer    la base     Syst  me de points pour les contributions    Pour inciter les utilisateurs    contribuer  nous voulons mettre en place un syst  me de points pour les  contributions  D   une part les utilisateurs peuvent contribuer localement sur un article et d   autre part  ils  peuvent envoyer leurs propres ressources qu   ils ont d  velopp  es localement chez eux    Chaque utilisateur qui envoie ses contributions    la base une contribution valid  e gagne un certain  nombre de points  Chaque mois  un tableau r  compense les contributeurs les plus efficaces     Affectation des points en fonction des profils    Il convient de donner d   autant plus de points    un contributeur que ses contributions sont nombreuses  et pertinentes  Une solution consiste      valuer une contribution en fonction de son type  difficult    et de sa  qualit    note d
406. u sous ensemble    Pour pouvoir manipuler et fusionner certaines parties de ressources  nous avons besoin d   un formalisme  commun de repr  sentation de dictionnaires  Il existe des standards comme la TEI  Ide95    Johnson95    MARTIF  Melby94    ISO99b   GENELEX EAGLES  GENELEX93  et  GENETER  visant    l   universa   lit   mais peu de ressources lexicales r  elles les impl  mentent    Nous avons donc fait un travail plus pragmatique consistant    identifier les informations apparaissant  dans les ressources accumul  es  ainsi que leur signification  et    les nommer de fa  on unique dans l   espace  de noms DML    Cet ensemble hi  rarchis   est appel   Common Dictionary Markup et provient principalement de l   exa   men d  taill   des dictionnaires FeM  DEC  DHO  OUPES  NODE  EDict  de la base ELRA M  MODATA   et du chapitre 12 de la TEI concernant les dictionnaires  Il contient les   l  ments les plus courants trouv  s  dans ces ressources     savoir le mot vedette  la prononciation  la cat  gorie grammaticale  le vocable  la lexie   l     tymologie  les exemples  les   tiquettes  les gloses  etc  Ces   l  ments ont toujours la m  me s  mantique  Par  exemple   lt dml entry gt  r  f  re toujours    un article et  lt dml   headword gt  au mot vedette de l   article    Pour certains   l  ments ayant des listes ferm  es de valeurs  nous d  finissons pour chaque langue une liste  repr  sentant l intersection des valeurs et des r  gles de conversion pour chaque ressource  Un e
407. ucture et la  microstructure des dictionnaires qu   il veut construire  Il r  partit ensuite le travail de r  daction des articles  entre les lexicographes et le r  vise  Ils g  re leurs apports et leurs modifications  Il distribue les points aux  contributeurs en fonction de la qualit   et la quantit   de leurs contributions     Le lexicographe    Il participe    la construction des dictionnaires  Il r  dige le corps des articles en   ditant une partie du  dictionnaire  Il apporte une contribution compl  te pour chaque article  Il doit respecter la microstructure  d  finie par le ou les lexicologues  Il annote des articles et partage ses annotations  Le lexicographe gagne  des points pour chaque article r  dig   et accept       Le contributeur    Il participe aussi    la construction des dictionnaires mais en g  n  ral de mani  re partielle  Ils r  dige une  petite partie des articles    tablit ou modifie des liens monolingues ou interlingues entre diff  rents articles  Il  annote des articles et partage ses annotations  Pour toutes ses contributions  il gagne un certain nombre de  points en fonction de son profil et de la qualit   de ses contributions     Le consulteur    Il consulte la base en   tablissant des requ  tes et en personnalisant leur r  sultat  Il n   a pas le droit de  modifier ces ressources mais il peut les annoter et partager ses annotations  Les consulteurs peuvent   tre  aussi bien des humains que des machines  Ils visualisent et naviguent dans plusieurs 
408. uctures que l   utilisateur a d  finies avec les langages LEXARD et LINGARD  II comprend un  v  rificateur de coh  rence sur toute la base         Pr  sentation des informations    l   utilisateur     Le fonctionnement de cette architecture est bas   sur l   aller retour entre les diff  rents niveaux  Une  requ  te sera formul  e au niveau pr  sentation  puis traduite en une structure qui sera elle m  me traduite  en une requ  te au niveau BD     V  rificateur de coh  rence    Au niveau interne  en plus des manipulations de structures  SUBLIM comprend un v  rificateur de  coh  rence permettant d     laborer des contraintes d  finies par des linguistes sur les dictionnaires  Nous mon   trons ici un exemple de contrainte de coh  rence globale d  finie au niveau de la base lexicale    Dans l   exemple  la base lexicale est compos  e du dictionnaire French et du dictionnaire Pivot  Nous  montrons dans la figure C 9 une partie de la structure du dictionnaire French          def linguistic class lexie   feature structure   id integer    headword string    government pattern government    lexical functions  set of function     examples  set of example     axies  set of refaxie      def linguistic class refaxie                       link  source French  lexie   target Pivot  axie     FIG  C 9     microstructure du dictionnaire French    Nous montrons dans la figure C 10 une partie de la structure du dictionnaire Pivor    Nous voulons v  rifier maintenant la contrainte de coh  rence g
409. ucune programmation  Cependant  nous ne  pourrions pas fusionner les informations renvoy  es par les diff  rents outils     4  Coop  ration entre applications 103             FEM   essai  essal iesen    2 m  testing   pengujian    preuve   test   ujian   tral   percubaan  tentative   try   percubaan  ouvrage   essay   karangan   esei     l essai   on trial   dim percubaan   sedang diuji  p  riode d essai      FIG  B 28     article essai du FeM dans l application Sherlock    104 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      5  Conclusion   cahier des charges d   un  environnement unifi      Apr  s avoir explor   plusieurs aspects du traitement des dictionnaires comme la consultation en ligne  la  construction coop  rative  et de nouvelles directions pour la consultation et la coop  ration entre applications   nous sommes maintenant en mesure d     laborer un cahier des charges pour un environnement complet de  cr  ation  manipulation et consultation de dictionnaires multilingues h  t  rog  nes    Le cahier des charges est diff  rent de celui d   une entreprise sur deux aspects principaux   le temps et les  co  ts  Les recherches pour un nouvel outil ne sont pas limit  es par le temps car il n y a pas le m  me souci  de rentabilit    Sans contrainte temporelle  on peut donc attacher plus d importance    la conception d   un tel  environnement    L environnement devra pouvoir   tre capable de r  sister au temps  c   est    d
410. ue   D  ts BY a  Fe   lt     heiretsujoshi  connective postposition   gt    lt enumeration value   We  1  EH Fal m     lt     juntaijoshi  nominalisation postposition   gt    lt enumeration value   TE dE ENT   i gt    lt      hojod  shi  complementary verb   gt    lt enumeration value   TE Bt a Gal Le   lt      hojokeiy  shi  complementary adjective   gt    lt enumeration value   tR EN RTE Far   gt    lt     makuraji  head word   gt    lt enumeration value   EX An  MES   lt     rengo  mot valise   gt     ERE   lt enumeration value   AH    gt      lt t     ku  clause   gt    lt enumeration value    1 MES   lt   restriction gt    lt  simpleType gt    lt  redefine gt   KI Special elements of Papillon Japanese schema      gt       lt      kun yomi element    gt    lt I lement specific to the Japanese language note the writing of       the kanjis used in the headword    gt    lt element name  kun yomi  type  string   gt    lt     on yomi element    gt    lt   lement specific to the Japanese language note the writing of  the kanjis used in the headword    gt    lt element name  on yomi  type  string   gt               lt  l    numerical specifiers    gt     lt 1 Here are defined the numerical specifiers of the Japanese  language  It has to be checked by Francis Bond  Yves Lepage  Jim  Breen  etc  Specifiers are no longer an element  They are noted as  values of the lexical function  synt     gt      lt simpleType name  numSpecifiersType  gt    lt restriction base  string  gt     27
411. ue  on construit un dictionnaire strictement monolingue au  format DiCo de Polgu  re et Mel   tchuk  Polgu  re00   o   l   unit   essentielle est la  lexie   sens de mot   avec    174 D   Application    Papillon  projet de base lexicale multilingue sur Internet    une description tr  s riche et syst  matique  collocations  fonctions lexicales  exemples  etc   permettant des  usages fins et vari  s    On relie les lexies dans un  pivot  central de  liens interlingues  dits aussi  acceptions interlingues  ou   axies   en utilisant pour cela les   quivalences traductionnelles attest  es par les sources disponibles  Ces  axies ont donc un statut plus linguistique que conceptuel  et sont motiv  es de fa  on pragmatique et testable   ce qui   vite les probl  mes de construction d   ontologie     1 3  Points forts du projet    Le projet pr  sente au moins neuf  points forts     1  L architecture de la base lexicale est sym  trique      pivot   N dictionnaires monolingues acc  d  s  par vocables et par lexies  sens de mots  et un ensemble d   axies  liens interlingues   On aimerait que les  dictionnaires soient consultables de fa  on plus riche  ex  trouver les mots masculin en  ion   Les langues  de d  part sont le fran  ais  le japonais  l   anglais  utilis   pour lier les dictionnaires existants  et le tha    Cette  architecture rend possible le point suivant    2  De la base  il est possible d   extraire des dictionnaires bilingues ou multicibles    usage humain par  exemple au f
412. ue selon la m  thode R  CUPDIC    La deuxi  me   tape consiste    r  partir chaque ressource convertie en lexies et axies et    int  grer ensuite  les lexies et les axies dans la base lexicale  Cette   tape se fait automatiquement par le syst  me    l   aide d   un  script de commandes PRODUCDIC propre    chaque ressource    Voici un exemple concret de r  partition sur le FeM apr  s r  cup  ration        pour tous les articles du FeM      for all entry in FeM do      pour toutes les cat  gories syntaxiques     for all sense in entry do     pour tous les sens francais     for all sensel in sensel   sense  do     cr  er une lexie francaise     create obj MaFra from entry     cr  er une axie reli  e    la lexie MaFra     create obj MonAxie from MaFra     pour tous les sens anglais     for all eng in eng  sensel  do    cr  er une lexie anglaise MaEng     create obj MaEng from sensel     relier l   axie    la lexie MaEng     link obj  MonAxie MaEng      stocker la lexie dans la base     store database MaEng     stocker la lexie MaFra dans la base     store  database MaFra     stocker la lexie MaFra dans la base     store  database MonAxie                                           3  Sp  cifications externes 187    La fonction store database n   est pas encore impl  ment  e  Il est possible dans un premier temps d   ef   fectuer la r  partition en stockant les objets r  sultats dans un fichier qui sera ensuite converti en XML DML  puis envoy   au serveur Papillon  Le syst  me assur
413. uence gt    lt attribute ref  d resource   gt    lt  complexType gt    lt  element gt    lt     refsynset element  gt    lt     Represents a synset corresponding to the axie     gt    lt     eg  synset for murder  lt refsynset xlink href  00143589  gt 00143589       04 n 03 murder 0 homicide 0 slaying 0 013   00142607 n 0000 00143925  n 0000 00144191 n 0000 00145467 n 0000 00145676 n 0000 00808183  n 0000 00809697 n 0000 00812126 n 0000 00812230 n 0000 00812369  n 0000 00812446 n 0000 00812548 n 0000 00812622 n 0000   unlawful  premeditated killing of a human being lt  refsynset gt     gt    lt element name  refsynset  type  d refType   gt    lt     NTTsemcat element    gt    lt     List of Nippon Telegraph and Telephone semantic categories  corresponding to the axie     gt    lt element name  NTTsemcat   gt    lt complexType gt    lt sequence minOccurs  0  maxOccurs  unbounded   gt    lt element ref  d refsc   gt                                      2  Sch  ma du volume Papillon axies 271              lt  sequence gt    lt attribute ref  d resource   gt    lt  complexType gt    lt  element gt    lt   refsc element  gt    lt     Represents a semantic category corresponding to the axie     gt    lt element name  refsc  type  d refType   gt    lt     NTTsemcat element    gt    lt     List of LexiGuide concepts from LexiQuest corresponding to the  axis    gt    lt element name  LexiGuideConcepts  gt    lt complexType gt      lt sequence minOccurs  1  maxOccurs  unbounded  gt    
414. ular Expression  lt  lt  pr  c  dent suivant  gt  gt     thin  mang orthographe oktogkat  orthographe nf    Entry  1   forme   crite  spelling  quelle est P  de      how do you spell      avoir une bonne mauvaise    to be good bad at spelling     2 Scol  mati  re  spelling not countable    tre bon  Look up  en to be good at spelling  avoir une bonne    note en  to have a good mark GB ou grade US  for spelling      brtograt       FIG  B 6     Interface Web de DicoWeb    Il peut  avant de consulter les dictionnaires  envoyer le mot qu   il vient de taper 4 un analyseur morpholo   gique en cochant la case correspondante  S   il clique sur les boutons previous ou next des parties OHD  ou NODE  il pourra consulter les entr  es pr  c  dentes et suivantes correspondant  dans      ordre alphab  tique   a celles affich  es     Dans un souci de clart    nous fixons au d  part une seule couleur ainsi qu   une police diff  rente pour  chaque langue  qu   elle soit source ou cible  et cela pour tous les dictionnaires  L   utilisateur s    habituera ainsi  a ce mode de repr  sentation  Pour construire nos interfaces  nous nous effor  ons de suivre les principes  cognitifs d  finis par Jo  lle Coutaz et son   quipe  Coutaz88      76 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      1 2 4  Fonctionnalit  s originales  Recherche de l   entr  e    Selon les langues s  lectionn  es  le script consulte les dictionnaires correspondants  Par exemp
415. ulation de manuels d   indexage  A  l     poque  l   indexation directe dans un dictionnaire  sous XEDIT interagissant avec ATLAS    tait cependant  tr  s lente  et donc peu utilis  e  Il serait tr  s utile tel quel  Seule l   int  gration est    revoir     4 4  Construction  sp  cialis  e  pour des dictionnaires d   usage   l   outil DE   CID    4 4 1  Introduction    Le projet de recherche NADIA DEC  S  rasset 97a 97b   1994 1996   r  alis   en collaboration entre le  GETA et le GRESLET  d  partement de linguistique et traduction de l   universit   de Montr  al  et soutenu  par le r  seau LTT de l AUPELF UREF avait pour but l   informatisation du Dictionnaire Explicatif et Com   binatoire du Fran  ais Contemporain  DEC     Au d  part  le dictionnaire   tait disponible sous forme de fichier Word correspondant    la version im   prim  e  Mel   tchuk92   Ce projet a permis de r  cup  rer le DEC vers un format refl  tant sa structure interne  de mani  re plus explicite  ce qui a ensuite permis de reconvertir ce dictionnaire vers diff  rents formats  cibles  Un de ces formats est associ      un   diteur sp  cialis    DECID  lui aussi d  velopp   par Gilles S  rasset   S  rasset96  97c  dans le cadre du m  me projet       cet   gard  le projet NADIA DEC se distingue des autres projets d   informatisation du DEC qui se  basent a priori sur une structure informatique simplifi  e et qui n informatisent que le sous ensemble de  donn  es commun entre le DEC et cette structure  Le DEC 
416. ument qui ne respecteraient pas la structure initiale    La bijection entre la base lexicale et le client se fait alors entre le document XML de la base et le  document RTF   dit   avec Word     La technique est aussi valable avec tout autre   diteur utilisant un format  structur   qui puisse   tre g  n  r   facilement en mode texte par exemple  Cette transformation peut par exemple  se faire avec le programme LISP utilis   dans  Mangeot97     Le tableau C 7 montre un exemple de conversion de quelques   l  ments XML vers leur   quivalent RTF    Voici l   en t  te du fichier RTF qui sera utilis   pour les   l  ments convertis       rtfl iso  deff8 deflang1033  fonttbl     f0 froman fcharset77 fprq2 Tms Rmn         d  finition des polices         f  1 fnil fcharset2 fprq2 Symbol          4  Int  gration des outils de manipulation  construction et consultation de dictionnaires 167    Base Lexicale                Serveur  programme  LISP  F Internet  v    diteur Word  Client Document  RTF             FIG  C 22     transformation et   dition d un document rtf    XML RTF  avant conversion apr  s conversion     lt headword gt meurtre lt  headword gt    par  pard  plain  s15  f8 meurtre   lt pronunciation gt meu rtr e  lt  pronunciation   par  pard plain  s16  f3 meu rtr e      par  pard  plain  s17 V9 n m   lt example gt La m  sentente pourrait   tre le    par  pard plain  s18  f8 La m  sentente  mobile du meurtre  lt  example gt  pourrait   tre le mobile du meurtre  lt  span gt    
417. ur cette langue et aussi des liens de traduction entre sa langue et la  nouvelle langue  Les personnes navigant sur le Web et les touristes ont besoin d   informations minimales  pour pouvoir d  coder quelques   l  ments de texte dans une langue inconnue    Tous ces utilisateurs acc  deront principalement    la base via un navigateur Web  Le serveur Web doit  donc r  pondre aux requ  tes des utilisateurs via un serveur http  Les temps de r  ponses aux requ  tes simples   recherche d   un article par son mot vedette  ne doivent pas exc  der une demi seconde pour que le serveur  puisse   tre utilisable   La base lexicale peut   tre aussi consultable directement par des applications  Celles ci peuvent se  connecter au serveur via les diff  rents protocoles disponibles  http  ftp  telnet Dict  mail  Les besoins des  applications peuvent   tre tr  s divers  Une application de traduction automatique peut se connecter au serveur  de la base lexicale pour le traitement d   un mot inconnu en cours de traduction  Le temps de r  ponse doit    tre tr  s bref pour ne pas g  ner le processus  Par contre  une application utilisant un dictionnaire se mettant     jour en t  che de fond n   a pas besoin d   une r  ponse imm  diate     2 4 3  Ouvertures possibles    d   autres modules    Notre serveur doit pouvoir s   ouvrir vers d   autres modules ext  rieurs permettant d   aider les utilisateurs  lors de la consultation de la base en amont ou en aval  Nous souhaitons r  utiliser des lemmatise
418. ur eG wR cae ne m   an 184  3 2 1  Description des structures                                   184   3 2 2  Principe de poids sur les   l  ments                              185   3 2 3  Manipulation des structures             ee 185   3 3  R  cip  ration   ka ee a Ee ES ee eee oa eee ES a 186    3 4  Comsultationm  ise ke de adm    dons ie ne we Re ae a Ob taa ne Gow    187    Table des mati  res vii    4  Analyse g  n  rale et impl  mentation 188  4 1  D  finition des structures avec DML                                 188  4 1 1  Organisation des sch  mas XML                               188  4 1 2  Macrostructure des dictionnaires                                   189  4 1 3  Microstructure des dictionnaires                                   192   4 2  Impl  mentation du serveur                                      197  4 2 1  Architecture g  n  rale du serveur                                197   4 2 2 Organisation de la base de donn  es                               198  4 2 3  Utilisation de la base lexicale                                199   4 3  Impl  mentation des interfaces                                     199  4 3 1 Consultation de la Das        4 8    ad ue BUS ee Na ae       199  4 3 2  Contribution sur les articles monolingues                           200  4 3 3  Contribution sur les liens interlingues                             200  4 3 4  Pseudo   diteur structur            ee 201  4 3 5    diteur structur             4   4044 202   4 3 6 Interfaces 
419. ur permettre de r  viser le vocabulaire  d   une le  on en particulier     2  Am  lioration des m  thodes de construction 89    La structure des articles de Nihongo est une simplification de celle utilis  e pour les lexies de la base  DiCo  Chaque article est en fait une lexie  Nous pouvons donc avoir plusieurs articles ayant le m  me mot   vedette si les sens qu   ils repr  sentent sont diff  rents  Pour la traduction du mot vedette dans l   autre langue   nous n   indiquons pas la traduction directement mais l   identificateur de la lexie correspondante    La figure B 16 repr  sente un exemple d   article du dictionnaire Nihongo fran  ais      lt lexie id  maison 1   basic  yes   indexer  Mathieu Mangeot   date  Fri Oct 20 19 3 1 46 MET DST 2000   status  a r  viser  gt    lt headword nb  1  gt maison lt  headword gt    lt pos gt nom commun lt  pos gt      lt jpn gt  lt refjpn href   Ex  WSL pA   lt lesson number gt 1 lt  lesson number gt    lt lesson date gt 20 10 00 lt  lesson date gt    lt  lexie gt     FIG  B 16     article du dictionnaire Nihongo francais    Chaque lexie a un identificateur unique id utilis   pour les liens  Nous notons le mot vedette avec  l   l  ment  lt headword gt   la cat  gorie grammaticale avec l     l  ment  lt pos gt   les traductions japonaises  avec l     l  ment  lt  jpn gt   Chaque traduction japonaise est en fait un lien vers une lexie japonaise not  e avec  l     l  ment  lt refjpn gt     Nous notons ensuite des informations li  es    l 
420. urs comme  lors des exp  riences de la partie B et connecter tout autre module suscceptible d   aider la consultation  Une  API sera disponible afin d   ajouter des modules mais pour l   instant  aucun module sp  cifique n   est pr  vu     3  Sp  cifications externes 181    3  Sp  cifications externes    3 1  Serveur Papillon    3 1 1  Sc  narios type  Accueil    La figure D 4 montre la page d accueil du serveur Papillon  Lorsque les utilisateurs se connectent pour  la premi  re fois  ils doivent s   enregistrer dans la base en cliquant sur le menu de gauche  Lors des sessions  suivantes  ils doivent s   identifier en cliquant sur le menu de gauche    Ensuite  les utilisateurs choisissent une section dans la barre des menus horizontale en haut  La sec   tion  informations  contient l   archivage de la liste de distribution du projet Papillon  la section  consulta   tion  permet de consulter les dictionnaires de la base Papillon  et la section    dition  permet de r  diger de  nouveaux articles ou de contribuer localement sur des articles  Les parties sont pour l   instant en cours de  d  veloppement     Consultation    Les utilisateurs qui consultent la base Papillon ont acc  s    l     tat actuel de ce qui est disponible dans la  base Papillon  Ils   ditent leurs pr  f  rences gr  ce    une interface sp  cialis  e r  pondant         API de personna   lisation d  crite en partie C  Elles sont traduites ensuite en feuilles de style XSLT ou CSS puis stock  es sur  le serveur Pa
421. us complexe comme le DEC  il n   est pas possible de d  composer tous  les diff  rents   l  ments de l   article en champs s  par  s     2  Outils de consultation de dictionnaires    Enter query  How many      cos A  Looking for   Truncation  Term Base     All Fields    Abbreviation  Author  Collection    ID Number Construction    CI View HitList in List Box   Native display       FIG  A 28     interface Web de la base terminologique EuroDicAutom    Document 2 Prev Next HitList Query Options    FeedBack  Terminology Office  European Commission  Brussels   BTB     Common Customs Tariff  TDCTA  0086204    conventions    CEN   rolling stock   TRd   Unknown CM        TARIF DOUANIER   NOTEX CE 86 09 A  CUSTOM TARIFF   NOTEX CE 36 00 A    FIG  A 29     terme voiture de la base Eurodicautom       2 2 5  Conclusion    En g  n  ral  les applications comme les serveurs Web de consultation de dictionnaires ne proposent pas  de recherches multilingues  De plus  s   ils font des recherches dans plusieurs dictionnaires  ce sont presque  toujours des dictionnaires anglais autre langue  Il est donc tr  s difficile de trouver de bons dictionnaires  bilingues sans utiliser l   anglais     Les outils d   aide    la recherche comme les lemmatiseurs  les correcteurs orthographiques sont tr  s rare     35    36 A   Contexte actuel de la  dictionnairique     ment utilis  s  pourtant on les trouve dans d   autres applications  Les options de recherche   volu  es comme  les expressions r  guli  res n
422. utils   Enfin  nous terminerons en d  taillant la m  thodologie de construction de ces dictionnaires en diff  rentes    tapes     172 D   Application    Papillon  projet de base lexicale multilingue sur Internet    1  Pr  sentation du projet Papillon    1 1  Historique et buts du projet    Le projet Papillon  Papillon  a   t   lanc   en janvier 2000 par une coop  ration entre le GETA CLIPS et  le National Institute of Informatics  NID japonais avec le support actif de l Ambassade de France    Tokyo   Depuis  des partenaires tha  landais  Kasetsart University  amp  NECTEC    Bangkok  se sont joints au projet   et un doctorant du GETA CLIPS  sp  cialiste de l   informatisation du lao  travaille    l   int  gration de cette  langue  Le projet devrait s     tendre    court terme au vietnamien et au malais    La premi  re motivation de ce projet est le manque de ressources lexicales entre le fran  ais et le japonais  gratuites et disponibles au format   lectronique    La seconde est que les dictionnaires existants indiquent rarement    la fois l     criture japonaise en kanji et  son   criture en alphabet romain romaji  Les articles japonais omettent aussi souvent d indiquer les sp  cificateurs  num  riques  Ce manque est   galement criant pour bien d   autres langues importantes  mais le japonais est  particuli  rement int  ressant    En troisi  me lieu  le manque de ressources bilingues est aussi un obstacle au d  veloppement d   applica   tions linguistiques pour lesquelles exi
423. uvelle lexie    Par exemple  un premier utilisateur entre le mot fran  ais aimer et la traduction japonaise suki  dans  le sens de like   Lorsqu un deuxi  me utilisateur entrera le m  me verbe fran  ais aimer avec la traduction  japonaise aisuru  dans le sens de love   il forcera l   insertion de l   entr  e et un nouveau num  ro unique sera  affect      ces lexies  Le dictionnaire sera alors compos   de deux lexies pour le verbe aimer     90 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc      Indexage de Nihongo GETA  Interface de Mathieu    ee    maison Kanji E  Furigana  55      Romaji fuchi  Indicateur   Indicateur    Cat  gorie Cat  gorie  nom commun       Date de N   de    Lee   Er le  on CR    JIMM AA    x    Forcer l insertion de l entr  e LJ       FIG  B 17     interface d indexage en ligne du dictionnaire Nihongo    2 2 4  Discussion  Avantages    Cette m  thode est simple et efficace  Les utilisateurs n   ont besoin que d   un navigateur Web pour Puti   liser  Le formulaire HTML permet de contr  ler la structure des articles  Les informations de gestion per   mettent de contr  ler la qualit   du dictionnaire     Inconv  nients    Nous n   avons pas pour l   instant d  velopp   d   interface de r  vision  de modification ou de suppression  d   un article  Ces manipulations se font     la main   directement avec un   diteur de texte sur les fichiers   Cette m  thode demande donc plus de d  veloppements pour   tre vraim
424. v  rifie si le style suivant est un style autoris   par la grammaire  et  si le style  contient une liste ferm  e de valeurs  elle applique la macro v  rification        2  Am  lioration des m  thodes de construction 87    CO1101 rtf   e  IFO AE EEEF    Caaba   Caaba  Y   Caaba equ gt Kaaba   f        aq   Selection erron  e      pr 4       Kaaba dr      Pr f 4 La s  lection n est pas valide      Caaba icl gt building      ES  batiment Poursuivre la v  rification      pra  Kaaba Y    cabs se     cab  F  FEM 4       FIG  B 15     message d   erreur suite a la v  rification d une cat  gorie    Apr  s avoir v  rifi   ses entr  es  le lexicographe enregistre le fichier en format RTF et le renvoie au  lexicologue par disquette ou par r  seau     2 1 4  Discussion    La technique de construction du dictionnaire fran  ais malais a   t   am  lior  e          nous avons index   20 000 UW en 7 mois  6 indexeurs    temps partiel travaillant chez eux        nous pouvons g  n  rer les fichiers RTF    partir de la base existante         nous proposons des outils d   aide    l   indexage qui permettent au lexicographe de v  rifier la structure  d   un article     Avantages    Nos outils ont   t   con  us pour r  pondre    la demande du projet UNL  Nous les avons aussi test  s avec  les donn  es du projet FeT  L objectif de ce projet    diter un dictionnaire trilingue fran  ais  anglais  thai  est  diff  rent de celui du projet UNL  Les outils ont pu   tre utilis  s sans aucune modification 
425. va      D  Application a Papillon  projet de base  lexicale multilingue sur Internet    D  Application    Papillon  projet de base lexicale multilingue sur Internet 171    Introduction    Nous disposons maintenant d outils pour d  finir et utiliser un environnement de manipulation  cr  ation  et consultation de dictionnaires h  t  rog  nes  Nous allons dans cette partie appliquer nos m  thodes et outils     un cas concret  le projet Papillon  Ce projet vise    construire une base lexicale multilingue avec une  architecture en   toile autour d   un dictionnaire pivot d   acceptions interlingues     stocker les donn  es dans  des base de donn  es  puis    en extraire des dictionnaires personnalis  s    Les int  r  ts de cette partie sont multiples  Nous voulons d  montrer l   efficacit   de nos outils dans une  r  alisation concr  te pour le projet Papillon  ajouter l   aspect collaboratif dans la construction de dictionnaires  et aussi faire progresser diff  rents aspects linguistiques  Ces aspects sont principalement l   utilisation de la  lexicographie explicative et combinatoire    large   chelle et appliqu  e    plusieurs langues  l     tablissement de  liens interlingues non bas  s sur des concepts et relier ces liens    d   autres th  ories ext  rieures    Nous pr  senterons d   abord l   historique  les buts et l   architecture g  n  rale du projet Papillon  Nous  d  finirons ensuite les macrostructures et microstructures des dictionnaires du projet    l   aide de nos o
426. vant  plus petit  l   analyse des documents  XML    L exemple pr  c  dent en SGML est encod   en XML de la fa  on suivante      semaines    lt jours feries gt    lt jour num  6  gt samedi lt  jour gt    lt jour num  7  gt dimanche lt  jour gt    lt  jours feries gt    lt  semaine gt   Un nombre croissant de normes ont d  ja   t     tablies autour de XML          d  finition d   espaces de nom avec Namespace  XML Namespaces          description de structures de documents avec les DTD  D  finition de Type de Document  et XML  Schema  XML Schemas      5  Standards li  s    la repr  sentation de dictionnaires 57    d  signation de parties de documents avec XLink  Xlink   XPath  XPath  et Xpointer  XPointer          transformation de documents avec XSLT  eXtensible Stylesheet Language Transformation   XSLT  1 0      ensembles d   appels de fonctions standard de manipulation de documents XML avec DOM  Document  Object Model   DOM  et SAX  Simple API for XML   SAX 2 0          m  tadonn  es sur les documents XML avec RDF  Resource Description Framework   RDF          pr  sentation de documents XML avec les feuilles de style XSL FO  Formatting Objects   XSL   CSS   Cascading Stylesheet Language   CSS 2  ou encore DSSSL  Document Style Semantics and Speci   fication Language   DSSSL  ISO96      XML est    l   heure actuelle le format id  al pour repr  senter le contenu des dictionnaires  Les nombreuses  normes qui sont d  finies autour d    XML ainsi que le nombre de plus en plus impo
427. vec les clients     2 2  Passage de SUBLIM    XML    Dans le cahier des charges  nous avons choisi XML comme format de repr  sentation interne de nos  donn  es  Dans cette section  nous allons donc red  finir le syst  me SUBLIM en XML en ajoutant des infor   mations utiles    la gestion pour mettre en place un environnement de manipulation  cr  ation et consultation  de bases lexicales h  t  rog  nes multilingues    Lors de l   impl  mentation  on pourra stocker tout ou une partie des documents XML repr  sentant ces  bases lexicales dans des bases de donn  es classiques pour acc  l  rer l   acc  s aux informations  Toute la base  devra cependant rester disponible sous forme de fichiers XML  pour garantir la lisibilit   et la portabilit   des  donn  es     2 2 1  L   espace de noms   DML    Pour noter nos documents XML  nous utiliserons un espace de noms XML  XML Namespaces   Les es   paces de noms permettent de qualifier les   l  ments et attributs utilis  s dans les documents XML de mani  re  unique en leur associant un espace de noms identifi   par une URI  Uniform Resource Identifier     Notre espace de noms est appel   DML pour Dictionary Markup Language  L URI de notre espace de  noms estnot  http   www clips imag fr geta services dml  Cet URI est une adresse sym   bolique qui ne pointe pas obligatoirement sur un fichier  C   est seulement un moyen de d  finir un nom unique     128 C  Sp  cification d un environnement de gestion et consultation de bases lexicales et dict
428. violet  Les acceptions reli  es    ce mot vedette sont colori  es en gris  Nous  trouvons par exemple desert  src gt human   desert  src gt group   desert  agt gt human    desert  agt gt animate  icl gt event     Nous avons adopt   un principe ergonomique qui est d   associer    chaque langue une couleur  Nous gar   dons autant que possible les m  mes codes de couleur pour des applications diff  rentes  Les traductions  fran  aises des acceptions sont colori  es en bleu  Nous trouvons entre autres d  sert2  faire d  fection   d  laisser  abandonner  Les traductions italiennes sont colori  es en vert  desertico  amp  disertare   Les traductions japonaises sont colori  es en rouge    La version de l   applet utilis  e ne permet pas d   utiliser Unicode  Les traductions japonaises sont donc  mal cod  es  La nouvelle version a corrig   ce d  faut mais nous n   avions pas encore pu nous la procurer au  moment de r  diger cette section     3 2 3  Discussion    L exp  rience des codes de couleur est concluante  Cela permet    l   utilisateur de se rep  rer dans une base  multilingue  Nous avons aussi montr   avec cette maquette qu   il   tait possible de r  utiliser des produits du  commerce et de les adapter pour permettre de visualiser plus facilement une grande quantit   de donn  es  lexicales     94 B   Exploration de nouvelles directions  bilan et cahier des charges d   un environnement avanc                 mE   3  d  sert  aire d  fection  desertico           disertare    d  
429. wandten Informationsforschung e V  de l   Universit  t des Saarlandes et  du c  t   am  ricain  le Trans   lation Research Group de la Brigham Young University et le Kent State University Institute for Applied  Linguistics    Le but de ce projet est d int  grer des lexiques utilis  s en traduction automatique d une part et des bases  de donn  es terminologiques conceptuelles utilis  es dans les outils d aide    la traduction humaine d   autre  part  Cette int  gration se fera gr  ce    un format d     change appel   XLT  eXchange format for Lex Term   data   Le projet SALT comprend plusieurs t  ches          tester et raffiner un format d   change de donn  es lexicales et terminologiques bas   sur XML et appel    XLT     6  Exemples de projets r  cents bas  s sur XML 63        d  velopper un site web pour tester XLT         d  velopper des outils XLT pour concevoir des applications utilisant des donn  es lexicographiques et  terminologiques     6 2 2  Exemple de document au format XLT    Le format XLT est bas   tout d   abord sur XML  Il reprend ensuite le standard MARTIF  ISO 12200   ISO99b   lui m  me bas   sur ISO 12620   ISO99c  pour les bases terminologiques    usage humain et le  format OLIF  OLIF  pour les dictionnaires de traduction automatique  Les caract  res seront repr  sent  s en  Unicode  Les outils XLT pourront convertir les donn  es entre XLT  OLIF   GENETER  et d   autres formats   L exemple de la figure A 47 est un document XLT simple      lt martif type  DX
430. xemple est la  liste des cat  gories grammaticales d   une langue    Lors de la r  cup  ration d   une ressource existante  nous essayons dans la mesure du possible de conver   tir les   l  ments originaux vers des   l  ments de cet ensemble  Si toutefois certaines informations ne sont  pas repr  sentables avec cet ensemble  les   l  ments originaux sont conserv  s  Si ces   l  ments se retrouvent  fr  quemment dans plusieurs ressources existantes  ils sont ajout  s    cet ensemble    Les   l  ments de l   ensemble CDM sont utilis  s comme points de r  f  rence dans un dictionnaire converti  inconnu  La correspondance entre un   l  ment de cet ensemble et un   l  ment original lors de la r  cup  ration  est effectu   par un linguiste pour   viter des conflits possibles entre les   l  ments    Le tableau C 2 liste une premi  re version de l   ensemble d     l  ments CDM  Les   l  ments ont   t   choisis  sur la base de leur fr  quence  L   ensemble lui m  me   volue d  s lors que de nouveaux dictionnaires sont  explor  s et r  cup  r  s    La structure des   l  ments de l   ensemble CDM est d  crite dans le sch  ma DML     Exemple de correspondance    Lors de la r  cup  ration de ressources  il faut alors   tablir un tableau de correspondance des   l  ments     r  cup  rer et des   l  ments de CDM  Le tableau C 3 a   t   utilis   pour r  cup  rer les dictionnaires FEM et DHO  d  crits chacun en premi  re partie     Exemples de fusion    Gr  ce    cet ensemble d     l  ments pr
431. ype Xlink  Par exemple   un lien vers la lexie anglaise RIVER sera not   par l     l  ment  lt reflexie href  rivers 1   gt     Les axies peuvent aussi   tre reli  es entre elles par des liens de synonymie regroup  s dans l     l  ment   lt synonyms  gt   des liens de raffinement regroup  s dans l     l  ment  lt refinement s  gt   et des liens inverses  de g  n  ralisation regroup  s dans l     l  ment  lt generalization gt     Chaque r  f  rence vers une axie est ensuite repr  sent  e par l   attribut href de type Xlink  Ces liens peuvent    tre   tiquet  s  Par exemple  un lien d   une axie ayant le sens de cours d   eau vers une autre axie ayant le sens  de fleuve sera un lien de raffinement  Il sera   tiquet   par exemple avec une glose anglaise expliquant que  ce cours d   eau d  bouche dans la mer   lt refaxie tag type  gloss eng  tag  into sea   href  a009   gt     Pour pouvoir relier nos donn  es    celles d   autres projets et construire des dictionnaires les utilisant   nous relions nos axies    des r  f  rences externes  Ces liens externes sont not  s par l     l  ment  lt external   references gt     Pour l instant  il est pr  vu des liens vers des UW du projet UNL  UNL96  UNL97   not  s avec l     l  ment   lt UNL gt   des liens vers des sens du projet WordNet  Fellbaum98   not  s avec l     l  ment  lt  WordNet gt   des  liens vers les cat  gories s  mantiques du dictionnaire NTT  not  s avec l     l  ment  lt NTTsemcat gt  et des liens  vers des concepts du pr
432. ype gt    lt     type encodingType    gt    lt     encoding type of a dictionary  The values are       taken from the Internet Assigned Number Authority IANA  Character Set registry  For more info  please refer to   http   www iana org assignments character sets These encoding types       246       are also used    Annexe A   sch  ma XML pour DML    for MIME types    gt      lt simpleType name  encodingType  gt    lt restriction base  string  gt                                    lt enumeration value  Big5   gt    lt enumeration value  EUC JP   gt    lt enumeration value  EUC KR   gt    lt enumeration value  GB2312   gt    lt enumeration value  ISO 2022 JP   gt    lt enumeration value  ISO 2022 KR   gt    lt enumeration value  ISO 8859 1   gt    lt enumeration value  ISO 8859 2   gt    lt enumeration value  ISO 8859 3   gt    lt enumeration value  ISO 8859 4   gt    lt enumeration value  ISO 8859 5   gt    lt enumeration value  ISO 8859 6   gt    lt enumeration value  ISO 8859 7   gt    lt enumeration value  ISO 8859 8   gt    lt enumeration value  ISO 8859 9   gt    lt enumeration value  ISO 8859 10   gt    lt enumeration value  1S0 8859 15   gt    lt enumeration value  KOI8 R   gt    lt enumeration value  US ASCII   gt    lt enumeration value  Shift_JIS   gt    lt enumeration value  UTF 7   gt    lt enumeration value  UTF 8   gt    lt enumeration value  UTF 16   gt    lt f restriction gt    lt  simpleType gt    lt     type formatType    gt    lt     format of a dictionary  
433. ype gt    lt  element gt    lt     contribution element    gt    lt     Links to a contribution of a contributor  These contributions  are represented by an XSLT stylesheet on the source file     gt    lt element name  contribution  gt            lt complexType mixed  true  gt         lt attribute name  source  type  xlink hrefType   gt    lt attribute ref  xlink href   gt                                                lt  complexType gt    lt  element gt   1 requests element e   lt     Links to a file where all the requests of a user are stored      gt    lt element name  requests  gt    lt complexType mixed  true  gt    lt attribute ref  xlink href   gt    lt  complexType gt    lt  element gt   gl xml stylesheet element Pi   lt     links to an XML stylesheet used by a user to indicate its  preferences   gt    lt element name  xml stylesheet  gt    lt complexType gt    lt attribute name  type  type  string  use  optional   gt    lt attribute ref  xlink href  use  optional   gt    lt  complexType gt    lt  element  gt    lt   DML definitions for a dictionary   gt      l   dictionary element    gt     244     lt     This elements describes a dictionary   meta information available on a dictionary   domain  size  dates  encoding  format  number  describes also the macrostructure of the dict          bilingual  multilingual  etc     gt    lt element name  dictionary  gt    lt complexType gt    lt sequence gt      lt element ref  d languages   gt    lt element ref  d contents   g
    
Download Pdf Manuals
 
 
    
Related Search
 these mathieu mangeo.. 
    
Related Contents
2015 Toronto Housing Market Outlook National  manuale uso e manutenzione manuale uso e manutenzione  V7 Micro SDHC 32GB Class 10 + SD Adapter  clean`surf® diamant clean`surf® diamant hygiene de la  USER`S MANUAL - Sweatband.com  Manual de Instruções - Reset Eletronica Industrial  FSA 4.0 User`s Manual 6th Edition  Nady Systems Microphone rsm-2 User's Manual  PS48402 User manual  BOLLETTINO INFORMATIVO    Copyright © All rights reserved. 
   Failed to retrieve file