Home
        - SHS Web of Conferences
         Contents
1.          Tableau 9   Hyperonymes et m  ronymes non rep  r  s par l AD     On observe tout d   abord dans la liste d   hyperonymes deux couples probl  matiques car ils ne passent pas  le test propos   par Cruse pour identifier cette relation     savoir la possibilit   pour le couple Y X d   int  grer  le patron X est un type de Y  S   il est vrai par exemple que le sud est une direction et le pape un oiseau  le  rock n   est pas un orchestre  ni le championnat un lieu  Le couple po  te racine pose  lui  un probl  me  particulier d homonymie nom commun nom propre  Les sept couples restants illustrent des cas de relation  d   hyperonymie dans lesquels les deux termes ne sont pas substituables dans le corpus  Trois d   entre eux  posent    nouveau des probl  mes de polys  mie  pape  pens  e  organe   Restent quatre  couples  direction sud  endroit tribunal  juge m  tier  r  alisateur m  tier  qui pr  sentent un v  ritable  d  calage distributionnel  Ils illustrent tous les quatre le fait que le terme sp  cifique n   est plus con  u en  contexte comme une instance du terme g  n  rique     il n   h  rite pas de son type s  mantique   juge et  r  alisateur entrent dans des contextes d  signant des individus  tribunal dans des contextes d  signant un  collectif humain  sud d  signe une zone et non une direction  L     tude de l   hyperonymie par le biais de  PAD offre un point de vue int  ressant sur la question de la cat  gorisation s  mantique qui op  re  effectivement dans le disc
2.   le contexte sentier de  qui permet de rapprocher promenade et randonn  e   est plus informatif que le contexte faire OBJ  qui a une distribution beaucoup plus   tendue  Le premier a  donc plus de poids que le second dans le calcul de similarit       La valeur d   un ensemble de param  tres  score de la mesure de similarit    types de contextes consid  r  s   seuil de fr  quences des mots et des contextes  etc   peut   tre ajust  e   ces choix ont n  cessairement des  cons  quences sur les r  sultats  Van der Plas 2008   Baroni et Lenci 2011   Dans la version de la base que  nous avons utilis  e  nous avons opt   pour les seuils suivants   les triplets pris en compte dans le calcul ont  une fr  quence sup  rieure ou   gale    5   le seuil de productivit   a   t     galement fix      5   le score de Lin  consid  r   est sup  rieur ou   gal    0 1  La taille de la base obtenue avec ces r  glages est de pr  s de 4  millions de paires  3 922 657 exactement      Les tableaux 1 et 2 donnent quelques illustrations de cette relation de voisinage  Le tableau 1 montre les  premiers voisins du nom exp  dition  productivit   de 248   il apparait dans 248 triplets diff  rents  en  position de d  pendant  par ordre d  croissant de la mesure du Lin  Le nombre de contextes diff  rents dans  lesquels appara  t chaque lemme est indiqu   dans la troisi  me colonne  Le deuxi  me tableau montre les  voisins du verbe r  parer lorsque l   on consid  re la position objet  Ce verbe comprend lui m  m
3.   tats mentaux  col  re   m  contentement      Ainsi  dans le cas de veine  touche  commencement et flamme  les synonymes ne sont pas rep  r  s par  PAD parce que l   acception sur laquelle porte la relation de synonymie ne se manifeste pas     ou trop peu        Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0  1013    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012 SHS Web of Conferences 1  2012   SHS Web of Conferences DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    dans le corpus  Dans le cas de mots comme att  nuer  les synonymes partagent un m  me sens mais se  distinguent du point de vue de leurs distributions   le crit  re de la substituabilit   se trouve mis    mal  dans  la mesure o   les contextes s  lectionn  s par le mot et ses synonymes sont tellement diff  rents que  l   analyse ne permet pas de les rapprocher     4 Conclusion    L utilisation combin  e d   une base distributionnelle et de deux ressources externes permet de mettre     l     preuve le crit  re de substituabilit    consid  r   habituellement comme un test pour appr  cier la  propension de deux mots    entretenir une relation lexicale  Cette   tude montre la difficult      appr  hender  le contenu d   une base distributionnelle pl  thorique  r  sultat de l   analyse d   un vaste corpus de textes  caract  ris   par l   h  t  rog  n  it   des termes abord  s  La confrontation avec des
4.  Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012                   Noms destruction g  n  ration  accident substance    chec r  solution  huile vague  franchise obligation   adh  sion refus  bonheur douleur  d  faut vertu  d  clin enfance  assurance peur   Verbes b  tir renverser  interrompre progresser  d  cliner progresser  an  antir fortifier  agiter calmer   embaucher virer  chiffrer d  chiffrer  dormir r  veiller  attiser mod  rer  pleurer rire       Tableau 8   Antonymes non rep  r  s par l analyse distributionnelle     Comme dans le cas de la synonymie  on constate ensuite que l   on a affaire    des antonymes partiels dont  le sens concern   par la relation est minoritaire dans le corpus  C   est le cas de vertu d  faut  il est plut  t  question dans le corpus de vertu au sens de propri  t    ou d  clin enfance  d  clin ne d  signe g  n  ralement  pas un processus affectant l   individu   Le m  me ph  nom  ne s   observe sur les verbes  notamment dans le  cas de b  tir renverser   b  tir prend pour objets des noms de b  timents ainsi que quelques noms abstraits   dont certains sont partag  s avec renverser  empire  royaume   mais celui ci s   emploie principalement au  sens figur   de    provoquer la chute de  venir    bout de  an  antir     et privil  gie en po
5.  de Caen     Manning C  D  et Sch  tze H   1999   Foundations of statistical natural language processing  MIT Press  Cambridge   Murphy L   2003   Semantic relations and the lexicon  Cambridge University Press     Nazarenko A   Zweigenbaum P   Bouaud J  et Habert B   1997   Corpus Based Identification and Refinement of  Semantic Classes  Proceedings of the 1997 American Medical Informatics Association  AMIA   AMIA 585 589     Ruge G   1992   Experiments on linguistically based term associations  Information Processing and Management   28 3  317 332     Sahlgren M    2006   Towards pertinent evaluation methodologies for word space models  Proceedings of the 5  International Conference on Language Resources and Evaluation     Turney P  D   2008   A uniform approach to analogies  synonyms  antonyms  and associations  COLING  905 912     van der Plas L   2008   Automatic lexico semantic acquisition for question answering  Th  se de doctorat  Universit    de Groningen  Pays bas    Winston M   Chaffin R  et Herrmann D   1987   A taxonomy of part whole relations  Cognitive Science  11  417 441          La ressource est consultable    l   adresse suivante   http   redac univ tlse2 fr applications vdw html  2 Site du DES   http   www crisco unicaen fr des    3 Site de JeuxDeMots   http   www  lirmm  fr jeuxdemots    4 Ces d  finitions sont extraites du Tr  sor de la Langue fran  aise   http   atilf atilf fr tlf htm    5 F   2  pr  cision rappel   pr  cision rappel     Article en acc  
6.  du crit  re de  substituabilit   met au jour des couples dont l   un des termes ne peut   tre isol   du contexte sp  cifique qui  justifie le rapprochement s  mantique     L   tude des couples de verbes illustre   galement des cas de rapprochement extr  mement sp  cifiques des  deux mots via la relation de synonymie  Ainsi  chanter et ex  cuter ne sont proches que lorsqu   ex  cuter  signifie interpr  ter une chanson  Autre exemple   pousser ne peut   tre rapproch   de conseiller que dans  des contextes tr  s particuliers   or  dans le corpus  les emplois de pousser sont tr  s vari  s puisqu il  appara  t fr  quemment comme verbe support  pousser un cri  pousser la reconnaissance  jusqu       ou  avec un compl  ment d   objet concret  pousser une porte   ce qui exclut le rapprochement avec conseiller   On se rend compte que m  me lorsqu il r  git des compl  ments d   objet humains  troupe  pays  auteur       il n   est pas paraphrasable par conseiller mais par des verbes plus g  n  riques comme conduire ou amener      sans restriction sur la nature du sujet   On peut noter d   ailleurs que le voisinage distributionnel rep  re  d   autres synonymes plus proches de conseiller     savoir recommander ou inciter     L   absence de ces couples dans les voisins s   explique donc par le biais qu   introduit le corpus  lequel  s  lectionne des acceptions des mots qui ne correspondent pas    celle qui est vis  e par le couple de  synonymes  Par ailleurs  cette confrontation r  v  le d
7.  lexiques d  j   constitu  s  fournit un angle d     tude r  ducteur mais   clairant  Elle montre que la proximit   s  mantique mise au jour  par l   analyse distributionnelle d  passe tr  s largement celle dont ces lexiques rendent compte  Elle montre    galement que les relations lexicales ne se traduisent pas syst  matiquement par une proximit    distributionnelle effective dans un vaste corpus  En nous concentrant sur ce deuxi  me aspect  nous avons  d  gag   diff  rents   l  ments d   analyse expliquant ce d  calage  Les premiers   l  ments sont li  s au mode de  calcul de l   AD  qui favorise la mise au jour de relations entre des mots non seulement fr  quents dans le  corpus  mais de fr  quence comparable  Cela ajoute une contrainte statistique forte sur le test de  substituabilit    Ceci   tant pos    nous avons montr   que l   importance du d  calage entre les voisins et les  deux autres ressources lexicales utilis  es fournissait un angle d     tude int  ressant sur l   opposition entre  des relations attribu  es in abstracto et des relations construites dans le discours  A  nsi  certaines relations  d   hyperonymie ne sont pas op  rantes dans le corpus  car la cat  gorisation s  mantique qu   elles induisent  n   est pas mobilis  e dans le texte   des mots n   ont aucun synonyme parmi leurs voisins parce que leur  acception dans le corpus n   est pas prise en compte dans le dictionnaire   des rapports de synonymie tr  s  sp  cifiques  relevant d   emplois restricti
8.  sistant  robuste  qui demande peu de soin     Ce sens est  absent des synonymes  qui se r  partissent entre les acceptions   relatif    l   agriculture     la vie des  champs     champ  tre  pastoral  paysan  rural      sans savoir vivre     grossier  rude  sauvage  vulgaire   et   sans appr  t  brut     brut  primitif  simple   Nous avons ici affaire    des situations o   des acceptions  enti  res d   un mot ne sont pas d  tect  es par l   analyse du corpus   ce d  calage est r  v  lateur d   emplois  atypiques du mot  au regard de la repr  sentation qu   en donne le dictionnaire     Certains d  calages entre voisins et synonymes s   apparentant    de la polys  mie peuvent s   expliquer par  des diff  rences de registre ou des emplois figur  s  Le registre du corpus peut en effet exclure l   emploi de  certains synonymes   la plupart des synonymes du nom fouche ne sont pas rep  r  s car ils renvoient     l   acception famili  re    aspect g  n  ral d une personne  d une chose    du mot  allure  apparence  look   maintien      alors que l   analyse fait   merger le sens de   commande manuelle     voisins   bouton   dispositif  clavier      C   est   galement le cas de veine  dont les synonymes li  s    son acception    chance   fortune     hasard  prosp  rit    r  ussite  bonheur  pot     ne sont pas d  tect  s par l   analyse  ses voisins      art  re  nerf  muscle        sont ici aussi li  s    son sens premier   De m  me  les synonymes relevant  d   emplois figur  s sont 
9. 14     puiser  16 13    adjoindre  33 12   allonger  22 12   capter  50 11   ajuster  40 11   enrichir  299 10   Adjectifs rude  15 24   grossier  12 18   timide  18 13   barbare  71 11   valable  19 10   tendre  12 10    rustique  10 10   nuisible  13 9   digne  40 8   spontan    20 8           Tableau 13   Exemples de mots pour lesquels aucun des synonymes n a   t   capt       On peut principalement distinguer deux raisons expliquant le d  calage entre les synonymes d   un mot et  ses voisins distributionnels  La plus   vidente est celle de la polys  mie  d  j     voqu  e dans les analyses de  la section 3 3  les sens du mot excitation qui   mergent du corpus Wikip  dia correspondent  principalement    ses acceptions du point de vue physiologique  voisins   infection  l  sion  pathologie      et de celui de la physique  voisins   ionisation  vibration  radiation      ce qui implique que l   ensemble de  ses synonymes relevant du domaine des   tats mentaux  effervescence  encouragement  enthousiasme      ne sont pas d  tect  s  Ainsi  excitation n   appara  t pas dans des contextes comme susciter OBJ ou  exprimer OBJ  comme c   est le cas pour plusieurs de ses synonymes  mais plut  t dans des SN comme  lumi  re d    excitation  courant d excitation ou spectre d   excitation  qui apparaissent comme des termes  appartenant    des domaines de sp  cialit    On peut   galement citer le cas de l   adjectif rustique  dont les  emplois dans le corpus rel  vent de l   acception    r 
10. 3 4  les mesures de pr  cision et de rappel  pour centrer notre analyse sur les mots dont les synonymes ne sont quasiment pas rep  r  s par l   AD     2 Pr  sentation des donn  es    Cette   tude repose sur la confrontation des r  sultats de l   analyse distributionnelle automatique et de deux  ressources lexicales     le Dictionnaire   lectronique des Synonymes du CRISCO et une partie du r  seau de  la base JeuxDeMots du LIRMM  Nous pr  sentons chaque ressource en commen  ant par la ressource  distributionnelle     2 1 Les voisins distributionnels    La base distributionnelle utilis  e dans cette   tude a   t   obtenue    partir du traitement d   un corpus  constitu   de l int  gralit   des articles de l encyclop  die en ligne Wikip  dia dans une version datant d avril  2007  Dans la suite de l   article  cette base est d  sign  e sous le nom Voisins de Wikip  dia   VDW   Le  corpus utilis   compte environ 194 millions de mots  Ce choix est motiv   par des consid  rations pratiques  de disponibilit   de la ressource  mais   galement par l   int  r  t pr  sent   par une collection de textes  homog  nes du point de vue du genre mais vari  s sur le plan th  matique  ce qui permet d   observer le  comportement d   unit  s lexicales s  mantiquement tr  s diverses  Le mod  le distributionnel qui a   t    appliqu   a   t   con  u par Didier Bourigault    partir des sorties de l   analyseur Syntex  Bourigault 2002 et  2007   Il s   agit donc d   un mod  le d   analyse distributionne
11. Lafourcade 2007   Les relations propos  es  incluent la synonymie  l   antonymie  l   hyperonymie et la m  ronymie  ainsi que des relations moins  classiques comme les relations chose lieu  agent action  action instrument  etc     Afin de proc  der    la mesure du taux de recouvrement entre les voisins de Wikip  dia et les deux lexiques  que nous avons choisis comme   talons  nous avons harmonis   les donn  es pour assurer leur  comparabilit        e nous avons supprim   la mention de la relation associ  e aux pr  dicats de la base de voisins  pour ne  conserver que le lemme  Par exemple  les verbes arriver venir sont en relation dans plusieurs couples  de voisins  car ils sont unis par la relation sujet ainsi que par diff  rentes relations pr  positionnelles       en  avec  etc   Ces doublons ont   t   effac  s pour ne retenir que la relation g  n  rique Est   voisin arriver venir      e de la m  me fa  on  les couples de JDM sont   galement d  doublonn  s dans la premi  re phase de  comparaison globale   lorsqu   un couple de mots est list   plusieurs fois par le biais de plusieurs  relations s  mantiques  nous ne consid  rons qu   une instance du couple     titre d   exemple  le couple  montagne sommet appara  t    9 reprises via les relations id  e associ  e  chose lieu  synonymie   m  ronymie  etc       e les relations de JDM ont   t   sym  tris  es  elles le sont par d  faut dans le cas des deux autres  ressources   c   est    dire que la relation A B est syst  matiquem
12. SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012    Le test de substituabilit      l   preuve des corpus    utiliser l analyse distributionnelle automatique pour  l   tude des relations lexicales    Fran  ois Morlane Hond  re  amp  C  cile Fabre    CLLE ERSS  Universit   de Toulouse   francois morlane cecile fabre   univ tise2 fr    1 Introduction    Dans    Distributional structure     Harris  1954  formule l   hypoth  se distributionnelle  selon laquelle la  proximit   s  mantique de deux mots se traduit par une similarit   au niveau de leurs contextes d   apparition  respectifs  leurs distributions   Ce principe de base a   t   automatis   d  s le d  but des ann  es 1990  en  particulier par Hindle  1990   Hearst  1992   Ruge  1992  ou Grefenstette  1994   II a   t   dans un premier  temps impl  ment   dans des syst  mes orient  s vers la cr  ation de thesaurus    partir de textes sp  cialis  s   puisque c   est pr  cis  ment pour traiter des donn  es de ce type qua   t   formul  e l   hypoth  se  distributionnelle   les restrictions s  lectionnelles particuli  rement fortes qui r  gissent la distribution des  mots dans ces textes en font un mat  riau propice    la d  limitation de classes distributionnelles  On peut  ainsi citer les travaux de Grefenstette  1992  portant sur des textes issus du domaine m  dical  ou  parmi  les   
13. a construction d   ontologies    partir  de corpus  Actes de la 9e conf  rence sur le Traitement Automatique de la Langue Naturelle  75 84     Bourigault D   2007   Un analyseur syntaxique op  rationnel   SYNTEX  M  moire d habilitation    diriger des  recherches  Universit   Toulouse II     Le Mirail     Bouaud J   Habert B   Nazarenko A  et Zweigenbaum P   2000   Regroupements issus de d  pendances syntaxiques  sur un corpus de sp  cialit     cat  gorisation et confrontation    deux conceptualisations du domaine   ng  nierie des  connaissances     volutions r  centes et nouveaux d  fis  Charlet J   Zacklad M   Kassel G  et Bourigault D   eds    Eyrolles  Paris  275 290     1014 Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012    Cruse D  A   1986   Lexical Semantics  Cambridge University Press     Dias G   Moraliyski R   Cordeiro J  et Doucet A   2010   Automatic discovery of word semantic relations using  paraphrase alignment and distributional lexical semantics analysis  Natural Language Engineering  1 1  1 30     Galy E  et Bourigault D   2005   Analyse distributionnelle de corpus de langue g  n  rale et synonymie  4  Journ  es  de la linguistique de corpus  2005     Grefenstette G   1992   SEXTANT  explor
14. a productivit   moyenne de leurs deux membres   e le rapport entre les productivit  s des deux membres     Les paires que nous analysons en priorit   sont donc celles qui ont une productivit   moyenne   lev  e et  dont les deux membres ont des productivit  s comparables  rapport sup  rieur ou   gal    0 44   Parmi celles  dont les productivit  s moyennes   taient les plus   lev  es  nous avons extrait     e les 10 premi  res paires de noms et de verbes pour les synonymes et les antonymes     e les 10 premi  res paires de noms pour les hyperonymes et les m  ronymes     3 3 1 Synonymie    Le premier tableau d exemples  tableau 7  montre des paires de synonymes du DES qui ne pr  sentent pas  de proximit   distributionnelle dans le corpus     Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0  1007    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012 SHS Web of Conferences 1  2012   SHS Web of Conferences DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012                   Noms air aspect  mois traitement  pied plante  masse public    tape h  tel  course distance   distance opposition  acc  s crise  approche arriv  e  croix   preuve  battre tourner  monter relever  doter favoriser  juger mesurer  chanter ex  cuter    Verbes i 3        assister entourer    lever remonter  conseiller pousser  rapporter rattacher  aboutir acc  der       Tableau 7   Synonymes fr  quents dans le 
15. alyse  distributionnelle automatique afin de mieux comprendre sous quelles conditions le crit  re distributionnel  permet de rep  rer les relations lexicales les plus usuelles     synonymie  antonymie  hyperonymie   m  ronymie  Le test de substituabilit   est le crit  re cl   auquel les lexicologues ont recours pour identifier  la plupart des relations de nature paradigmatique entre mots  Cruse 1986   Murphy 2003   Un syst  me  d analyse distributionnelle automatique offre pr  cis  ment la possibilit   de mettre en   uvre ce test     grande   chelle  sur un large corpus  Il constitue un outil int  ressant pour la v  rification empirique de ce  principe et  de fa  on plus g  n  rale  pour l     tude de ces relations s  mantiques en corpus  Nous avons  choisi d aborder cette question en confrontant les r  sultats du programme d   AD dont nous disposons avec  des donn  es issues de ressources lexicales recensant diff  rents types de relations s  mantiques   synonymie  antonymie  hyperonymie  m  ronymie   Cette confrontation montre de forts d  calages entre  la ressource distributionnelle et ces lexiques  Si une part importante des paires reli  es dans les lexiques  sont des voisins distributionnels  beaucoup d   entre elles ne sont pas identifi  es par l   AD  m  me quand il  s agit d unit  s lexicales fr  quentes dans le corpus  Nous essayons de comprendre les raisons de ces    Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons 
16. au 12   Les dix mots ayant la mesure F la plus   lev  e     3 4 2 2 Mots dont la mesure F est nulle    La diff  rence entre le nombre moyen de voisins et de synonymes par mot implique que la plupart des  mots ont une mesure F extr  mement basse  cf  3 4 1   Ainsi  un mot comme int  resser a un nombre  tellement   lev   de voisins     1221     que sa mesure F est de 0 04 alors que l   ensemble de ses 20  synonymes a   t   capt    le rappel est de 1  la pr  cision de 0 02   Nous nous int  ressons ici aux mots dont  aucun des synonymes n   a pu   tre capt   par l   AD  leur pr  cision  rappel et mesure F est donc de 0    Comme dans la section pr  c  dente  nous n   avons pas pris en compte les mots ayant moins de 10 voisins   Le tableau 13 rapporte  pour chaque cat  gorie  quelques uns des mots parmi ceux qui ont le plus de  synonymes  sous la forme mot  nombre de voisins nombre de synonymes       1012    Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012                Noms agr  ment  33 19   c  ur  17 18   flamme  80 14   conformit    20 14   excitation  18 14    commencement  102 13   illusion  50 13   accompagnement  64 12   touche  55 12   Verbes   272087  45 26   parer  233 16   grouper  12 16   att  nuer  13 
17. corpus mais non rep  r  s par PAD     L   examen des couples de noms montre que la polys  mie des termes consid  r  s fournit une premi  re  explication    l   absence du couple parmi les voisins  Par exemple  la synonymie air aspect porte sur une  acception du mot air qui n   est que tr  s peu repr  sent  e dans la distribution de ce mot dans le corpus  au  profit des acceptions    fluide gazeux       que l   on trouve dans des contextes du type air vici    courant  d air  air refroidir  et    m  lodie     air d op  rette  danser sur l air de   Il en va de m  me pour les couples  acc  s crise et approche arriv  e  Si les deux mots partagent certains contextes  par exemple  d  mence   jalousie et fi  vre pour le couple acc  s crise   ceux ci p  sent peu dans une distribution par ailleurs plus  largement associ  e au sens spatial du mot acc  s     Les autres couples rel  vent d   un autre cas de figure  Il ne s   agit cette fois plus seulement de termes qui  pourraient  dans un corpus diff  rent  pr  senter une distribution plus semblable  Ils illustrent en effet des  cas de synonymie extr  mement particuliers  voire douteux  Consid  rons les exemples mois traitement ou  croix   preuve  La synonymie porte sur un emploi tr  s fig   d   un des mots  Mois a le sens de salaire   traitement principalement dans l   expression toucher son mois  Croix n   a le sens d     preuve que dans le  contexte porter sa croix  Le d  calage distributionnel est donc pr  visible  la non application
18. e  relations consid  r  es sont rep  r  es dans des proportions comparables  N  anmoins  on observe que la  synonymie est un peu mieux rep  r  e  Cette diff  rence est difficile    interpr  ter  car il peut s   agir d   un  effet li      une diff  rence de qualit   entre les deux bases  JDM et le DES   On remarque   galement que les  trois relations sur lesquelles nous nous sommes focalis  s pour JDM sont mieux identifi  es que la  moyenne des relations couvertes par cette base  Le second constat  c   est que la majorit   des paires  recens  es dans les deux ressources de r  f  rence ne passent pas le test de l   AD dans le corpus consid  r     C   est cet aspect que nous allons explorer dans ce qui suit  en commen  ant par d  gager quelques  caract  ristiques statistiques g  n  rales des    bons candidats       l    AD     3 2 Caract  ristiques g  n  rales des voisins distributionnels    Le tableau 6 met en   vidence certaines contraintes statistiques que le calcul distributionnel fait peser sur  les couples de mots  Dans ce tableau  on note A N B l   intersection de A et de B  et A   B la diff  rence  ensembliste de A et de B  c   est    dire les   l  ments qui appartiennent    A mais pas    B  Ces chiffres  confirment que le calcul distributionnel favorise les mots qui pr  sentent certaines propri  t  s en termes de  fr  quence et de productivit    Quelle que soit la relation consid  r  e  la somme de la fr  quence des mots  qui composent les couples de voisins est plus   
19. e 45  cooccurrents dans cette position  La premi  re ligne se lit de la mani  re suivante   r  paration est voisin de  r  parer  car 14 mots apparaissent    la fois en position de compl  ment du nom de r  paration  et en  position objet de r  parer                          Cat  gorie   Lemme   Productivit     Nb  contextes partag  s   Prox Lin  N campagne 468 131 0 332  N mission 470 130 0 322  N op  ration 493 131 0 322  N voyage 301 91 0 308  N croisade 92 51 0 275                      Tableau 1   5 voisins les plus fortement associ  s au nom exp  dition en position de d  pendant     Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0  1003    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012 SHS Web of Conferences 1  2012   SHS Web of Conferences DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012             Cat  gorie Lemme Relation   Productivit     Nb  contextes partag  s   Prox Lin  N r  paration de 23 14 0 394  V endommager OBJ 48 15 0 257  N r  fection de 11 7 0 216  V apercevoir OBJ 39 11 0 21  V d  molir OBJ 25 9 0 209                      Tableau 2   5 voisins les plus fortement associ  s au verbe r  parer    travers la relation objet     Ces exemples montrent la diversit   des relations accessibles par le calcul distributionnel  Celui ci d  tecte     la fois des relations lexicales de type synonymie et antonymie  des relations de d  rivation  et des  relation
20. e Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     Congr  s Mondial de Linguistique Fran  aise     CMLF 2012    SHS Web of Conferences 1  2012   SHS Web of Conferences    DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    3 4 2 Analyse des propri  t  s des mots en fonction de leur mesure F    Nous analysons deux types de mots dans ce qui suit   ceux dont les voisins recouvrent les synonymes  dans des proportions importantes et ceux pour lesquels ce n   est pas le cas  Nous cherchons    comprendre  ce qui conditionne cette diff  rence de comportement vis    vis de PAD     Nous nous appuyons sur la mesure F pour diff  rencier ces deux ensembles  Afin d     viter de prendre en  compte les couples qui ne sont pas d  tect  s par l   AD    cause de leur diff  rence de productivit    cf  3 2    nous avons choisi d     carter tous ceux dont le rapport de productivit     tait inf  rieur    la moyenne  0 33    La base obtenue compte 6727 mots   4102 noms  1401 verbes et 1224 adjectifs     3 4 2 1 Mots dont la mesure F est   lev  e    Le tri des mots par mesure F d  croissante fait   merger des mots qui  pour la plupart  ont tr  s peu de  voisins et tr  s peu de synonymes   le nombre de voisins moyen des 34 mots qui ont une mesure F  sup  rieure ou   gale    0 5 est de 2 6 et leur nombre moyen de synonymes est de 2 1  Certains mots se  distinguent par un nombre un peu plus   lev   de voisins  Le tableau 12 rapporte les 10 m
21. e le tout soit consid  r   sous  son angle anatomique  ce qui n   est que tr  s marginalement le cas dans le corpus   ainsi  le mot chat  appara  t principalement dans des contextes adjectivaux  domestique  errant  sauvage     parmi lesquels  seuls quelques adjectifs de couleur seraient attribuables    ses parties du corps  Dans le cas de la  m  ronymie  il semble donc plus int  ressant de se demander sous quelles conditions le principe de  substituabilit   s   applique     et  par exemple  quels types de m  ronymie sont les plus susceptibles d   y  r  pondre  L   examen rapide des couples de m  ronymes qui sont   galement des voisins semble par  exemple montrer une pr  dominance de la relation membre collection  bateaul flotte  musicien orchestre   bien que la relation composant objet puisse   galement figurer  farine c  r  ale  eau corps   Nous avons  consacr   une   tude plus syst  matique de ce ph  nom  ne     para  tre  qui confirme notamment que les  couples de m  ronymes de type membre collection sont particuli  rement bien rep  r  s par l   AD  Cela est  d   au fait que leurs deux membres peuvent appara  tre dans des contextes similaires  naviguer SUJ   couler _OBJ ou encore   quipage de pour le couple bateau flotte      L observation d   un petit   chantillon de couples pour les quatre relations   tudi  es permet de d  gager  diff  rentes explications possibles aux limites du test de substituabilit    La polys  mie en est une  Les  couples qui ne r  pondent pas au te
22. ent compl  t  e par la relation B A  Dans  le cas des relations non sym  triques que sont l   hyperonymie et la m  ronymie  l   orientation de la  relation n   est donc pas consid  r  e     1004 Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012    e les couples de mots impliquant au moins une unit   polylexicale ont   t   retir  s des trois bases  Cette  d  cision a   t   prise pour simplifier la proc  dure de comparaison  En particulier  Syntex lemmatise  syst  matiquement chacun des   l  ments des unit  s polylexicales  affaires   trang  res devient affaire    tranger   ce qui complique la comparaison avec les termes complexes contenus dans les deux autres  ressources     Le tableau 3 montre que ces modifications entra  nent  comme on pouvait s   y attendre  une r  duction  substantielle du nombre de couples de voisins    37 8     Le nombre de synonymes varie assez peu  peu  d unit  s polylexicales dans cette ressource   En revanche  l   augmentation du nombre de couples de la  base JDM est patente     40 6   pour la base dans son ensemble    91   pour les antonymes    4 4   pour les hyperonymes et   59 2   pour les m  ronymes  C   est la cons  quence de la sym  trisation des  relations  La faiblesse du pource
23. es cas de synonymie tr  s restrictifs  o   le principe de  substituabilit   s   applique de fa  on marginale  soit parce qu   on a affaire    un sens rare  soit parce que  l   emploi est associ      des contextes tr  s sp  cifiques  voire    du figement     3 3 2 Antonymie    Le premier constat que l   on peut faire au vu des paires d   antonymes du tableau 8 est que ce ne sont pas   pour la plupart  des paires d   antonymes canoniques  au sens de Murphy  2003   c   est    dire unies par une  relation d   opposition binaire conventionnelle  ex   bonheur malheur  vicelvertu   Seule la paire verbale  pleurerl rire rel  ve incontestablement de cette cat  gorie  On voit ainsi que l   antonyme le plus appropri   de  destruction n   est pas g  n  ration  mais cr  ation   et celui d     chec n   est pas r  solution  mais r  ussite   victoire ou succ  s   Les couples mieux assortis que sont cr  ation destruction    chec victoire     chec r  ussite    chec succ  s  bonheur malheur apparaissent par contre tous dans la base de voisins   Certains couples semblent d   ailleurs contestables  C   est particuli  rement le cas de huile vague  r  sultant  peut   tre d   une g  n  ralisation abusive de l   opposition entre mer d huile et vagues     On peut   galement  s     tonner de trouver dormir r  veiller parmi les antonymes  la forme pronominale se r  veiller serait plus  ad  quate    de m  me pour interromprelprogresser     1008 Article en acc  s libre plac   sous licence Creative Commons
24. fs voire fig  s  ne se traduisent par aucune proximit    distributionnelle  L   utilisation de l   AD en appoint de la construction de ressources lexicales g  n  riques  peut ainsi permettre d   introduire des informations relatives au caract  re central ou marginal de la relation  dans diff  rents corpus  Cette   tude sugg  re d   autres pistes d   analyse  relatives    la diff  rence de  comportement des relations lexicales vis    vis du test de substituabilit    comme on a pu le voir dans le cas  de l   antonymie  certains antonymes semblent avoir une distribution nettement disjointe  ou de la  m  ronymie  seuls certains types de m  ronymie semblent se pr  ter au test de substitution   L   analyse  distributionnelle automatique fournit donc un observatoire int  ressant pour   tudier de fa  on empirique la  manifestation des relations s  mantiques en discours     R  f  rences bibliographiques    Agirre E   Alfonseca E   Hall K   Kravalova J  et Soroa A   2009   A study on similarity and relatedness using  distributional and WordNet based approaches  Proceedings of NAACL HLT     Baroni M  et Lenci A   2010   Distributional Memory  A general framework for corpus based semantics   Computational Linguistics  36 4  1 49    Baroni M  et Lenci A   2011   How we BLESSed distributional semantic evaluation  Proceedings of the GEMS 2011  Workshop on GEometrical Models of Natural Language Semantics     Bourigault D   2002   UPERY   un outil d   analyse distributionnelle   tendue pour l
25. ing unexplored contexts for semantic extraction from syntactic analysis   Proceedings of the 30th Annual Meeting of the Association for Computational Linguistics  Association for  Computational Linguistics  324 326     Grefenstette G   1994   Corpus derived first   second  and third order word affinities  Proceedings of Euralex   Amsterdam  279 290     Harris Z   1954   Distributional structure  Word  10 23  146 162     Hearst M   1992   Automatic acquisition of hyponyms from large text corpora  Proceedings of the 14th International  Conference on Computational Linguistics  Association for Computational Linguistics  539 545     Hindle D   1990   Noun classification from predicate argument structure  Proceedings of the 28th annual meeting on  Association for Computational Linguistics  Association for Computational Linguistics  268 275     Kilgarriff A  et Yallop C   2000   What s in a thesaurus   Proceedings of the Second Conference on Language  Resources and Evaluation  1371 1379     Lafourcade M   2007   Making people play for lexical acquisition  Proceedings of the 7    Symposium on Natural  Language Processing     Lin D   1998   An information theoretic definition of similarity  Proceedings of the 15    International Conference on  Machine Learning  296 304     Manguin J  L   Fran  ois J   Eufe R   Fesenmeier L   Ouzouf C  et S  n  chal M   2004   Le dictionnaire   lectronique  des synonymes du CRISCO   un mode d   emploi    trois niveaux  Cahiers du CRISCO 17  Universit  
26. isins   Il semblerait que non   le tableau 11 montre qu      nombre de  voisins   quivalent  la cat  gorie des adjectifs reste celle qui a la meilleure pr  cision  Ce ph  nom  ne est  d   autant plus remarquable que  comme le montre le tableau 10  les adjectifs sont les mots pour lesquels le  DES compte le moins de synonymes  La diff  rence de pr  cision entre les noms  verbes et adjectifs tend  toutefois    s   estomper avec l   augmentation du nombre de voisins                             Noms   Verbes   Adjectifs  Nombre   del  s 0 11 0 13 0 2  de de6  10   0 07 0 09 0 11  voisins   de 11   15   0 06 0 06 0 08             Tableau 11  comparaison de la pr  cision des noms  verbes et adjectifs    nombre de voisins    quivalents     Pour les trois versions de la base  la mesure F reste tr  s basse mais l   on peut observer une l  g  re  augmentation   la hausse de la pr  cision a plus d   influence que la baisse du rappel  Toutefois  alors que la  mesure F de la base seuill  e    0 3 est deux fois plus   lev  e que pour celle    0 1  le nombre moyen de  voisins synonymes par mot est divis   par cinq  Cela signifie que le seuillage de la base implique un  compromis entre rappel et pr  cision avec d   un c  t    une ressource tr  s bruit  e couvrant une grande  proportion des synonymes  et de l   autre  une ressource qui contient une plus grande proportion de  synonymes mais dont la couverture est consid  rablement r  duite     1011    Article en acc  s libre plac   sous licenc
27. lev  e que celle des non voisins  Il en va de m  me pour le  crit  re de productivit    qui est d   ailleurs g  n  ralement corr  l      la fr  quence  Les couples qui ont   t    rep  r  s par l   analyse distributionnelle ont donc une productivit   moyenne plus   lev  e que ceux qui ne  l   ont pas   t       De plus  les mots qui composent les couples de voisins ont des fr  quences et des productivit  s plus    quilibr  es   le rapport entre la fr  quence  respectivement la productivit    des deux mots varie entre 0 42  et 0 45 pour les voisins  respectivement 0 43    0 46  alors qu   il oscille entre 0 2 et 0 31 pour les non   voisins  respectivement 0 18    0 28   Ce point est important   on en conclut que des paires de synonymes  dont l   un a un sens plus sp  cifique que l   autre  ex   transformer et d  guiser  seront moins facilement    1006    Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012    rep  r  es si cela se traduit par de fortes diff  rences de fr  quence dans le corpus  Bien que la mesure de Lin  soit con  ue pour limiter l   impact de ce d  s  quilibre  il reste important et doit   tre pris en consid  ration                    Fr  quence   Rapport fr  quence   Productivit     Rapport producti
28. lle    structur       Baroni et Lenci 2010    le  contexte de chaque mot est compos   de l ensemble des mots qui entretiennent avec lui une fonction  syntaxique dans la phrase  Cette caract  ristique fournit des   l  ments plus pr  cis pour l   interpr  tation des  r  sultats que la mise en   uvre de simples cooccurrences     La proc  dure d   analyse a   t   expos  e dans  Bourigault 2002   Nous en d  crivons ici les principaux  aspects  L   analyseur Syntex mod  lise les d  pendances entre les mots d   une phrase sous la forme de  triplets de lemmes  lt gouverneur  relation  d  pendant  Seuls les triplets constitu  s de noms  ou de  syntagmes nominaux   de verbes et d   adjectifs sont pris en compte pour le calcul des voisins  Les  relations syntaxiques consid  r  es sont les relations sujet  objet  la modification adjectivale  ainsi que les  relations pr  positionnelles  celles ci   tant d  crites par le biais de la pr  position impliqu  e  On obtient  ainsi les triplets suivants apr  s analyse de la phrase Le navajo utilise un syst  me de num  rotation  d  cimal       lt utiliser  SUJ  navajo gt     lt utiliser  OBJ  syst  me de num  rotation gt    lt utiliser  OBJ  syst  me gt     lt d  cimal  MOD  syst  me de num  rotation gt    lt d  cimal  MOD  syst  me gt     lt syst  me  de  num  rotation gt     1002 Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012  Congr  s Mo
29. mot donn   est le rapport entre le nombre de ses voisins qui apparaissent parmi ses   synonymes et le nombre de ceux qui n   y apparaissent pas     e le rappel est le rapport entre le nombre de ses synonymes rep  r  s par les voisins et le nombre total de  ses synonymes dans le DES     Le calcul de la mesure F nous permet de prendre en compte ces deux aspects de la distribution des mots    pour qu   un mot ait une mesure F   lev  e  il faut que ses voisins couvrent la plus grande proportion de  couples recens  s pour ce mot dans le dictionnaire des synonymes tout en produisant un minimum de  bruit  c   est    dire de paires de voisins n   y apparaissant pas  Nous nous appuyons sur ces mesures pour    1010 Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0     SHS Web of Conferences 1  2012   DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  SHS Web of Conferences    faire   merger les mots dont les voisins ne recoupent que tr  s peu  voire pas du tout  les donn  es du DES  dans le but de mettre au jour leurs caract  ristiques     3 4 1    Nous consid  rons trois versions de la base des voisins dans le tableau 10  en faisant varier la valeur de la  mesure de Lin  de mani  re    observer le comportement des voisins selon le degr   de proximit    distributionnelle consid  r    Nous distinguons cette fois les voisins sel
30. ndial de Linguistique Fran  aise     CMLF 2012  DOI 10 1051 shsconf 20120100293 SHS Web of Conferences     aux auteurs  publi   par EDP Sciences  2012    L   analyse distributionnelle effectu  e ensuite classe les mots selon un double rapprochement      e les d  pendants sont rapproch  s sur la base des contextes gouverneur relation qu   ils partagent  Ainsi   syst  me est rapproch   de mod  le parce qu   ils sont objets des m  mes verbes  calquer  mettre au point   imaginer   On parle alors de rapprochement entre arguments     e les gouverneurs  munis de la relation  sont rapproch  s sur la base des d  pendants qu   ils r  gissent   Ainsi  utiliser OBJ est rapproch   de poss  der OBJ parce que les d  pendants en position objet de l   un  et de l   autre se recouvrent largement  ils partagent 780 lemmes diff  rents   particularit    ordinateur   t  te      On parle alors de rapprochement entre pr  dicats     Ces rapprochements sont calcul  s    l   aide d   une mesure de similarit   entre les vecteurs de contextes  associ  s aux mots  la mesure de Lin  1998   Le score de similarit   de deux pr  dicats arguments varie     de  0    1     en fonction de plusieurs facteurs   le nombre de contextes partag  s  le nombre de triplets diff  rents  dans lesquels chacun de deux mots appara  t  indice de productivit     le degr   de sp  cificit   du contexte  qui permet d   effectuer le rapprochement  Ce dernier indice est calcul   en utilisant la mesure  d   information mutuelle   ainsi
31. ntage d   augmentation des hyperonymes s   explique par le fait que  l   effacement des unit  s complexes r  duit quasiment de moiti   le nombre de couples alors que cette  op  ration n   affecte que peu les autres relations  beaucoup de couples d   hyperonymes sont compos  s d   un  syntagme nominal et de sa t  te   bouillon bouillon de poulet  bi  re bi  re sans alcool                  Avant homog  n  isation Apr  s homog  n  isation  VDW 3 922 657 2 556 810  DES 339 182 358 001       Ensemble   Anto    Hypo    M  ro    Ensemble   Anto    Hypo    M  ro   JDM   753426   9946   45515   18646   1059003   18993   45 705   29 693                                     Tableau 3   Volumes des Voisins de Wikip  dia  VDW   du Dictionnaire   lectronique des  Synonymes  DES  et de JeuxDeMots  JDM  en nombre de couples  avant et apr  s homog  n  isation     Dans la section suivante  nous confrontons ces trois ressources  dans le but de comprendre ce qui  conditionne le rep  rage des relations lexicales par les m  thodes d   analyse distributionnelle automatique     3 Analyser le diff  rentiel entre voisinage distributionnel et relations  lexicales    La comparaison des donn  es est r  alis  e    partir du lexique commun aux ressources consid  r  es deux     deux  VDW DES et VDW JDM    nous consid  rons le sous ensemble des couples du DES et de JDM  dont les deux mots figurent dans le vocabulaire couvert par les voisins  Les tableaux 4 et 5 montrent que  le vocabulaire des voisins se retr
32. on leur cat  gorie grammaticale     Propri  t  s g  n  rales des voisins en terme de pr  cision rappel                            Seuil Nombre 1  Nombre Nombre Nombre er   Lin  de Cat  gorie de de de voisins   Pr  cision   Rappel   Mesure F  couples voisins   synonymes   synonymes  Ensemble 278 12 5 0 05 0 35 0 05  Noms 306 12 5 0 04 0 36 0 05  is RER Verbes 366 18 8 0 05 0 37 0 05  Adjectifs 86 9 3 0 09 0 32 0 08  Ensemble 42 12 2 0 10 0 18 0 08  Noms 39 11 2 0 09 0 17 0 08  0 2   300477   Verbes 78 18 4 0 08 0 18 0 07  Adjectifs 14 7 1 0 17 0 18 0 11  Ensemble 9 10 1 0 18 0 11 0 10  Noms 7 9 1 0 17 0 10 0 10  0 3   45747   Verbes 18 16 2 0 14 0 10 0 08  Adjectifs 4 5 1 0 27 0 16 0 16                                  Tableau 10   Comparaison des propri  t  s de trois versions des VDW     L     cart important que l   on peut observer entre la pr  cision et le rappel pour la base seuill  e    0 1 est d   au  fait que le nombre de voisins extraits pour un mot est toujours largement sup  rieur au nombre de ses  synonymes dans le DES  Cela a pour cons  quence de favoriser le rappel au d  triment de la pr  cision  Le  nombre de voisins par mot chutant consid  rablement avec l   augmentation du seuil  ce ph  nom  ne est un  peu moins marqu   dans la version seuill  e    0 2 et s   inverse dans la version    0 3  On remarque que ce  sont les adjectifs qui ont la pr  cision la plus   lev  e  Cela est il simplement d   au fait que les adjectifs sont  la cat  gorie qui a le moins de vo
33. org licenses by 2 0  1001    Article available atlhttp   www shs conferences orel or lhttp   dx doi org 10 1051 shsconf 2012010029    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012 SHS Web of Conferences 1  2012   SHS Web of Conferences DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    d  calages en nous appuyant sur les informations que nous fournit l   analyse automatique  Cette   tude est  men  e sur des donn  es en fran  ais     Dans un premier temps  nous d  crivons la m  thode qui a   t   mise en   uvre pour obtenir la base  distributionnelle sur laquelle nous appuyons nos analyses  2 1   que nous comparons ensuite    deux  ressources externes     savoir le Dictionnaire   lectronique des Synonymes et le r  seau JeuxDeMots  2 2    Apr  s avoir mesur   l   intersection de ces deux ressources et de notre base de voisins  3 1   nous  comparons  en termes de propri  t  s g  n  rales  les couples de voisins qui apparaissent dans les ressources  et ceux qui n   y apparaissent pas  3 2   Ces deux d  marches rel  vent d   une approche quantitative  par  opposition aux approches qualitatives que nous adoptons dans les sections qui suivent  Nous y analysons  d   abord les raisons pour lesquelles des paires li  es par des relations s  mantiques identifi  es dans les  lexiques ne figurent pas parmi les voisins     travers l   observation de couples de synonymes  d   antonymes   d   hyperonymes et de m  ronymes  3 3   Nous utilisons enfin  
34. ots ayant la  mesure F la plus   lev  e une fois les mots ayant moins de 10 voisins et moins de 10 synonymes   cart  s   On constate que 9 de ces 10 mots sont des adjectifs  Cette proportion confirme la tendance     observ  e    la  section 3 4 1     qu   ont les adjectifs    avoir une pr  cision   lev  e  mais elle reste remarquable   tant donn    que les adjectifs ne constituent que 18   des mots de notre liste  Il reste toutefois difficile de dire si ces  r  sultats sont r  v  lateurs d   un fonctionnement sp  cifique des adjectifs dans notre corpus  d   autant que les  adjectifs qui   mergent ont la particularit   d   exprimer une appr  ciation du scripteur  alors que la  subjectivit   est     th  oriquement     bannie de Wikip  dia  ou s   ils refl  tent une propri  t   g  n  rale de la  relation modifieur  qui g  n  rerait moins de bruit dans les voisins qu   elle permet de rapprocher que les  autres relations exploit  es lors de l   AD                                Nombre de  Mot Cat  gorie Le A de   Nomprede voisins Pr  cision   Rappel   Mesure F  voisins synonymes   synonymes    tonnant A 55 29 17 0 31 0 59 0 40  colossal A 16 14 6 0 38 0 43 0 40  prodigieux A 17 20 7 0 41 0 35 0 38  fabuleux A 23 28 9 0 39 0 32 0 35  formidable A 21 17 6 0 29 0 35 0 32  honorable A 16 10 4 0 25 0 40 0 31  terrible A 57 22 12 0 21 0 55 0 30  merveilleux A 64 22 13 0 20 0 59 0 30  z  le N 17 10 0 24 0 40 0 30  incroyable A 38 17 8 0 21 0 47 0 29                                  Table
35. ours     Le cas de la m  ronymie est particulier  Le lien entre cette relation et le principe de substituabilit   ne va  pas de soi  si l   on consid  re la diversit   des sous types de relation qui sont couverts par la m  ronymie   Winston et al  1987   On peut par exemple s   attendre    ce que les contextes partag  s par un nom    Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0  1009    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012 SHS Web of Conferences 1  2012   SHS Web of Conferences DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    d  signant un artefact et un nom d  signant son composant soient tr  s limit  s  N  anmoins  on a vu qu   un  tiers des m  ronymes de JDM   taient identifi  s par l   AD  proportion    peine moins importante que celle  des relations pr  c  dentes  ce qui nous am  ne    la consid  rer au m  me titre  La liste de m  ronymes que  nous pr  sentons dans le tableau 9 illustre deux types de m  ronymie   composant objet dans un cas   plastiqueltuyau   constituant objet dans tous les autres  pince  crabe  arriv  elcircuit  etc    Le d  calage  distributionnel entre les deux membres du couple semble cette fois   vident  Si l   on prend par exemple le  cas des parties du corps  repr  sent  es dans quatre couples  pincelcrabe  pattelaigle  queuelchat   t  te prince   il est clair que le rapprochement n   est possible qu      condition qu
36. ouve presque int  gralement dans les deux ressources puisque 91   et  96   des couples des VDW sont constitu  s de deux mots apparaissant respectivement dans le DES et  JDM  En revanche  l   inverse est loin d     tre vrai puisque seulement 28   des couples du DES et 27  de  ceux de JDM sont constitu  s de deux mots apparaissant parmi les voisins  Le biais introduit par le corpus  est donc important en ce qui concerne l   ampleur du vocabulaire pris en compte  Ces chiffres ne signifient  cependant pas que 80  des mots n   apparaissent pas du tout dans le corpus   ils peuvent avoir des  occurrences  mais trop peu nombreuses pour   tre prises en compte par l   analyse distributionnelle     3 1 Comparaison globale    Le nombre de couples communs VDW DES et VDW JDM peut s   analyser en terme de pr  cision et de  rappel  La pr  cision d  signe la proportion de couples de voisins qui correspondent    un couple recens    dans le DES ou JDM  Dans les deux cas  elle est extr  mement basse puisqu      peine 2   des couples de  voisins sont des synonymes  tableau 4  et environ 3   apparaissent dans JDM  tableau 5   Cela confirme  une premi  re   tude men  e par Galy et Bourigault  2005   La proportion des couples d   antonymes   d   hyponymes et de m  ronymes parmi les voisins  d  taill  e dans ce deuxi  me tableau  est   galement tr  s  faible puisqu elle se situe dans les trois cas autour de 1       Article en acc  s libre plac   sous licence Creative Commons Attribution 2 0  http   c
37. peu rep  r  s   ainsi  le nom commencement poss  de de nombreux synonymes  m  taphoriques relevant des champs s  mantiques de la croissance humaine  adolescence  berceau   embryon  enfance  naissance  ou v  g  tale    closion  fleur  germe  racine   Le cas de flamme est    galement embl  matique    ce titre puisque beaucoup de ses synonymes renvoient    des sentiments  d  sir   passion    lan  enthousiasme     alors que ce n   est pas le cas de ses voisins     Une deuxi  me raison pouvant expliquer l   absence de certains synonymes d   un mot parmi ses voisins est  le fait que m  me s   ils partagent un noyau de sens identique  ils ne se manifestent pas dans des contextes  similaires  Ainsi  le verbe att  nuer partage le m  me noyau de sens que ses synonymes abaisser  affaiblir   all  ger et apaiser  mais ces derniers n   apparaissent pas parmi ses voisins  La raison en est que ces quatre  verbes s  lectionnent des types d   objets diff  rents de ceux du verbe att  nuer  lequel s   emploie  principalement avec des noms renvoyant    des ph  nom  nes physiques comme vibration  bruit  fr  quence   son      abaisser porte sur des noms de mesure  prix  taux seuil  niveau      affaiblir sur des noms  d  signant des humains  adversaire  roi   des ensembles d   humains  arm  e  population  ou des  organisations  r  gime  parti   all  ger sur des noms exprimant une notion de poids  masse  charge  ou  au  sens figur    souffrance   apaiser sur des ph  nom  nes  querelle  crise  ou des 
38. reativecommons org licenses by 2 0  1005    SHS Web of Conferences 1  2012   DOI 10 1051 shsconf 20120100293     aux auteurs  publi   par EDP Sciences  2012    Congr  s Mondial de Linguistique Fran  aise     CMLF 2012  SHS Web of Conferences                VDW DES  Couples du lexique commun   2330 212   101 597  Couples partag  s 42 254  Pr  cision 0 02  Rappel 0 42             Tableau 4   Comparaison entre les voisins de Wikip  dia et le DES     Le rappel d  signe la proportion des couples figurant dans les deux ressources de r  f  rence que l   on  retrouve dans les voisins  Comme on le voit dans le tableau 5  le DES et JDM sont respectivement  couverts    42   et 29   par les voisins  La couverture pour les sous ensembles JDM anto  JDMxvpo et  JDMwmtro Varie entre 34   et 37                                     VDW JDM VDW JDM ANTO VDW JDMxvyro VDW JDMm  ro  Couples du   lexique   2466 547   288 199   231216   4838  700199   17020  409682   15912  commun   Couples 82 533 1770 6314 5380  partages  Pr  cision 0 03 0 01 0 01 0 01   Rappel 0 29 0 37 0 37 0 34                      Tableau 5   Comparaison entre les voisins de Wikip  dia et 4 versions du r  seau JDM     Ces chiffres confirment que l   AD d  tecte bien autre chose que les relations lexicales habituellement  recens  es dans les dictionnaires  Comme nous l   avons d  j   indiqu    ce n   est pas ce chiffre qui nous  int  resse ici  mais le chiffre du rappel  Le premier constat que nous pouvons faire est que les quatr
39. s libre plac   sous licence Creative Commons Attribution 2 0  http   creativecommons org licenses by 2 0  1015    
40. s plus l  ches  tight et loose relations selon Kilgarriff et Yallop 2000   Ainsi apercevoir est  rapproch   de r  parer selon une relation tr  s t  nue   les deux verbes ont pour seul point commun de  pouvoir s   appliquer    certains grands art  facts  clocher  vaisseau  navire  etc    La diversit   des relations  de similarit   qui est d  tect  e par l   AD n   est cependant pas l   objet de cet article  Nous nous focalisons ici  sur la part de relations lexicales que rep  re l   AD  Ce point de vue est certes r  ducteur car cette   valuation  externe de la ressource ne permet pas d   appr  cier la qualit   globale des relations s  mantiques identifi  es   En confrontant la ressource distributionnelle avec des lexiques existants  notre objectif est de mieux  comprendre ce qui conditionne le rep  rage par AD des relations lexicales identifi  es dans ces  ressources     2 2 Le Dictionnaire   lectronique des Synonymes et JeuxDeMots    Le Dictionnaire   lectronique des Synonymes du CRISCO   Manguin et al  2004   ou DES  est issu de la  compilation des synonymes pr  sents dans sept dictionnaires  dictionnaires analogiques et dictionnaires de  synonymes   Il contient pr  s de 400 000 couples de synonymes     JeuxDeMots  JDM  est une ressource issue du crowdsourcing   elle est construite de fa  on collaborative  par des locuteurs  experts et non experts confondus  participant    un jeu en ligne  consistant    proposer  une s  rie de mots pour un mot cible et une relation donn  s  
41. sition objet des noms  d  signant des r  gimes politiques comme monarchie  r  publique  empire  dictature ou les individus qui les  repr  sentent  roi  prince  pr  sident  empereur  dictateur         On constate enfin que certains de ces couples d   antonymes  par exemple r  solution conflit  ou  bonheur douleur  ont pr  cis  ment la particularit   de s   associer    des contextes de nature tr  s diff  rente   Ainsi  si les mots r  solution et conflit renvoient tous deux    des   v  nements  la r  solution porte sur des  situations conflictuelles  conflit  diff  rend  crise  paradoxe      ce qui n   est pas le cas de l     chec  attaque   exp  dition  projet  r  volte      Les mots bonheur et douleur d  signent certes des sentiments que l   on    prouve  mais chacun se sp  cialise dans une gamme de contextes bien distincte  En d   autres termes  dans  le cas de ces antonymes  le principe d   opposition se traduit par une divergence sur le plan distributionnel     3 3 3 Hyperonymie et m  ronymie    Le dernier tableau concerne seulement des couples de noms  et pr  sente conjointement des cas de  m  ronymie et d   hyperonymie        lieu championnat  direction sud  oiseau pape  orchestre rock  endroit tribunal   Hyperonymes   i     Ae OT  fleur pens  e  po  te racine  organe yeux  juge m  tier  m  tier r  alisateur  Muse arriv  e circuit  bijou coffre  p  dale roulement  crabe pince  prince t  te  orgue registre   y foyer incendie  aigle patte  plastique tuyau  chat queue       
42. st de substituabilit   illustrent alors des cas de relation partielle   le sens  repr  sent   dans la relation n   est que marginalement repr  sent   dans le corpus  Si le corpus est  suffisamment vaste et diversifi    ces d  calages peuvent alors   tre r  v  lateurs de paires synonymiques  correspondant    des acceptions marginales  Nous avons vu par ailleurs que ce test permettait de rep  rer  d   autres sources de d  calage entre la ressource de r  f  rence et les propri  t  s distributionnelles des mots  dans le corpus   emplois fig  s dans le cas de la synonymie  antonymes non canoniques voire douteux   hyponymes dont la cat  gorisation s  mantique s     mancipe en discours de celle de leur terme g  n  rique   Cette premi  re approche  de nature exploratoire  sugg  re donc des pistes pour   tudier de fa  on plus  syst  matique ces causes de d  calage     3 4   tude des diff  rences de couverture entre mots    La deuxi  me m  thode d   observation des donn  es que nous avons choisie est ici mise en   uvre sur la  relation de synonymie uniquement  Elle consiste    partir cette fois des mots qui apparaissent dans les  voisins et    leur appliquer les mesures de pr  cision  de rappel  cf  3 1   ainsi que la mesure F qui les  combine     Manning et Sch  tze  1999   L utilisation de ces crit  res nous permet d   observer sous deux  angles diff  rents les propri  t  s distributionnelles des mots du corpus  Ainsi  pour le sous ensemble des  synonymes     e la pr  cision pour un 
43. tudes r  alis  es    partir de textes en fran  ais sur le m  me domaine  les travaux de Nazarenko et al    1997  et Bouaud ef al   2000      L   accroissement de la quantit   de textes accessibles au format   lectronique a permis par la suite au  mod  le distributionnel de gagner en popularit   en entrainant l   extension de son domaine d   application  aux textes non sp  cialis  s comme les textes journalistiques  Dias et al  2010  ou le Web  Turney 2008    Agirre et al  2009   Le fait d   appliquer l   analyse distributionnelle  AD     des textes ne relevant pas de  domaines de sp  cialit   produit toutefois des r  sultats moins faciles    caract  riser  On rencontre une r  elle  difficult        valuer les sorties de ces programmes  qui produisent  appliqu  s    de vastes corpus  des  r  sultats pl  thoriques  La pr  dominance de relations floues  non recens  es dans les ressources lexicales  traditionnellement utilis  es en TAL rend de telles donn  es difficiles      valuer selon des proc  dures  classiques   leur apport dans des applications comme la recherche d   information n   a pas   t   d  montr     Van der Plas 2008   Sahlgren 2006   Plusieurs travaux ont montr   n  anmoins que ces techniques  pouvaient permettre de rep  rer des relations s  mantiques de diff  rents types     synonymie  g  n  ricit     analogie  etc   Turney 2008   Baroni et Lenci 2011      Notre objectif  dans le cadre de cet article  est d     tudier les r  sultats produits par un syst  me d   an
44. vit     NVDW  19373   0 44 575 i 0 43   DES   VDW   10167   0 29 284 o  0 25  NVDW   13285   0 45 391 o  0 45   JDMaxro   i   VDW 8715   0 31 238   0 28  NVDW   28060   0 42 747   0 43   JDMxyro i i   VDW   19897   0 2 516        0 18  NVDW   30625   0 45 797 o  0 46   JDMw  ro       VDW   15350   0 28 416 i 0 25                   Tableau 6   Comparaison de la fr  quence et de la productivit   entre les couples de voisins et de non   voisins     Les tendances observ  es dans le tableau 6 nous am  nent    nous focaliser dans la suite de l     tude sur les  couples de mots dont l   absence parmi les voisins n   est pas imputable    des effets li  s    la fr  quence ou     la productivit   de leurs membres  Nous cherchons    voir pourquoi des couples de mots qui pr  sentent des  propri  t  s optimales pour le calcul distributionnel ne sont pourtant pas identifi  s     3 3   tude de couples non rep  r  s par l   analyse distributionnelle    Nous avons constitu   un   chantillon de couples issus du DES et de JDM et dont les propri  t  s sont  compatibles avec l   AD  pour en faire un examen qualitatif  En d   autres termes  nous avons cherch       isoler des couples qui seraient th  oriquement de bons candidats pour l   AD  et qui pourtant ne sont pas  identifi  s par cette m  thode  Ces couples sont s  lectionn  s selon deux crit  res  N B  nous avons opt   pour  l   examen de la productivit   plut  t que la fr  quence  les deux crit  res   tant globalement   quivalents       e l
    
Download Pdf Manuals
 
 
    
Related Search
    
Related Contents
Media-Tech MT1240KUS  Samsung DVD-V5600 Uporabniški priročnik  Manuel d`utilisation Optoma EP738  取扱説明書 - デンソー  年末年始は、公共施設の業務日程が平常と異なりますのでご  BCCPAC  Infinity 54a User's Manual    Copyright © All rights reserved. 
   Failed to retrieve file