Home
la sous-catégorisation verbale en français
Contents
1. Acquisition de connaissances lexicales partir de corpus la sous cat gorisation verbale en fran ais C dric Messiant Kata G bor Thierry Poibeau Laboratoire d Informatique de Paris Nord UMR 7030 CNRS et Universit Paris 13 99 avenue Jean Baptiste Cl ment F 93430 Villetaneuse France cedric messiant lipn univ parisi13 fr Department of Language Technology Research Institute for Linguistics Hungarian Academy of Sciences Budapest Hongrie gkata nytud hu Laboratoire LaTTiCe UMR 8094 CNRS et cole Normale Sup rieure 1 rue Maurice Arnoux F 92120 Montrouge France thierry potbeau ens fr RESUME Nous d crivons dans cet article une m thode permettant l acquisition d un lexique syn taxique des verbes du fran ais partir de l analyse automatique de gros corpus Nous valuons cette m thode par rapport des ressources existantes et nous montrons que notre syst me pro duit automatiquement de nouvelles donn es qui peuvent compl ter les lexiques existants Nous montrons enfin comment la syntaxe peut aider a faire merger des classes lexico s mantiques dans la lign e des travaux de Levin 1993 ABSTRACT We present in this paper a method to automatically acquire a syntactic lexicon of subcategorization frames for French verbs directly from large corpora The method is evaluated against existing lexical resources we show that our system is capable of producing new frames that w
2. autres lexiques du fran ais avant d examiner plus en d tail la nature des informations qu il contient et l importance du type de corpus utilis lors de l acquisition Nous proposons enfin une typologie des erreurs du syst me 5 1 valuation quantitative comparaison avec d autres ressources La mani re la plus classique d valuer une ressource acquise automatiquement est de la comparer d autres ressources Il s agit de l approche g n ralement adopt e Preiss et al 2007 La sous cat gorisation verbale en fran ais 81 5 1 1 Ressources utilis es et format commun des fins de comparaison et d valuation C Gardent a unifi un certain nombre de ressources dans un format pivot dans le cadre du projet TALC traitement automa tique des langues et des connaissances Le processus n est videmment pas sans poser probl me les ressources concern es ne sont pas fond es sur la m me th orie elles n ont pas le m me objectif et les informations n y sont pas toujours cod es de fa on explicite De plus l alignement des donn es entra ne forc ment un appauvris sement des ressources Ce mode d valuation reste malgr tout int ressant notre avis au moins des fins de comparaison Nous sommes donc partis de deux lexiques de sous cat gorisation pour le fran ais TreeLex et DicoValence choisis pour leurs sp cificit s En effet comme nous l avons vu dans la section 2 ces d
3. May 2 May 7 2004 Korhonen A Gorrell G McCarthy D Statistical filtering and subcategorization frame ac quisition Proceedings of the Conference on Empirical Methods in Natural Language Pro cessing and Very Large Corpora Hong Kong 2000 Korhonen A Krymolowski Y Collier N The Choice of Features for Classification of Verbs in Biomedical Texts Proceedings of the 2008 COLING conference Manchester p 449 456 2008 Korhonen A Krymolowski Y Marx Z Clustering Polysemic Subcategorization Frame Dis tributions Semantically Proceedings of the Meeting of the Association for Computational Linguistics ACL Sapporo p 64 71 2003 Kupsc A Extraction automatique de cadres de sous cat gorisation verbale pour le fran ais a partir d un corpus arbor Actes de la conf rence Traitement Automatique des Langues Naturelles TALN Toulouse June 2007 Laporte E Mots et niveau lexical in J M Pierrel ed Ing nierie des langues Herm s p 25 49 2000 Lee L On the Effectiveness of the Skew Divergence for Statistical Language Analysis Proceedings of the Workshop on Artificial Intelligence and Statistics Key west Florida 2001 Levin B English Verb Classes and Alternations a preliminary investigation University of Chicago Press Chicago and London 1993 Levin B Rappaport Hovav M Argument Realization Cambridge University Press Cambridge 2005 Li J Brew C
4. Which Are the Best Features for Automatic Verb Classification Proceedings of the Meeting of the Association for Computational Linguistics ACL HLT Columbus Ohio p 434 442 2008 Manning C D Automatic Acquisition of a Large Subcategorization Dictionary from Cor pora Proceedings of the Meeting of the Association for Computational Linguistics ACL p 235 242 1993 McCarthy D Lexical Acquisition at the Syntax Semantics Interface Diathesis Alternations PhD Thesis University of Sussex 2001 Mel cuk I Polgu re A D rivations s mantiques et collocations dans le DiCo LAF Langue francaise vol 150 p 66 83 2006 Messiant C A Subcategorization Acquisition System for French Verbs Proceedings of the ACL 08 HLT Student Research Workshop Association for Computational Linguistics Columbus Ohio p 55 60 June 2008 Moreau E Tellier I Balvet A Laurence G Rozenknop A Poibeau T Annotation fonction nelle de corpus arbor s avec des Champs Al atoires Conditionnels Actes de la conf rence Traitement Automatique des Langues Naturelles TALN Senlis 2009 96 TAL Volume 51 n 1 2010 O Donovan R Burke M Cahill A van Genabith J Way A Large Scale Induction and Evaluation of Lexical Resources from the Penn II and Penn II Treebanks Computational Linguistics vol 31 n 3 p 329 366 2005 Poibeau T Messiant C Do we still need gold standard for eval
5. culte surtout si quelques exemples ont t trouv s en corpus Il est donc possible d am liorer la couverture en introduisant un processus de ce type en post traitement ce qui permet de r duire de plus de 50 le nombre de SSC manquants On arrive 17 Nous ne mentionnons pas ici les scores obtenus avec Synlex au format EASY car ceux ci ne nous semblent pas repr sentatifs des r sultats qui pourraient tre obtenus partir du LG complet Synlex ayant t labor partir du sous ensemble du LG publiquement disponible m me si nos r sultats sont coh rents avec ceux obtenus par C Gardent sur les m mes donn es La sous cat gorisation verbale en fran ais 83 alors une couverture plus satisfaisante de LEXSCHEM par rapport aux ressources existantes Le tableau 3 montre l apport possible de LEXSCHEM par rapport aux deux res sources de r f rence sans prise en compte du post traitement que nous venons de pr senter Les r sultats doivent tre compl t s par une analyse manuelle des SSC ob tenus afin de v rifier la pertinence des nouveaux sch mas trouv s et la qualit des res sources de r f rence par rapport notre t che Une valuation manuelle sur 150 verbes a alors t men e par deux annotateurs ind pendants Cette valuation a r v l que 108 nouveaux SSC valides pouvaient tre ajout s TreeLex et 75 DicoValence plus de la moiti des entr es nouvelles propos es ont t valid es par l
6. qui a propos de repr senter le sens des verbes par le recours des composants s mantiques Levin 1993 Levin et Rappaport Hovav 2005 C est en partant de cette notion que Levin arrive fournir une description syst matique des alternances Elle pr sume que chaque verbe peut tre d crit gr ce 4 un noyau s mantique d une part et un ensemble de composants s mantiques d autre part Tandis que le noyau est toujours sp cifique l unit lexicale les composants s mantiques sont communs tous les verbes d un m me groupe s mantique Les alternances syntaxiques leur tour sont li es ces composants les verbes qui appartiennent un m me groupe s mantique i e qui partagent les m mes composants de sens participent aux m mes alternances syntaxiques Il existe d j de nombreux dictionnaires large couverture pour le fran ais cf sec tion 2 1 et il est vident que les m thodes automatiques n auront ni la richesse ni la pr cision du r sultat d un travail minutieux men par une quipe de linguistes En re vanche il est ais de montrer que les mots l exemple du verbe essaimer dans le journal Le Monde ont des comportements variables en fonction du contexte d usage et donc du corpus tudi Il para t aujourd hui quasi inconcevable de rep rer ces com portements sp cifiques par une analyse manuelle Partant de ce constat les m thodes automatiques ont connu un certain su
7. sent s dans cette section permettent d obtenir des donn es relativement riches et pr cises Il faut toutefois souligner la masse de travail demand et les limites de ces lexiques ils sont peu adaptables ou en tout cas leur adaptation demande un nouveau travail manuel qui est souvent incompatible avec les d lais impos s par les besoins les maintenir et les mettre jour demande un effort quotidien lourd et co teux L ar riv e conjointe de nouveaux besoins d un c t de corpus lectroniques et d outils de traitement relativement efficaces de l autre a suscit un int r t pour des m thodes d acquisition semi automatiques de lexiques partir de corpus 2 2 Les m thodes d acquisition automatique de sch mas de sous cat gorisation Des travaux sur acquisition d informations de sous cat gorisation partir de cor pus brut ont t men s pour l anglais d s le d but des ann es 1990 Manning 1993 Brent 1993 Ces premiers travaux taient toutefois limit s quant au nombre de verbes consid r s et de SSC possibles g n ralement quelques dizaines de verbes et autant de SSC Ils reposaient par ailleurs souvent sur des heuristiques locales sans exploiter pleinement le corpus Le syst me d velopp l Universit de Cambridge Briscoe et Carroll 1997 est le premier a permettre une acquisition large chelle de bonne qualit Il a t constam ment am lior depuis pour couvrir de nou
8. anonymes de la revue TAL pour leurs remarques pertinentes qui nous ont permis de grandement am liorer la qualit de l ar ticle Nous remercions galement B atrice Pelletier pour sa relecture attentive La th se de C dric Messiant a t financ e par une allocation DGA Ces recherches s inscrivent par ailleurs dans le cadre des projets PHC TAACL Technologies multi lingues pour Acquisition Automatique de Connaissances Lexicales et ANR CroTAL Conditional RandOm Fields pour le Traitement Automatique des Langues 8 Bibliographie Abeill A Cl ment L Toussenel F Building a Treebank for French in A Abeill ed Treebanks Building and Using Parsed Corpora Kluwer Academic Publishers Dordrecht p 165 187 2003 Abeill A Les nouvelles syntaxes Armand Colin Paris 1993 Agirre E Edmonds P eds Word Sense Disambiguation Algorithms and Applications Sprin ger Berlin 2007 Alishahi A Stevenson S A Cognitive Model for the Representation and Acquisition of Verb Selectional Preferences ACL Workshop on Cognitive Aspects of Computational Language Acquisition Prague Czech Republic p 41 48 2007 Borillo A Remarques sur les verbes sym triques du fran ais Langue fran aise vol 11 p 17 31 1971 Bourigault D Un analyseur syntaxique op rationnel SYNTEX M moire d Habilitation Uni versit de Toulouse le Mirail 2007 Bourigault D Jacques M P Fabre C Fr
9. c est dire sup rieure au seuil fix empiriquement 0 1 L entr e est donc retenue dans le lexique Afin d am liorer cette m thode nous avons d termin des seuils diff renci s pour les SSC ne contenant qu un sujet sch ma INTRANS c est dire SUJ SN et les 14 http loriatal loria fr Resources html 78 TAL Volume 51 n 1 2010 sch mas avec un marqueur de forme pronominale En effet lorsque le rattachement d un l ment un autre est incertain SYNTEX pr f re ne pas les lier Certaines phrases complexes avec des incises notamment produisent des analyses erron es et le sch ma r sultant est souvent le sch ma INTRANS C est pourquoi le syst me utilise dans ce cas un seuil plus lev La m me strat gie est galement utilis e en pr sence de compl ments pronominaux souvent difficiles distinguer lors de l ana lyse ce qui entra ne des erreurs assez fr quentes Une difficult persistante est l am lioration de la distinction argument modifieur Comme dans la plupart des travaux existants Briscoe et Carroll 1997 nous comp tons sur le fait que les SSC comprenant des modifieurs sont plus vari s en corpus que les SSC comprenant uniquement des arguments les modifieurs peuvent tre introduits par un grand nombre de pr positions car ils ne sont pas directement contraints par le verbe L un des r les de l tape de filtrage est donc de rep rer les sch mas incluant des modifieu
10. ce cas il s agit en fait d une approche tr s diff rente de la n tre Les corpus arbor s sont exces sivement rares la m thode est donc peu portable et ne permet pas de traiter du corpus tout venant TreeLex est toutefois int ressant pour nous car il s agit d un lexique en principe correct car d riv d un corpus annot et valid manuellement et acquis partir du journal Le Monde Nous nous servirons donc de TreeLex comme point de comparaison pour valuer nos r sultats 6 Il s agit du Corpus Passage Court CPC http atoll inria fr passage ressources en html 7 A Korhonen dans sa th se Korhonen 2002 fait une analyse tr s compl te de ses r sultats par rapport un gold standard Il faut toutefois noter la difficult de cerner la notion de gold standard pour des lexiques comment d finir la compl tude d un lexique Celle ci doit elle tre mesur e dans l absolu par rapport un corpus une t che Poibeau et Messiant 2008 72 TAL Volume 51 n 1 2010 3 Acquisition automatique de sch mas de sous cat gorisation le syst me ASSCi ASSCiest le syst me d acquisition automatique de sch mas de sous cat gorisation que nous avons d velopp pour l analyse des verbes fran ais Messiant 2008 Apr s une pr sentation de l architecture globale d ASSCi nous pr sentons les outils utili s s pour les pr traitements puis les trois modules qui composent le syst me pro
11. du processus le nombre des SSC utilis s d passe celui des SSC dans LEXSCHEM 24 Une classification des verbes incorporant les probl mes de polys mie serait videmment souhaitable mais ceci reste un probl me ouvert pour le traitement des langues Sur le plan pratique un travail manuel reste galement n cessaire si l on souhaite obtenir un r sultat tout fait fiable Voir Kipper et al 2008 pour une exp rience en ce sens montrant les avantages d une approche mixte automatique puis manuelle La sous cat gorisation verbale en fran ais 89 Les distributions ont t compar es avec trois mesures de similarit diff rentes la divergence de Kullback Leibler n zi Dxi x y gt ot 1 i l la divergence de Jensen Shannon 1 1 Dys 2 ly zPKL x M 9 PKL yl M 2 o i M z x y 3 et la divergence oblique skew divergence Da ally Drz allay 1 a x 4 L inconv nient de la divergence de Kullback Leibler est de prendre une valeur ind finie lorsque la probabilit y i est 0 Aussi une m thode de lissage simple a t elle t appliqu e aux donn es si la fr quence de cooccurrence du SSC avec le verbe dans le corpus gale z ro cette valeur sera remplac e par 0 0001 donnant une estimation approximative de la fr quence relative 0 0001 f V o f V est la fr quence observ e du verbe La divergence de Jensen Shannon ainsi que la divergence oblique sont des var
12. et peut notamment enrichir un travail manuel Kipper et al 2008 6 1 Travaux ant rieurs Dans sa classification des verbes anglais Levin 1993 a essay d tablir un lien entre les alternances syntaxiques et les composants s mantiques qui caract risent ces classes en anglais L int r t de la classification automatique est d une part de faciliter la t che fastidieuse de cr ation de ressources linguistiques par le biais d une acquisi tion automatique de propri t s lexicales d autre part les ressources lexicales struc tur es sont plus faciles maintenir et largir parce qu elles permettent de formuler des g n ralisations sur des classes de mots 22 Il nous semble d ailleurs que le statut de ces classes n est pas tout fait clair sur le plan th orique nous avons parall lement au travail pr sent ici entam un travail de comparaison entre les approches de Levin et de Gross dans la mesure o il s agit de deux ensembles de travaux proches et importants m me s ils reposent sur des pr suppos s en partie diff rents mais qui n ont jamais fait l objet d un examen compar approfondi Sur le fran ais voir aussi les travaux de P Saint Dizier dans la lign e de Levin Saint Dizier 2003 La sous cat gorisation verbale en fran ais 87 Les premi res tentatives de classification s mantique automatique s appuyaient sur la classification de Levin elles visaient reproduire automatiq
13. grand nombre de SSC dans DicoValence donc la meilleure couverture de cette ressource TreeLex a t acquis sur un corpus de taille moyenne 1 million de mots qui ne contient qu un sous ensemble des SSC caract ristiques du fran ais Une part non n gligeable des SSC des ressources de r f rence n est pas retrou v e par notre m thode Ceci est d la strat gie de filtrage qui limine les SSC les moins fr quents Il s agit d un biais assez courant des techniques statistiques qu il est difficile de corriger au niveau du filtrage lui m me des techniques de filtrage plus sophistiqu es n ont pas montr d am lioration significative Korhonen 2002 On s aper oit en revanche lors de l analyse manuelle qu un nombre non n gligeable de SSC manquants pourrait tre inf r ou au moins propos au linguiste partir des SSC effectivement rep r s une bonne partie des SSC manquants sont en fait des formes r duites de SSC complexes du fait du caract re optionnel dans les r alisations de surface de la plupart des arguments Ainsi le syst me a inf r que le verbe don ner pouvait tre employ avec deux compl ments Les anticolonialistes de ce bord l donnaient une dimension morale leur choix ou un compl ment d objet direct seul Il donne lalerte Le syst me peut assez s rement proposer dans ce type de cas la construction avec un compl ment d objet indirect seul I faut donner au denier du
14. n y a rien de plus excitant que de faire une pi ce encha ne Martin Gousset ou Elles enchainent Non l amnistie alors que cet emploi est quasi inexistant dans le corpus EU ROPARL Dans les deux corpus le sens concret de s enchainer est lui aussi quasi absent On constate galement l apparition de nouveaux SSC et de familles s mantiques associ es au contexte particulier du corpus EUROPARL Ainsi les constructions de vo ter avec les pr positions pour contre ou la locution en faveur de sont sans commune mesure avec ce que l on obtient partir de LM10 o seul pour est assez pr sent pour tre conserv malgr le filtrage On a dans le m me ordre d id es le verbe se pro noncer qui peut se construire avec sur mais surtout en faveur de mettre a disposition et donner mandat qui se construisent avec pour l gif rer et s abstenir avec sur etc Tous ces verbes sont remarquables du domaine consid r et esquissent en filigrane les l ments d un sous langage l gislatif 5 3 Typologie des erreurs du syst me ASSCI L valuation manuelle d crite ci dessus a galement permis de d gager les causes d erreurs les plus fr quentes dans LEXSCHEM et d envisager des solutions pour viter ces erreurs Nous avons choisi d utiliser le couple TreeTagger SYNTEX pour l analyse syn taxique car ces outils taient les plus performants lorsque cette tude a t lanc e au moins sur les corp
15. puis en comparant la sortie du syst me avec la r f rence pour v rifier s ils appartiennent bien la m me classe dans les deux cas et en prenant en compte la cardinalit afin de p naliser les petits groupes de verbes LE paires_correctes_dans_c ci 1 APP C ps x 5 i 1 Cc paires_dans_c E ci 1 D autre part il est possible d associer les groupes de verbes r sultant de la clas sification non supervis e aux classes de la r f rence en tablissant la correspondance selon la classe s mantique pr dominante l int rieur du groupe Cela nous permet de calculer la puret modifi e modified purity puret moyenne des classes et l exac titude pond r e de classes weighted class accuracy rappel pond r en fonction de la taille des classes dans la r f rence Korhonen et al 2008 Lors du calcul de la puret modifi e les l ments qui n appartiennent pas la classe pr dominante ainsi que les singletons sont consid r s comme des erreurs 2 mPurity C aa a Tprevalent ki c 6 L exactitude pond r e des classes peut tre consid r e comme une mesure de rap pel pour chaque classe de la r f rence elle consid re la quantit des verbes apparte nant au groupe dominant associ cette classe Par d finition cette quantit ne peut pas d passer la cardinalit maximale des groupes A verbes_dans_GRP DOM IC Acc C 7 La F mesure a
16. relation syntaxique particuli re et l entr e de chaque module est la sortie du mo dule qui le pr c de Cependant des retours en arri re sont possibles dans la chaine de traitement et un module peut remplacer l tiquette appos e par un module qui l a pr c d si n cessaire Ce fonctionnement rend malgr tout essentiel le choix de l ordre d ex cution des modules SYNTEX repose fondamentalement sur des r gles et des proc dures d appren tissage endog ne m me si des informations lexicales ponctuelles sont utilis es en 8 http www ims uni stuttgart de projekte corplex TreeTagger 9 Le fichier de param trage du segmenteur pour le fran ais a t fourni par Michel G n reux 10 Les fichiers de param trage de TreeTagger en fran ais sont fournis par Achim Stein http wuw uni stuttgart de lingrom stein forschung resource html 74 TAL Volume 51 n 1 2010 fonction des besoins L analyseur reste toutefois peu lexicalis il dispose simplement de quelques listes par exemple pour les locutions pr positionnelles SYNTEX n uti lise pas de lexique de sous cat gorisation proprement parler les rattachements se font sur la base de probabilit s acquises partir d un grand corpus notamment en ce qui concerne les groupes pr positionnels et du coup arguments et modifieurs sont rattach s au verbe sans qu il soit fait de distinction entre eux Une meilleure prise en compte de la sous cat gorisa
17. 448 couples verbe SSC sont pr sents dans les deux ressources 893 couples sont pr sents uniquement dans LEXSCHEM LM10 et 595 uniquement dans LEXSCHEM EUROPARL ce qui est d j important en soi Ces donn es sont obtenues enti rement automatiquement 19 LG a par ailleurs une vaste couverture des constructions pronominales intrins ques s va nouir s imposer 20 http www statmt org europar1 21 Le corpus inclut onze langues europ ennes frangais italien espagnol portugais anglais n erlandais allemand danois su dois grec et finnois Chaque langue comprend environ 1 mil lion de phrases qui contiennent de l ordre de 28 millions de mots nous n utilisons ici que la partie fran aise du corpus La sous cat gorisation verbale en fran ais 85 Une tude qualitative a ensuite t men e Parmi les SSC nouveaux rep r s on constate un grande nombre de constructions qui bien qu elles ressortissent la langue g n rale n en sont pas moins remarquables dans le corpus EUROPARL Ainsi en chainer se construit fr quemment avec les pr positions avec ou sur Ceci est bien videmment d au contexte du Parlement europ en fait de longues s ries de d bats et de discussions J enchainerai imm diatement sur le th me voqu par M Ilgenfritz celui des r gions frontali res J enchainerai ensuite avec le rapport Purvis Dans le corpus LM10 enchainer est le plus souvent utilis au style direct Il
18. HER reprocher lt VERB_NB_OCC gt 9757 lt SCF gt SUJ SN OBJ SN A OBJ SP lt a SN gt lt NB_OCC gt 2128 lt VERB_NB_SCF gt 118 lt REL_FREQ gt 0 218099825766117 lt SEQ_ID gt 0100 anasynt d6863p6_2 4 0100 anasynt d6835p2_7 9 lt NB_ARGS gt 3 lt ARGO gt il on lt ARG1 gt le manque lt ARG2 gt lui secr taire lt PASS gt oui Les champs disponibles pour chaque entr e sont ID l identifiant de I entr e VERB le verbe concern par I entr e SCF le sch ma de sous cat gorisation concern par l entr e NB_OCC le nombre d occurrences de I entr e dans le corpus VERB_NB_OCC le nombre d occurrences du verbe dans le corpus VERB_NB_SCF le nombre de SSC pour ce verbe REL_FREQ la fr quence relative de entr e SEQ_ID les identifiants des s quences de l analyse SYNTEX qui ont produit cette entr e 80 TAL Volume 51 n 1 2010 NB_ARGS le nombre d arguments du SSC ARGn les lemmes t tes du n i me argument PASS la possibilit de transformation la voix passive Dans le SSC les arguments sont pr sent es sous forme de liste entre crochets s par s par des virgules Par exemple le sch ma SUJ SN OBJ SN A OBJ SP lt a SN gt contient trois arguments le sujet SUJ SN le compl ment d objet OBJ SN et le compl ment pr positionnel r gi par A OBJ SP lt a SN gt Remarq
19. P 5 au Prep au nom delau nom du 5 PREP 4 NOMPREP 6 nom du Sartre NomPrXXInc Sartre Sartre 6 NOMPREP 5 que CSub que qu 7 COMP 9 il Pro il i1 l8 SUJ 9 aimer VCONJS aimer aime 9 COMP 7 SUJ 8 Typol l 11011 Tableau 1 Analyse d une phrase avec TreeTagger et Syntex Fonction Cat gorie SUJ sujet SN syntagme nominal SINF syntagme infinitif REF forme pronominale refl pronom OBJ objet SN syntagme nominal SINF syntagme infinitif PropSub proposition subordonn e ATTS attribut du sujet SA syntagme adjectival SN syntagme nominal SINF syntagme infinitif ATTO attribut de l objet SA syntagme adjectival A OBJ objet indirect SP lt a SN gt syntagme pr positionnel gouvern par SP lt a SINF gt syntagme pr positionnel DE OBJ objet indirect SP lt de SN gt syntagme pr positionnel gouvern par de SP lt de SINF gt syntagme pr positionnel P OBJ objet indirect gouvern SP lt prep SN gt syntagme pr positionnel par la pr position prep SP lt prep SINF gt syntagme pr positionnel Tableau 2 Cas trait s par le constructeur de sch mas candidats 3 3 Extracteur de pr sch mas de sous cat gorisation locaux Le premier module extrait des pr sch mas de sous cat gorisation pr SSC a chaque occurrence de verbe conjugu du corpus est associ un pr sch ma consti tu du verbe l infinitif et de la liste de ses compl ments Pour chaque compl ment le m
20. as d une liste de sch mas pr d finie Ce choix s inscrit dans notre volont d acqu rir des sch mas sans a priori pour faire merger du corpus les SSC correspondant l usage Il n y a d ailleurs pas de raison qu une liste de sch mas existe si l on ne dispose pas d ja d une ressource et il est clair que la constitution d une liste de sch mas possibles pour une langue donn e n est pas une tache triviale Ce choix permet m me d observer pour certains verbes des constructions qu il tait difficile de pr voir a priori surtout quand on travaille sur corpus sp cialis Les SSC candidats ne concernent pas une seule occurrence en corpus mais un ensemble d occurrences Le constructeur a aussi pour r le de comptabiliser le nombre d occurrences de chaque sch ma de sous cat gorisation pour chaque verbe ainsi que de calculer leur fr quence relative c est a dire la fr quence du SSC relativement au verbe Ces informations de fr quence seront par la suite utilis es par le module de filtrage voir section 3 5 Les l ments des SSC sont d abord ordonn s selon leur fonction dans l ordre suivant sujet objet groupe pr positionnel gouvern par groupe pr positionnel gouvern par de autres groupes pr positionnels attribut du sujet attribut de l objet Cette normalisation permet de s affranchir des r alisations de surface En effet les phrases contenant des pronoms des inversions ou des e
21. ation a partir des tables du LADL Actes de la conf rence Traitement Automatique des Langues Naturelles Louvain Belgique 2006 Gross M M thodes en syntaxe Hermann Paris 1975 Gross M Danlos L Building Electronic Dictionaries for Natural Language Processing Programming of Future Generation Computers North Holland Elsevier Science Publi shers Amsterdam 1988 Guillet A Lecl re C La structure des phrases simples en fran ais constructions transitives locatives Droz Gen ve Paris 1992 Jackendoff R Semantic Structures The MIT Press Cambridge Massachusetts 1990 Kipper K Korhonen A Ryant N Palmer M A Large Scale Classification of English Verbs Journal of Language Resources and Evaluation vol 42 n 1 p 21 40 2008 Koehn P Europarl A Parallel Corpus for Statistical Machine Translation MT Summit Phuket Island Thailand 2005 La sous cat gorisation verbale en fran ais 95 Koenig J P Davis A Semantically transparent linking in HPSG Proceedings of the HPSGO3 Conference East Lansing Michigan p 222 235 2000 Korhonen A Subcategorization acquisition PhD thesis University of Cambridge 2002 Korhonen A Briscoe T Extended Lexical Semantic Classification of English Verbs in D Moldovan R Girju eds HLT NAACL 2004 Workshop on Computational Lexical Se mantics Association for Computational Linguistics Boston Massachusetts USA p 38 45
22. cc s car les techniques mises au point permettent 1 de compl ter des lexiques existants en mettant le doigt sur des constructions nouvelles ou absentes des dictionnaires 2 d ob tenir des informations sur la productivit s des diff rentes constructions et 3 d inf rer ensuite des classes de verbes partageant les m mes alternances selon l hypoth se de Levin Levin 1993 Schulte im Walde 2000 Les informations rep r es doivent en suite tre valid es manuellement puis associ es des entr es lexicales pour produire des ressources vraiment utilisables Malgr ces limites la popularit de ce type de m thodes depuis une dizaine d ann es montre leur int r t et leur potentiel pour la mise au point de ressources large chelle voir l exp rience d crite dans Kipper et al 2008 Cet article comporte cinq parties Nous dressons dans un premier temps un rapide tat de l art des techniques automatiques et des ressources disponibles pour le fran ais Dans un deuxi me temps nous d crivons la m thode d acquisition partir de corpus mise au point si celle ci repose sur l approche d velopp es pour d autres langues elle int gre aussi un certain nombre de sp cificit s que nous d taillons La troisi me 4 L existence de ressources de qualit Tr sor de la Langue Fran aise lexique grammaire etc large couverture d une part et l absence de corpus librement disponible d autre part a s r
23. d ti quetages ou d analyses syntaxiques incorrects Il se peut galement qu une r gle de construction produise des SSC incorrects 4 cause d une g n ralisation ou d une nor malisation trop importante On constate enfin la pr sence de modifieurs dans certains sch mas qu il faut donc filtrer Le filtre examine les SSC candidats issus du constructeur et compare leur fr quence relative un seuil d termin empiriquement l aide d un jeu de test Si la fr quence du sch ma est inf rieure au seuil il est rejet par le module Cette m thode est inspir e de la strat gie de filtrage utilis e par Korhonen 2002 fond e sur le maxi mum de vraisemblance maximum likelihood estimates Korhonen compare le maxi mum de vraisemblance avec deux autres techniques de filtrage la log vraisemblance log likelihood ratio Korhonen et al 2000 et la loi binomiale souvent utilis e binomial hypothesis testing cf Brent 1991 Briscoe et Carroll 1997 c est finale ment le filtrage par un jeu de seuils estim en fonction des donn es qui est la m thode donnant les meilleurs r sultats La sortie de ce module est une liste de SSC qui constitue le lexique de sous cat gorisation Par exemple pour la phrase il les lui reproche au nom du Sartre qu il aime le filtre produit le SSC suivant SUJ SN OBJ SN A OBJ SP lt a SN gt La fr quence relative du sch ma candidat voir section 3 4 est gale 0 256
24. e de SSC diff rents la taille de l espace de traits d pend ainsi du vocabulaire verbal utilis dans l exp rimentation Dans le cadre de cette exp rimentation nous avons travaill avec un espace de traits compos de 433 SSC La repr sentation des verbes correspond leur distribution sur tous les sch mas consid r s dans I exp rimentation calcul e par l estimation du maximum de vraisemblance a partir des donn es de LEXSCHEM p tlv f v t f v o f v correspond la fr quence du verbe et f v t la fr quence du verbe avec le sch ma Nous avons utilis une m thode de regroupement clustering ascendante hi rar chique Au d but du processus chaque verbe constitue un groupe un seul l ment cluster dans ce qui suit on distingue la notion de groupe c est a dire un re groupement obtenu automatiquement de celle de classe correspondant la r f rence labor e manuellement Lors de chaque it ration les deux groupes de verbes les plus similaires sont unifi s Cette m thode produit un partitionnement c est dire des groupes disjoints de mani re ce que chaque l ment classifier n appartienne qu un seul groupe hard clustering Bien que cette approche ne permette pas de trai ter la polys mie nous l avons tout de m me choisie pour la facilit de l interpr tation qu elle offre 23 Puisque le lexique non filtr constitue l entr e
25. e des classes baisse avec l augmentation de la cardinalit au dessus de 4 En observant les r sultats nous pouvons noter que c est souvent l effet de cha ne qui affaiblit la coh rence des groupes de verbes au lieu de r unir des verbes au tour d un composant s mantique central ils sont compos s d une s rie de paires avec un lien s mantique qui se modifie constamment par l ajout d un nouvel l ment Par exemple les groupes ci dessous affichent une certaine coh rence s mantique mais la relation s mantique est modifi e par rapport la r f rence les crochets indiquent la classification de r f rence groupe resplendir p tiller scintiller vibrer groupe consterner ennuyer d visager rosser groupe bougonner g mir trembler vaciller groupe gr siller geindre trembloter flamboyer groupe consolider renforcer r int grer maintenir Plusieurs am liorations peuvent tre envisag es Une classification supervis e per mettrait de sp cifier les composants s mantiques centraux des classes et ainsi d adap ter l espace de traits par filtrage ou pond ration la t che sp cifique Les sch mas de sous cat gorisation les plus sp cifiques aux classes donneront une id e des alternances qui caract risent les classes s mantiques de verbes fran ais Le recours d autres traits notamment des informations quant aux restrictions de s lection permettrait d obtenir des cla
26. ement la disponibilit de corpus lectroniques de grande taille a permis de mener des tudes sur le comportement linguistique des l ments lexicaux et les propri t s sous jacentes qui les influencent En effet le comportement des mots en contexte est d autant plus surprenant qu il peut varier au cours du temps d un locu teur l autre voire en fonction de la situation ou du corpus consid r Pour prendre un exemple simple le verbe essaimer est r put intransitif mais il est largement employ de mani re transitive dans le journal Le Monde e g Cuba a essaim les effets de son syncr tisme culturel au gr des modes et des engouements Il n en a pas moins essaim son s jour chinois de proclamations optimistes pour l avenir du pays Ce sont au premier chef ces types de comportements non standard quand on les compare un lexique g n ral qui nous int ressent ici Cet article porte donc sur l acquisition automatique d information partir de cor pus On s int resse plus particuli rement l analyse du verbe Prenons pour exemple une construction typique du verbe casser Luc aro1 a cass la vitre xrg2 avec un ballon 1rc3 De mani re sch matique on peut distinguer les informations suivantes li es au verbe 1 le nombre et la r alisation syntaxique des arguments Par exemple casser peut ici tre consid r comme un verbe trois arguments le premier dans la fo
27. ement limit en France l int r t pour les m thodes d acquisition automatique par le pass Comme nous essayons de le montrer dans la partie suivante nous pensons que l tat des tech niques est aujourd hui tel qu il est int ressant d y revenir La sous cat gorisation verbale en fran ais 69 section pr sente le lexique lui m me qui est valu dans la section suivante nous fournissons diff rentes mesures permettant d valuer le recouvrement par rapport des ressources existantes et une valuation manuelles de nouvelles constructions non r pertori es dans des ressources de r f rence Dans un dernier temps nous pr sentons une m thode permettant de g n rer des classes de verbes partir des informations syntaxiques obtenues pr c demment Nous valuons ces classes et discutons leur per tinence notamment pour le rep rage automatique des alternances 2 tat de l art Nous donnons dans un premier temps la description d un ensemble de ressources sur le verbe pour le fran ais La plupart de celles ci sont le r sultat du travail manuel d quipes de linguistes Nous pr sentons ensuite les techniques d acquisition partir de corpus 2 1 Les lexiques existants pour le fran ais Plusieurs ressources lexicales syntaxiques pour le fran ais ont t d velopp es de puis les d buts du traitement automatique des langues en France Les objectifs de ces lexiques sont de d finir pour chaque lemme v
28. enu 15 Il est question ici de la derni re version de LEXSCHEM version 3 disponible sur le Web http www lipn univ paris13 fr messiant lexschem htm qui est la plus exacte l heure laquelle nous r digeons cet article f vrier 2010 La sous cat gorisation verbale en fran ais 79 aupr s de l agence ELRA Ce choix comporte un double avantage il s agit d un cor pus de r f rence suffisamment propre pour limiter les erreurs d analyse SYNTEX a obtenu sur ce type de corpus une pr cision de 0 76 et un rappel de 0 58 lors de la campagne EASY Bourigault 2007 Le corpus est par ailleurs de type journalis tique ce qui assure a la fois une certaine homog n it quant au style et une certaine h t rog n it quant aux th mes abord s Le Monde traite aussi bien de sport que de politique d conomie que de vie quotidienne 4 2 LEXSCHEM LEXSCHEM comprend 10 928 entr es correspondant des combinaisons verbes SSC diff rentes Ces entr es concernent 5 261 verbes et 112 SSC distincts Chaque entr e du lexique est compos e du verbe concern du SSC du nombre d occurrences de l entr e en corpus ainsi que des t tes argumentales et des identifiants des phrases d o l entr e a t extraite Par exemple la phrase il les lui reproche au nom du Sartre qu il aime a permis avec d autres phrases du corpus d inf rer le sch ma candidat lt ID gt 2610 lt VERB gt REPROC
29. er tandis que la colonne de droite correspond la sortie de SYNTEX TreeTagger fournit des tiquettes morphosyntaxiques et les lemmes correspondant aux l ments de la phrase SYNTEX associe les informations suivantes s par es par des chaque l ment de la phrase la cat gorie morphosyntaxique de l l ment VCONJS le lemme reprocher l l ment tel qu il se trouve dans la phrase d origine reproche l identifiant de l l ment dans la phrase 4 la liste des recteurs de l l ment la liste des d pendants i e l ments r gis de l l ment SUJ 1 0BJ 2 PREP 3 PREP 5 11 http www limsi fr Recherche CORVAL easy 12 Lensemble des r sultats de SYNTEX la campagne EASY sont disponibles sur la page consacr e au logiciel http w3 erss univ tlse2 fr membres bourigault syntex html On remarquera le diff rentiel de performance important entre SYNTEX et ses poursui vants en terme de pr cision sur les corpus crits lors de cette campagne d valuation 13 Nous choisissons volontairement une phrase non canonique l image de la majorit des phrases traiter dans notre corpus PRO PRO PRO VER PRP NOM PRP NOM PRO REL PRO PER VER pres SENT PER PER PER subp det det La sous cat gorisation verbale en fran ais 75 il Pro il I1 1 SUJ 4 lalle Pro le les 2 0BJ 4 lui Prolluilluil3 PREP 4 reprocher VCONJS reprocher reproche 4 SUJ 1 0BJ 2 PREP 3 PRE
30. erbal donn ses diff rents emplois et pour chacun de ces emplois son ou ses sch ma s de sous cat gorisation en sp ci fiant le nombre et le type des arguments et les ventuelles informations compl men taires qui s y rapportent Le lexique lectronique le plus important pour le fran ais est ind niablement le lexique grammaire LG de Maurice Gross Gross 1975 Il rassemble les construc tions syntaxiques associ es plus de 6 000 verbes dans un ensemble de tables les lignes correspondent aux verbes les colonnes aux diff rentes constructions possibles l intersection d une ligne et d une colonne contient un signe si la construction est possible pour le verbe et un signe sinon Ce format initial a depuis t traduit sous di verses formes r put es plus facilement utilisables par les outils automatiques comme Synlex Gardent et al 2006 ou LGLex Constant et Tolone 2008 Le dictionnaire syntaxique des verbes fran ais Dubois et Dubois Charlier 1997 mis a disposition sur le site Internet du laboratoire MoDyCo est une classification s mantico syntaxique des verbes manuellement construite par ces deux linguistes dont les principes sont proches de ceux du LG On compte dans ce dictionnaire 12 130 verbes ce qui le rend remarquablement riche DicoValence van den Eynde et Mertens 2006 est un dictionnaire syntaxique construit manuellement dans le cadre m thodologique de l Approche Pronominale van de
31. ere not previously registered Lastly we show that it is possible to induce lexico semantic classes la Levin 1993 from these data MOTS CLES lexique verbe sous cat gorisation acquisition a partir de corpus KEYWORDS lexicon verb subcategorization frames lexical acquisition TAL Volume 51 n 1 2010 pages 65 96 66 TAL Volume 51 n 1 2010 1 Introduction Les informations lexicales c est dire les informations se rapportant aux mots et leurs propri t s ont pris une importance consid rable pour le traitement des langues ces derni res ann es Danlos 1988 Laporte 2000 Il est en effet primordial pour la grammaire d une langue de savoir comment se combinent les mots simples ou com pos s sur le plan syntaxique comme sur le plan s mantique La finesse de l analyse repose finalement moins sur des principes syntaxiques g n raux que sur les contraintes propres chaque l ment lexical Gross 1975 Gross et Danlos 1988 Au sein des th ories lexicalistes comme la grammaire lexicale fonctionnelle LFG ou la gram maire syntagmatique guid e par les t tes HPSG Abeill 1993 de nombreuses re cherches ont t faites pour laborer un mod le de lexique plus sophistiqu Bresnan et Zaenen 1990 Copestake 1992 Koenig et Davis 2000 De nouvelles th ories visant le d veloppement de lexiques structur s ont alors vu le jour Levin 1993 Pus tejovsky 1995 Parall l
32. es 88 TAL Volume 51 n 1 2010 Dans la pr sente tude nous cherchons d montrer 1 que la classification auto matique de verbes fran ais selon leur comportement distributionnel aboutit souvent des classes de verbes s mantiquement li s 2 que les SSC extraits de corpus consti tuent une repr sentation fiable de la distribution syntaxique des verbes Notre objectif est de mettre en place un algorithme de classification aussi g n ral que possible ap plicable de nouveaux verbes sous condition d avoir une quantit suffisante d occur rences dans le corpus pour cr er un mod le fiable de leur distribution Notre approche est non supervis e c est dire que nous ne fournissons au sys t me aucune connaissance autre que les couples verbes SSC non filtr s issus de l ana lyse pr c dente section 4 2 avec les informations de fr quence relative qui ont ici une importance cruciale Nous utilisons en entr e une version non filtr e de la ressource pour deux raisons le filtrage peut tre lui m me une source d erreurs et plus fonda mentalement la pr sence r guli re de modifieurs particuliers avec certains verbes est un crit re tr s pertinent pour le calcul des classes s mantiques Un l ger filtrage est effectu lors de la premi re tape de la classification dans le but de r duire l espace de traits les sch mas qui ont moins de 5 occurrences parmi les verbes classifier sont exclus Le nombr
33. es annota teurs Ceci montre selon nous la capacit de notre syst me et plus g n ralement des m thodes automatiques assister le linguiste lors de l laboration d un lexique 5 1 4 Le cas des constructions pronominales Les constructions pronominales sont int ressantes parce qu elles posent des pro bl mes de codage complexes qui sont r solus de mani res diff rentes suivant les lexiques consid r es Il s agit en outre d un ph nom ne massif en fran ais qui concerne la plupart des lemmes verbaux Prenons le cas du verbe confondre Pour ce verbe LEXSCHEM propose les SSC suivants l tiquette Refl est utilis e pour toutes les constructions pronominales ind pendamment de la valeur s mantique du pronom SSC Exemple SUJ OBJ Ces gentils faux b n voles confondaient la chose et son slogan SUJ Ref Si les oiseaux avaient la t l il y a longtemps que leurs chants se confondraient SUJ OBJ SP lt avec gt Un chasseur a t tu par erreur par un compagnon qui l a confondu avec un sanglier SUJ Refl SP lt avec gt Le roi est le patron du makhzen mais il ne se confond pas avec lui Les constructions pronominales sont souvent couvertes de mani re partielle dans les diff rents lexiques syntaxiques du fran ais voir section 2 1 y compris dans des lexiques par ailleurs quasi exhaustifs Pour le verbe confondre DicoValence est le plus pr cis dans la
34. eux ressources ne sont pas compa rables m me si des similarit s existent TreeLex est issue d un corpus annot le corpus arbor de Paris 7 DicoValence est le fruit d un travail manuel Les deux lexiques reposent donc directement ou indirecte ment sur un important travail de description linguistique pr alable Il faut par ailleurs noter que DicoValence est structur autour de la notion d entr e lexicale tandis que TreeLex fournit une liste de sch mas de sous catg orisation plat c est dire que les constructions sont directement associ es un lemme verbal et non une unit lexicale refl tant les distinctions de sens comme dans un dictionnaire usuel De ce point de vue LEXSCHEM est tr s proche de TreeLex l absence d entr es lexicales en tant que telles est certes une limite mais ceci n est pas r dhibitoire s il s agit de fournir des ressources un analyseur syntaxique ou s il s agit de fournir des donn es au linguiste qui se charge ensuite de les valider 5 1 2 Conversion de LEXSCHEM Pour effectuer la comparaison des lexiques nous reprenons les donn es au format EASY produites par le LORIA et nous avons videmment converti LEXSCHEM dans ce format Les compl ments pr positionnels y sont r duits en trois cat gories A OBJ compl ments en DE OBJ compl ments en de et P OBJ les compl ments gouvern s par toutes les autres pr positions Ce processus de norma
35. exicales associ es ces couples le lexique est pr sent dans la section 4 3 2 Pr traitements Les tapes pr alables la t che d acquisition sont la lemmatisation l analyse morphosyntaxique et l analyse syntaxique de surface Au regard des outils dispo nibles pour le fran ais et des performances de ceux ci nous avons d cid d utiliser l analyseur syntaxique SYNTEX Cet analyseur repose sur les annotations de l analy seur morphosyntaxique TreeTagger Cette section pr sente ces deux outils ainsi qu un exemple d annotation et d analyse La sous cat gorisation verbale en fran ais 73 3 2 1 Annotation morphosyntaxique TreeTagger TreeTagger est un outil de lemmatisation et d annotation en parties du discours Schmid 1994 TreeTagger fournit en outre des outils pour la segmentation en phrases et en mots puis associe une tiquette morphosyntaxique chaque l ment de la phrase Enfin TreeTagger s occupe de la lemmatisation des mots de la phrase L un des avantages de TreeTagger outre sa robustesse et son efficacit est son ouverture il est possible d ajouter des traitements en amont par exemple faire sa place le d coupage en unit s de traitement tokenisation ou l tiquetage Ainsi des r gles et des lexiques de reconnaissance des unit s syntaxiques complexes e g locutions pr positionnelles ont t ajout s pour SYNTEX Bourigault et al 2005 Il est galement pos
36. iantes fond es sur la divergence de Kullback Leibler qui vitent le probl me des valeurs ind finies par approximation de la valeur de la divergence de Kullback Leibler La divergence de Jensen Shannon est la seule mesure sym trique pour les autres mesures le minimum de la distance a t consid r pour chaque paire de verbes compar s La divergence oblique est une variante pond r e de la divergence de Kullback Leibler propos e par Lee 2001 La pond ration se fait par le param tre libre a dont la valeur optimale est proche de 1 nous l avons fix e 0 99 Aucune pr supposition concernant le nombre et la cardinalit des classes de verbes n a t incorpor e dans l algorithme Ainsi le point d arr t du processus de classifi cation d pend de deux param tres la distance maximale entre les centres des deux classes tre unifi es et la cardinalit des classes Ce double param trage permet d viter l effet de cha ne c est dire le ph nom ne d absorption de beaucoup de verbes par quelques groupes tr s nombreux Des exp rimentations ont t conduites avec des param tres diff rentes et les valeurs optimales de la distance et de la car dinalit maximales ont t tablies individuellement pour chaque mesure de distance lors des ex cutions de test 90 TAL Volume 51 n 1 2010 6 3 valuation Schulte im Walde propose deux approches diff rentes pour valuer une classifica tion au
37. is s peuvent produire des donn es relativement structur es de mani re massive en g n ral partir de l analyse de corpus de plusieurs millions de mots de telle sorte qu il est ensuite possible de rep rer des r gularit s de comportement et donc d inf rer des connaissances sur les constructions possibles du verbe c est dire le nombre et la na ture syntaxique des arguments ce que l on appelle ici sch ma de sous cat gorisation abr g en SSC Ces constructions sont associ es en vrac aux lemmes verbaux comme nous l avons mentionn supra l tat de l art est encore insuffisant pour aller au del faute notamment de techniques de d sambiguisation s mantique suffisam ment efficaces L information rep r e est donc partielle et n cessite un travail manuel de tri et de validation cf section 5 1 2 Sur toutes ces questions voir le site S manticlop die http www semantique gdr net dico 3 Computational Natural Language Learning 68 TAL Volume 51 n 1 2010 L hypoth se d une corr lation entre classes syntaxiques et classes s mantiques a t pos e a plusieurs reprises notamment dans les travaux du LADL Laboratoire d Automatique Documentaire et Linguistique d s les ann es 1970 cf Borillo 1971 pour les verbes sym triques Gross 1975 pour les verbes psychologiques ou Guillet et Lecl re 1992 pour les verbes locatifs Nous nous inspirons en outre ici de B Le vin
38. lisation est n ces saire le d tail des pr positions est absent dans TreeLex et n est pas syst matique dans DicoValence mais provoque un appauvrissement certain des informations contenues dans le lexique Toutefois la phase de validation manuelle section suivante permet ensuite de v rifier que les sch mas comprenant des P OBJ concernent les bonnes pr positions 16 Les lexiques au format EASY peuvent tre trouv s l adresse suivante http talc loria fr Dicovalence Easy html Tous les lexiques mentionn s dans cette section ont t consult s en ligne le 20 f vrier 2010 82 TAL Volume 51 n 1 2010 TreeLex DicoValence Nombre total de SSC dans la ressource 3 570 4 282 Nombre de SSC communs avec LEXSCHEM 2 181 2 563 Recouvrement 61 1 59 9 Nombre de SSC nouveaux dans LEXSCHEM 1 440 1 058 Tableau 3 Nombre de SSC communs et nouveaux dans LEXSCHEM par rapport aux deux ressources de r f rence pour 1 583 verbes 5 1 3 R sultats et discussion Les SSC des 1 583 verbes communs aux trois ressources ont t compar s Le tableau 3 montre les r sultats obtenus On ne remarque pas de diff rences significatives au niveau du recouvrement entre les deux ressources de r f rence TreeLex et DicoValence La seule diff rence remar quable concerne les nouveaux SSC plus nombreux quand on compare LEXSCHEM avec TreeLex qu avec DicoValence Ceci s explique probablement par le plus
39. mesure o le lexique encode non seulement les formes pronominales mais pr cise en outre la valeur s mantique des arguments entr es 18280 18290 18300 18305 et 18310 Le lexique grammaire et les versions d 18 Il faut toutefois noter que c est dessein que DicoValence et TreeLex ne sont pas exhaus tifs les concepteurs de DicoValence ont par exemple volontairement limit leur lexique aux 3 500 verbes les plus fr quents du fran ais Il n emp che que les applications de traitement des langues exigent des dictionnaires aussi complets et pr cis que possible et dans ce cadre les m thodes semi automatiques peuvent se r v ler pr cieuses 84 TAL Volume 51 n 1 2010 riv es comme LGLex ne mentionne pas les constructions pronominales du verbe confondre mais pr cise les r alisations possibles des arguments entr e 4_114 et 32H_153 de LGLex TreeLex ne mentionne qu une seule construction non pro nominale SUJ NP 0BJ NP Dans ce cas pr cis les donn es de LEXSCHEM sont int ressantes et pourraient compl ter certains des lexiques examin s ci dessus Il va de soi que pour d autres cas moins favorables ce serait les autres ressources qui seraient les mieux arm es Un travail reste donc n cessaire pour combiner les ressources et les diverses informations disponibles Ceci est particuli rement vrai des formes pronominales il est rapide ment n cessaire de quitter le cadre purement syntaxique pour d termi
40. n Eynde et Blanche Benveniste 1978 Pour identifier la valence d un pr dicat ses d pendants et leurs caract ristiques l Approche Pronominale exploite la rela tion qui existe entre les d pendants dits lexicalis s r alis s sous forme de syntagmes 70 TAL Volume 51 n 1 2010 et les pronoms qui couvrent ces lexicalisations possibles Dico Valence comporte les sch mas de sous cat gorisation de 3 738 verbes r partis en 8 313 entr es Le Lefff Sagot 2010 est un lexique des formes fl chies du fran ais constitu en partie par des moyens automatiques analyse de corpus fusion de donn es provenant de diff rentes ressources et en partie manuellement notamment pour la validation des entr es Il comprend dans sa version actuelle plus de 7 000 lemmes verbaux Le lexique est disponible sous une forme compacte niveau intensionnel ou sous une forme clat e niveau extensionnel o chaque entr e est une forme fl chie Nous pouvons galement mentionner d autres ressources comme Lex Valf Salkoff et Valli 2006 dont les principes de base sont ceux des grammaires en cha ne DiCo LAF Mel cuk et Polgu re 2006 centr sur la mod lisation formelle des collocations et de la d rivation s mantique du fran ais DicoLPL van Rullen ef al 2005 ou en core le Tr sor de la Langue Fran aise informatis TLFI Dendien et Pierrel 2003 Les travaux de constitution de lexiques suite un travail manuel comme ceux pr
41. ner leur valeur s mantique r fl chi r ciproque passif pseudo se etc Seul un travail manuel peut fournir des informations fines ce niveau une strat gie possible est la fusion de sources de connaissances compl mentaires c est par exemple la strat gie pr sent e pour compl ter le Lefff sur cet aspect Sagot et Danlos 2009 5 2 Application un nouveau corpus analyse du corpus EUROPARL Pour valider l approche d acquisition nous avons cherch analyser un nouveau corpus afin de d terminer dans quelle mesure la m thode d crite permet d acqu rir de nouveaux SSC en fonction du corpus consid r Pour ce faire nous avons choisi de prendre comme source la partie fran aise du corpus EUROPARL Koehn 2005 Il s agit d un corpus parall le librement dispo nible sur Internet constitu des actes du Parlement europ en entre mars 1996 et sep tembre 20032 M me s il ne s agit pas d un corpus sp cialis au sens propre du terme on peut s attendre au sein du corpus EUROPARL avoir affaire des SSC particuliers li s la nature et au genre du corpus consid r Nous comparons dans ce qui suit les r sultats obtenus sur le corpus LM10 avec ceux obtenus sur le corpus EUROPARL Le rep rage des nouveaux SSC est simple dans la mesure o il suffit de les extraire du lexique par comparaison avec LEXSCHEM On obtient les r sultats suivants pour les 1 934 verbes communs aux deux lexiques 3
42. nt recours au lexique grammaire et nous avons pu constater qu en g n ral les verbes d une m me classe se situent dans la m me table du LG quelques exceptions pr s ce qui montre le besoin d une comparaison en profondeur des approches et des ressources comparaison qui sort du cadre de cet article mais que nous menons en parall le Pour pouvoir valuer l extensibilit et la robustesse de la m thode des verbes de fr quences diff rentes ont t inclus dans l exp rimentation La cardinalit des classes varie entre 8 et 17 Les r sultats ont t valu s par rapport la r f rence selon quatre mesures La difficult de la t che de classification d pend du nombre de classes Pour une classi fication m classes la valeur basse baseline de l exactitude accuracy est de I m soit 0 0625 dans notre cas Mesure de distance Card APP mPURITY ACC F measure KL 6 0 13 0 48 0 30 0 36 KL 5 0 13 0 51 0 27 0 35 JS 4 0 21 0 60 0 28 0 39 JS 5 0 18 0 54 0 30 0 38 skew 4 0 22 0 62 0 27 0 37 skew 5 0 18 0 55 0 29 0 37 skew 9 0 16 0 47 0 35 0 40 Les groupes de verbes r sultants ont t compar s la r f rence d une part par la mesure Adjusted Pairwise Precision qui calcule la pr cision des groupes en prenant La sous cat gorisation verbale en fran ais 91 les verbes d une m me classe deux deux
43. ntiques ou lexicales Une premi re tentative pour tablir une classification les verbes fran ais est d crite dans Falk 2008 qui se fonde sur trois lexiques de sous cat gorisation pour compa rer le comportement syntaxique des verbes La particularit de l approche est de partir uniquement de ressources manuelles et donc de ne pas prendre en consid ration la fr quence des SSC le calcul de similitude entre les verbes est fait par l analyse formelle de concepts Ducass et Ferr 2009 Il semble pourtant que les indications concer nant la fr quence relative des SSC et la pr sence ou non de modifieurs soient des param tres importants aussi prenons nous en compte ces l ments dans la m thode qui suit 6 2 M thode Dans le cadre de cette exp rimentation nous nous sommes int ress s la classi fication automatique de verbes frangais en classes lexico s mantiques Pour ce faire nous partons de l hypoth se qu il est possible de produire ce type d information par des m thodes statistiques appliqu es des donn es syntaxiques L hypoth se est fon d e sur l observation qu il existe une corr lation entre les propri t s s mantiques des verbes et leurs contextes syntaxiques Levin 1993 a donn une description syst matis e du ph nom ne en tablissant un lien entre les alternances syntaxiques carac t ristiques de certains groupes de verbes et les composants s mantiques qui en sont responsabl
44. odule fournit le lemme de sa t te sa cat gorie morphosyntaxique et sa fonction syntaxique L extracteur associe l un des couples fonction et cat gorie d tiquettes pr sent es dans le tableau 2 4 chacun des compl ments du verbe Les phrases recon nues par SYNTEX comme tant la forme passive sont marqu es par l ajout du code PASSIF 76 TAL Volume 51 n 1 2010 Par exemple pour le verbe issu de la partie de phrase il les lui reproche au nom du Sartre qu il aime l extracteur produit le pr SSC suivant 0100 anasynt d686339p6_2 21 REPROCHER reprocher P 0BJ SP lt au_nom_de SN gt Sartre SUJ SN il OBJ SN le A OBJ SP lt a SN gt 1lui Le pr sch ma est compos de trois l ments l identifiant du pr sch ma consti tu du nom du fichier dont est issu le pr SSC de l identifiant de la phrase dans le fichier et de l identifiant du verbe concern dans la phrase du verbe concern par le pr sch ma et de ses compl ments ici reprocher a quatre compl ments de type P OBJ SUJ OBJ A OBJ 3 4 Constructeur de sch mas de sous cat gorisation candidats Le constructeur de sch mas utilise les informations contenues dans les pr SSC locaux pour construire les SSC candidats qui constituent un lexique de sous cat gorisation non filtr Contrairement la plupart des m thodes d acquisition de SSC employ es jusqu alors comme dans Preiss et al 2007 ASSCi ne dispose p
45. pre ment dit l extracteur de pr sch mas de sous cat gorisation locaux le constructeur de sch mas candidats et le filtre de sch mas non pertinents 3 1 Architecture g n rale d ASSCi L architecture d ASSCi est inspir e des principaux travaux r cents en mati re d acquisition automatique de SSC partir de corpus Preiss et al 2007 Les quatre tapes principales de ce mod le sont 1 une phase de pr traitement durant laquelle les phrases sont annot es travers une analyse de surface Dans ASSCi le corpus brut est lemmatis et annot par Tree Tagger puis analys par l analyseur de surface SYNTEX 2 l identification des verbes et de leurs compl ments parmi ces donn es annot es Dans ASSCi ce r le est tenu par l extracteur de pr sch mas de sous cat gorisation locaux qui extrait pour chaque phrase les informations utiles pour constituer les futurs SSC 3 les sch mas de sous cat gorisation candidats sont ensuite inf r s partir de ces informations Dans ASSCi le constructeur de sch mas candidats s occupe de rassem bler les SSC observ s en corpus pour chaque verbe 4 un filtrage vise distinguer les SSC erron s des SSC corrects pour chaque verbe Dans ASSCi le filtre des SSC non pertinents est fond sur des m thodes statis tiques l issue du processus d acquisition le syst me produit un lexique compos de couples verbes SSC ainsi que d informations statistiques et l
46. r sultant EasyLex est disponible sur le portail TALC http talc loria fr Easylex html Tous les syst mes mentionn s ici obtiennent des performances qui peuvent ap para tre relativement m diocres Le rappel d passe rarement 0 65 et la pr cision est en g n ral un peu meilleure Qu est ce que cela signifie Le fait que le syst me ne permet pas d acqu rir un SSC donn partir d un corpus pr cis ne signifie pas obliga toirement qu il y a erreur il peut tout simplement s agir d un emploi du verbe absent du corpus L int r t et l utilisabilit de la m thode doivent donc tre mesur s quelles sont les performances r elles Quels sont les cas d usage possibles Nous es sayons d aborder cette question de front alors qu elle a paradoxalement t peu trait e jusqu ici par les auteurs sus cit s Signalons enfin une autre fa on d appr hender l extraction de SSC en partant di rectement d un corpus arbor De nombreuses exp riences ont t faites dans ce cadre pour l anglais O Donovan et al 2005 et une exp rience similaire a t faite sur le fran ais TreeLex Kupsc 2007 est un lexique de sous cat gorisation verbale pour le fran ais contemporain extrait automatiquement du corpus arbor de Paris 7 Abeill et al 2003 Il contient peu pr s 2 000 lemmes verbaux et 180 SSC moyenne de 2 09 sch mas par lemme M me si l on peut aussi parler d acquisition dans
47. rme canonique du verbe tant un groupe nominal r alis la gauche du verbe le sujet le deuxi me un groupe nominal la droite du verbe l objet et le troisi me un groupe pr positionnel g n ralement introduit par avec 1 Le Tr sor de la Langue Fran aise informatis enregistre malgr tout quelques emplois tran sitifs pour essaimer dans la langue litt raire Leur proportion dans Le Monde n en demeure pas moins remarquable La sous cat gorisation verbale en fran ais 67 2 la grille th matique qui caract rise le r le s mantique de chacun des arguments c est dire la relation qu il entretient sur le plan s mantique avec le verbe A nsi dans l exemple supra l argument 1 Luc joue le r le d agent l argument 2 la vitre est le th me et l argument 3 avec un ballon est instrument Notons qu il n y a pas de consensus sur la nature et la granularit des r les th matiques ni m me sur ce qui constitue la grille th matique Cruse 1986 Jacken doff 1990 Ainsi pour le verbe casser le statut de l instrumental n est pas fix on l a consid r ici comme un argument mais on peut aussi en faire un modifieur suivant le cadre th orique adopt Une alternance d signe la relation entre deux r alisations de surface d un m me pr dicat comme Luc a cass la vitre avec un ballon vs Le ballon a cass la vitre Les alternances ne pr servent pas toujours la grille
48. rot C Ozdowska S Syntex analyseur syn taxique de corpus Actes de la conf rence Traitement Automatique des Langues Naturelles TALN Dourdan 2005 Brent M R Automatic Acquisition of Subcategorization Frames from Untagged Text Pro ceedings of the Meeting of the Association for Computational Linguistics ACL Berkeley CA p 209 214 1991 Brent M R From Grammar to Lexicon Unsupervised Learning of Lexical Syntax Com putational Linguistics vol 19 p 203 222 1993 Bresnan J Zaenen A Deep unaccusativity in LFG in K Dziwirek ed Grammatical Relations A Cross Theoretical Perspective Center for the Study of Language and Informa tion Stanford University 1990 94 TAL Volume 51 n 1 2010 Briscoe T Carroll J Automatic Extraction of Subcategorization from Corpora Proceedings of the 5th ACL Conference on Applied Natural Language Processing Washington DC p 356 363 1997 Chesley P Salmon Alt S Automatic extraction of subcategorization frames for French Proceedings of the Language Resources and Evaluation Conference LREC G nes 2006 Constant M Tolone E A generic tool to generate a lexicon for NLP from Lexicon Grammar tables Actes du 27 me Colloque international sur le Lexique et la Grammaire LGC 08 L Aquila Italie p 11 18 2008 Copestake A The Representation of Lexical Semantic Information PhD thesis University of Sussex 1992 C
49. rs puis de les analyser pour ne garder que les arguments Nous avons mis en place un processus de r duction de ces sch mas avec modi fieur lorsqu un sch ma contenant au moins un compl ment pr positionnel est rejet par le filtrage parce qu il est trop rare on essaie de le ramener un sch ma moins complexe c est dire sous cat gorisant un compl ment pr positionnel de moins On esp re ainsi liminer un modifieur et ramener le sch ma un SCC valide pour le verbe sur la base de sa fr quence relative Les sch mas sont donc logiquement trait s par ordre d croissant de longueur i e leur nombre de compl ments et les fr quences relatives recalcul es pour tenir compte de l tape de filtrage Soit par exemple la phrase Jean boit un caf la terrasse Cette phrase permet d identifier un SSC o le groupe pr positionnel introduit par est un compl ment potentiel mais comme la fr quence de ce SSC est inf rieure au seuil le sch ma est r duit ce qui permet d identifier ici un emploi transitif SUJ SN OBJ SN du verbe boire 4 Exp rience acquisition de LEXSCHEM L application d ASSCi sur un gros corpus journalistique LM10 a permis d ac qu rir un lexique de sous cat gorisation pour le fran ais LEXSCHEM gt 4 1 Le corpus LM10 Le corpus choisi pour l acquisition de LEXSCHEM est un corpus compos des ar ticles du quotidien Le Monde sur 10 ans 1991 2000 200 millions de mots obt
50. ruse A D Lexical semantics Cambridge University Press Cambridge 1986 Danlos L Les lexiques en traitement automatique du langage naturel Proceedings of the 3rd meeting on Langage Industry Grossetto 1988 Dendien J Pierrel J M Le Tr sor de la Langue Fran aise Informatis un exemple d infor matisation d un dictionnaire de langue de r f rence Traitement Automatique des Langues vol 2 p 11 37 2003 Dubois J Dubois Charlier F Les Verbes francais Larousse Bordas Paris 1997 Ducass M Ferr S Aide la d cision multicrit re coh rence et quit grace analyse de concepts Mod les et Apprentissage en Sciences Humaines et Sociales 2009 Falk I Cr ation automatique de classes s mantiques verbales pour le francais M moire de Master LORIA Nancy 2008 Fort K Guillaume B PrepLex un lexique des pr positions du fran ais pour analyse syn taxique Actes de la conf rence Traitement Automatique des Langues Naturelles TALN Toulouse France 2007 Francopoulo G TagParser et Technolangue Easy Actes de l Atelier technolangue TALN 05 Dourdan 2005 Francopoulo G George M Calzolari N Monachini M Bel N Pet M Soria C Lexi cal Markup Framework LMF Proceedings of the Language Resources and Evaluation Conference LREC Genoa 2006 Gardent C Guillaume B Perrier G Falk I Extraction d information de sous cat goris
51. s of COLING Saarbriicken 2000 Schulte im Walde S The Induction of Verb Frames and Verb Classes from Corpora Corpus Linguistics An International Handbook Mouton de Gruyter Berlin 2009 Schulte im Walde S Brew C Inducing German Semantic Verb Classes from Purely Syn tactic Subcategorisation Information Proceedings of the Meeting of the Association for Computational Linguistics ACL Philadelphia PA p 223 230 2002 Stevenson S Carreras X eds Proceedings of the Thirteenth Conference on Computational Natural Language Learning ACL Boulder Colorado 2009 van den Eynde K Blanche Benveniste C Syntaxe et m canismes descriptifs pr sentation de l approche pronominale Cahiers de Lexicologie vol 32 p 3 27 1978 van den Eynde K Mertens P Le dictionnaire de valence Dicovalence manuel d utilisation Manuscript Leuven 2006 van Rullen T Blache P Portes C Rauzy S Maeyheux J F Gu not M L Balfourier J M Bellengier E Une plateforme pour acquisition la maintenance et la validation de res sources lexicales Actes de la conf rence Traitement Automatique des Langues Naturelles TALN Dourdan 2005
52. sible d int grer dans la cha ne de traitement des r gles de toke nisation et de pr tiquetage sp cifiques au corpus analyser ce qui est fondamental lorsque l tiqueteur doit traiter des donn es non standard codes de produits nomen clature d l ments chimiques etc L analyseur syntaxique a enfin la possibilit de faire des retours en arri re sur l tiquetage et de modifier les tiquettes attribu es par TreeTagger 3 2 2 Analyse syntaxique SYNTEX Le corpus est ensuite analys par SYNTEX analyseur syntaxique en d pendances d velopp par Didier Bourigault Bourigault et al 2005 Bourigault 2007 SYN TEX r alise une analyse syntaxique en d pendances les principales relations syn taxiques reconnues par l analyseur sont les suivantes sujet compl ment d objet di rect compl ment pr positionnel de nom de verbe et d adjectif ant c dence relative i e ant c dent des pronoms relatifs modification adjectivale pith te attribut et subordination Chaque l ment de la phrase est annot par ses relations de recteur ou de r gi avec les autres l ments par exemple dans le cas d un verbe transitif le verbe est recteur du sujet et de l objet inversement ces derniers sont r gis par le verbe Pour annoter les l ments de la phrase SYNTEX applique diff rents modules de reconnaissance de relations syntaxiques en s rie chaque module prend en charge une
53. sses diff rentes et sans doute plus pr cises que celles obtenues en l tat 7 Conclusion Nous avons pr sent dans cet article un syst me d acquisition de lexique syn taxique pour le fran ais et un syst me de classification syntaxico s mantique des verbes reposant sur ce syst me d acquisition Les exp riences sur le verbe montrent l int r t de notre m thode le syst me est notamment capable de rep rer moindre co t des donn es nouvelles afin d enrichir les lexiques existants Au del le sys t me permet d acqu rir des donn es profil es en fonction d un corpus donn par exemple pour fournir un analyseur syntaxique probabiliste des sch mas de sous cat gorisation pond r s Le syst me d acquisition peut aussi permettre l tude contrastive de corpus vari s et des exp riences sont en cours dans cette direction afin de voir quelles constructions sont utilis es de fa on remarquable dans un corpus donn La sous cat gorisation verbale en fran ais 93 par rapport un autre corpus etc Les travaux sur l acquisition de classes lexico s mantiques posent enfin des questions th oriques sur la nature des classes obtenues Si l int r t applicatif de classes s mantiques ne fait pas de doute il nous semble n cessaire de continuer s interroger sur la nature m me de ces travaux et sur ce qu ils nous disent sur la langue Remerciements Nous tenons remercier les trois relecteurs
54. syst me d acquisition lui m me Certains SSC sont incorrects parce qu ils contiennent des modifieurs Par exemple le sch ma SUJ SN_P OBJ SP lt dans SN gt est tr s pr sent en corpus pour le verbe dormir mais le compl ment introduit par la pr position dans correspond toujours un compl ment circonstanciel de lieu J dort dans son lit La distinction entre argument et mo difieur reste donc difficile quand on se fonde uniquement sur des indices de surface Notons toutefois que ce type d erreurs et plus g n ralement la pr sence r guli re de certains types de modifieurs est utile pour le calcul de classes syntaxico s mantique de verbes 6 Production de classes de verbes sur la base de leur comportement syntaxique Les travaux de Levin sur l anglais Levin 1993 tout comme ceux de Gross sur le fran ais Gross 1975 malgr leurs diff rences tendent montrer que des verbes partageant des comportements syntaxiques similaires peuvent souvent former des classes homog nes sur le plan s mantique M me si cela ne se v rifie pas dans tous les cas l int r t de ces classes est manifeste pour l laboration d une ressource struc tur e la Verbnet o les verbes sont assembl s en classes syntaxico s mantiques rang es hi rarchiquement Il a t montr qu une approche automatique du type de celle que nous avons pr sent e constitue une base int ressante pour produire des classes pertinentes
55. t calcul e avec des poids gaux pour le rappel et la pr cision _ 2 x mPurity x Acc F mPurity Acc 8 En optimisant les param tres pour la mesure APP les groupes quatre l ments donnent les meilleurs r sultats La pr cision forte semble soutenir le lien suppos entre les propri t s s mantiques et la distribution syntaxique observ e dans le corpus comme dans les exemples suivants groupe errer voyager circuler naviguer groupe dire indiquer affirmer d clarer groupe signaler r v ler montrer annoncer groupe ressentir d finir d signer percevoir groupe rousp ter ronchonner grogner r ler 92 TAL Volume 51 n 1 2010 Il est important de noter que cette qualit de la classification 20 des classes sont parfaitement homog nes 43 contiennent 1 verbe incorrect au maximum a t obtenue en utilisant une cha ne de traitement enti rement automatis e de l analyse de corpus jusqu la construction de l espace de traits pour la classification De plus l espace de traits est con u pour tre aussi g n ral que possible n incorporant aucune connaissance pr alable sur la classification de r f rence Cependant les mesures de rappel p nalisent plus s rieusement la diff rence struc turelle entre la classification r sultante et la classification de r f rence notamment en ce qui concerne le nombre et la cardinalit des classes La mesure d exactitude montre que la coh renc
56. th matique du verbe cf charger le camion de foin vs charger le foin dans le camion o camion passe de th me but Les alternances ont t beaucoup tudi es au niveau linguistique Gross 1975 Le vin 1993 mais elles restent tr s difficiles analyser automatiquement parmi les rares travaux s attaquant directement l analyse des alternances voir McCarthy 2001 Les techniques de d sambiguisation s mantique sont encore largement insuffisantes pour distinguer finement les verbes polys miques comme commander entre com mander un soda et commander Luc de faire ceci Agirre et Edmonds 2007 L analyse des constructions syntaxiques et l tiquetage des r les th matiques ont en revanche suscit de tr s nombreuses recherches et n cesssitent des techniques dif f rentes L tiquetage des r les th matiques repose g n ralement sur une phase d ap prentissage partir d un corpus annot l analyseur est ensuite capable d attribuer des r les s mantiques en fonction de configurations syntaxiques particuli res sur la question voir les conf rences CoNLL Stevenson et Carreras 2009 et Moreau et al 2009 pour une exp rience sur le fran ais L induction de lexiques syntaxiques est un domaine de recherche plus ancien qui s est d velopp partir du d but des ann es 1990 Brent 1991 Manning 1993 Ce courant de recherche repose sur l id e que les analyseurs syntaxiques non lexical
57. tion permettrait probablement d am liorer les perfor mances de l analyseur en consid rant l int gralit de la structure argumentale et plus seulement des relations locales Le choix de SYNTEX comme analyseur syntaxique pour notre syst me d acquisi tion automatique de SSC s explique la fois par ses propri t s ses performances sur les corpus crits et par sa disponibilit Les r sultats de SYNTEX lors de la campagne d valuation EASY en 2007 montrent que l analyseur obtint alors les meilleurs r sultats en pr cision et en F mesure sur les corpus crits De plus la robustesse de SYNTEX garantit son adaptabilit du moins sur les textes qui respectent les normes syntaxiques de l crit standard La r utilisation de notre syst me d acquisition sur des corpus de domaines particuliers m decine droit ne devrait donc pas poser de pro bl me N anmoins il existe encore une part non n gligeable d erreurs dues des fai blesses de l tiquetage morphosyntaxique ou de l annotation des relations La plupart de ces erreurs se r percuteront dans le processus d acquisition des SSC et devront tre trait es ou filtr es au cours du processus 3 2 3 Exemple L exemple suivant pr sente l annotation produite par TreeTagger et l analyse faite par SYNTEX pour la phrase Il les lui reproche au nom du Sartre qu il aime Dans le tableau 1 la colonne de gauche correspond 4 la sortie de TreeTagg
58. tomatique Schulte im Walde 2009 1 mesurer la coh rence l int rieur des groupes de verbes obtenus par une me sure de similarit ind pendante de celle utilis e pour la t che de classification m me 2 comparer le r sultat une classification manuelle de r f rence Dans le cadre de notre exp rimentation nous visons confirmer l hypoth se qu il existe un lien entre le comportement syntaxique des verbes et leurs propri t s s man tiques Il ne suffit donc pas de d montrer que notre algorithme arrive mod liser correctement les similarit s distributionnelles entre les verbes c est la coh rence s mantique des classes qui doit tre examin e par comparaison la r f rence Pour ce faire nous avons cr la main une classification dite de r f rence La r f rence est compos e de 176 verbes class s dans 16 classes diff rentes qui ont d abord t d finies partir de la classification de Levin par traduction des verbes anglais Pour assurer l homog n it des classes fran aises et une certaine coh rence par rapport au travail de Levin nous avons v rifi que tous les verbes d une m me classe partageaient un certain nombre de constructions similaires fondamentales Les classes de la r f rence sont donc caract ris es par un composant s mantique ainsi que par au moins une structure syntaxique en commun Nous avons enfin v rifi la validit de ces classes en aya
59. uation Proceedings of the Language Resources and Evaluation Conference LREC Marrakech 2008 Preiss J Briscoe T Korhonen A A System for Large Scale Acquisition of Verbal Nominal and Adjectival Subcategorization Frames from Corpora Proceedings of the Meeting of the Association for Computational Linguistics ACL Prague p 912 918 2007 Pustejovsky J The generative lexicon The MIT Press Cambridge 1995 Sagot B The Lefff a freely available and large coverage morphological and syntactic lexicon for French Language Resource and Evaluation Conference LREC La Valette 2010 Sagot B Danlos L Constructions pronominales dans Dicovalence et le lexique grammaire Int gration dans le Lefff Linguistice Investigationes vol 32 n 2 p 293 304 2009 Saint Dizier P Quelques d fis et l ments de m thode pour la construction de ressources lexi cales s mantiques Revue Francaise de Linguistique Appliqu e vol 23 p 34 47 2003 Salkoff M Valli A La constitution d un lexique de la compl mentation verbale du frangais Actes du Colloque international sur le lexique et la grammaire Palerme 2006 Schmid H Probabilistic Part of Speech Tagging Using Decision Trees International Conference on New Methods in Language Processing unknown Manchester UK 1994 Schulte im Walde S Clustering Verbs Semantically According to their Alternation Beha viour Proceeding
60. uement les classes anglaises ou une classification quivalente pour d autres langues Schulte im Walde 2000 Korhonen ef al 2003 identifier les alternances syntaxiques McCarthy 2001 ou compl ter le syst me de Levin par de nouvelles classes Korhonen et Bris coe 2004 Nous nous int ressons ici uniquement aux m thodes non supervis es reposant sur un espace de traits extrait d un corpus analys syntaxiquement Schulte im Walde 2000 Schulte im Walde et Brew 2002 Korhonen et al 2003 Le point de d part n cessaire est donc un lexique syntaxique avec des informations concernant la fr quence relative des diff rents SSC par verbe avec ou sans information s man tique Malgr la grandeur des corpus consid r s et les informations sur les diff rents SSC ces exp rimentations montrent que des distinctions syntaxiques plus d taill es ainsi que la prise en compte des modifieurs augmentent la pr cision de la classifica tion Cependant Schulte im Walde 2000 conclut que l ajout d informations sur les restrictions de s lection conduit 4 une probl me de manque de donn es data spar seness et a la baisse de performance pour Schulte im Walde de meilleurs r sultats sont obtenus sur des espaces de traits limit s la sp cification syntaxique l inverse Alishahi et Stevenson 2007 et Li et Brew 2008 ont essay d enrichir l espace de traits de mani re efficace par le biais d informations s ma
61. uons que le compl ment pr positionnel r gi par au nom de P 0BJ SP lt au_nom_de SN gt n appara t pas dans le SSC retenu car cette pr position ne peut introduire un argument suivant les donn es issues de PREPLEX LEXSCHEM est disponible et consultable via une interface graphique Purl suivante http www lipn univ parisi3 fr messiant lexschem htm La version la plus exacte est actuellement la version 3 mais des mises jour sont ef fectu es r guli rement en fonction des am liorations apport es aux outils Signalons enfin diff rentes sous versions du lexique en fonction de la strat gie de filtrage et de l information retenue les seuils de filtrage peuvent tre plus ou moins lev s le lexique peut garder en m moire les t tes nominales des arguments etc Ces sous versions sont utiles pour r pondre des besoins vari s les applications de TAL re poseront en majorit sur la version filtr e la plus exacte mais le calcul de classes de comportement lexico s mantiques peut profiter de la version non filtr e et ventuelle ment des connaissances sur le contenu lexical des arguments du verbe Le lexique est disponible dans un format standard facilement traduisible sous dif f rentes formes notamment vers le format EASY section 5 1 ou LMF Francopoulo et al 2006 5 valuation Cette partie porte sur l valuation de LEXSCHEM le lexique obtenu partir du corpus LM10 Nous le comparons d abord avec d
62. us de presse cf section 3 2 Ces outils sont cependant l origine de certaines erreurs d analyse Certaines erreurs dues au TreeTagger ont t corrig es par un module de post traitement On a ainsi pu diminuer drastiquement la proportion de noms propres tiquet s comme verbe ainsi Luis n est plus reconnu comme une forme du verbe luire Pour l analyse syntaxique SYNTEX a une strat gie prudente si l analyseur ne trouve pas d indice suffisamment fiable pour le rattachement d un compl ment celui ci peut tre laiss libre c est dire qu il flotte et qu il n est rattach aucun l ment de la phrase Bourigault ef al 2005 C est notamment le cas dans certaines phrases comprenant des insertions comme par exemple Il commande ensuite sur Internet des pi ces d tach es qui donneront une arme parfaitement inutilisable qui produit le sch ma erron SUJ SN soit verbe intransitif Il arrive galement que des pronoms ne soient pas rattach s au verbe par l analyseur Par exemple la 86 TAL Volume 51 n 1 2010 phrase Tu couches ou je te vire produit le sch ma SUJ SN intransitif pour le verbe virer Nous avons partiellement r pondu ce probl me en mettant un seuil plus lev pour le SSC SUJ SN fr quemment produit cause de ces erreurs d analyse Bien videmment cette strat gie n est pas toujours suffisante Un dernier ensemble d erreurs est li au
63. veaux SSC ou de nouvelles parties du dis cours noms adjectifs Korhonen et al 2000 Preiss et al 2007 Il est fond sur un analyseur de surface de l anglais appel RASP ainsi que sur des r gles d appa riement complexes entre SSC et r alisations possibles dans les textes Il repose donc sur une num ration a priori des diff rents sch mas syntaxiques vis s ce qui faci lite la t che mais ne permet pas la d couverte de structures compl tement nouvelles 5 http www informatics sussex ac uk research groups nlp rasp La sous cat gorisation verbale en fran ais 71 C est pourquoi nous avons choisi de ne pas sp cifier une telle liste a priori dans notre approche ce qui la rend plus portable Pour le fran ais P Chesley et S Salmon Alt ont men une tude exploratoire sur 104 verbes fr quents qui leur ont permis de rep rer 27 SSC diff rents Chesley et Salmon Alt 2006 Par la suite dans le cadre du projet ANR Passage http atoll inria fr passage C Gardent a men une exp rience portant sur un nombre beaucoup plus important de verbes en partant d un corpus de 100 millions de mots Ce corpus a t ensuite analys au moyen de I analyseur syntaxique TagParser mis au point par G Francopoulo Francopoulo 2005 Le rep rage de r gularit s au niveau des compl ments du verbe permet d inf rer des SSC pour chaque verbe suivant une strat gie proche de celle de l quipe de Cambridge Le lexique
64. xtrapositions n ont pas une structure canonique et l on souhaite s abstraire de ces variations de surface Les compl ments gouvern s par une pr position ne pouvant gouverner un argu ment sont ensuite supprim s La liste des pr positions concern es est issue du lexique PREPLEX un lexique de pr positions du fran ais construit en fusionnant les informa La sous cat gorisation verbale en fran ais 77 tions contenues dans diff rents lexiques disponibles Fort et Guillaume 2007 Le module supprime galement les compl ments doublons des pr SSC On consi d re que deux compl ments sont doublons lorsqu ils sont strictement similaires par leur fonction et leur cat gorie En effet la plupart du temps ces doublons sont dus des erreurs d analyse syntaxique et les constructions contenant deux compl ments similaires sont excessivement rares en fran ais Apr s ces traitements charg s de la normalisation et de la constitution des SSC le constructeur de SSC calcule le nombre d occurrences de chaque couple verbe sch ma et sa fr quence relative pour le verbe consid r comme suit verbe ssc freq_rel verbe ssc erie see Ces donn es seront ensuite utilis es lors de l tape de filtrage 3 5 Filtre des sch mas non pertinents L acquisition se termine par une phase de filtrage en effet les sch mas candidats extraits par le constructeur sont bruit s car ils sont parfois construits partir
Download Pdf Manuals
Related Search
Related Contents
Leica DM300 Benutzerhandbuch vivicam tdc35 - Copyright © michel The Leitz-Lexicon Oasis Clean 62 S.indd King Canada KC-1632DS User's Manual Demande et éléments constitutifs d`un dossier de demande d Mode d`emploi. TV. Annexe Bilan de concertation 18/11/2013 SRP-270 - POSGuys.com Cables Direct 3m CAT6a, M - M Copyright © All rights reserved.
Failed to retrieve file